Qlean Dataset、AI開発を支援する「日本語・教育テーマトーク音声データ」を提供開始

AIツール・サービス紹介

Qlean DatasetがAI開発向け「日本語・教育テーマトーク音声コーパスとトランスクリプト」を提供開始

Qlean Datasetが日本語・2話者の教育テーマトーク音声とトランスクリプトの提供を開始したことを示す画像です。2人の男性が写っており、教育関連のコンテンツであることを示唆しています。

AI技術の進化が目覚ましい中、AIを賢く育てるためには「質の良いデータ」が欠かせません。このたび、Visual Bank株式会社の子会社である株式会社アマナイメージズが展開するAI学習用データソリューション「Qlean Dataset(キュリンデータセット)」から、新しいデータセットの提供が始まりました。

新しいデータセットとは?

今回提供されるのは、「日本語・2話者・教育テーマトーク音声コーパスとトランスクリプト」というデータセットです。これは、AIが人間の言葉を理解したり、話したりするために必要な学習データの一種です。

具体的には、教育制度、進路相談、学習環境といった教育に関するさまざまなテーマについて、2人の話者が自然に会話している日本語の音声データと、その会話内容を文字に起こしたテキストデータ(トランスクリプト)がセットになっています。

なぜこのデータセットが重要なのか?

このデータセットの大きな特徴は、台本に沿わない「自然な対話」が収録されている点です。質問と応答、具体的な体験の共有、考えの整理といった、実際の会話に近いやり取りが含まれています。これにより、AIは単語や短いフレーズだけでなく、会話全体の流れや文脈(話のつながり)を理解する能力を高めることができます。

特に、以下のようなAI技術の開発に役立つと期待されています。

  • ASR(自動音声認識):人が話した言葉をAIが正確に聞き取り、文字に変換する技術。

  • NLP(自然言語処理):AIが人間の言葉の意味を理解し、分析する技術。

  • LLM(大規模言語モデル):ChatGPTのような、人間と自然な会話ができるAIの基礎となる技術。

データセットの概要

このデータセットは、研究から実際の製品開発まで、幅広い用途で利用できるように権利処理がしっかりと行われています。

データ種別 音声、テキスト
被写体属性 20代〜50代の男女
データ形式 音声データ:wav /mp3
収録時間 計約900時間(1音声約5分〜60分)
音声レート 44.1kHz
対象のシーン ・教育や学習、進路に関するテーマについて、2名が対話する日本語音声 ・教員免許取得、将来設計、受験、教育方針、SNSなどの話題を含む会話

サンプルデータは以下のリンクから確認できます。
https://qleandataset.visual-bank.co.jp/lineup/pn-016

活用イメージ

研究での活用

  • 対話音声を用いたASRモデルの評価・分析:教育や進路に関する対話音声を使って、AIが話者の交代や応答を含む複雑な状況でどれだけ正確に日本語を認識できるかを評価できます。

  • 教育・進路テーマにおける対話理解研究:進路選択や学習方針に関する会話のテキストデータを利用して、話の展開や意見が形成される過程を分析し、AIの対話理解能力を深める研究に役立ちます。

産業での活用

  • 教育・進路相談を想定した対話AIの検証:進路や学習に関する相談に対応するAIチャットボットや対話型AIが、ユーザーの意図を正確に理解し、適切な返答ができるかを検証するデータとして活用できます。

  • LLMの日本語対話評価・事前検証:教育や学習に関する価値観や判断を含む対話テキストを用いて、LLMが日本語の会話をどれだけ自然に処理し、文脈を保てるかを評価するのに利用できます。

その他の実用例

  • 教育・学習相談サービスにおける対話品質検証:進路選択、受験、子育て方針などの話題を含む対話音声を用いて、教育・学習相談サービスの対話がどれだけ自然で、スムーズに進むかを検証する際の参考データとして役立ちます。

  • 教育関連サポート窓口における音声認識検証:教育分野特有の専門用語や話題を含む対話音声を利用して、問い合わせ対応や相談窓口で使われる音声認識・文字起こしAIの精度を検証できます。

Qlean Dataset(キュリンデータセット)について

Qlean Datasetは、Visual Bankの子会社である株式会社アマナイメージズが提供する、AI学習用のデータソリューションです。画像、動画、音声、3D、テキストなど、さまざまな種類のデータを扱っており、研究目的でも商業目的でも安心して利用できる環境を整えています。

Qlean Datasetが提供する「AIデータレシピ」のウェブサイトで、あらゆる業界のAI開発に対応する多様な機械学習用データセット(音声、画像、動画、テキスト)が一覧表示されています。

株式会社千葉ロッテマリーンズや株式会社東洋経済新報社などのパートナー企業との協力により、特定の業界に特化したデータや最新のトレンドを反映したデータ「AIデータレシピ」を継続的に増やしています。

Qlean Datasetの強みを説明するスライド。安価かつ迅速なデータ提供、多様なデータ形式への対応、権利処理済みで商用利用の安心感を強調。

Qlean Datasetは、AI開発の現場でデータ集めや準備にかかる手間を減らし、著作権などの法的リスクがない安心なAI開発環境づくりをサポートしています。

Visual Bank株式会社について

Visual Bank株式会社は、「あらゆるデータの可能性を解き放つ」をミッションに掲げ、AI開発力を高めるための次世代データインフラを構築・提供するスタートアップ企業です。漫画家をサポートするAI補助ツール『THE PEN』のほか、AI学習用データセット開発サービス『Qlean Dataset』を提供する株式会社アマナイメージズを子会社としています。

また、Visual Bankは国の研究開発プログラム「GENIAC」にも採択されており、社会でAIを活用するための取り組みを加速させています。

タイトルとURLをコピーしました