
Visual Bank株式会社のAI学習用データソリューション「Qlean Dataset(キュリンデータセット)」が、ASR(自動音声認識)やNLP(自然言語処理)、LLM(大規模言語モデル)といった音声・言語系のAI開発を支援するため、「日本語・2話者・スポーツテーマトーク音声コーパスとトランスクリプト」の提供を開始しました。
スポーツの自然な会話でAIの理解を深める
今回提供が始まったデータセットは、Qlean Datasetが提供する機械学習用データセットのシリーズ「AIデータレシピ」に新たに追加されるものです。このデータセットには、スポーツや競技をテーマに、日本人の男女2名が会話形式で語り合う日本語の音声と、その内容を正確に書き起こしたテキスト(トランスクリプト)が収録されています。
データは台本を使わずに収録されており、話者同士が自由なペースで意見や体験を交わす、実際の会話に近い形が特徴です。例えば、競技経験の共有、試合の振り返り、戦術や記録に関する意見交換、観戦時の感想など、スポーツに関する多様な話題が自然な形で展開されます。そのため、話者の交代や相づち、発話の重なりといった、現実の会話構造が反映された音声データとなっています。
このデータは、音声認識や対話処理など、実際にAIが使われる場面を想定した音声・言語系AIの研究や開発に役立つと期待されます。
データセットの概要
「日本語・2話者・スポーツテーマトーク音声コーパスとトランスクリプト」の主な内容は以下の通りです。
-
データ種別: 音声、テキスト
-
被写体属性: 日本人、20代〜50代の男女
-
データ形式:
-
音声データ:wav, mp3
-
テキストデータ:txt, json, csv
-
-
収録時間: 合計約200時間(1音声あたり約5分〜60分)
-
音声レート: 44.1kHz
-
対象のシーン:
-
2名がスポーツ経験・競技分析・観戦感想を共有し合うシーン
-
試合の振り返りや運動に関する話題が自然に展開される場面
-
台本制御なしで自由なテンポで進む対話
-
戦術・記録・体験談の紹介などを含む会話
-
スポーツ領域の多様な話題が展開される対話シーン
-
サンプルページはこちらから確認できます。
https://qleandataset.visual-bank.co.jp/lineup/pn-024
AI開発での活用例
このデータセットは、AIがより人間らしい会話を理解し、応答するために様々な場面で活用できます。
研究用途
-
対話型音声認識モデルの評価・分析: 2話者による自然な会話音声を使うことで、話者の交代や発話の重なりがある状況での音声認識の精度や、どのような間違いが起こりやすいかを分析できます。
-
対話理解・談話構造研究: スポーツに関する意見交換や説明が続く会話データを使って、発話者の意図を推定したり、会話の流れや区切りを分析する研究に役立ちます。
産業用途
-
音声入力型対話AI・ボイスアシスタント開発: スポーツ情報を提供するAIや、ユーザーと会話するボイスアシスタントの開発において、実際の会話に近い対話音声を使って、認識や応答のモデルを検証できます。
-
コールセンター・対話ログ解析技術の検証: 2人の間で自然に進む会話構造を利用して、発話の分離(誰が話しているか)や、話者の発言の始まり・終わりを検出する技術など、音声対話解析技術の事前検証に活用できます。
『Qlean Dataset』について

『Qlean Dataset』は、Visual Bank株式会社の子会社である株式会社アマナイメージズが提供する、AI学習用のデータソリューションです。画像、動画、音声、3D、テキストなど、様々な形式のデータに対応しており、研究目的でも商業目的でも、安心して利用できる環境を整えています。
また、株式会社千葉ロッテマリーンズや株式会社東洋経済新報社といったデータパートナーとの協力により、特定の業界に特化したり、最新のトレンドに合わせたデータセット「AIデータレシピ」を継続的に増やしています。Qlean Datasetは、AI開発現場でのデータ集めや準備にかかる負担を減らし、著作権などの権利がクリアで、法的なリスクのないAI開発環境作りをサポートしています。



Qlean Datasetのウェブサイトはこちらです。
https://qleandataset.visual-bank.co.jp/
AIデータレシピのラインナップはこちらです。
https://qleandataset.visual-bank.co.jp/lineup
Visual Bank株式会社について
Visual Bank株式会社は、「あらゆるデータの可能性を解き放つ」をミッションに、AI開発力を高めるための次世代データインフラを構築・提供するスタートアップ企業です。漫画家をサポートするAI補助ツール『THE PEN』の他、AI学習用データセット開発サービス『Qlean Dataset』を提供する株式会社アマナイメージズを子会社としています。
同社は、国の研究開発プログラム「GENIAC」にも採択されており、社会でのAI活用を加速させるための取り組みを進めています。
-
代表取締役CEO: 永井 真之
-
所在地: 〒107-0062 東京都港区南青山7-1-7 C-Cube南青山ビル6F
-
Visual Bank企業URL: https://visual-bank.co.jp/
-
アマナイメージズ企業URL: https://amanaimages.com/about/

