Qlean Datasetがスポーツの会話音声データを公開!AIの「聞く・話す」能力向上をサポート

AIツール・サービス紹介

スポーツ観戦で熱狂的に応援する人々

Visual Bank株式会社のAI学習用データソリューション「Qlean Dataset(キュリンデータセット)」が、ASR(自動音声認識)やNLP(自然言語処理)、LLM(大規模言語モデル)といった音声・言語系のAI開発を支援するため、「日本語・2話者・スポーツテーマトーク音声コーパスとトランスクリプト」の提供を開始しました。

スポーツの自然な会話でAIの理解を深める

今回提供が始まったデータセットは、Qlean Datasetが提供する機械学習用データセットのシリーズ「AIデータレシピ」に新たに追加されるものです。このデータセットには、スポーツや競技をテーマに、日本人の男女2名が会話形式で語り合う日本語の音声と、その内容を正確に書き起こしたテキスト(トランスクリプト)が収録されています。

データは台本を使わずに収録されており、話者同士が自由なペースで意見や体験を交わす、実際の会話に近い形が特徴です。例えば、競技経験の共有、試合の振り返り、戦術や記録に関する意見交換、観戦時の感想など、スポーツに関する多様な話題が自然な形で展開されます。そのため、話者の交代や相づち、発話の重なりといった、現実の会話構造が反映された音声データとなっています。

このデータは、音声認識や対話処理など、実際にAIが使われる場面を想定した音声・言語系AIの研究や開発に役立つと期待されます。

データセットの概要

「日本語・2話者・スポーツテーマトーク音声コーパスとトランスクリプト」の主な内容は以下の通りです。

  • データ種別: 音声、テキスト

  • 被写体属性: 日本人、20代〜50代の男女

  • データ形式:

    • 音声データ:wav, mp3

    • テキストデータ:txt, json, csv

  • 収録時間: 合計約200時間(1音声あたり約5分〜60分)

  • 音声レート: 44.1kHz

  • 対象のシーン:

    • 2名がスポーツ経験・競技分析・観戦感想を共有し合うシーン

    • 試合の振り返りや運動に関する話題が自然に展開される場面

    • 台本制御なしで自由なテンポで進む対話

    • 戦術・記録・体験談の紹介などを含む会話

    • スポーツ領域の多様な話題が展開される対話シーン

サンプルページはこちらから確認できます。
https://qleandataset.visual-bank.co.jp/lineup/pn-024

AI開発での活用例

このデータセットは、AIがより人間らしい会話を理解し、応答するために様々な場面で活用できます。

研究用途

  • 対話型音声認識モデルの評価・分析: 2話者による自然な会話音声を使うことで、話者の交代や発話の重なりがある状況での音声認識の精度や、どのような間違いが起こりやすいかを分析できます。

  • 対話理解・談話構造研究: スポーツに関する意見交換や説明が続く会話データを使って、発話者の意図を推定したり、会話の流れや区切りを分析する研究に役立ちます。

産業用途

  • 音声入力型対話AI・ボイスアシスタント開発: スポーツ情報を提供するAIや、ユーザーと会話するボイスアシスタントの開発において、実際の会話に近い対話音声を使って、認識や応答のモデルを検証できます。

  • コールセンター・対話ログ解析技術の検証: 2人の間で自然に進む会話構造を利用して、発話の分離(誰が話しているか)や、話者の発言の始まり・終わりを検出する技術など、音声対話解析技術の事前検証に活用できます。

『Qlean Dataset』について

AIデータレシピのウェブサイト画面

『Qlean Dataset』は、Visual Bank株式会社の子会社である株式会社アマナイメージズが提供する、AI学習用のデータソリューションです。画像、動画、音声、3D、テキストなど、様々な形式のデータに対応しており、研究目的でも商業目的でも、安心して利用できる環境を整えています。

また、株式会社千葉ロッテマリーンズや株式会社東洋経済新報社といったデータパートナーとの協力により、特定の業界に特化したり、最新のトレンドに合わせたデータセット「AIデータレシピ」を継続的に増やしています。Qlean Datasetは、AI開発現場でのデータ集めや準備にかかる負担を減らし、著作権などの権利がクリアで、法的なリスクのないAI開発環境作りをサポートしています。

AIデータレシピの提供価値
Qlean Datasetの提供価値
Qlean Datasetの強み

Qlean Datasetのウェブサイトはこちらです。
https://qleandataset.visual-bank.co.jp/

AIデータレシピのラインナップはこちらです。
https://qleandataset.visual-bank.co.jp/lineup

Visual Bank株式会社について

Visual Bank株式会社は、「あらゆるデータの可能性を解き放つ」をミッションに、AI開発力を高めるための次世代データインフラを構築・提供するスタートアップ企業です。漫画家をサポートするAI補助ツール『THE PEN』の他、AI学習用データセット開発サービス『Qlean Dataset』を提供する株式会社アマナイメージズを子会社としています。

同社は、国の研究開発プログラム「GENIAC」にも採択されており、社会でのAI活用を加速させるための取り組みを進めています。

タイトルとURLをコピーしました