AIの会話能力を向上!Qlean Datasetがスポーツテーマの日本語音声データを提供開始

機械学習・深層学習

AI開発を加速する新しいデータセットが登場!

AI(人工知能)が私たちの言葉を理解し、まるで人間のように会話するためには、たくさんの「学習データ」が必要です。特に、自然な会話のデータは、AIがより賢く、より役立つ存在になるために欠かせません。

今回、Visual Bank株式会社傘下のアマナイメージズが提供するAI学習用データソリューション「Qlean Dataset(キュリンデータセット)」から、新しいデータセットが発表されました。

スポーツ観戦で熱狂的に応援する人々

スポーツをテーマにした日本語の会話データ

新しく提供されるのは、「日本語・2話者・スポーツテーマトーク音声コーパスとトランスクリプト」というデータセットです。これは、スポーツや競技について、2人の日本人が自由に会話する音声と、その会話内容を正確に文字に起こした「トランスクリプト」がセットになっています。

このデータセットには、以下のような内容が含まれます。

  • 20代から50代の日本人男女2名が会話

  • スポーツ経験の共有や試合の振り返り

  • 戦術や記録に関する意見交換

  • 観戦時の感想など、スポーツに関する多様な話題

台本を使わずに自然に会話しているため、話者が交代したり、相づちを打ったり、話が重なったりする、実際の会話に近いデータとなっています。これにより、AIがより自然な会話を理解し、生成できるようになるための研究や開発に役立ちます。

Qlean Datasetが提供する「Two-Speaker Conversational Dialogue Japanese Speech Data」

データセットの概要

このデータセットは、音声とテキストの両方で提供され、合計で約200時間分の会話が収録されています。音声ファイルはwavやmp3形式、テキストファイルはtxt, json, csv形式に対応しており、利用しやすいようになっています。

詳しい情報やサンプルは、以下のページで確認できます。

サンプルページ

AI開発での活用例

このデータセットは、さまざまなAI開発に利用できます。

研究での活用

  • 対話型音声認識モデルの評価・分析: AIが2人の会話をどれくらい正確に聞き取れるかを試したり、どのような間違いをしやすいかを調べたりするのに使えます。

  • 対話理解・談話構造研究: スポーツに関する会話から、話している人の意図を読み取ったり、会話の流れを分析したりする研究に役立ちます。

産業での活用

  • 音声入力型対話AI・ボイスアシスタント開発: スポーツに関する質問に答えたり、会話をしたりするAIアシスタントを開発する際に、実際の会話に近いデータで性能をテストできます。

  • コールセンター・対話ログ解析技術の検証: 2人の会話から誰が話しているかを区別したり、会話のどこで話者が交代したかを検出したりする技術のテストに使えます。

Qlean Datasetについて

「Qlean Dataset」は、Visual Bank株式会社の子会社である株式会社アマナイメージズが提供する、AI学習用のデータソリューションです。画像、動画、音声、3D、テキストなど、さまざまな種類のデータを提供しており、研究だけでなく、ビジネスでの利用も安全に行えるよう、権利の処理がきちんとされています。

AIデータレシピのラインナップ

「AIデータレシピ」というデータセットのラインナップを継続的に増やしており、AI開発の現場でデータ集めや準備にかかる手間を減らし、安心してAI開発ができる環境をサポートしています。

Qlean Datasetのウェブサイトはこちらです。

Visual Bank株式会社について

Visual Bank株式会社は、「あらゆるデータの可能性を解き放つ」をミッションに掲げ、AI開発力を高めるためのデータインフラを提供している会社です。AI学習用データセット開発サービス「Qlean Dataset」を提供する株式会社アマナイメージズを子会社に持っています。

同社は国の研究開発プログラム「GENIAC」にも採択されており、AI技術の社会への普及にも貢献しています。

Visual Bank株式会社の企業情報はこちらです。

タイトルとURLをコピーしました