AI開発を加速する新しい日本語音声データセットが登場
AIが私たちの生活にますます深く関わるようになる中で、AIが人間の言葉をより自然に理解し、応答するための技術開発が進んでいます。この重要な分野を支えるため、Visual Bank株式会社の傘下である株式会社アマナイメージズが展開するAI学習用データソリューション「Qlean Dataset(キュリン データセット)」から、新しいデータセットの提供が始まりました。

今回提供されるのは「日本語・2話者・社会文化テーマトーク音声コーパスとトランスクリプト」です。これは、人の声を文字に変換するASR(自動音声認識)や、AIが人間の言葉を理解するNLP(自然言語処理)、ChatGPTのような大規模言語モデル(LLM)といった、音声や言語を扱うAIの開発に役立つデータ集です。
日常の「生きた会話」をAI学習に
この新しいデータセットは、Qlean Datasetが提供する機械学習用データセットのシリーズ「AIデータレシピ」に加わります。収録されているのは、日本の男女2名が、生活や人間関係、価値観、働き方、住環境といった日常に根ざした社会文化的なテーマについて、台本なしで自由に語り合う日本語の音声と、その会話内容を正確に書き起こしたテキスト(トランスクリプト)です。
会話は、個人の体験や考え方を元に意見を交換する形式が中心で、とても自然な対話が展開されます。価値観の違いに対する反応や共感、迷い、意見のすり合わせなど、実際の会話で起こるような「相づち」や「話者の交代」「話題の転換」といった要素も含まれており、より人間らしい会話の構造をAIが学習するのに適しています。
データセットの詳しい内容は以下の通りです。
| データ種別 | 音声、テキスト |
|---|---|
| 被写体属性 | 日本人、20代〜50代の男女 |
| データ形式 | 音声データ:mp3 / wav |
| 収録時間 | 計約450時間(1音声約5分〜60分) |
| 音声レート | 44.1kHz / 48kHz |
| 対象のシーン | 社会や文化をテーマに、2名の話者が意見を交わす日本語対話 |
サンプルデータは、以下のQlean Datasetのウェブサイトで確認できます。
日本語・2話者・社会文化テーマトーク音声コーパスとトランスクリプト サンプル詳細
AI開発における多様な活用シーン
このデータセットは、さまざまな分野でのAI開発や研究に活用されることが期待されています。
研究分野での活用
日本語の対話における価値観の表現や、意見交換の構造を分析する研究に役立ちます。生活、人間関係、仕事観などに関する対話音声とテキストを使うことで、価値判断を含む発言や、意見の対立から合意形成に至るプロセスを言語学や情報学の視点から分析できます。これにより、対話の文脈を理解した発言の意味解析などの検証に適しています。
産業分野での活用
対話型AIやチャットボットが、より人間らしい日常会話や価値観に基づいた応答を検証するのに使えます。生活や働き方、人間関係に関する自然な対話データを用いることで、共感を示す応答や意見への返答、会話を途切れさせずに続ける能力などを評価できます。一般的なQ&A形式の応答とは異なる、意見交換を伴う対話シナリオの評価に適しているでしょう。
また、ChatGPTのような日本語LLM(大規模言語モデル)が、会話の文脈をどれだけ理解し、適切な応答を生成できるかの性能評価や、特定の目的に合わせてAIを調整するファインチューニングにも活用できます。個人の体験や考えが語られる対話テキストは、文脈を維持したり、話題の転換に追従したり、価値観を含む発言に適切に反応したりするLLMの能力を高めるのに役立ちます。
その他の実用的な活用
日常的な社会の話題を扱った対話音声と書き起こしは、コミュニケーション設計や対話分析の教材としても利用できます。対話の構造や意見交換の進め方を学ぶ教育用途に役立ちます。音声とテキストがどのように対応しているかを学ぶのにも適しています。
AI開発を支える「Qlean Dataset」
Qlean Datasetは、Visual Bank傘下の株式会社アマナイメージズが提供する、商用利用も可能なAI学習用データソリューションです。画像、動画、音声、3D、テキストなど、さまざまな形式のデータに対応しており、研究目的でも商用目的でも安心して利用できる環境が整えられています。


千葉ロッテマリーンズや東洋経済新報社といったデータパートナーとの協力により、特定の業界に特化したり、最新のトレンドを取り入れたりしたデータセット「AIデータレシピ」を継続的に増やしています。
Qlean Datasetは、AI開発の現場でデータ集めや準備にかかる手間を減らし、著作権や肖像権などの権利がクリアで、法的なリスクのないAI開発環境の構築を支援しています。


Qlean Datasetが提供するデータセット「AIデータレシピ」の主な特徴は以下の通りです。
-
すべての被写体から同意を得ています。
-
既存のデータセットは最短1日で納品可能です。
-
要望に応じて、カスタム撮影や収録、収集による独自のデータ構築にも対応しています。
Visual Bank株式会社について
Visual Bank株式会社は、「あらゆるデータの可能性を解き放つ」をミッションに掲げ、AI開発力を最大限に引き出す次世代型データインフラを構築・提供するスタートアップ企業です。漫画家をサポートするAI補助ツール「THE PEN」や、AI学習用データセット開発サービス「Qlean Dataset」を提供する株式会社アマナイメージズを100%子会社としています。
同社は、国の研究開発プログラム「GENIAC」にも採択されており、社会実装に向けた取り組みを加速させています。

