
Visual Bank株式会社の子会社である株式会社アマナイメージズは、AI学習用データソリューション「Qlean Dataset(キュリンデータセット)」を通じて、「日本語・2話者・コメディテーマトーク音声コーパスデータセット」の提供を開始しました。
新しい音声データセットとは?
今回提供が始まったデータセットは、AIが人間同士の会話をより深く理解し、自然な対話ができるようにするための学習データです。「音声コーパスデータセット」とは、たくさんの音声を集めて、AIが学習しやすいように整理されたデータのことを指します。
このデータセットには、20代から50代の男女2名による、日本語の自然な会話が収録されています。特徴的なのは、ユーモアや笑いを交えた軽快な雑談が中心になっている点です。台本を使わない自由な会話なので、ふとした反応や会話のテンポの変化、話が脱線したり、ボケとツッコミがあったりといった、実際の会話に近い要素がたくさん詰まっています。
こうした会話の中には、2人が交互に話したり、時には同時に話したりする部分も含まれています。これは、AIが「誰がいつ話しているか」や「会話の流れ」を理解する上で非常に役立つ情報です。
このデータセットは、日常のリラックスした会話を想定して作られているため、音声認識(人間の声を文字にする技術)や自然言語処理(AIが言葉の意味を理解する技術)を基盤とする対話型AIや音声アシスタントなどの研究・開発に活用できます。
「日本語・2話者・コメディテーマトーク音声コーパスデータセット」の概要
-
概略: ユーモアのある雑談などを中心に、2名が軽快に話し合う日本語対話音声データセットです。
-
データ種別: 音声
-
被写体属性: 20代〜50代の男女
-
データ形式: mp3 / wav
-
収録時間: 計約330時間(1音声約5分〜60分)
-
音声レート: 44.1kHz
-
対象のシーン: 笑いやユーモアを交えた会話、即興的な反応、台本のない自由な雑談、ボケ・ツッコミ、話題の脱線、リラックスしたコミュニケーションなど
-
サンプル詳細: https://qleandataset.visual-bank.co.jp/lineup/pn-020
AI開発における活用例
このデータセットは、さまざまなAI開発シーンで役立ちます。
研究用途
-
対話構造解析モデルの研究: 2人の会話で、いつ話者が交代するか、話題がどう移り変わるかなど、会話の構造をAIが理解する技術の検証に使えます。
-
雑談対話を対象とした自然言語処理研究: 台本にない雑談を通して、AIが話題を広げたり、適切な返事を考えたりする能力を評価する研究に活用できます。
産業用途
-
音声対話AIの応答生成・理解モデル開発: 音声アシスタントや対話型サービスで、AIがより自然な会話の流れで応答したり、話している内容を理解したりするモデルの学習や評価に利用できます。
-
話者識別・ターンテイキング技術の検証: 2人の会話音声を使って、「誰が話しているか」を区別する技術や、「いつ話す順番が回ってくるか」を検出する技術の検証に活用できます。
その他実需要
- 音声処理・対話AI教育用データ: 大学や専門学校で、音声認識や対話AIを学ぶ際の教材として、実際の会話が持つ特有の課題を扱う演習データとして利用できます。
「Qlean Dataset」とは
「Qlean Dataset」は、Visual Bankの子会社である株式会社アマナイメージズが提供する、AI学習用のデータソリューションです。画像、動画、音声、3D、テキストといった様々な形式のデータを取り扱っており、研究目的でも商用目的でも安心して使えるように、権利関係をクリアにしたデータを提供しています。

Qlean Datasetは、AI開発の現場でデータ集めや準備にかかる手間を減らし、法的なリスクなくAI開発を進められる環境づくりを支援しています。また、株式会社千葉ロッテマリーンズや株式会社東洋経済新報社など、様々なパートナーとの協力によって、業界に特化した最新のデータラインナップ「AIデータレシピ」を常に増やしています。
-
Qlean Datasetサイト:https://qleandataset.visual-bank.co.jp/

Qlean Datasetの強み

Qlean Datasetが提供する「AIデータレシピ」は、AI開発をサポートする上でいくつかの大きな強みを持っています。
- すべての被写体から同意取得: データに含まれる人物などからは、事前に同意を得ているため、商用利用も安心です。
- 既存データは最短1日で納品可能: 必要なデータを迅速に手に入れることができます。
- カスタム撮影・収録・収集による独自データ構築にも対応: もし既存のデータセットにない、特別なデータが必要な場合でも、要望に応じて新しいデータを作成・提供してもらえます。

Visual Bank株式会社について
Visual Bank株式会社は、「あらゆるデータの可能性を解き放つ」をミッションに掲げ、AI開発力を高めるための次世代データインフラを構築・提供するスタートアップ企業です。漫画家をサポートするAI補助ツール「THE PEN」や、AI学習用データセット開発サービス「Qlean Dataset」を提供する株式会社アマナイメージズを子会社に持っています。また、国の研究開発プログラム「GENIAC」にも採択され、社会にAI技術を広める取り組みを進めています。
-
Visual Bank企業URL:https://visual-bank.co.jp/
-
アマナイメージズ企業URL:https://amanaimages.com/about/

