Visual Bank株式会社のAI学習用データソリューション「Qlean Dataset(キュリンデータセット)」が、AI開発をさらに進化させる新しいデータセットの提供を始めました。
自然な会話を学ぶためのAI学習データ
今回提供が開始されたのは、「日本語・3話者・コメディテーマトーク音声コーパスデータセット」です。これは、3人の話者がコメディ調で自然に会話している様子を収録したデータで、AIが人間の会話をより深く理解し、自然な対話ができるように学習させるために使われます。

このデータセットには、複数の人が話すときに起こりがちな「話が重なる」「途中で割り込む」「テンポ良く返事をする」「話題が変わる」といった、実際の会話でよくある特徴が多様に含まれています。これにより、AIは複数の人が同時に話す環境でも、それぞれの声を区別したり、会話の流れを正確に把握したりする能力を高めることができます。
例えば、会議の議事録を自動で作るAIや、お客様からの問い合わせに自動で答えるAI、あるいはロボットとの会話システムなど、様々なAIの開発に役立つことが期待されます。教育や研究の分野でも、音声処理や対話AIの学習教材として活用できるでしょう。
データセットの詳しい内容
提供されるデータセットの概要は以下の通りです。
-
データ種別: 音声
-
話者の年齢層: 20代〜50代の男女
-
データ形式: mp3 / wav
-
収録時間: 合計約100時間(1音声あたり約20分〜30分)
-
音声レート: 44.1kHz
-
収録シーン: 3名によるコメディ調の雑談や掛け合い、エピソードトークのシーン、テンポのある応答や即興的な発言、自然な間合いを含む対話シーン、話題が自然に遷移し、重なり発話や割り込みが発生する多人数会話シーン、台本に依存しない、自発的な話題展開や感情変化がみられる自然対話シーン
-
話題例: 恋愛相談、思い出話(初恋、笑える失敗談など)、マイブーム、趣味、流行、好きなお菓子について、など全約200話題
サンプル詳細はこちらで確認できます。
https://qleandataset.visual-bank.co.jp/lineup/pn-035
Qlean Datasetについて
「Qlean Dataset」は、Visual Bank株式会社の子会社である株式会社アマナイメージズが提供する、AI学習用のデータソリューションです。画像、動画、音声、3D、テキストなど、様々な種類のデータを取り扱っており、研究目的でも商用目的でも安心して利用できるのが特徴です。


「AIデータレシピ」というデータラインナップを継続的に増やしており、AI開発の現場でデータ集めや準備にかかる手間を減らし、著作権などの心配なくAI開発を進められる環境をサポートしています。


-
Qlean Datasetサイト: https://qleandataset.visual-bank.co.jp/
Visual Bank株式会社は、「あらゆるデータの可能性を解き放つ」をミッションに掲げ、AI開発を最大限にサポートするデータ基盤の構築・提供に取り組んでいます。
-
Visual Bank企業URL: https://visual-bank.co.jp/
-
アマナイメージズ企業URL: https://amanaimages.com/about/
この新しいデータセットが、多人数での自然な会話に対応できるAIの開発を大きく後押しするでしょう。

