AI(人工知能)の世界では、AIに何を学ばせるかがとても重要です。まるで人間が言葉を覚えるように、AIもたくさんのデータから学習することで、賢くなっていきます。
Visual Bank株式会社のAI学習用データソリューション「Qlean Dataset(キュリンデータセット)」は、このAIの「学び」をサポートする新しいデータセット「日本語・2話者・レジャーテーマトーク音声コーパスとトランスクリプト」の提供を開始しました。このデータは、特に日本語の音声や言葉を理解するAIの開発に役立ちます。

自然な会話データでAIの理解を深める
今回提供が始まったデータセットは、『AIデータレシピ』というQlean Datasetのデータラインナップに加わります。このデータには、20代から50代の男女2名が、レジャーや趣味、娯楽をテーマに自然な会話をしている日本語の音声と、その会話内容を文字に起こしたテキストデータ(トランスクリプト)が収録されています。
例えば、ドラマやアニメの感想、ゲームやガジェットのレビュー、旅行の体験談など、普段の生活でよく話されるような話題が中心です。台本に頼らずに話された「生きた会話」なので、より人間らしい自然な対話の学習に活用できます。
データセットの概要
| データ種別 | 音声、テキスト |
|---|---|
| 被写体属性 | 20代〜50代の男女 |
| データ形式 | 音声データ:mp3 / wav テキストデータ:txt |
| 収録時間 | 計約400時間(1音声約5分〜60分) |
| 音声レート | 44.1kHz |
| 対象のシーン | ・2名が趣味・娯楽テーマについて、連続的に説明・解説・振り返りを行うシーン (作品へのコメント/考察、ゲーム・ガジェット等のレビュー、旅行・外出等の体験談など) ・体験談や感想を交えながら自由に会話が展開される場面 |
サンプル詳細はこちらで確認できます。
https://qleandataset.visual-bank.co.jp/lineup/pn-018
どんなAI開発に役立つ?
このデータセットは、さまざまな音声・言語系AIの開発や研究に活用できます。
研究での活用例
-
日本語対話音声認識モデルの検証: AIが人間の言葉を聞き取って文字にする「自動音声認識(ASR)」という技術があります。このデータを使えば、複数の人が話している会話の中で、誰がいつ何を話したかをAIがどれだけ正確に聞き取れるか、その性能を試すことができます。
-
対話文脈を考慮した言語モデル研究: AIが人間の言葉を理解する「自然言語処理(NLP)」や、AIが文章を作ったり質問に答えたりする「大規模言語モデル(LLM)」の開発にも役立ちます。会話の流れや文脈をAIがどれだけ正確に理解し、自然な返答ができるかを評価するのに使えます。
産業での活用例
-
音声UI・対話型AIの検証: スマートフォンの音声アシスタントや、お客様からの問い合わせに自動で答えるAIなど、声で操作したり会話したりするAIの開発に活用できます。日常会話に近いデータを使うことで、より実用的なAIの検証が可能です。
-
日本語LLMの対話性能評価・追加学習: AIがより自然な会話をできるようにするための学習データとしても使えます。ビジネスの会話だけでなく、普段の生活で使われるような対話を通じて、AIの会話能力をさらに高めることができます。
Qlean Datasetについて
「Qlean Dataset」は、Visual Bank株式会社のグループ会社である株式会社アマナイメージズが提供する、AI学習用のデータソリューションです。画像、動画、音声、3D、テキストなど、さまざまな形式のデータを取り扱っており、研究からビジネス用途まで、あらゆるAI開発で安全に利用できるよう、著作権や肖像権などの権利処理がきちんと行われています。
AI開発には、質の高いデータが欠かせません。Qlean Datasetは、データ収集や準備にかかる手間を減らし、開発者が安心してAI開発に集中できる環境を提供することを目指しています。


『AIデータレシピ』の主な特徴
-
すべての被写体から同意を取得: データに含まれる人物からは、利用の同意をきちんと得ています。
-
既存データは最短1日で納品可能: 必要なデータを素早く手に入れることができます。
-
カスタム撮影・収録・収集にも対応: もし既存のデータで足りない場合は、要望に応じて新しいデータを撮影・収録・収集してくれます。

Qlean Datasetの詳しい情報や、その他のデータセットについては、以下のサイトをご覧ください。
-
Qlean Datasetサイト: https://qleandataset.visual-bank.co.jp/
Visual Bank株式会社は、「あらゆるデータの可能性を解き放つ」をミッションに、AI開発を支えるデータインフラの構築・提供に取り組んでいます。
-
Visual Bank企業URL: https://visual-bank.co.jp/
-
アマナイメージズ企業URL: https://amanaimages.com/about/
この新しいデータセットが、日本語のAI技術をさらに進化させる一助となることでしょう。

