AI開発を加速する新しい音声データセットが登場
AI(人工知能)が私たちの生活にますます深く関わるようになる中で、AIを賢くするための「学習データ」の重要性が高まっています。Visual Bank株式会社が展開するAI学習用データソリューション「Qlean Dataset(キュリンデータセット)」は、この度、AIの音声認識や対話能力をさらに向上させるための新しいデータセット「日本語・2話者・科学テーマトーク音声コーパスデータセット」の提供を開始しました。

このデータセットは、AIが人の言葉を聞き取る「音声認識(ASR)」、会話の意味を理解する「対話理解」、言葉を扱う「自然言語処理(NLP)」、そして新しい文章などを生み出す「生成AI」といった、音声で人とAIがやり取りする技術の研究開発に役立ちます。
科学分野の自然な会話を収録
今回提供が始まったデータセットには、科学の専門的な概念や現象について、2人の話者が質問し合ったり、補足説明を加えたりしながら語り合う日本語の対話音声が収録されています。特徴は、一問一答のような単純なやり取りではなく、お互いの理解を深めることを前提とした、より自然で複雑な会話構造が含まれている点です。
台本に頼らずに話された会話なので、実際の人間同士の会話でよくある「話が重なる」「言い換えをする」「説明を深掘りする」といったリアルな要素も含まれています。また、複数の科学テーマが続けて話される長時間の対話音声も含まれているため、実際の利用シーンに近い条件でAIモデルの学習や性能テストを行うことができます。
このデータセットは、科学・技術分野の対話型AIや、専門知識を説明してくれるAI、音声で指示する生成AIシステムなど、幅広いAI開発に活用できるでしょう。
データセットの詳しい情報
「日本語・2話者・科学テーマトーク音声コーパスデータセット」の主な内容は以下の通りです。
| データ種別 | 音声
Qlean Datasetについて
Qlean Datasetは、Visual Bankのグループ会社である株式会社アマナイメージズが提供するAI学習用のデータソリューションです。画像、動画、音声、3D、テキストなど様々な種類のデータを扱っており、研究目的でも商用目的でも安心して利用できる環境を整えています。

株式会社千葉ロッテマリーンズや株式会社東洋経済新報社といったデータパートナーとの協力により、特定の業界に特化したデータや最新のトレンドに合わせたデータセット「AIデータレシピ」を継続的に増やしています。
Qlean Datasetの目的は、AI開発の現場でデータ集めや準備にかかる手間を減らし、著作権などの権利問題をクリアした、法的リスクのないAI開発環境を提供することです。

Qlean Datasetの主な強み
Qlean Datasetは、以下の点でAI開発を強力にサポートします。
-
すべての被写体から同意取得済み: 安心して商用利用が可能です。
-
既存データは最短1日で納品可能: 迅速なデータ提供を実現します。
-
カスタム撮影・収録・収集にも対応: お客様の要望に応じた独自のデータ構築も可能です。

Visual Bank株式会社について
Visual Bank株式会社は、「あらゆるデータの可能性を解き放つ」をミッションに掲げ、AI開発力を最大限に高めるための次世代データインフラを構築・提供するスタートアップ企業です。漫画家をサポートするAI補助ツール「THE PEN」や、AI学習用データセット開発サービス「Qlean Dataset」を提供する株式会社アマナイメージズを子会社としています。
Visual Bankは、国の研究開発プログラム「GENIAC」にも採択されており、AI技術の社会実装に向けた取り組みを加速させています。
関連リンク
-
Qlean Datasetサイト: <https://qleandataset.visual-bank.co.jp/>
-
Visual Bank企業URL: <https://visual-bank.co.jp/>
-
アマナイメージズ企業URL: <https://amanaimages.com/about/>

