AI開発を加速する新データセットが登場!Qlean Datasetが「日本語・2話者・テレビ・映画テーマトーク音声コーパス」を提供開始

Visual Bank株式会社傘下の株式会社アマナイメージズが提供するAI学習用データソリューション「Qlean Dataset(キュリン データセット)」は、ASR(自動音声認識)、NLP(自然言語処理)、LLM(大規模言語モデル)などの音声・言語系AI開発を支援するため、「日本語・2話者・テレビ・映画テーマトーク音声コーパスとトランスクリプト」の提供を開始しました。
テレビや映画について語り合う、リアルな会話データ
この新しいデータセットは、Qlean Datasetが提供する機械学習用データセットのラインナップ『AIデータレシピ』に加わるものです。テレビドラマやバラエティ番組、映画作品といった映像コンテンツを題材に、日本人の男女2名が対話形式で語り合う日本語音声と、その発話内容を忠実に書き起こしたトランスクリプトが収録されています。
会話は、作品の内容や印象、登場人物への評価などを起点に意見を交わすものが中心です。共通のコンテンツ体験を前提とした自然な対話が展開され、台本による制御は行われていません。話者同士が自由なテンポで感想や考察を共有する形式が採用されており、相づちや話者交替、話題転換を伴う実際の会話構造を反映した音声データとして構成されています。
データセットの詳しい内容
今回提供が開始された「日本語・2話者・テレビ・映画テーマトーク音声コーパスとトランスクリプト」の主な概要は以下の通りです。
-
データ種別: 音声、テキスト
-
話者の属性: 日本人、20代〜50代の男女
-
データ形式: 音声データ:mp3 / wav
-
収録時間: 計約220時間(1音声約5分〜60分)
-
音声レート: 44.1kHz / 48kHz
-
対象のシーン: 2名がテレビ番組やドラマ作品、映画作品について意見交換するシーン、台本のない自然な会話シーン
より詳しいサンプル情報はこちらから確認できます。
AI開発の様々な場面で活用可能
このデータセットは、AIの研究や企業の開発など、幅広い用途で活用できます。
研究用途(アカデミア)
-
対話音声認識モデルの精度評価: 日本語ASR研究において、自然対話中の発話重なりや相づちを含む音声を用いた認識精度の比較検証に利用できます。特に、独話データでは評価しにくい対話特有の誤認識傾向の分析に適しています。
-
対話構造を考慮した日本語言語モデル研究: テレビ・映画という共通知識を前提にした対話テキストを用い、話題展開や応答関係を考慮した言語モデルの挙動分析や評価に利用できます。
産業用途(企業)
-
対話型AI・チャットボットの会話理解検証: エンターテインメント領域の話題を含む自然対話データを用い、ユーザー同士の会話を想定した対話AIの理解性能や応答生成の検証に利用できます。
-
音声入力型アプリケーションの実運用テスト: 複数話者が自由に会話する音声を用いることで、音声入力を前提としたサービスやアプリケーションにおけるASR処理の挙動確認や改善検討に利用できます。
Qlean Datasetについて
『Qlean Dataset』は、Visual Bank傘下の株式会社アマナイメージズが提供する商用利用可能なAI学習用データソリューションです。画像・動画・音声・3D・テキストなど、多様な形式のデータに対応し、研究・商用いずれの用途でも安全に利用できる環境を整備しています。
株式会社千葉ロッテマリーンズや株式会社東洋経済新報社をはじめとするデータパートナーとの協業を通じ、業界特化・最新トレンドに即したデータラインナップ『AIデータレシピ』を継続的に拡充しています。
Qlean Datasetは、AI開発現場におけるデータ収集・整備の負荷を軽減し、権利クリアで法的リスクのないAI開発環境の構築を支援します。
-
Qlean Datasetサイト: https://qleandataset.visual-bank.co.jp/




Qlean Datasetの主な特徴
『Qlean Dataset』の提供するデータセット『AIデータレシピ』には、次のような特徴があります。
-
すべての被写体から同意取得がされています。
-
既存データは最短1日で納品可能です。
-
カスタム撮影・収録・収集による独自データ構築にも対応しています。
Visual Bank株式会社について
Visual Bank株式会社は、AI開発力を最大化する次世代型データインフラを構築・提供するスタートアップ企業です。「あらゆるデータの可能性を解き放つ」をミッションに掲げ事業活動を展開しています。漫画家の創作をサポートするAI補助ツール『THE PEN』の他、AI学習用データセット開発サービス『Qlean Dataset』を提供する株式会社アマナイメージズを100%子会社に持ちます。また、同社は国の研究開発プログラム「GENIAC」にも採択され、社会実装に向けた取り組みを加速させています。
-
Visual Bank企業URL: https://visual-bank.co.jp/
-
アマナイメージズ企業URL: https://amanaimages.com/about/

