Qlean Datasetが日本語の日常会話データを提供開始
AI(人工知能)の開発には、大量の「学習データ」が欠かせません。この学習データが豊富で質が高いほど、AIはより賢く、より人間に近い振る舞いをできるようになります。
そんなAI開発を支援する「Qlean Dataset(キュリンデータセット)」が、新たに「日本語・2話者・レジャーテーマトーク音声コーパスとトランスクリプト」の提供を開始しました。これは、レジャーや趣味をテーマにした2人組の自然な会話音声と、その会話内容を文字に起こしたテキストデータのことです。

新しいデータセットの内容とは?
今回提供が始まったデータセットは、Qlean Datasetの機械学習用データセットシリーズ「AIデータレシピ」に加わった新しいラインナップです。20代から50代の男女が、ドラマやアニメの感想、ゲームやガジェットのレビュー、旅行の体験談など、日常的な話題について自由に会話する様子が収録されています。
この会話は、台本に沿ったものではなく、自然な流れで意見交換が行われるように工夫されています。これにより、実際の会話に近い状況でAIを学習させることができ、より実用的な音声認識AI(ASR)、自然言語処理(NLP)、大規模言語モデル(LLM)などの開発に役立つと期待されています。
-
ASR(自動音声認識): 人間の話す言葉をコンピューターがテキストに変換する技術です。
-
NLP(自然言語処理): 人間の言葉をコンピューターが理解し、処理する技術です。
-
LLM(大規模言語モデル): 大量のテキストデータを学習することで、人間のような自然な文章を生成したり、質問に答えたりできるAIモデルです。
データセットの概要

| データ種別 | 音声、テキスト to Qlean Datasetでは、研究用途から商用開発までを見据え、権利処理や利用条件を整理したAI開発用データを提供しています。本データセットもその一環として、日常会話シーンに即した日本語対話データを用いた検証環境の整備を目的に提供されます。 | データ種別 | 音声、テキスト | |—|—| | 被写体属性 | 20代〜50代の男女 | | データ形式 | 音声データ:mp3 / wav テキストデータ:txt | | 収録時間 | 計約400時間(1音声約5分〜60分) | | 音声レート | 44.1kHz | | 対象のシーン | ・2名が趣味・娯楽テーマについて、連続的に説明・解説・振り返りを行うシーン — 作品(例:ドラマ・アニメ等)へのコメント/考察、ゲーム・ガジェット等のレビュー、旅行・外出等の体験談など ・体験談や感想を交えながら自由に会話が展開される場面 | | サンプル詳細 | https://qleandataset.visual-bank.co.jp/lineup/pn-018 |
どんなことに活用できる?
このデータセットは、研究と産業の両方で活用が期待されています。
【研究での活用例】
-
日本語対話音声認識モデルの検証: 複数人が話す音声から、誰が何を話したかを正確に認識するAIモデルの性能を試すのに役立ちます。
-
対話の文脈を理解する言語モデルの研究: 会話の流れや話題の移り変わりをAIがどれだけ理解できるかを評価し、より自然な対話ができるAIを作るための研究に利用できます。
【産業での活用例】
-
音声UI(ユーザーインターフェース)や対話型AIの検証: 音声で操作するAIアシスタントや、人間と会話するAIシステムの開発において、実際の会話に近い日本語データを使って性能を確かめることができます。
-
日本語LLMの対話性能評価・追加学習: ビジネスに限定されない日常会話のテキストを使って、日本語のLLMがどれだけ自然に会話を続けられるかを評価したり、さらに賢くするための追加学習に利用したりできます。
Qlean Datasetについて
Qlean Datasetは、Visual Bank株式会社(東京都港区、代表取締役CEO 永井真之)の子会社である株式会社アマナイメージズが提供する、AI学習用のデータソリューションです。

画像、動画、音声、3D、テキストなど、さまざまな形式のデータを取り扱っており、研究目的だけでなく、ビジネスでの利用もできるように、データの権利処理や利用条件がきちんと整理されています。これにより、AI開発者は安心してデータを利用できます。
Qlean Datasetは、データ収集や準備にかかる手間を減らし、法的な心配なくAI開発を進められる環境づくりをサポートしています。
-
Qlean Datasetサイト:https://qleandataset.visual-bank.co.jp/
Qlean Datasetの特長

-
すべての被写体から同意取得済み
-
既存データは最短1日で納品可能
-
カスタム撮影・収録・収集による独自データ構築にも対応
Visual Bank株式会社について
Visual Bank株式会社は、「あらゆるデータの可能性を解き放つ」をミッションに掲げ、AI開発力を高める次世代型のデータインフラを構築・提供しているスタートアップ企業です。

漫画家をサポートするAI補助ツール「THE PEN」の提供や、AI学習用データセット開発サービス「Qlean Dataset」を提供する株式会社アマナイメージズを100%子会社としています。
同社は国の研究開発プログラム「GENIAC」にも採択されており、社会で役立つAI技術の実現に向けて取り組みを加速させています。
-
Visual Bank企業URL:https://visual-bank.co.jp/
-
アマナイメージズ企業URL:https://amanaimages.com/about/
まとめ
Qlean Datasetが提供を開始した「日本語・2話者・レジャーテーマトーク音声コーパスとトランスクリプト」は、AI開発者にとって非常に価値のあるデータセットです。日常会話に近い自然な日本語データを利用することで、音声認識や対話型AI、LLMといった音声・言語系AIの性能向上に大きく貢献するでしょう。AI開発の現場において、より人間らしいコミュニケーションが可能なAIの実現が期待されます。

