AI開発を加速!Qlean Datasetが日本語の日常会話データを提供開始

AIツール・サービス紹介

Qlean Datasetが日本語の日常会話データを提供開始

AI(人工知能)の開発には、大量の「学習データ」が欠かせません。この学習データが豊富で質が高いほど、AIはより賢く、より人間に近い振る舞いをできるようになります。

そんなAI開発を支援する「Qlean Dataset(キュリンデータセット)」が、新たに「日本語・2話者・レジャーテーマトーク音声コーパスとトランスクリプト」の提供を開始しました。これは、レジャーや趣味をテーマにした2人組の自然な会話音声と、その会話内容を文字に起こしたテキストデータのことです。

Qlean Dataset日本語・2話者レジャーテーマトーク音声とトランスクリプトを提供開始

新しいデータセットの内容とは?

今回提供が始まったデータセットは、Qlean Datasetの機械学習用データセットシリーズ「AIデータレシピ」に加わった新しいラインナップです。20代から50代の男女が、ドラマやアニメの感想、ゲームやガジェットのレビュー、旅行の体験談など、日常的な話題について自由に会話する様子が収録されています。

この会話は、台本に沿ったものではなく、自然な流れで意見交換が行われるように工夫されています。これにより、実際の会話に近い状況でAIを学習させることができ、より実用的な音声認識AI(ASR)、自然言語処理(NLP)、大規模言語モデル(LLM)などの開発に役立つと期待されています。

  • ASR(自動音声認識): 人間の話す言葉をコンピューターがテキストに変換する技術です。

  • NLP(自然言語処理): 人間の言葉をコンピューターが理解し、処理する技術です。

  • LLM(大規模言語モデル): 大量のテキストデータを学習することで、人間のような自然な文章を生成したり、質問に答えたりできるAIモデルです。

データセットの概要

データセット,音声データ,日本語,会話

| データ種別 | 音声、テキスト to Qlean Datasetでは、研究用途から商用開発までを見据え、権利処理や利用条件を整理したAI開発用データを提供しています。本データセットもその一環として、日常会話シーンに即した日本語対話データを用いた検証環境の整備を目的に提供されます。 | データ種別 | 音声、テキスト | |—|—| | 被写体属性 | 20代〜50代の男女 | | データ形式 | 音声データ:mp3 / wav テキストデータ:txt | | 収録時間 | 計約400時間(1音声約5分〜60分) | | 音声レート | 44.1kHz | | 対象のシーン | ・2名が趣味・娯楽テーマについて、連続的に説明・解説・振り返りを行うシーン — 作品(例:ドラマ・アニメ等)へのコメント/考察、ゲーム・ガジェット等のレビュー、旅行・外出等の体験談など ・体験談や感想を交えながら自由に会話が展開される場面 | | サンプル詳細 | https://qleandataset.visual-bank.co.jp/lineup/pn-018 |

どんなことに活用できる?

このデータセットは、研究と産業の両方で活用が期待されています。

【研究での活用例】

  • 日本語対話音声認識モデルの検証: 複数人が話す音声から、誰が何を話したかを正確に認識するAIモデルの性能を試すのに役立ちます。

  • 対話の文脈を理解する言語モデルの研究: 会話の流れや話題の移り変わりをAIがどれだけ理解できるかを評価し、より自然な対話ができるAIを作るための研究に利用できます。

【産業での活用例】

  • 音声UI(ユーザーインターフェース)や対話型AIの検証: 音声で操作するAIアシスタントや、人間と会話するAIシステムの開発において、実際の会話に近い日本語データを使って性能を確かめることができます。

  • 日本語LLMの対話性能評価・追加学習: ビジネスに限定されない日常会話のテキストを使って、日本語のLLMがどれだけ自然に会話を続けられるかを評価したり、さらに賢くするための追加学習に利用したりできます。

Qlean Datasetについて

Qlean Datasetは、Visual Bank株式会社(東京都港区、代表取締役CEO 永井真之)の子会社である株式会社アマナイメージズが提供する、AI学習用のデータソリューションです。

Qlean DatasetのAIデータレシピ紹介ページ

画像、動画、音声、3D、テキストなど、さまざまな形式のデータを取り扱っており、研究目的だけでなく、ビジネスでの利用もできるように、データの権利処理や利用条件がきちんと整理されています。これにより、AI開発者は安心してデータを利用できます。

Qlean Datasetは、データ収集や準備にかかる手間を減らし、法的な心配なくAI開発を進められる環境づくりをサポートしています。

Qlean Datasetの特長

Qlean Datasetのご提供価値

  • すべての被写体から同意取得済み

  • 既存データは最短1日で納品可能

  • カスタム撮影・収録・収集による独自データ構築にも対応

Visual Bank株式会社について

Visual Bank株式会社は、「あらゆるデータの可能性を解き放つ」をミッションに掲げ、AI開発力を高める次世代型のデータインフラを構築・提供しているスタートアップ企業です。

Qlean Datasetの強み

漫画家をサポートするAI補助ツール「THE PEN」の提供や、AI学習用データセット開発サービス「Qlean Dataset」を提供する株式会社アマナイメージズを100%子会社としています。

同社は国の研究開発プログラム「GENIAC」にも採択されており、社会で役立つAI技術の実現に向けて取り組みを加速させています。

まとめ

Qlean Datasetが提供を開始した「日本語・2話者・レジャーテーマトーク音声コーパスとトランスクリプト」は、AI開発者にとって非常に価値のあるデータセットです。日常会話に近い自然な日本語データを利用することで、音声認識や対話型AI、LLMといった音声・言語系AIの性能向上に大きく貢献するでしょう。AI開発の現場において、より人間らしいコミュニケーションが可能なAIの実現が期待されます。

タイトルとURLをコピーしました