AIの「耳」を育てる新データセット登場!Qlean Datasetがレジャー会話音声を提供

AIツール・サービス紹介

Qlean Dataset(キュリンデータセット)が、AI開発を助ける新しいデータセット「日本語・2話者・レジャーテーマトーク音声コーパスとトランスクリプト」の提供を始めました。

Qlean Dataset日本語・2話者レジャーテーマトーク音声とトランスクリプトを提供開始

このデータセットは、AIが人の言葉を理解したり話したりする能力を高めるためのものです。ASR(自動音声認識)、NLP(自然言語処理)、LLM(大規模言語モデル)といった、音声や言葉を扱うAI(人工知能)の開発に役立ちます。

日常の「レジャー会話」をAI学習に

今回提供が始まったデータセットは、『AIデータレシピ』というQlean Datasetの機械学習用データセットの新しい仲間です。このデータには、2人の話し手がレジャーや趣味、娯楽をテーマに会話している日本語の音声と、その会話内容を文字に起こした「トランスクリプト」がセットで収録されています。

具体的には、ドラマやアニメの感想、ゲームやガジェットのレビュー、旅行や外出の体験談など、普段の生活でよく話されるような話題が含まれています。

自然な会話がAIの理解を深める

このデータセットの大きな特徴は、台本なしで自然な会話が収録されている点です。参加者は、作品や体験に対する感想や意見を、まるで友達と話すかのように自由に交わしています。これにより、AIは実際の会話に近い環境で学習できるため、より自然な音声認識や対話処理ができるようになることが期待されます。

Qlean Datasetでは、研究からビジネスまで、AI開発に必要なデータを、利用条件や権利関係がはっきりした形で提供しています。今回のデータセットも、日常会話に近い日本語の対話データを使って、AIの検証環境を整えるために役立てられます。

データセットの概要

データ種別 音声、テキスト
被写体属性 20代〜50代の男女
データ形式 音声データ:mp3 / wav
テキストデータ:txt
収録時間 計約400時間(1音声約5分〜60分)
音声レート 44.1kHz
対象のシーン ・2名が趣味・娯楽テーマについて、連続的に説明・解説・振り返りを行うシーン
— 作品(例:ドラマ・アニメ等)へのコメント/考察、ゲーム・ガジェット等のレビュー、旅行・外出等の体験談など
・体験談や感想を交えながら自由に会話が展開される場面
サンプル詳細 https://qleandataset.visual-bank.co.jp/lineup/pn-018

さまざまなAI開発での活用シーン

このデータセットは、様々なAI開発の場面で活用が期待されています。

研究での活用例

  • 日本語対話音声認識モデルの検証
    複数の人が話す音声をAIがテキストに変換する際に、誰がいつ話したか、どんな応答があったかといった認識の精度を確かめるのに使えます。

  • 対話の文脈を考慮した言語モデルの研究
    話題の移り変わりや、前に出た言葉を指し示す表現が含まれる日本語の対話テキストを使って、LLM(大規模言語モデル)や対話AIが会話の流れをどれだけ理解し、適切な返答を生成できるかを評価する研究に役立ちます。

産業での活用例

  • 音声UI・対話型AIの検証
    音声アシスタントや対話型のシステムを開発する際に、日常会話に近い日本語の音声データを使って、AIが声をどれだけ正確に処理し、会話をコントロールできるかを試すことができます。

  • 日本語LLMの対話性能評価・追加学習
    ビジネスに限らず、日常的な会話テキストを使って、日本語のLLMがどれだけ自然な返答を生成し、会話を続けられるかを評価したり、さらに賢くするための追加学習に利用できます。

Qlean Datasetについて

『Qlean Dataset』は、Visual Bank株式会社の子会社である株式会社アマナイメージズが提供する、AI学習用のデータソリューションです。画像、動画、音声、3D、テキストなど、様々な種類のデータに対応しており、研究目的でも商業目的でも安心して利用できる環境を整えています。

Qlean Datasetは、AI開発の現場でデータ集めや準備にかかる手間を減らし、著作権などの法的リスクがないAI開発環境を作ることを支援しています。

Qlean Dataset AIデータレシピ あらゆる業界のAI開発に対応する、機械学習用データセットラインナップ「AIデータレシピ」を提供

Qlean Datasetの詳しい情報は、以下のリンクからご覧いただけます。

Qlean Datasetの強み

Visual Bank株式会社について

Visual Bank株式会社は、「あらゆるデータの可能性を解き放つ」をミッションに、AI開発力を高めるための次世代データインフラを構築・提供している会社です。AI学習用データセット開発サービス『Qlean Dataset』を提供する株式会社アマナイメージズを100%子会社に持っています。

Visual Bank株式会社の詳細は、以下のリンクで確認できます。

タイトルとURLをコピーしました