Qlean DatasetからAI開発を加速する「日本語レジャーテーマトーク音声データ」が登場!

AIツール・サービス紹介

AI(人工知能)の世界では、AIに何を学ばせるかがとても重要です。まるで人間が言葉を覚えるように、AIもたくさんのデータから学習することで、賢くなっていきます。

Visual Bank株式会社のAI学習用データソリューション「Qlean Dataset(キュリンデータセット)」は、このAIの「学び」をサポートする新しいデータセット「日本語・2話者・レジャーテーマトーク音声コーパスとトランスクリプト」の提供を開始しました。このデータは、特に日本語の音声や言葉を理解するAIの開発に役立ちます。

Qlean Dataset日本語・2話者レジャーテーマトーク音声とトランスクリプトを提供開始

自然な会話データでAIの理解を深める

今回提供が始まったデータセットは、『AIデータレシピ』というQlean Datasetのデータラインナップに加わります。このデータには、20代から50代の男女2名が、レジャーや趣味、娯楽をテーマに自然な会話をしている日本語の音声と、その会話内容を文字に起こしたテキストデータ(トランスクリプト)が収録されています。

例えば、ドラマやアニメの感想、ゲームやガジェットのレビュー、旅行の体験談など、普段の生活でよく話されるような話題が中心です。台本に頼らずに話された「生きた会話」なので、より人間らしい自然な対話の学習に活用できます。

データセットの概要

データ種別 音声、テキスト
被写体属性 20代〜50代の男女
データ形式 音声データ:mp3 / wav テキストデータ:txt
収録時間 計約400時間(1音声約5分〜60分)
音声レート 44.1kHz
対象のシーン ・2名が趣味・娯楽テーマについて、連続的に説明・解説・振り返りを行うシーン (作品へのコメント/考察、ゲーム・ガジェット等のレビュー、旅行・外出等の体験談など) ・体験談や感想を交えながら自由に会話が展開される場面

サンプル詳細はこちらで確認できます。
https://qleandataset.visual-bank.co.jp/lineup/pn-018

どんなAI開発に役立つ?

このデータセットは、さまざまな音声・言語系AIの開発や研究に活用できます。

研究での活用例

  • 日本語対話音声認識モデルの検証: AIが人間の言葉を聞き取って文字にする「自動音声認識(ASR)」という技術があります。このデータを使えば、複数の人が話している会話の中で、誰がいつ何を話したかをAIがどれだけ正確に聞き取れるか、その性能を試すことができます。

  • 対話文脈を考慮した言語モデル研究: AIが人間の言葉を理解する「自然言語処理(NLP)」や、AIが文章を作ったり質問に答えたりする「大規模言語モデル(LLM)」の開発にも役立ちます。会話の流れや文脈をAIがどれだけ正確に理解し、自然な返答ができるかを評価するのに使えます。

産業での活用例

  • 音声UI・対話型AIの検証: スマートフォンの音声アシスタントや、お客様からの問い合わせに自動で答えるAIなど、声で操作したり会話したりするAIの開発に活用できます。日常会話に近いデータを使うことで、より実用的なAIの検証が可能です。

  • 日本語LLMの対話性能評価・追加学習: AIがより自然な会話をできるようにするための学習データとしても使えます。ビジネスの会話だけでなく、普段の生活で使われるような対話を通じて、AIの会話能力をさらに高めることができます。

Qlean Datasetについて

「Qlean Dataset」は、Visual Bank株式会社のグループ会社である株式会社アマナイメージズが提供する、AI学習用のデータソリューションです。画像、動画、音声、3D、テキストなど、さまざまな形式のデータを取り扱っており、研究からビジネス用途まで、あらゆるAI開発で安全に利用できるよう、著作権や肖像権などの権利処理がきちんと行われています。

AI開発には、質の高いデータが欠かせません。Qlean Datasetは、データ収集や準備にかかる手間を減らし、開発者が安心してAI開発に集中できる環境を提供することを目指しています。

AIデータレシピ

Qlean Dataset のご提供価値

『AIデータレシピ』の主な特徴

  • すべての被写体から同意を取得: データに含まれる人物からは、利用の同意をきちんと得ています。

  • 既存データは最短1日で納品可能: 必要なデータを素早く手に入れることができます。

  • カスタム撮影・収録・収集にも対応: もし既存のデータで足りない場合は、要望に応じて新しいデータを撮影・収録・収集してくれます。

Qlean Datasetの強み

Qlean Datasetの詳しい情報や、その他のデータセットについては、以下のサイトをご覧ください。

Visual Bank株式会社は、「あらゆるデータの可能性を解き放つ」をミッションに、AI開発を支えるデータインフラの構築・提供に取り組んでいます。

この新しいデータセットが、日本語のAI技術をさらに進化させる一助となることでしょう。

タイトルとURLをコピーしました