「Qlean Dataset」が日本語の自然な対話音声データセットを提供開始 – AI開発を強力に支援

AIツール・サービス紹介

Visual Bank株式会社傘下の株式会社アマナイメージズが展開するAI学習用データソリューション「Qlean Dataset(キュリン データセット)」は、ASR(自動音声認識)、NLP(自然言語処理)、LLMなどの音声・言語系AI開発を支援する新たなデータセットの提供を開始しました。

この新しいデータセットは「日本語・2話者・社会文化テーマトーク音声コーパスとトランスクリプト」と名付けられ、日常生活や人間関係、価値観、働き方、住環境といった社会文化的なトピックについて、日本人の男女2名が自由に語り合う対話音声と、その内容を正確に書き起こしたテキストデータ(トランスクリプト)で構成されています。

Qlean Dataset 日本語・2話者 社会・文化テーマトーク 音声とトランスクリプトを提供開始

自然な会話がAI開発を加速

本データセットの大きな特徴は、台本を使わずに収録されている点です。これにより、話者同士が自然なペースで意見や感想を交わし、相づちや話者の交代、話題の転換といった、実際の会話で起こるリアルなやり取りがそのまま収録されています。価値観の違いに対する反応や共感、迷い、意見のすり合わせなど、人間らしい対話の構造が反映されているため、より高度で人間らしいAIの開発に役立つことが期待されます。

データセットの概要

データ種別 音声、テキスト
被写体属性 日本人、20代〜50代の男女
データ形式 音声データ:mp3 / wav
収録時間 計約450時間(1音声約5分〜60分)
音声レート 44.1kHz / 48kHz
対象のシーン 社会や文化をテーマに、2名の話者が意見を交わす日本語対話

サンプル詳細については、以下のリンクから確認できます。
https://qleandataset.visual-bank.co.jp/lineup/pn-017

様々な分野での活用例

このデータセットは、研究から産業、教育まで幅広い分野での活用が想定されています。

研究用途

日本語対話における価値観の表現や意見交換の構造を分析するのに利用できます。言語学や情報学の分野で、対話の文脈を理解した発話解析や意味解析の検証に適しています。

産業用途

対話型AIやチャットボットが、日常会話や価値観に基づく応答を適切に行えるかを検証するのに役立ちます。一般的な質問応答とは異なり、意見交換を伴う対話シナリオの評価に活用できます。また、日本語の大規模言語モデル(LLM)の文脈理解能力や、価値観を含む発話への応答生成性能の検証や調整(ファインチューニング)にも利用可能です。

その他実需要

コミュニケーション設計や対話分析の教材としても活用できます。音声とテキストの対応関係を学ぶ教育現場での利用が考えられます。

Qlean Datasetについて

「Qlean Dataset」は、Visual Bank傘下のアマナイメージズが提供する、商用利用が可能なAI学習用データソリューションです。画像、動画、音声、3D、テキストなど多様な形式のデータに対応しており、研究・商用問わず安全に利用できる環境を提供しています。

Qlean Dataset AIデータレシピ

データ収集や整備にかかる負担を軽減し、著作権などの権利がクリアで法的なリスクのないAI開発環境の構築を支援しています。千葉ロッテマリーンズや東洋経済新報社などのデータパートナーとの連携を通じて、業界に特化した最新のデータラインナップ「AIデータレシピ」を継続的に拡充しています。

Qlean Datasetのウェブサイトはこちらです。
https://qleandataset.visual-bank.co.jp/

Qlean Datasetの主な強み

Qlean Datasetの強み

  • 安価かつスピーディーなデータ提供: 初期費用を抑えながら、必要なデータを迅速に手に入れることができます。

  • 多様なデータ形式への対応: 画像、動画、音声、3D、テキストなど、さまざまな形式のデータ開発に対応しています。

  • カスタムデータ作成: 「AIデータレシピ」にないデータも、ユーザーの要望に応じて準備し提供することが可能です。

  • 権利処理済みで安心: 著作権や肖像権などの権利処理が済んでいるため、研究や商用利用でも安心して利用できます。AI倫理や法制度の最新状況にも対応しています。

Visual Bank株式会社について

Visual Bank株式会社は、「あらゆるデータの可能性を解き放つ」をミッションに掲げ、AI開発力を最大限に高める次世代型データインフラの構築・提供を行っているスタートアップ企業です。漫画家をサポートするAI補助ツール「THE PEN」のほか、AI学習用データセット開発サービス「Qlean Dataset」を提供する株式会社アマナイメージズを100%子会社としています。また、Visual Bankは国の研究開発プログラム「GENIAC」にも採択されており、社会実装に向けた取り組みを加速させています。

タイトルとURLをコピーしました