Qlean Dataset、AI開発を支援する「日本語・2話者・社会文化テーマトーク音声コーパスとトランスクリプト」を提供開始

AIツール・サービス紹介

Visual Bank株式会社傘下の株式会社アマナイメージズが展開するAI学習用データソリューション「Qlean Dataset(キュリン データセット)」は、ASR(自動音声認識)、NLP(自然言語処理)、LLM(大規模言語モデル)といった音声・言語系のAI開発を支援するため、「日本語・2話者・社会文化テーマトーク音声コーパスとトランスクリプト」の提供を開始しました。

ASR(自動音声認識)は、人が話した言葉をAIが文字に変換する技術です。NLP(自然言語処理)は、AIが人間の言葉を理解したり、作り出したりする技術。そしてLLM(大規模言語モデル)は、ChatGPTのような、大量のテキストを学習して文章を生成したり質問に答えたりするAIのことです。これらのAIをより賢くするために、この新しいデータセットが活用されます。

Qlean Datasetが提供開始した日本語・2話者・社会文化テーマトーク音声コーパス

データセットの概要

今回提供が始まったデータセットは、Qlean Datasetの機械学習用データセットラインナップ「AIデータレシピ」に加わるものです。生活、人間関係、価値観、働き方、住環境など、私たちにとって身近な社会文化的トピックを題材に、日本人の男女2名が対話形式で語り合う日本語音声が収録されています。さらに、その発話内容を忠実に文字に起こした「トランスクリプト」も含まれています。

「音声コーパス」とは、たくさんの人の話し声をまとめたデータ集のこと。そして「トランスクリプト」とは、その話し声を文字に起こしたものです。このデータセットでは、台本を使わずに、話者同士が自由に意見や感想を交わす形式で収録されています。そのため、相づちや話者の交代、話題の転換といった、実際の会話でよく見られる自然なやり取りが反映された音声データとなっています。

Qlean Datasetの日本語二人会話音声データ

収録時間は合計で約450時間にも及び、1つの音声は約5分から60分です。話者は20代から50代の日本人男女が中心となっています。

活用例

このデータセットは、さまざまなAI開発や研究に役立てることができます。

研究用途

  • 日本語対話における価値観表現・意見交換構造の分析
    生活や人間関係、仕事観などに関する対話音声とトランスクリプトを利用し、人がどのように価値判断を表現し、意見の対立や合意形成を行うかを研究できます。

産業用途

  • 対話型AIにおける日常会話・価値観応答の検証
    対話型AIやチャットボットが、日常会話の中で共感を示したり、意見に返答したり、会話を続けたりする能力を評価できます。一般的なFAQ(よくある質問)への回答とは異なる、意見交換を伴う対話の評価に適しています。

  • 日本語LLMの会話文脈理解・応答生成性能評価
    個人の体験や考え方が語られる対話テキストを利用し、日本語LLMが会話の流れを理解し、話題の変化に追従し、価値観を含む発話に対して適切に反応する能力を検証したり、さらに賢くするための調整(ファインチューニング)を行ったりできます。

その他実需要

  • コミュニケーション設計・対話分析の教材用途
    日常的な社会の話題を扱う対話音声と書き起こしを用いて、会話の構造や意見交換の進み方を分析する教材として活用できます。音声と文字がどのように対応しているかを学ぶ教育にも適しています。

サンプル詳細はこちらから確認できます。
https://qleandataset.visual-bank.co.jp/lineup/pn-017

Qlean Datasetについて

「Qlean Dataset」は、Visual Bank傘下の株式会社アマナイメージズが提供する、商用利用が可能なAI学習用データソリューションです。画像、動画、音声、3D、テキストといった様々な形式のデータに対応し、研究目的でも商業目的でも、安心して利用できる環境を提供しています。

Qlean Datasetは、AI開発の現場でデータ集めや準備にかかる手間を減らし、著作権などの法的リスクがないAI開発環境の構築を支援しています。

Qlean DatasetのAIデータレシピ

「AIデータレシピ」の主な特徴

  • すべての被写体から同意を取得済み

  • 既存データは最短1日で納品可能

  • カスタム撮影・収録・収集による独自データの構築にも対応

Qlean Datasetの強み

Qlean Datasetの強み

  1. 安価かつスピーディーなデータ提供が可能
    初期費用を抑えつつ、必要なデータを素早く手に入れられます。
  2. 多様なデータ形式や構成にカスタマイズ
    画像、動画、音声、3D、テキストなど、さまざまな種類のデータ開発に対応しています。
  3. AIデータレシピにないデータは要件に応じて拡充
    お客様独自のニーズに合わせたデータも、必要に応じて準備・提供されます。
  4. 権利処理済みで商用利用も安心
    著作権や肖像権などの権利処理が済んでいるため、研究・商用どちらの利用でも完全に安心して使えます。

Visual Bank株式会社について

Visual Bank株式会社は、「あらゆるデータの可能性を解き放つ」をミッションに掲げ、AI開発力を最大限に高める次世代型データインフラを構築・提供するスタートアップ企業です。漫画家をサポートするAI補助ツール「THE PEN」や、AI学習用データセット開発サービス「Qlean Dataset」を提供する株式会社アマナイメージズを100%子会社に持っています。

また、Visual Bankは国の研究開発プログラム「GENIAC」にも採択されており、社会実装に向けた取り組みを加速させています。

Qlean Datasetサイト:
https://qleandataset.visual-bank.co.jp/

AIデータレシピ:
https://qleandataset.visual-bank.co.jp/lineup

Visual Bank企業URL:
https://visual-bank.co.co.jp/

アマナイメージズ企業URL:
https://amanaimages.com/about/

タイトルとURLをコピーしました