Qlean Datasetが、AI研究・開発を支援する「テクノロジー対話音声データ」の提供を開始

AIツール・サービス紹介

Qlean Datasetが「テクノロジー対話音声データ」の提供を開始

Visual Bank株式会社のAI学習用データソリューション「Qlean Dataset(キュリンデータセット)」が、新たに「日本語・2話者・テクノロジーテーマトーク音声トランスクリプト」の提供を始めました。このデータセットは、AI(人工知能)がより自然な会話を理解し、応答できるようになるための学習に活用されます。

Qlean Dataset 日本語・2話者 テクノロジーテーマトーク 音声とトランスクリプト を提供開始

テクノロジーに特化した自然な会話データ

今回提供が開始されたデータセットは、Qlean Datasetの「AIデータレシピ」という機械学習用のデータラインナップの一つです。テクノロジーやIT(情報技術)の分野をテーマにした、2人の話者による日本語の対話音声と、その会話内容を文字に起こしたテキストデータ(トランスクリプト)で構成されています。

会話の内容には、最近話題の生成AIをはじめとする新しい技術や関連ニュース、さらには日常生活での工夫や活用事例など、さまざまな文脈の話題が含まれています。台本に頼らない自然な会話形式で、質問や説明、意見交換、比較、事例紹介などが、実際の技術的な議論に近い形で進められています。

このデータセットは、AIが人の声を認識する「音声認識(ASR)」、人の言葉を理解する「自然言語処理(NLP)」、そして人とAIが会話する「音声対話AI」など、音声とテキストの両方を扱うAIモデルの研究や開発に役立ちます。

データセットの概要

  • データ種別: 音声、テキスト

  • 被写体属性: 日本人、20代〜50代の男女

  • データ形式: 音声データ:wav / mp3、テキストデータ:txt

  • 収録時間: 計約200時間(1音声約5分〜60分)

  • 音声レート: 44.1kHz

  • 対象のシーン:

    • 2者が技術・ITサービス・デジタル製品について語り合う、台本に依存しない自然な対話

    • 技術の背景や活用例について、質問と説明が交互に行われる会話構成

    • 比較・分析・事例紹介を含み、テクノロジー領域の幅広い話題を扱う対話シーン

より詳しいサンプルについては、以下のリンクから確認できます。
https://qleandataset.visual-bank.co.jp/lineup/pn-025

多様な分野での活用が期待されるデータセット

このデータセットは、さまざまな研究やビジネスの場面で活用されることが期待されています。

研究用途の例

  • 技術対話における発話役割・対話機能の分析: 生成AIやITニュースを題材にした2人の対話を使って、質問、説明、同意、反論といった会話の中での役割の違いを分析できます。

  • 専門トピックを含む音声認識モデルの評価: 生成AIやデジタル技術に関する専門用語を含む会話音声を使って、一般的な会話とは異なる状況での音声認識の精度を評価できます。

  • 技術ニュース文脈における対話理解研究: 最新技術や関連ニュースに言及する会話を対象に、話題の追跡や文脈の理解、要点の抽出など、自然言語処理モデルの検証に利用できます。

産業用途(企業)の例

  • 技術領域に特化した音声対話AIの学習: 生成AIやITサービスに関する説明や議論を含む対話データを使って、技術的な文脈を理解する音声対話AIやチャットボットの学習に役立ちます。

  • 技術コンテンツの音声テキスト化・要約モデル開発: 技術系のポッドキャストや解説コンテンツを想定した、自動文字起こしや要約、重要な部分を抜き出すモデルの開発に活用できます。

  • 技術サポート・社内ナレッジ向け音声処理モデルの検証: ITツールの使い方や工夫といった実用的な話題を含む対話を使って、社内向けの技術サポートや知識共有に役立つ音声認識・対話理解モデルの検証に利用できます。

その他(教育・実践)の例

  • 技術教育向け対話教材の研究利用: 専門的な技術テーマをわかりやすい言葉で説明し合う対話が含まれているため、AI・IT分野の教育における対話型教材や説明支援モデルの検証用データとして活用できます。

Qlean Datasetについて

「Qlean Dataset」は、Visual Bank傘下の株式会社アマナイメージズが提供する、AI学習用のデータソリューションです。画像、動画、音声、3D、テキストなど、さまざまな形式のデータに対応しており、研究目的でも商用目的でも安心して利用できる環境を整えています。

AIデータレシピ ウェブページ
AIデータレシピのデータタイプ説明

株式会社千葉ロッテマリーンズや株式会社東洋経済新報社などのデータパートナーと協力し、「AIデータレシピ」という業界に特化した最新のデータラインナップを継続的に増やしています。Qlean Datasetは、AI開発の現場でデータ集めや準備にかかる手間を減らし、著作権などの権利が明確で、法的なリスクのないAI開発環境の構築を支援しています。

Qlean Datasetの提供価値

Qlean Datasetの主な特徴

  • すべての被写体から同意を取得しています。

  • 既存のデータセットは最短1日で納品可能です。

  • お客様の要望に応じて、独自のデータを撮影・収録・収集して構築することもできます。

Qlean Datasetの強み

Visual Bank株式会社について

Visual Bank株式会社は、「あらゆるデータの可能性を解き放つ」をミッションに掲げ、AI開発力を高めるための次世代型データインフラを構築・提供するスタートアップ企業です。漫画家をサポートするAI補助ツール「THE PEN」や、AI学習用データセット開発サービス「Qlean Dataset」を提供する株式会社アマナイメージズを100%子会社としています。

同社は、国の研究開発プログラム「GENIAC」にも採択されており、AIの社会での活用に向けた取り組みを加速させています。

タイトルとURLをコピーしました