Qlean Datasetが「日本語ビジネス会話データセット」を提供開始、AI開発を強力にサポート

AIツール・サービス紹介

Qlean Dataset、日本語ビジネス会話の音声・テキストデータセットを提供開始

Visual Bank株式会社は、傘下の株式会社アマナイメージズを通じて展開するAI学習用データソリューション「Qlean Dataset(キュリンデータセット)」において、「日本語・2話者・ビジネス会話の音声コーパスと発話内容のテキストデータセット」の提供を開始しました。

この新しいデータセットは、日本語の自然な2人での会話、特にビジネスシーンに特化したものです。数百時間にも及ぶ会話の音声データと、その内容を文字に起こしたテキストデータが含まれています。さらに、どの人が話したか(話者区分)や、いつ話したか(タイムスタンプ)も細かく記録されているため、AIが会話を正確に理解し、学習するのに非常に役立ちます。

顧客対応や商談の様子

AIデータレシピとは?

「AIデータレシピ」は、Qlean Datasetが提供する、AI開発にすぐに使えるデータセットのラインナップです。利用する目的や求める精度、納期に合わせて、様々なデータ素材を柔軟に組み合わせることができます。一部はすでにAIが学習しやすいように情報が付与(アノテーション)されていますが、まだ何も情報が付いていないデータや、個別の要望に応じたデータ作成・変更も可能です。

Visual Bank株式会社は、株式会社千葉ロッテマリーンズや株式会社東洋経済新報社との連携を通じて、データラインナップを広げています。これにより、AI開発者がデータ集めや準備にかける手間を大きく減らし、開発をスムーズに進められるようサポートしています。

AIデータレシピのウェブサイト

データセットの詳しい内容

今回提供が始まったデータセットは、以下の特徴を持っています。

  • データ種別: 音声、テキスト

  • 話者の属性: 日本人男性、日本人女性

  • データ形式: 音声データはwav形式、テキストデータはtxt形式

  • 収録時間: 数百時間

  • 対象となる会話シーン:

    • 商談

    • SaaS(サービスとしてのソフトウェア)の問い合わせ対応

    • お客様への電話対応

    • その他、ビジネスにおける様々な対話

  • テキストデータの構成: 行番号、会話の開始時間、会話の終了時間、話者区分(誰が話したか)、発話内容

このデータセットのサンプルは、以下のURLから詳細を確認できます。
サンプル詳細URL

このデータセットの活用例

このデータセットは、様々なAIの開発に役立ちます。

  • 音声認識・話者分離AIの精度向上: オンライン会議や対面での会話など、いろいろな環境で録音されたデータが含まれています。雑音がある場所や、複数の人が同時に話している状況でも、AIが音声を正確に認識し、誰が話しているかを区別する能力を高めるのに使えます。リアルタイムで会議の議事録を作るAIの開発にも貢献するでしょう。

  • 会話理解・要約生成AIのトレーニング: 会話の開始・終了時刻や話者情報が正確に記録されているため、長い会話の中から重要な部分を抜き出したり、内容を短くまとめるAI、次に何を話すかを予測するAIの学習データとして最適です。

  • 顧客体験(CX)・感情音声認識AIの開発: 声のトーンや会話の間合いなど、感情に関する情報も含まれています。これにより、お客様の満足度や対応の質を分析するAI、コールセンターでの応対を自動で評価するAIの開発に活用できます。

  • 商談解析・セールスインテリジェンスAIの研究: 営業の商談や面接などの実際の会話データが豊富にあります。AIが会話のパターンや相手の話を聞く姿勢などを数値化し、商談を分析したり、営業のスキルアップをサポートするAIの基礎データとして利用できます。

  • コンタクトセンター自動応対AI・FAQ生成AIの構築: お客様からの問い合わせ対応の音声が含まれているため、よくある質問(FAQ)を自動で作成するAIや、音声で応答するチャットボットの会話をより自然にするための学習データとして活用できます。

  • 音声UX・会話体験デザインの研究開発: 自然な会話のテンポや相づちの表現を含むリアルな音声データは、AIアシスタントやスマートスピーカーなど、音声を使った機器の使いやすさ(UX)を向上させるための自然な会話学習に最適です。

  • 感情変化検知AIによる“体験の質”評価: 話し声の高さ、間合い、感情の変化を分析することで、会話中の心理状態の変化や満足度を推定するAIの研究に利用できます。お客様体験の数値化や、接客トレーニングAIへの応用も期待されます。

  • 日本語LLM/マルチモーダル生成AIの会話学習: 音声とテキストがペアになった構造なので、大規模言語モデル(LLM)が音声を理解したり、日本語での対話生成能力を高めるのに活用できます。自然な日本語での会話を再現する生成AIや、ボイスチャットLLMの研究にも適しています。

Qlean Datasetの特長

Qlean Datasetが提供するデータセットには、以下の特長があります。

  • 研究開発から商用利用まで安心: データに含まれるすべての話者から、データ取得とAI開発での利用に関する同意を得ています。各国のプライバシー保護に関するルールにも対応しているため、研究だけでなく、ビジネスでの利用も安心して行えます。

  • 「AIデータレシピ」でスピーディーかつ効率的なデータ調達: Qlean Dataset独自の「AIデータレシピ」という形式でデータを提供することで、初期費用を抑えながら、必要なデータを素早く手に入れることができます。

  • 柔軟なデータ作成・構築: 「AIデータレシピ」にない、独自の要件を持つデータセットについても、Qlean Datasetの持つ専門知識と技術を活用し、個別のニーズに合わせてデータを作成・提供することが可能です。

AI開発を支えるデータパートナーを募集

Visual Bank株式会社は、AI開発をサポートするための様々なデータ提供体制を強化しています。音声、画像、動画、3Dといった各分野で、データを提供してくださるパートナーを広く募集しています。

Qlean Datasetは、信頼できるパートナーとの協力により、AI時代の知的財産保護とデータの価値を最大限に引き出すことを目指しています。研究機関、企業、クリエイターの皆様とともに、安全にデータを活用できる環境を築いていくことに力を入れています。

Visual Bank株式会社について

Visual Bank株式会社は、「あらゆるデータの可能性を解き放つ」をミッションに掲げ、AI開発力を最大化する新しいデータインフラを構築・提供するスタートアップ企業です。漫画家を支援するAI補助ツール「THE PEN」のほか、AI学習用データセット開発サービス「Qlean Dataset」を提供する株式会社アマナイメージズを100%子会社としています。

同社は国の研究開発プログラム「GENIAC」にも選ばれており、AI技術の社会への導入に向けた取り組みを加速させています。

タイトルとURLをコピーしました