AIの「耳」と「言葉」を育てる!Qlean Datasetが日本語音声データを提供開始

AIツール・サービス紹介

Visual Bank株式会社の傘下である株式会社アマナイメージズは、AI学習用データソリューション「Qlean Dataset(キュリンデータセット)」を通じて、AIが言葉を扱う能力を高めるための新しい日本語データセットの提供を開始しました。

AIの「耳」と「言葉」を育てる新しいデータセット

今回提供が始まったのは、「日本語・1話者・台本朗読音声コーパスとトランスクリプト」というデータセットです。これは、AIが人の話す言葉を正確に聞き取り、理解するために役立つ特別な学習データです。

具体的には、日本人の男性が事前に用意された台本を読み上げた音声と、その音声の内容を文字に起こした(トランスクリプト)テキストがセットになっています。台本を読んでいるため、普段の会話でよくある「言い直し」や「話がそれる」といったことが少なく、音声とテキストがぴったり一致しているのが特徴です。

AIデータレシピのウェブサイト画面

どんなAI開発に役立つ?

このデータセットは、主に次のようなAIの開発や評価に役立ちます。

  • 自動音声認識(ASR)モデルの基礎評価: AIが人の声をテキストに変換する「音声認識」の精度をチェックしたり、どんな間違いをしやすいかを確認したりするのに使えます。

  • 音声入力を含む大規模言語モデル(LLM)や音声言語処理の検証: 音声で指示すると文章を生成するAI(LLM)など、音声を使ったAIシステムが正しく動くか試す際に、正確な音声とテキストのペアデータとして利用できます。

  • 音声言語処理システムの学習・評価: 音声認識の仕組みを学ぶ教育現場や、既存のAIモデルの動作を確認したり、他のモデルと性能を比較したりする評価用のデータとしても活用できます。

AIデータレシピのデータラインナップ

Qlean Datasetについて

Qlean Datasetは、Visual Bankのグループ会社である株式会社アマナイメージズが提供する、AI学習用のデータソリューションです。画像、動画、音声、3D、テキストといった様々な種類のデータを取り扱っており、研究目的だけでなく、ビジネスでAIを開発する際にも安心して使えるよう、権利処理をしっかり行っています。

データ収集や準備にかかる手間を減らし、著作権などの法的リスクを心配せずにAI開発を進められる環境を提供することで、AI開発現場を支援しています。

Qlean Datasetの提供価値

Qlean Datasetの強み

Qlean Datasetの主な強みは以下の通りです。

  1. 安価かつスピーディーなデータ提供: 必要なデータを早く、手頃な価格で手に入れることができます。
  2. 多様なデータ形式や構成にカスタマイズ: 画像、動画、音声、3D、テキストなど、AI開発の目的に合わせて様々な形式のデータを柔軟に調整できます。
  3. 「AIデータレシピ」にないデータも拡充: もし既存のデータセットにない特殊なデータが必要な場合でも、要望に応じて準備・提供してもらえます。
  4. 権利処理済みで商用利用も安心: 著作権や肖像権などの権利がクリアになっているため、研究からビジネスまで、安心して利用できます。

Qlean Datasetの強み

関連リンク

タイトルとURLをコピーしました