Qlean Dataset、AI開発を助ける「日本語・1話者・レジャーテーマトーク音声コーパスとトランスクリプト」を提供開始

AIツール・サービス紹介

Visual Bank株式会社のAI学習用データソリューション「Qlean Dataset(キュリンデータセット)」が、新たに「日本語・1話者・レジャーテーマトーク音声コーパスとトランスクリプト」の提供を開始しました。

このデータセットは、AIが言葉を理解したり、音声を認識したりする能力を高めるための学習材料として作られています。AI開発の現場で、データ集めや準備にかかる手間を減らし、安心して使えるAI開発環境の構築を支援します。

Qlean Dataset 日本語・1話者 レジャーテーマトーク音声とトランスクリプトを提供開始

レジャーがテーマの一人語り音声データ

今回提供が始まったデータセットは、趣味や娯楽をテーマに、一人の話者が自然に語る日本語の音声と、その内容を文字に書き起こしたテキスト(トランスクリプト)で構成されています。例えば、テーマパークでの体験談、ドラマやゲームの感想などが含まれます。

このデータの特徴は、台本に沿わない自然な話し方で、話者自身の体験や感想、レビューなどが連続して語られている点です。評価する言葉も多く含まれているため、実際の人が話すような、よりリアルな言語データとしてAIに学習させることができます。

AI開発における多様な活用シーン

このデータセットは、音声とテキストの両面からAIの研究開発に役立てることができます。特に、長い音声を聞き取って文字にする「長文音声認識モデル」や、話の流れを理解する「自然言語処理モデル」の性能を確かめるのに適しています。

研究での活用例

  • 長文音声認識モデルの精度評価
    長い時間話された音声から、AIがどれだけ正確に聞き取れるかを評価できます。文脈のつながりによって起こる聞き間違いの傾向なども分析可能です。

  • 談話構造・語用論研究
    一人の話者が体験を振り返ったり、作品を評価したりする際に、話がどのように始まり、展開し、結論に至るのかといった構造や、感想や比較、注意喚起といった言葉の使われ方を言語学的に分析できます。

産業での活用例

  • 音声入力型アプリケーション向けAI開発
    音声で検索したり、メモを取ったり、レビューを入力したりするアプリの音声認識機能の開発に活用できます。

  • 自然言語処理モデルのファインチューニング
    レジャー体験や作品レビューのテキストを使って、体験内容の要点を抜き出したり、評価のポイントを整理したり、話題ごとに分類したりするAIモデルを、特定の目的に合わせて調整(ファインチューニング)するのに適しています。

  • 音声×テキスト連携AIの検証
    音声と書き起こしテキストがセットになっているため、音声入力された内容をテキストとして処理するAIの機能や精度を、音声とテキストの両方から確認・検証できます。

このデータセットのサンプルは、以下のリンクから詳細を確認できます。
https://qleandataset.visual-bank.co.jp/lineup/pn-006

Qlean Datasetについて

Qlean Datasetは、Visual Bank傘下の株式会社アマナイメージズが提供する、AI学習用のデータソリューションです。画像、動画、音声、3D、テキストなど、さまざまな形式のデータに対応しており、研究用にも商用にも安心して利用できる環境が整っています。

AIデータレシピ

株式会社千葉ロッテマリーンズや株式会社東洋経済新報社など、多くの企業と協力しながら、特定の業界に特化したデータや最新のトレンドに合わせたデータセット「AIデータレシピ」を増やし続けています。

Qlean Datasetは、著作権や肖像権などの権利処理が済んでいるため、法的なリスクを気にせずAI開発を進めることができます。

Qlean Datasetの強み

Qlean Datasetの主な特徴

  • すべての被写体から同意を取得済み

  • 既存のデータは最短1日で納品可能

  • 要望に応じたカスタム撮影・収録・収集による独自データの構築にも対応

Qlean Datasetの詳細については、以下のサイトをご覧ください。

Visual Bank株式会社について

Visual Bank株式会社は、「あらゆるデータの可能性を解き放つ」をミッションに掲げ、AI開発力を高めるための次世代型データインフラを構築・提供しているスタートアップ企業です。

同社は、漫画家をサポートするAI補助ツール『THE PEN』の提供や、AI学習用データセット開発サービス『Qlean Dataset』を提供する株式会社アマナイメージズを子会社に持ちます。また、国の研究開発プログラム「GENIAC」にも採択されており、AIの社会実装に向けた取り組みを加速させています。

タイトルとURLをコピーしました