AIの学習に役立つ!児童書の朗読音声データセット「Qlean Dataset」が登場

AIツール・サービス紹介

Visual Bank株式会社傘下の株式会社アマナイメージズが提供するAI学習用データソリューション「Qlean Dataset(キュリンデータセット)」は、AI開発に役立つ新しいデータセットの提供を開始しました。

今回提供が始まったのは、「日本語・1話者・児童書・童話・絵本・昔話テーマの朗読音声コーパスとトランスクリプト」です。

Qlean Datasetが、日本語の児童書朗読音声とトランスクリプトの提供を開始したことを告知する画像です。男性が本を読む様子や、テディベアが絵本を読む様子が描かれています。

児童書の朗読音声でAIを賢くする

このデータセットは、自動音声認識(ASR)や自然言語処理(NLP)、大規模言語モデル(LLM)といった、音声や言葉を扱うAI(人工知能)の開発に役立つものです。

具体的には、子ども向けの物語(児童書、童話、絵本、昔話など)を、一人の日本人話者が朗読した音声と、その内容を正確に文字にした「トランスクリプト」がセットになっています。

朗読は、登場人物の気持ちや物語の展開が伝わるように、自然な抑揚や間の取り方を意識して収録されています。一人の話者が長時間にわたって朗読しているため、特定の話し方をする人の音声を認識するAIのテストや、物語のような長い文章を理解するAIの学習や評価にとても便利です。

音声と文字がきちんと結びついているので、音声認識のAIを学習させるだけでなく、音声とテキストの両方を合わせて処理する「マルチモーダルAI」の研究にも活用できます。

データセットの概要

データ種別 音声、テキスト
被写体属性 日本人
データ形式 音声データ:mp3
収録時間 1音声30秒〜120分
音声レート 44.1kHz / 48kHz
対象のシーン ・子ども向け物語を一人の話者が朗読するシーン
・登場人物や物語展開をわかりやすく伝える読み上げシーン

サンプル詳細はこちらから確認できます。
https://qleandataset.visual-bank.co.jp/lineup/pn-043

どんなAI開発に使えるの?

このデータセットは、様々なAI開発に活用が期待されます。

研究用途での活用例

  • 音声認識AIの精度テスト: 児童書の朗読音声を使って、AIが物語の読み上げをどれだけ正確に文字にできるかを評価できます。一人の話者なので、話し方ではなく、言葉の内容や文の構造による認識ミスを分析しやすいでしょう。

  • 長い文章を理解するAIの検証: 物語のような連続した長い文章を使って、AIが物語の流れや登場人物の関係性をどれだけ理解できるかをテストできます。

産業用途での活用例

  • 読み上げAIやナレーションAIの評価: 子ども向けコンテンツで使われるような、自然で物語性のある読み上げAIが、どれだけ上手に表現できるかを確認するための評価データとして使えます。

  • 音声で動く対話型AIの基礎研究: 朗読音声と文字データを使って、音声入力から始まる会話や応答のAI、または音声とテキストを組み合わせたAIの基本的な仕組みを検証するのに役立ちます。

Qlean Datasetについて

「Qlean Dataset」は、Visual Bank傘下の株式会社アマナイメージズが提供する、AI学習に使えるデータのソリューションです。

「Qlean Dataset」の「AIデータレシピ」ページで、AI開発向けの機械学習データセットが多数紹介されています。

画像、動画、音声、3D、テキストなど、さまざまな種類のデータに対応しており、研究目的でも商用目的でも安心して利用できる環境が整っています。

あらゆる研究・商業AI開発に対応する「AIデータレシピ」というオリジナルデータラインナップを紹介するスライドです。

千葉ロッテマリーンズや東洋経済新報社といったパートナー企業との協力により、特定の業界に特化したデータや最新トレンドに合わせたデータ「AIデータレシピ」も充実させています。

Qlean Datasetは、AI開発に必要な学習データ、アノテーション付きデータ、キャプションデータなどを提供するサービスです。

Qlean Datasetは、AI開発の現場でデータ集めや準備にかかる手間を減らし、著作権などの法的リスクのないAI開発環境を作る手助けをしています。

Qlean Datasetサイトはこちらです。
https://qleandataset.visual-bank.co.jp/

AIデータレシピについてはこちらをご覧ください。
https://qleandataset.visual-bank.co.jp/lineup

Qlean Datasetの特長

Qlean Datasetの強みを示すスライドです。

  • すべての被写体から同意取得: 安心して利用できます。

  • 既存データは最短1日で納品可能: 迅速にデータを入手できます。

  • カスタム撮影・収録・収集による独自データ構築にも対応: 必要に応じたデータも用意できます。

お問い合わせはこちらです。
https://qleandataset.visual-bank.co.jp/contact

Visual Bank株式会社は、AI開発力を高めるための次世代データ基盤を構築・提供するスタートアップ企業です。漫画家をサポートするAI補助ツール「THE PEN」や、AI学習用データセット開発サービス「Qlean Dataset」を提供する株式会社アマナイメージズを子会社に持っています。

Visual Bank企業URL:
https://visual-bank.co.jp/

アマナイメージズ企業URL:
https://amanaimages.com/about/

タイトルとURLをコピーしました