Qlean Datasetが「日本語・1話者・怪談系テーマの朗読音声コーパスとトランスクリプト」の提供を開始
AI(人工知能)の開発をサポートする「Qlean Dataset(キュリンデータセット)」が、新たに「日本語・1話者・怪談系テーマの朗読音声コーパスとトランスクリプト」の提供を開始しました。
このデータセットは、自動音声認識(ASR)や音声理解、大規模言語モデル(LLM)など、音声や言葉を扱うAIの研究や開発に役立つものです。

怪談朗読データがAI開発に貢献する理由
今回提供が始まったデータセットは、怪談や怖い話といった物語性のある日本語のテキストを、一人の日本人話者が朗読した音声と、その内容を正確に文字に書き起こした「トランスクリプト」で構成されています。
「音声コーパス」とは、AIが学習するために使う大量の音声データの集まりのことです。そして「トランスクリプト」は、その音声で話されている内容を文字にしたものです。
この怪談朗読音声の大きな特徴は、物語が進むにつれて不安や緊張といった感情が自然に表現されている点です。ただ読み上げるだけでなく、感情のこもった話し方が収録されています。怪談というテーマの性質上、声の抑揚(声の上げ下げ)や話す間(ま)、トーンの変化が物語の文脈と深く結びついています。
これにより、短い言葉だけでなく、長い文章全体の意味を理解するAIや、言葉のモデルを学習させるのに非常に適しています。また、一人の話者が朗読しているため、複数の人の声を区別する必要がないAIモデルの検証や、話す条件を固定して音声や言葉の動きを分析するのにも便利です。
データセットの概要
| データ種別 | 音声、テキスト |
|---|---|
| 被写体属性 | 日本人 |
| データ形式 | 音声データ:mp3 |
| 収録時間 | 1音声30秒〜90分 |
| 音声レート | 44.1kHz / 48kHz |
| 対象のシーン | ・怪談やホラー作品の文章を、一人の話者が感情を込めて朗読するシーン ・不安感や緊張感を伴う語り口で物語が進行する朗読シーン |
サンプル詳細はこちらで確認できます。
https://qleandataset.visual-bank.co.jp/lineup/pn-039
どのようなAIに活用できるのか?
このデータセットは、研究と産業の両方の分野で様々なAI開発に活用が期待されます。
研究用途
-
長い音声入力の音声認識・音声理解モデルの評価: 長い怪談朗読の音声を使って、AIが長い会話や物語をどれだけ正確に認識し、間違いやすい部分がないかを検証できます。
-
音声入力からの言語モデルの文脈理解検証: 音声認識した結果をLLMなどのAIに入力し、物語の文脈や内容をどれだけ正確に理解できるかを評価するのに使えます。
産業用途
-
音声対話AI・ナレーション生成AIの検証データ: 怪談朗読に含まれる感情豊かな声の表現を利用して、AIが人の話し方をどれだけ理解できるか、また自然なナレーションを生成できるかを検証できます。
-
コールセンター・音声UI向け音声処理モデルの事前検証: 感情を含む連続した話し声を使って、コールセンターのAIや音声で操作するシステムが、実際の状況でどれだけ安定して認識し、誤作動を起こさないかを事前にテストできます。
『Qlean Dataset』について
『Qlean Dataset』は、Visual Bank株式会社の子会社である株式会社アマナイメージズが提供する、AI学習用のデータソリューションです。このサービスは、研究目的から実際のビジネスでの利用まで、安心して使えるAI学習データを提供しています。
画像、動画、音声、3D、テキストなど、さまざまな種類のデータに対応しており、データの権利関係や利用条件がきちんと整理されているため、法的なリスクを心配せずにAI開発を進めることができます。また、「AIデータレシピ」という独自のデータラインナップを継続的に増やしており、AI開発現場でのデータ収集や準備にかかる手間を減らすことを目指しています。
Qlean Datasetサイト: https://qleandataset.visual-bank.co.jp/
AIデータレシピ: https://qleandataset.visual-bank.co.jp/lineup

『Qlean Dataset』の強み
Qlean Datasetが提供するAI学習用データ『AIデータレシピ』には、以下の特徴があります。
-
すべての被写体から同意取得: 収録されている人物など、すべての被写体から事前に同意を得ています。
-
既存データは最短1日で納品可能: 必要なデータを迅速に手に入れることができます。
-
カスタム撮影・収録・収集による独自データ構築にも対応: もし既存のデータで足りない場合は、お客様の要望に合わせて新しいデータを準備することも可能です。

お問い合せ: https://qleandataset.visual-bank.co.jp/contact
Visual Bank株式会社について
Visual Bank株式会社は、「あらゆるデータの可能性を解き放つ」をミッションに掲げ、AI開発力を高めるための次世代データインフラを提供しているスタートアップ企業です。同社は、国の研究開発プログラム「GENIAC」にも採択されており、社会実装に向けた取り組みを加速させています。
Visual Bank企業URL: https://visual-bank.co.jp/
アマナイメージズ企業URL: https://amanaimages.com/about/
この新しいデータセットは、感情豊かな音声表現を理解するAIや、より人間らしい対話ができるAIの開発に向けて、大きな一歩となるでしょう。

