Visual Bank株式会社が提供するAI学習用データソリューション「Qlean Dataset(キュリンデータセット)」は、この度、AIの学習に役立つ新しいデータセットの提供を開始しました。
それは「日本語・1話者・歴史テーマトーク音声コーパスデータセット」という、歴史をテーマにした一人語りの音声データです。このデータセットは、AIがより高度な学習をするための「教材」として、様々な分野でのAI開発に貢献することが期待されています。

歴史テーマの自然な一人語り音声データとは?
今回提供が始まったデータセットは、20代から50代の男女が、日本史、世界史、文化史といった歴史のテーマについて、台本なしで自然に語る様子を収録したものです。まるで歴史の先生が目の前で話しているかのような、生きた会話が特徴です。
合計で約150時間もの音声が収録されており、1つの音声ファイルも約5分から40分と長めなので、AIは話の文脈や話題の移り変わりまでしっかりと学ぶことができます。この音声データは、高音質のmp3形式(44.1kHz)で提供されます。詳しいサンプルは以下のリンクから確認できます。
どんなAI開発に役立つ?
この歴史テーマの音声データは、特に以下のようなAIの開発や評価に役立ちます。
研究分野での活用(大学などの研究機関)
-
長い音声のAI認識精度を高める
歴史の専門用語を含む長いお話でも、AIが正確に聞き取り、文字に変換する能力を向上させるための学習に使えます。 -
日本語の文章をAIが理解する研究
一人語りの中での説明の仕方や話題の転換をAIが学ぶことで、文章の要約や、特定の言葉を見つけ出す(固有表現抽出)、話の構造を分析する(談話解析)といった日本語の処理能力を高める研究に役立ちます。 -
音声から意味を理解するAIの研究
音声を聞いて文字にし、その内容をAIが理解して何かを生成する、という複数のステップを踏むAIモデルの研究に適しています。
産業分野での活用(企業)
-
AI音声認識エンジンの精度向上
教育コンテンツや専門知識を扱う分野で、AIが音声をより正確に認識できるようにするための学習データとして活用できます。 -
AIチャットボットの知識強化
歴史に関する説明を含むため、お客様からの質問に対して、AIが長く詳しく説明するチャットボットや音声対話AIの知識を増やす素材として使えます。 -
音声入力で動くAIの評価
音声から文字へ、そしてその内容をAIが推論する、という一連の処理がどれだけ正確に行われるかを検証するためのデータとして利用できます。
教育や社会での活用
- 教育支援AIの開発
歴史の授業や解説のような音声データをAIに学習させることで、教育向けのAI教材がもっと分かりやすい説明や要約を生成できるようになります。
Qlean Dataset(キュリンデータセット)について
「Qlean Dataset」は、Visual Bank株式会社の子会社である株式会社アマナイメージズが提供する、AI学習用のデータソリューションです。画像、動画、音声、3D、テキストなど、様々な形式のデータを取り扱っており、研究目的でも商業目的でも、安心して利用できる環境を整えています。


Qlean Datasetの大きな特徴は以下の通りです。
-
すべてのデータは同意を得て作成されている
収録された音声の提供者すべてから、データの利用について正式な同意を得ています。 -
データがすぐに手に入る
すでに用意されているデータなら、最短1日で受け取ることが可能です。 -
オリジナルのデータも作れる
必要なデータがリストにない場合でも、要望に応じて新しく撮影したり、収録したりしてデータを提供できます。


AI開発の現場では、データの収集や準備に多くの手間がかかりますが、Qlean Datasetは、法的な問題なく安全に使えるデータを提供することで、AI開発者の負担を減らし、より効率的な開発をサポートしています。
関連情報
-
Qlean Datasetサイト: https://qleandataset.visual-bank.co.jp/
-
Visual Bank株式会社 企業サイト: https://visual-bank.co.jp/
-
株式会社アマナイメージズ 企業サイト: https://amanaimages.com/about/

