AI開発を加速!音楽テーマの一人語り日本語音声データセット「Qlean Dataset」が提供開始

AIツール・サービス紹介

AI(人工知能)技術の進化は目覚ましく、私たちの生活に欠かせないものになりつつあります。そのAIを賢くするためには、質の高い「データ」がとても重要です。

Visual Bank株式会社の子会社である株式会社アマナイメージズが展開するAI学習用データソリューション「Qlean Dataset(キュリンデータセット)」は、2026年1月28日より、新しいデータセットの提供を開始しました。

Qlean Datasetが日本語・1話者・音楽テーマトーク音声とトランスクリプトの提供を開始したことを伝える画像

新しいデータセット「日本語・1話者・音楽テーマトーク音声コーパスとトランスクリプト」とは?

今回提供が始まったのは、「日本語・1話者・音楽テーマトーク音声コーパスとトランスクリプト」というデータセットです。これは、AIが人の声を文字にしたり(ASR:自動音声認識)、言葉の意味を理解したり(NLP:自然言語処理)、長い文章を生成したりする(LLM:大規模言語モデル)といった、音声や言葉に関するAIの開発を助けるためのものです。

このデータセットには、日本人の話者が一人で、音楽やアーティスト、楽曲、自身の音楽体験など、音楽に関する様々なテーマについて語る日本語の音声と、その音声の内容を正確に書き起こしたテキスト(トランスクリプト)が収録されています。

特長として、台本に厳密に縛られず、話者が自分の言葉で自然に話す形式で収録されています。そのため、説明するような語り口や、文脈が続く長い発話、様々な言葉の使われ方など、より自然な話し言葉のデータとして利用できます。これは、AIが長い音声を聞き取ったり、複雑な言葉のニュアンスを理解したりする能力を高める研究や開発に役立つでしょう。

データセットの概要

データ種別 音声、テキスト
被写体属性 日本人、20代〜50代の男女
データ形式 音声データ:mp3,wav テキストデータ:txt,json,csv
収録時間 計約210時間(1音声約5分〜60分)
音声レート 44.1kHz / 48kHz
対象のシーン 話者が音楽や音楽に関連するテーマについて連続的に説明・解説するシーン

サンプル詳細はこちらで確認できます。
https://qleandataset.visual-bank.co.jp/lineup/pn-012

このデータセットが役立つ具体的な例(ユースケース)

このデータセットは、AI開発の様々な場面で活用が期待されています。

研究用途(大学などの研究機関)

  • 特定の言葉を含む日本語音声認識モデルの評価
    音楽や漫画、映画といった文化的な分野には、独特の固有名詞や作品名が多く登場します。このデータセットを使うことで、AIがそうした言葉を含む一人語りの長い音声を、どれだけ正確に認識できるかを確認できます。

産業用途(企業での開発)

  • レビューや解説型の音声コンテンツ向け言語理解モデルの評価
    個人の視点で語られる音楽レビューやアーティスト解説のような音声コンテンツをAIが認識した後、そのテキストから要点を見つけ出したり、内容を要約したりする能力を評価するのに役立ちます。

  • 音声入力型のレコメンド・検索機能の評価
    AIが音声の中から作品名や人物名、評価の言葉を読み取り、関連するコンテンツをおすすめしたり、検索したりする機能の開発・評価に活用できます。

その他実需要

  • 文化系音声コンテンツの字幕生成・要約評価
    映画や漫画、音楽に関する解説音声から字幕を自動で作ったり、概要文を生成したりするAIの評価に利用できます。教育や情報提供の分野での音声処理機能の向上に繋がるでしょう。

「Qlean Dataset」とは?

「Qlean Dataset」は、Visual Bankの子会社である株式会社アマナイメージズが提供する、商用利用も可能なAI学習用データソリューションです。

Qlean DatasetのAIデータレシピ紹介ページ

画像、動画、音声、3D、テキストなど、様々な形式のデータを扱っており、研究目的でもビジネス目的でも安心して使える環境を整えています。

あらゆるAI開発に対応するオリジナルデータラインナップ「AIデータレシピ」を紹介するスライド

千葉ロッテマリーンズや株式会社東洋経済新報社といった様々なデータパートナーと協力し、業界に特化した最新のデータセット「AIデータレシピ」を継続的に増やしています。

Qlean Datasetは、AI開発に必要なあらゆる種類のデータセットを提供するサービスです。

Qlean Datasetは、AI開発現場でのデータ集めや準備にかかる手間を減らし、著作権などの権利がクリアで法的なリスクのないAI開発環境作りを支援しています。

Qlean Datasetの主な強みを紹介するプレゼンテーションスライド

Visual Bank株式会社について

Visual Bank株式会社は、「あらゆるデータの可能性を解き放つ」をミッションに掲げ、AI開発力を高める次世代のデータ基盤を構築・提供するスタートアップ企業です。

漫画家をサポートするAI補助ツール「THE PEN」の提供や、AI学習用データセット開発サービス「Qlean Dataset」を提供する株式会社アマナイメージズを100%子会社としています。

また、Visual Bankは国の研究開発プログラム「GENIAC」にも採択されており、社会でAIを活用するための取り組みを積極的に進めています。

まとめ

今回の新しいデータセットの提供は、AIがより人間らしい言葉の理解や生成を学ぶための貴重な一歩となるでしょう。特に音楽という豊かなテーマで集められたデータは、AIが文化的なニュアンスを捉える能力を高め、エンターテイメント分野でのAI活用をさらに広げる可能性を秘めています。AI開発に興味のある方や、最新のAI技術をビジネスに活かしたい企業にとって、Qlean Datasetの提供するデータは大きな力となるはずです。

タイトルとURLをコピーしました