AIの音声認識・合成技術を強化！Qlean Datasetが「海外文学の朗読音声とテキストデータ」の提供を開始

AI学習に役立つ新しいデータセットが登場
1. なぜ海外文学のデータがAI学習に良いの？
2. このデータセットでAIは何ができるようになるの？
『Qlean Dataset』について
Visual Bank株式会社について

AI学習に役立つ新しいデータセットが登場

AI（人工知能）の技術は日々進化しており、私たちの生活のさまざまな場面で活用されています。特に、AIが人間の言葉を理解したり、人間のように話したりする技術は、より自然で便利なAIサービスを作る上でとても重要です。

Visual Bank株式会社が提供するAI学習用データソリューション「Qlean Dataset（キュリンデータセット）」は、このAI技術をさらに発展させるための新しいデータセットの提供を開始しました。

今回提供されるのは、「海外文学の朗読音声とトランスクリプト」というデータセットです。これは、海外の文学作品を日本語に翻訳した文章を、一人の日本人話者が落ち着いた声で朗読した音声と、その音声にぴったりの正確なテキストデータ（トランスクリプト）がセットになっています。

なぜ海外文学のデータがAI学習に良いの？

このデータセットの特徴は、普段の会話とは違う、文学作品ならではの「書き言葉」で構成されている点です。格調高い表現や、少し複雑な文章のつながり（修飾関係）が多く含まれているため、AIがより高度な日本語を理解し、表現する能力を身につけるのに役立ちます。

データセットの概要

データ種別: 音声、テキスト
被写体属性: 日本人
データ形式: 音声データ：mp3
収録時間: 1音声30秒〜90分
音声レート: 44.1kHz / 48kHz
対象のシーン: 海外文学作品の文章を日本語訳文として朗読するシーン

サンプル詳細はこちらで確認できます。
https://qleandataset.visual-bank.co.jp/lineup/pn-040

このデータセットでAIは何ができるようになるの？

この新しいデータセットは、さまざまなAI技術の開発に活用されることが期待されています。

AIが人の声をより正確に聞き取る（音声認識モデルの向上）
長い文章や複雑な表現が含まれる文学作品の音声をAIに学習させることで、AIが前後の文脈を理解し、より正確に文字に変換できるようになります。例えば、会議の議事録作成や、動画の字幕生成の精度が上がることが期待されます。
AIがより自然な声で話す（音声合成エンジンの開発）
オーディオブックのように、物語の情景が伝わるような表現力豊かなナレーションをAIが生成できるようになります。ニュース記事の自動読み上げサービスなどでも、より聞き取りやすく、感情を抑えつつも表現豊かな声が実現するでしょう。
日本語を学ぶAIや、読み上げ支援AI
正しい日本語の発音データとして活用することで、日本語を学ぶ外国人の方の発音をAIが評価したり、視覚に障がいを持つ方々が本を読む際に、自然で疲れにくい声で読み上げてくれるAIの開発にもつながります。
高度な文章を理解するAI（LLMのファインチューニング）
論理的な構造を持つ文学作品の音声とテキストをAIに学習させることで、文章の要約や文学的な表現の翻訳能力が高いAI（大規模言語モデル、LLM）を開発するのにも役立ちます。

『Qlean Dataset』について

「Qlean Dataset」は、AI開発に必要な学習データを幅広く提供するソリューションです。画像、動画、音声、3D、テキストなど、さまざまな形式のデータを取り扱っており、研究から商用利用まで、安心して使えるデータを提供しています。

「AIデータレシピ」というオリジナルのデータラインナップを通じて、業界に特化したデータや最新のトレンドに合わせたデータを継続的に増やしています。これにより、AI開発現場でのデータ集めや準備にかかる手間を減らし、安心してAI開発に取り組める環境をサポートしています。

Qlean Datasetサイト：https://qleandataset.visual-bank.co.jp/
AIデータレシピ：https://qleandataset.visual-bank.co.jp/lineup
お問い合わせ：https://qleandataset.visual-bank.co.jp/contact

Visual Bank株式会社について

Qlean Datasetを提供するVisual Bank株式会社は、「あらゆるデータの可能性を解き放つ」をミッションに掲げ、AI開発力を最大化するデータインフラを提供するスタートアップ企業です。漫画家をサポートするAI補助ツール『THE PEN』や、AI学習用データセット開発サービス『Qlean Dataset』を提供する株式会社アマナイメージズを100%子会社としています。

Visual Bankは、国の研究開発プログラム「GENIAC」にも採択されており、社会に役立つAI技術の実用化に向けて積極的に取り組んでいます。

Visual Bank企業URL：https://visual-bank.co.jp/
アマナイメージズ企業URL：https://amanaimages.com/about/

Cookie	期間	説明
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.