AIが日本語を理解する!Qlean Datasetが「朗読音声データ」の提供を開始

AIツール・サービス紹介

AI(人工知能)が私たちの言葉を理解するためには、たくさんの「言葉のデータ」が必要です。この度、Visual Bank株式会社のAI学習用データソリューション「Qlean Dataset(キュリンデータセット)」が、AI開発を助ける新しい日本語音声データの提供を開始しました。

Qlean Dataset 日本語・1話者 台本の朗読音声とトランスクリプトを提供開始

AIの耳と口を育てる新しいデータ

今回提供が始まったのは、「日本語・1話者・台本朗読音声コーパスとトランスクリプト」というデータセットです。これは、日本人の男性が台本を読み上げた音声と、その読み上げ内容を文字に起こしたテキストがセットになっています。AIが人間の言葉を正確に聞き取り、理解する(自動音声認識:ASR)ためや、人間のように自然な文章を生成する(大規模言語モデル:LLM)ための学習に役立つデータです。

このデータの特徴は、事前に用意された台本を読み上げているため、言い直しや話題が逸れることが少なく、音声とテキストがぴったりと一致している点です。これにより、AIが音声と文字の関係を正確に学ぶことができ、より賢いAIの開発につながります。

どんなAI開発に役立つ?

この新しいデータセットは、さまざまなAI開発シーンで活用が期待されています。

研究での活用

  • 日本語ASRモデルの基礎評価: AIが日本語の音声をどれだけ正確に文字にできるか、その基本的な性能を評価するのに使えます。音声とテキストが明確なので、AIがどこで間違えやすいかなども分かりやすくなります。

お仕事での活用

  • 音声入力を含むAIシステムの検証: 音声で指示を出すAIアシスタントや、音声からテキストに変換するシステムなど、音声を使ったAIの動きを試したり、改善したりするのに役立ちます。正確な日本語音声とテキストの組み合わせがあるので、安心して検証を進められます。

その他、教育や評価にも

  • AI学習・評価用データ: 音声認識の仕組みを学ぶための教材として使ったり、すでに動いているAIの性能を確認したり、違うAI同士を比較したりする際の評価データとしても活用できます。

Qlean Datasetについて

Qlean Datasetは、Visual Bank株式会社の子会社である株式会社アマナイメージズが提供する、AI学習用のデータソリューションです。画像、動画、音声、3D、テキストなど、さまざまな種類のデータを取り扱っており、研究目的だけでなく、企業での商用利用にも対応しています。

Qlean DatasetのAIデータレシピ

Qlean Datasetの「AIデータレシピ」というデータラインナップには、業界に特化したデータや最新のトレンドを取り入れたデータが豊富に揃っています。すべてのデータは権利処理がきちんとされているため、安心してAI開発に利用できます。

Qlean Datasetのウェブサイトはこちらです: https://qleandataset.visual-bank.co.jp/
AIデータレシピの詳細は以下をご覧ください: https://qleandataset.visual-bank.co.jp/lineup

Visual Bank株式会社について

Visual Bank株式会社は、「あらゆるデータの可能性を解き放つ」をミッションに掲げ、AI開発力を高めるためのデータインフラを提供している企業です。漫画家をサポートするAI補助ツール「THE PEN」や、AI学習用データセット開発サービス「Qlean Dataset」を提供する株式会社アマナイメージズを子会社に持っています。また、国の研究開発プログラム「GENIAC」にも採択されるなど、社会に役立つAI技術の実現に向けて積極的に活動しています。

Visual Bank株式会社の企業情報はこちらです: https://visual-bank.co.jp/
株式会社アマナイメージズの企業情報はこちらです: https://amanaimages.com/about/

タイトルとURLをコピーしました