AI音声技術の分野で世界をリードするイレブンラボは、この度、最新の音声認識(STT)モデル「Scribe V2」を発表しました。

Scribe V2は、特に字幕やキャプションの作成、そして会議や取材、コールログといった長い音声データの文字起こし(バッチ処理)に特化して作られた次世代モデルです。この新しいモデルは、たとえ長時間にわたる複雑な音声であっても、その精度と安定性をしっかりと保ち、実用的な「編集できるテキスト」を一貫して提供することを目指しています。
これにより、世界中の膨大な音声データが、単なる記録としてではなく、検索したり編集したり、色々な形で活用できる「大切な資産」へと変わっていくことが期待されます。イレブンラボは、言葉の壁や音声処理にかかる手間をなくし、クリエイティブな活動や素早い意思決定を後押しする未来を目指しています。
Scribe V2が解決する課題:大規模運用の「精度」と「手戻り」
音声の文字起こしでは、ほんの少し精度が低いだけでも、後からテキストを修正したり確認したりする手間が大きく増えてしまいます。特に、以下のような状況では、手直しが頻繁に発生しやすく、業務をスムーズに進める上での障害となっていました。
-
長い時間の音声(会議、取材、講義、コールセンターの記録など)
-
話す人が多かったり、話すスピードや声の調子が変わったり、沈黙が長かったりする音声
-
特別な名前や専門用語がたくさん含まれる音声
-
個人情報(氏名、住所など)やクレジットカード情報といった、特に注意が必要な情報の確認や隠す作業が必要な音声
Scribe V2は、このような「実際の音声の状況」をしっかりと考え、長い時間の録音でも安定した精度を保てるように設計されています。「精度が低いせいで、結局人が全部書き直す」という非効率な状況を変え、AIと人が協力して作業するのを本当に役立つレベルにまで引き上げてくれます。
Scribe V2の主な特長
1. 業界最高水準の精度:日本語を含む多言語で「単語誤り率(WER)」が低い
Scribe V2は、業界の標準的なテストで、単語の誤り率(WER)が非常に低いという結果を出しました。特に日本語のモデルでも、他の主要なモデルよりも高い認識精度を実証しています。これにより、字幕やキャプション、記録を作る際に「手直しを大幅に減らせる文字起こし」が実現します。

2. Keyterm Prompting:固有名詞・専門用語を「文脈で」正しく認識(最大100語句)
従来のカスタム辞書とは異なり、Scribe V2には、音声の文脈に合わせて指定した単語やフレーズを正しく文字起こしする「Keyterm Prompting」という機能が搭載されています。最大100個の単語やフレーズを指定できるため、会社特有の用語、製品名、日本ならではの人名、医療・法律・技術の専門用語が多い分野でも、文字起こしの精度をさらに高めることができます。

3. Entity Detection:情報の安全を守る「自動検知・タグ付け」機能(最大56カテゴリ)
この機能は、「誰が、いつ、何を話したか」を判別するだけでなく、音声の中に含まれる大切な情報をAIが自動で見つけ出してくれます。氏名や住所などの個人情報(PII)、クレジットカードのような決済情報、病歴などの医療データといった、最大56種類のカテゴリを自動で検知し、該当する部分を隠したり(音を消す、伏せ字にする)、正確な時間情報(タイムスタンプ)を付けたりすることができます。
これにより、内容の確認、情報のマスキング、監査への対応といった作業が効率化され、運用にかかる負担を減らすことができます。

4. 自動マルチ言語文字起こし:同じファイル内の言語が混ざっていても自動で判別
Scribe V2は、90以上の言語に対応しています。例えば、日本語の会議中に突然英語でのプレゼンテーションが始まるなど、一つの音声ファイルの中で言語が切り替わるような場合でも、事前に設定したり手動で分割したりすることなく、AIが自動で言語を判別して文字起こしを行います。
5. プロダクション運用に必要な機能を標準搭載
字幕やキャプションの作成、そして大規模な運用に必要な機能が標準で備わっています。
-
話者分離(Speaker diarization):話者ごとに整理された文字起こしを提供します。
-
単語レベルのタイムスタンプ:字幕の同期や、よりインタラクティブな体験を作るのに活用できます。
-
音イベントタグ(Dynamic audio tagging):笑い声、拍手、足音など、発話以外の音も検出してタグ付けします。
Scribe V2とScribe V2 Realtime:用途に応じた最適な選択
イレブンラボは、用途に合わせて最適な文字起こし体験を選べるように、2つのモデルを提供しています。
-
Scribe V2:長い時間や複雑な録音、字幕・キャプションの作成、そして一度に大量のデータを処理する大規模な運用に最適です。
-
Scribe V2 Realtime:非常に短い遅延で処理する必要がある会話やライブでの利用(会議のリアルタイム議事録、AIエージェントなど)に最適です。
想定されるユースケース
Scribe V2は、単なる文字起こしツールにとどまらず、企業の仕事の進め方そのものを進化させることが期待されます。
-
録音された音声の一括文字起こし(会議、取材、コールセンターなど)
-
機密性の高い情報の取り扱い(医療・法務の記録など)
-
字幕・キャプションの作成(メディアやエンターテイメント業界での動画配信、放送、研修コンテンツ、SNSショート動画など)
-
講義・ウェビナー・国際会議などでの文字起こしと検索性の向上
-
多言語コンテンツの作成・ローカライズ支援(混在する言語の自動判別や字幕など)
エンタープライズ向けの信頼性:セキュリティとコンプライアンス
イレブンラボは、セキュリティと法律順守を重視する企業でも安心してScribe V2を導入できるよう、SOC 2、ISO 27001、PCI DSS Level 1、HIPAA、GDPRなどの様々な国際的な要件に対応しています。また、データの保管場所の選択(データレジデンシー)や、データを保存しないモード(ゼロリテンションモード)など、企業の運用方針に合わせた柔軟な選択肢を提供しています。
提供開始
Scribe V2は本日より、イレブンラボのAPIおよびプロダクト(Speech to Text / Studioなど)を通じて利用可能です。
関連リンク
-
Introducing Scribe v2(公式ブログ)
https://elevenlabs.io/blog/introducing-scribe-v2 -
Speech to Text(プロダクトページ)
https://elevenlabs.io/speech-to-text -
Speech to Text API(ドキュメント)
https://elevenlabs.io/docs/overview/capabilities/speech-to-text

