イレブンラボの新しいAI文字起こし技術「Scribe v2 Realtime」とは?
AI音声技術の分野で世界をリードするイレブンラボが、画期的なリアルタイム文字起こしモデル「Scribe v2 Realtime」を日本で発表しました。この技術は、私たちが普段話す言葉を、まるで人が聞いているかのように素早く、そして正確にテキストに変換するものです。
日本語を含む90以上の言語に対応しており、特に日本語での認識精度は驚くほど高いとされています。公式のテストでは、日本語の単語の誤り率(WER)がわずか4.2%という結果が出ており、これは他の代表的なAIモデルであるGPT-4o(5.3%)やGemini 2.5 Flash(7.1%)よりも優れた性能です。これにより、より自然で間違いの少ない文字起こしが期待できます。

リアルタイム文字起こしの可能性を広げる機能
Scribe v2 Realtimeは、ただ文字に起こすだけでなく、さまざまな便利な機能を備えています。
驚きの速さと賢さ「ネガティブレイテンシー」
このモデルは、音声をすべて受け取ってから処理するのではなく、話している途中の細切れの音声も同時に処理します。これにより、150ミリ秒(0.15秒)未満という非常に短い時間で文字起こしが可能です。さらに、「ネガティブレイテンシー」という機能では、次に話されるであろう単語や句読点を予測して表示するため、まるで会話の先を読んでいるかのように、よりスムーズで自然な対話や即座の応答が実現します。
途切れない安定性「テキストコンディショニング」
インターネットの接続が悪くなった場合でも、Scribe v2 Realtimeは前回の会話の流れを覚えていて、途切れたところから文字起こしを再開できます。これにより、どんな状況でも安定して文字起こしを続けられるのが大きなメリットです。
その他の便利な機能
-
音声アクティビティ検出 (VAD): 音声がある部分とない部分を自動で判断し、音声を区切ってくれます。
-
カスタムボキャブラリー: 専門用語や固有名詞を事前に登録することで、その分野での認識精度をさらに高めることができます。
-
多様な音声フォーマット対応: さまざまな種類の音声データに対応しているので、幅広い用途で利用できます。
-
柔軟な制御: 文字起こしされた内容を確定するタイミングを、利用者が自由に決められます。
-
多言語対応: 日本語だけでなく、90以上の言語に対応しています。
企業も安心のセキュリティとコンプライアンス
イレブンラボは、このScribe v2 Realtimeが、SOC 2、ISO 27001、PCI DSS Level 1、HIPAA、GDPRといった世界的なセキュリティやプライバシーに関する厳しい基準にしっかり対応していることを発表しています。これにより、特にセキュリティが重視される日本国内の企業でも安心して利用できるでしょう。EUやインドでのデータ保管オプションも用意されており、企業のグローバルな事業展開をサポートします。
今すぐ利用可能
Scribe v2 Realtimeは、ElevenLabsのAPIを通じて、本日より利用可能です。開発者は、この新しい技術を既存のアプリケーションやサービスに組み込むことで、カスタマーサポート、セールス、製品紹介など、さまざまな場面で人間らしい対話型AIシステムを構築できます。
- ElevenLabs API ドキュメント: https://elevenlabs.io/docs/capabilities/speech-to-text
イレブンラボについて
イレブンラボは2022年に設立されたAI音声技術の会社で、企業、開発者、クリエイターなど、多くの人々に向けて最先端のAIオーディオツールを提供しています。現在、世界中で4000万人以上の個人ユーザーと、Fortune 500企業の75%以上を含む数千もの企業に利用されています。
-
イレブンラボ日本語サイト: https://elevenlabs.io/ja
-
イレブンラボX(旧ツイッター): https://x.com/ElevenlabsJapan
-
イレブンラボLinkedIn: https://www.linkedin.com/company/elevenlabs-japan/

