Rechoの音声AIが世界最高水準を達成!文字誤り率1%以下の高性能で何が変わる?

AI

Rechoの音声AI、グローバル最高水準達成

株式会社Recho(レコー)は、独自の音声AI技術が世界中でトップクラスの性能を達成したことを発表しました。これは、文字から音声を生成する「音声合成(TTS)」と、音声を聞き取って文字にする「音声認識(ASR)」の両方で高い評価を得たものです。これにより、Rechoの技術が世界の有名プロダクトと肩を並べる、あるいはそれ以上のレベルにあることが証明されました。

音声合成(TTS)と音声認識(ASR)とは?

AI初心者の方のために、まずはこの二つの技術について簡単に説明します。

音声合成(TTS:Text-to-Speech)とは、私たちが書いた文字の情報を、まるで人間が話しているかのような自然な音声に変換する技術です。昔のロボットのような声ではなく、最近ではとても滑らかで聞き取りやすい声が作れるようになっています。

音声認識(ASR:Automatic Speech Recognition)とは、人間が話した声をAIが聞き取り、それを文字の情報に変換する技術です。例えば、スマートフォンの音声入力機能などが身近な例です。

Rechoの技術のすごさ

Rechoが開発した音声合成・音声認識モデルは、特に「文字誤り率(CER)」という指標で1%以下という非常に低い数値を達成しました。これは、AIが文字を読み上げたり、音声を聞き取って文字にしたりする際に、間違える確率がほとんどないことを意味します。専門用語や固有名詞など、少しの間違いも許されない場面で、この高い精度が役立ちます。

さらに、音声合成では「合成成功率(SSR)」というRecho独自の指標でも高いスコアを記録しています。これは、合成された音声がテキスト通りに正しく、かつ人間が聞いても不自然ではないと判断された割合を示すものです。

応答速度も非常に優れており、短い文章でも長い文章でも、業界トップレベルの速さで処理できることが確認されています。

TTSモデル性能比較

TTSモデル性能比較図

ASRモデル性能比較

ASRモデル性能比較図

人間のような対話を実現する「Voice Agent」

Rechoは、この高性能な音声合成・音声認識技術を活かして、「Voice Agent」という音声AIプロダクトを提供しています。従来の電話対応システム(IVRやVoice Bot)は、簡単な質問にしか答えられず、問い合わせる側に負担をかけることがありました。

しかし、「Voice Agent」は、人間と話しているかのような自然な会話を実現し、問い合わせる人の負担を減らします。文脈を理解して適切な案内をしたり、複雑な問い合わせ内容を解決したりできるため、コールセンターなどで深刻化している人手不足の解消に大きく貢献することが期待されています。

今後の展開

Rechoの技術は、すでに研究段階から実用段階へと進んでおり、金融機関や大手プラットフォーム企業など、高い品質が求められる顧客への導入が進んでいます。日本で生まれたこの技術が、世界中で通用することが今回の結果で示されました。

Rechoは、日本語特有の「間」や「敬語表現」、業界ごとの専門用語といった細かい部分にまでこだわり、妥協のない開発を続けています。これにより、業界トップレベルの品質を保ちながら、より多くの企業への導入を進めていく方針です。

Rechoの取締役である白 寧杰氏は、「お客様が許容できない細部にこそ、本質的な課題があると考え、その解決に集中した結果が、今回の数字に表れています。Rechoは、日本からでもグローバル市場で勝負できることを証明し続けます」とコメントしています。

Rechoの採用情報

Rechoでは、世界水準の音声AI技術開発を共に推進するエンジニアを募集しています。基盤モデルの研究開発から、企業への導入まで、音声AIの未来を創造する仲間を求めています。

求人一覧: https://herp.careers/v1/recho

関連リンク

Recho公式サイト: https://recho-ai.com/

タイトルとURLをコピーしました