Rechoが独自に開発した音声合成(TTS)と音声認識(ASR)のAIモデルが、世界トップクラスの性能を達成したと発表しました。これにより、Rechoの技術が世界的なプロダクトと同等、あるいはそれ以上の高い水準にあることが客観的に証明された形です。

Rechoの「Voice Agent」とは?
Rechoが提供する「Voice Agent」は、独自開発の言語処理や音声技術を活用し、まるで人間と話しているかのような自然な対話ができるAIです。これまでの電話自動応答システム(IVR)や音声ボットは、簡単なやり取りや一つの要望にしか対応できないことが多く、電話をかける人にとって負担になることが課題でした。
「Voice Agent」は、この課題を解決するために作られました。文脈を理解して適切な案内をしたり、問い合わせ内容を解決したりできる音声AIプロダクトとして、電話をかける人の負担を減らすことを目指しています。
世界トップクラスの性能をどうやって証明したの?
Rechoは、音声合成(TTS)と音声認識(ASR)の両分野で、厳しい評価を行いました。
音声合成(TTS)の評価
音声合成の評価では、実際の利用に近い多様な文章(電話番号、固有名詞など)を用いて、様々なオープンソースやクローズドソースのモデルと比較されました。その結果、RechoTTSは文字の誤り率を示すCER(Character Error Rate)で最も低い値を記録し、合成された音声の自然さを評価するSSR(Successful Synthesis Rate)では最も良いスコアを達成しました。

さらに、音声が生成されるまでの速度も検証され、短文でも長文でも業界トップレベルの速さを示しました。話者の声の似ている度合いも客観的に評価されています。
音声認識(ASR)の評価
音声認識の評価では、高品質なマイクで録音された音声だけでなく、電話特有の雑音や他の人の声が含まれるような、より実践的な音声データも使われました。ここでも、音声とAIが文字に変換した結果との文字誤り率(CER)が評価指標となり、Recho ASRは優れた結果を出しました。特に、数字や住所などを含む独自のデータセットで高い精度を示しています。

また、音声が認識されるまでの応答速度も業界平均の約25%以下と、非常に速い結果を出しています。
これからのRechoの音声AI
Rechoのこの技術は、すでに研究段階から実際に利用される段階へと進んでおり、金融機関や大手プラットフォーマーなど、多くの企業で導入が進められています。
今回の成果は、日本で生まれた技術が世界の舞台で十分に通用することを示しています。これまでは海外のプレイヤーが先行していた音声AIの分野で、Rechoは国内トップレベルの技術力を確立し、その品質が世界でも通用することを証明しました。
コールセンター業界では、人手不足が深刻な問題となっており、サービスの品質を保ちながら対応能力を高めることが求められています。日本語特有の「間」や敬語表現、業界ごとの専門用語など、細かい部分の品質が実用レベルに達していないことが、音声AIの導入を難しくしていました。Rechoは、この難しい領域で妥協することなく開発を続け、業界トップレベルの品質を維持しながら、より多くの企業への導入を進めていく予定です。
Rechoの取締役である白寧杰氏は、「研究機関のベンチマークと、実際の業務での適用可能性には隔たりがあります。私たちは、金融機関や官公庁といった厳しい品質基準を持つ顧客の皆様と向き合う中で、技術を磨いてまいりました。お客様が許容できない細部にこそ、本質的な課題があると考え、その解決に集中した結果が、今回の数字に表れています。Rechoは、日本からでもグローバル市場で勝負できることを証明し続けます。」とコメントしています。
用語解説
-
音声合成(TTS:Text-to-Speech)
文字情報を人間の声のような聞き取りやすい音声に変換する技術です。最近では、機械的ではなく、より自然で滑らかな音声が作れるようになっています。 -
音声認識(ASR:Automatic Speech Recognition)
人間の発声を文字情報に変換する技術です。AIが、話された言葉を正確にテキストに書き起こします。 -
文字誤り率(CER:Character Error Rate)
音声認識や音声合成の評価に使われる指標の一つで、AIが認識したり合成したりした文字が、元の正しい文字とどれくらい違っているかを示します。この値が低いほど、精度が高いと言えます。 -
合成成功率(SSR:Successful Synthesis Rate)
Rechoが独自に定めた指標です。人間が合成された音声を聞いたときに、テキスト通りに正しく読み上げられていて、かつ人間が話しているように自然だと感じられる場合に高得点となります。この値が高いほど、合成音声の品質が高いと言えます。
Rechoの採用情報
Rechoは、音声AIの分野で世界レベルの技術開発を推進しています。最高の品質を追求し、業界をリードする環境で挑戦したいエンジニアを募集しています。基盤モデルの研究開発から、企業への導入まで、音声AIの未来を共に創る仲間を求めています。
求人一覧: https://herp.careers/v1/recho
Rechoのウェブサイト: https://recho-ai.com/

