D-ID、リアルタイム対話と長尺動画対応の次世代AIアバター「V4 Expressive Visual Agents」を発表

生成AI(Generative AI)

D-IDが次世代AIアバター「V4 Expressive Visual Agents」を発表

AIアバターソリューションを提供するD-IDは、大規模言語モデル(LLM)と連携し、リアルタイムでの会話や長い動画コンテンツの生成ができる新しいAIアバター「V4 Expressive Visual Agents」を発表しました。

この新しいアバターは、まるで人間と話しているかのように表情豊かで自然な対話ができるのが特徴です。企業が求める高い品質を満たし、研修や顧客対応など、さまざまな場面での活用が期待されています。

「V4 Expressive Visual Agents」の主な特徴

「V4 Expressive Visual Agents」は、最新の技術を使い、以下のような優れた点を持っています。

  • リアルタイムでの自然な会話: LLMと連携することで、0.5秒未満という速さで応答し、人間らしい会話が実現します。会話の流れや感情に合わせて、アバターが表情や話し方を自動で調整します。

    D-IDのバーチャルエージェントMiaがチャットで対話する様子

  • 超高精細な表現: 実在の俳優の演技データを学習しているため、最大4Kの高解像度で、口の動きが音声とぴったり合う(リップシンク)自然な表現が可能です。

  • 長尺動画の生成: 短い動画だけでなく、数分から数時間にわたる長い動画コンテンツも作れます。これにより、研修用のモジュールや説明動画、多言語対応の教育コンテンツなど、企業向けの多様な用途に活用できます。

  • 感情認識機能(オプション): 相手の感情をカメラで認識し、その情報に基づいてアバターの表情や声のトーン、LLMの応答に反映させることも可能です。

  • インタラクティブな情報表示: 会話中に画像やグラフ、動画などの視覚情報、さらにはフォームやクイズといった対話型の要素を画面に表示できます。

ビジネスでの活用とコストメリット

企業では、新しい社員の研修(オンボーディング)、顧客対応、社内での情報共有など、信頼性と一貫性が求められる場面で、このような高精細なAIアバターの導入が進んでいます。

「V4 Expressive Visual Agents」は、動画制作にかかるコストを大幅に削減できる点も魅力です。例えば、Google VEO 3 Fastと比較して約70分の1のコストで動画を生成できるとされています。リアルタイムでの対話であれば、1チャットあたりわずか数セントで利用可能です。

この新しいアバターは、月額5.90ドルから利用できるすべてのD-IDプランで提供されており、すでに1500社の企業顧客と数百万人のユーザーに向けて提供が開始されています。

D-IDの成長と今後の展望

D-IDの共同創業者兼CEOであるGil Perry氏は、「V4によって、リアルタイム会話に十分な高速性を保ちながら、アバターの忠実度とパフォーマンスにおける新たな基準を打ち立てます」と述べています。企業がより自然で人間らしいAIとの対話を求める中で、D-IDはビジュアルインターフェース層を提供するリーダーとしての地位を強化していく方針です。

D-IDは2025年9月にsimpleshowを買収後、企業向けの事業を拡大し、AIアバターの機能をsimpleshowの企業研修・説明動画の仕組みに組み込んできました。これにより、D-IDの年間経常収益(ARR)は250%成長しており、インタラクティブなAI動画への企業需要の高まりを反映しています。

D-IDについて

D-IDは、動画やデジタルヒューマン向けの生成AI技術を世界的に提供する企業です。リアルタイムストリーミングAPIを通じて、まるで本物のようなデジタルプレゼンター、学習パートナー、バーチャルアシスタントを、大手企業から社会貢献を目指す組織まで幅広く提供しています。

関連情報

タイトルとURLをコピーしました