ECサイトのAIチャット、その「品質の死角」を可視化する「SOUK」が登場
ECサイトで商品を探す際、AIチャットボットがおすすめしてくれる機会が増えてきました。この「会話型コマース」と呼ばれる市場は、2025年には約129億ドル、2026年には141億ドル規模にまで成長すると予測されています。Amazonの「Rufus」のように、AIショッピングアシスタントが年間100億ドル規模の売上増加に貢献しているという報告もあり、AIチャットが買い物をするための重要な手段になりつつあります。
しかし、この急成長の裏側には、見過ごされがちな品質に関するリスクも存在します。
-
ハルシネーション:AIが事実と異なる情報を作り出してしまう現象です。例えば、存在しない配送手順を案内したり、発送していない商品の「発送完了」を顧客に通知したりといった、実際に損害につながるケースが報告されています。複雑な状況では、25%以上の確率でハルシネーションが発生するという調査結果もあります。
-
セキュリティの弱点:悪意のある指示(プロンプトインジェクション)によって、AIシステムの内部情報が漏れたり、不正な割引が適用されてしまったりする危険性も指摘されています。
-
法的リスク:2024年には、航空会社のチャットボットが誤った運賃を案内し、裁判所が航空会社の責任を認める判決を下した事例もあります。
このような状況を受け、2026年8月にはEU AI Actという法律が完全に施行され、AIチャットボットがAIであることを明確に表示することや、リスクの高いAIシステムには厳しい基準が求められるようになります。日本でも、AIの透明性や責任ある利用を求めるガイドラインが作られています。
これまで、ECチャットの品質を客観的に測るための統一された基準(ベンチマーク)は存在しませんでした。この課題を解決するために開発されたのが、オープンソースベンチマーク「SOUK」です。
EC商品推薦チャットの品質を自動でスコアリングする「SOUK」とは
株式会社NITI Technologyは、EC商品推薦チャットの品質を複数のAI審査モデルで自動的に評価するオープンソースベンチマーク「SOUK」をGitHub上で公開しました。プロジェクト名「SOUK(スーク)」は、中東の伝統的な市場に由来し、「活気ある商取引の場での対話の品質」を評価するという意味が込められています。

SOUKの5つの特長
-
マルチモデルジャッジ
GPT、Claude、Gemini、Amazon Bedrockといった様々なAIモデルや、OpenAIと互換性のある任意のエンドポイントを「審査員」として利用できます。これにより、一つのAIモデルに偏ることなく、多角的な視点からチャットの品質を評価できます。 -
10種類の評価基準(0〜10点スコア + 詳細ルーブリック)
SOUKは、ECチャットに求められる品質を以下の10項目で評価します。-
接客品質に関する基準(6項目)

-
セキュリティに関する基準(4項目)

-
-
3言語完全対応
すべての評価基準とテストケースが英語、日本語、中国語に対応しています。これにより、世界中で展開するECサービスの多言語での品質評価が可能になります。 -
静的評価 + ライブ評価
すでに記録された会話のログだけでなく、実際に動いているチャットシステムに対してもリアルタイムで評価を実行できます。これは、開発サイクルに組み込む際にも役立ちます。 -
即座に導入可能
pip install soukというたった一つのコマンドで簡単にインストールできます。Dockerにも対応しているため、環境構築の手間もかかりません。また、AI開発のワークフローにスムーズに組み込むための機能も備わっています。
HTML評価レポートの出力イメージ
SOUKは、評価結果をChart.jsを使った分かりやすいHTMLダッシュボードとして表示します。10種類の評価基準のスコアがレーダーチャートで可視化され、AI審査モデル別やカテゴリ別の棒グラフ、さらには各テストケースの会話内容と採点理由まで、一つの画面で確認できます。JSON形式での出力にも対応しており、他のデータ分析ツールやシステムへの連携も簡単です。

自社サービス「Lemonavi」での品質改善
NITI Technologyが提供する商品推薦AIエージェント「Lemonavi(レモナビ)」は、SOUKを使った継続的な品質評価を開発プロセスに取り入れています。SOUKの評価結果を元にLemonaviの応答品質を数字で改善するサイクルを確立しており、ハルシネーションの発生率を減らしたり、プロンプトインジェクションへの耐性を高めたりといった成果を、具体的な数値で確認できています。
SOUKをオープンソースとして公開することで、このような品質改善の取り組みをチャットコマース業界全体で共有し、業界全体の水準向上に貢献したいと考えています。
想定される利用シーン
-
ECプラットフォーム事業者:自社のチャットボットの品質を定期的に評価し、新しいチャットボットをリリースする前の品質チェックとして活用できます。
-
チャットボット開発企業:複数の大規模言語モデル(LLM)を比較して評価し、最適なモデルを選ぶための根拠として利用できます。
-
セキュリティ・コンプライアンス部門:プロンプトインジェクションへの耐性や、情報漏洩のリスクを数字で監査するツールとして導入できます。
-
研究機関・大学:対話品質評価の標準的なベンチマークとして、研究に活用できます。
今後の展望
SOUKは今後、さらに機能を拡充していく予定です。
-
評価基準の拡張:ファッション、食品、不動産など、特定の業界に特化した評価基準を追加する予定です。
-
リアルタイムモニタリング:実際に運用されているチャットの品質を継続的に監視するダッシュボード機能の追加を計画しています。
-
ベンチマークランキング:匿名化された評価スコアを共有することで、業界全体でのベンチマーク比較ができるようになるでしょう。
SOUKはオープンソースソフトウェア(OSS)として公開されており、開発に協力してくれる人を募集しています。ユーザーとともに成長し続けるプラットフォームとなることが期待されます。
関連リンク
株式会社NITI Technologyについて
株式会社NITI Technologyは、最先端のAI技術を使い、企業のビジネスプロセスを革新するテクノロジー企業です。商品推薦AIエージェント「Lemonavi」の開発・提供を中心に、実際の業務に役立つAIプロダクトの提供や柔軟な受託開発を通じて、企業のデジタル変革(DX)推進と持続的な成長をサポートしています。
-
社名: 株式会社NITI Technology
-
URL: 株式会社NITI Technology

