NITI Technologyは、オンラインショッピングで商品をおすすめするAIチャットの品質を、誰でも客観的に評価できるオープンソースベンチマークツール「SOUK」(スーク)をGitHubで公開しました。
AIを使ったECが広がる中で見過ごされがちな「品質の問題」
AIを使ったチャットボットが、オンラインショッピングの世界で急速に広まっています。市場は大きく成長しており、AIチャットを通じて商品を買う人の割合は、使わない人の約4倍にもなると言われています。
しかし、この便利なAIチャットには、いくつかの問題も指摘されています。
-
ハルシネーション(AIが嘘をつくこと):AIが実際にはない配送方法を案内したり、送っていない商品の発送を伝えたりするなど、間違った情報を顧客に伝えてしまうことがあります。複雑な状況では、AIが間違った情報を出す確率が25%を超えるという調査結果もあります。
-
セキュリティの弱さ:悪意のある指示(プロンプトインジェクション)によって、AIのシステム情報が漏れたり、不正に割引が適用されたりする危険性も指摘されています。
-
法的リスク:過去には、AIチャットボットが誤った運賃を案内し、航空会社が責任を問われた判決も出ています。
2026年8月にはEUのAI法が完全に施行され、AIチャットボットが高リスクなシステムと見なされる場合、より厳しいルールが適用される予定です。日本でも、AIを透明性高く責任を持って使うためのガイドラインが作られています。
このような状況の中で、オンラインショッピングのAIチャットの品質を客観的に測るための共通の基準がありませんでした。SOUKは、この課題を解決するために開発されました。
「SOUK」とは?ECチャットの品質を測る新しい基準
SOUKは、オンラインショッピングの商品推薦チャットの品質を、複数のAI(審査員役)を使って自動的に評価し、点数化するオープンソースのツールです。名前は中東の伝統的な市場に由来し、活気ある商取引の場での「会話の質」を評価するという意味が込められています。
SOUKの5つのポイント
-
いろんなAIで評価できる
GPT、Claude、Geminiといった複数のAIモデル、またはOpenAIと互換性のあるAIを「審査員」として利用できます。これにより、一つのAIモデルに偏った評価ではなく、多角的な視点から品質を測ることが可能です。 -
10種類の評価項目
SOUKは、オンラインショッピングのチャットに求められる品質を、以下の10の基準で細かく評価します。-
接客品質に関する基準(6項目):
-
自然さ:会話が人間らしく自然に流れているか。
-
推薦品質:顧客の要望に合った商品を適切に推薦できているか。
-
一貫性:複数のやり取りの中で会話が矛盾していないか。
-
ハルシネーション:存在しない商品情報など、事実と異なる情報をAIが作り出していないか。
-
有用性:ユーザーが買い物を成功させるために、どれだけ役立つ情報を提供できているか。
-
有害性:差別的、攻撃的、偏見を含む不適切な表現がないか。
-

-
セキュリティに関する基準(4項目):
-
プロンプトインジェクション耐性:悪意のある指示によって、AIのシステムが勝手に動作を変えられないか。
-
情報漏洩防止:AIのシステム情報や内部設定が意図せず外部に漏れていないか。
-
役割境界維持:「商品推薦アシスタント」といった設定されたAIの役割から逸脱していないか。
-
個人情報取り扱い:クレジットカード番号や住所などの個人情報が適切に保護されているか。
-

-
-
3つの言語に完全対応
英語、日本語、中国語のすべての評価基準とテストケースに対応しています。これにより、世界中で展開するオンラインショッピングサービスの多言語での品質評価が可能です。 -
過去の会話もリアルタイムも評価
これまでに記録されたチャットの会話だけでなく、現在稼働しているチャットシステムに対しても、リアルタイムで品質評価を実行できます。 -
すぐに導入可能
「pip install souk」という簡単なコマンド一つでインストールが完了します。Dockerにも対応しているため、環境構築の手間もかかりません。
評価結果はわかりやすいレポートで
SOUKは、評価結果をChart.jsを使った分かりやすいHTML形式のレポートとして出力します。10の評価基準ごとの点数をレーダーチャートで表示したり、審査員AIごとの平均点などを棒グラフで確認したりできます。それぞれのテストケースでの会話内容と、なぜその点数になったのか(採点理由)まで、一つの画面で確認できるため、AIの改善点を具体的に見つけやすくなります。JSON形式での出力もできるため、他のデータ分析ツールなどと連携させることも簡単です。

NITI Technologyの「Lemonavi」でも活用
NITI Technologyが提供する商品推薦AIエージェント「Lemonavi」では、SOUKを開発プロセスに取り入れ、継続的に品質評価を行っています。SOUKによる評価結果をもとにLemonaviの応答品質を数字で改善するサイクルを確立しており、AIが間違った情報を出す確率の低減や、悪意のある指示への耐性の向上といった成果を、具体的な数値で検証しています。
SOUKをオープンソースとして公開することで、同じような品質改善の取り組みをオンラインショッピング業界全体で共有し、業界全体のサービス水準を向上させたいと考えています。
どんな人が使える?SOUKの利用シーン
SOUKは、さまざまな場面で活用が期待されます。
-
オンラインショッピングプラットフォームの運営会社:自社のチャットボットの品質を定期的にチェックし、新しいチャットボットを公開する前の最終確認に活用できます。
-
チャットボット開発企業:複数のAIモデルを比較評価し、最も性能の良いモデルを選ぶ際の根拠として利用できます。
-
セキュリティ・コンプライアンス部門:AIの悪意のある指示への耐性や、情報漏洩のリスクを数字で監査するツールとして導入できます。
-
研究機関・大学:AIの対話品質評価の標準的なツールとして、研究に役立てることができます。
SOUKのこれから
SOUKは今後、さらに便利な機能を追加していく予定です。
-
評価基準の拡張:ファッション、食品、不動産など、特定の業界に特化した評価基準を追加する予定です。
-
リアルタイムモニタリング:実際に使われているチャットの品質を継続的に監視できるダッシュボード機能も計画しています。
-
ベンチマークランキング:匿名化された評価スコアを共有することで、業界全体のAI品質を比較できるランキング機能も検討されています。
SOUKはオープンソースソフトウェア(OSS)として公開されているため、興味のある開発者が改良に参加することも可能です。ユーザーとともに成長し続けるプラットフォームになることが期待されています。
関連情報
-
SOUK GitHub: https://github.com/NITI-Lab/SOUK
-
Lemonavi / NITI Technology: https://nititech.jp/
NITI Technologyについて
株式会社NITI Technologyは、最先端のAI技術を活用し、企業のビジネスプロセスを革新するテクノロジーカンパニーです。商品推薦AIエージェント「Lemonavi」の開発・提供を中心に、実際の業務に役立つAI製品の提供や、柔軟な受託開発を通じて、企業のデジタル変革(DX)と持続的な成長を支援しています。社名:株式会社NITI Technology

