電通総研は、国立大学法人東北大学 言語AI研究センター、および株式会社Studio Ousiaと協力し、AI分野の世界最高峰の国際会議「NeurIPS(ニューリプス) 2025」のコンペティションで「Best Static Evaluation」として優勝したことを発表しました。
AI分野の世界会議「NeurIPS」と「MMU-RAG」コンペティション
「NeurIPS」は、機械学習や深層学習など、AIの研究において世界で最も規模が大きく権威ある国際会議です。今回参加したコンペティション「MMU-RAG」では、「Deep Research」と呼ばれる、たくさんの情報の中から必要なものを見つけ出し、まとめて答える長文形式の質問応答システムについて、その正確さと効率性が競われました。
東北大学、Studio Ousia、電通総研の3者は、みんなが自由に使える「オープンソース」の技術を活用して、この長文質問応答に特化したシステムを作り上げました。その高い精度と、同じ結果を再現できる信頼性が特に評価され、今回の優勝につながりました。
「Deep Research」とは?なぜオープンソースが重要なのか
「Deep Research」とは、ChatGPTやGeminiのような生成AIが持つ、自分で情報を探し、内容をまとめ、質問に答えるという高度なリサーチ機能のことです。これはまるで、専門家が時間をかけて調査レポートを作るような作業をAIが自動で行うイメージです。市場調査や学術論文の調査、マーケティングリサーチ、金融データの分析など、様々な分野での活用が期待されています。
しかし、これらの高度なリサーチ機能は、多くの場合、企業が提供する「クローズド」な(中身が見えない)サービスとして提供されています。そのため、学術研究や、誰もが自由に試せる「オープン」な環境での検証が難しいという課題がありました。
そこで、研究者たちは、オープンソース技術を使ってDeep Researchの仕組みを再現し、さらに発展させる研究を活発に進めています。これまでの研究は短い文章の質問応答に注目することが多かったのですが、今回のコンペティションでは、長い文章の質問に正確に答えるための評価方法や、効率的な学習方法が重要なテーマとなりました。このコンペティションから得られた知識は、今後のオープンソースDeep Researchシステムの開発と実用化に役立つと期待されています。
Deep Researchシステムが持つ高度な調査能力の秘密
Deep Researchシステムは、大規模言語モデル(LLM)と呼ばれる生成AIを中心に、様々な「ツール」を組み合わせることで、従来のキーワード検索とは異なる高度な調査能力を実現しています。その主な特徴は以下の通りです。
- 質問の意図を深く理解し、調査計画を自動で立てる
質問の言葉をそのまま検索するのではなく、質問の背景や目的をAIが推測し、複数のステップに分かれた調査計画を自動的に作成します。 - 幅広い情報源から自動で情報を集める
計画に沿って、AIが持っている知識やインターネット上の様々な情報、データベースなどから、必要な情報を段階的かつ網羅的に集めます。 - 情報の信頼性を評価し、どこから情報を得たかを明確にする
集めた情報について、信頼できるか、矛盾がないかなどをAIが評価し、回答に利用した情報の出典をきちんと示します。 - 多角的に分析し、質の高い洞察を生み出す
情報同士の関連性や整合性を確認しながら、様々な角度から分析を行うことで、単にまとめるだけでなく、より質の高い深い考察を提供します。
コンペティション参加の背景と優勝への道のり
電通総研は、自社のサービスに生成AIを活用する中で、Deep Researchを特に重要な機能の一つと考えていました。これまでは、主にクローズドな商用Deep Research機能を使っていましたが、個別の要望に合わせた細かいカスタマイズが難しかったり、利用にかかる費用に課題があったりしました。
そこで電通総研は、将来的にオープンソース技術を使ったDeep Research機能を自分たちで開発できるよう、東北大学やStudio Ousiaと協力し、最先端技術の調査や検証を続けることを目的に、今回のコンペティションに参加しました。
今回の取り組みでは、Studio Ousiaの山田氏が中心となり、アリババクラウド社が提供するオープンソースの大規模言語モデル「Qwen3-Next-80B-A3B」をベースに、さらに「Direct Preference Optimization」という学習方法を使うことで、長文回答の生成精度を向上させました。特に、自動で評価するのが難しい「事実が正しいか」という点を、正解の文章に含まれる重要な情報がどれだけ含まれているかを示す「Key Point Recall」という指標を使って適切に評価できる仕組みを構築しました。これに加えて、高度な検索機能を取り入れ、細かい設定を調整することで、長文形式の質問応答を効率的に処理するシステムを実現しました。
この結果、text-to-textトラックのオープンソース部門で最高のスコアを記録し、優勝という素晴らしい成果を達成しました。

成果と今後の展望
今回の優勝により、オープンソース技術だけでDeep Researchシステムを設計し、作り、評価するための知識と、様々な場所で再利用できるシステムの設計図を手に入れることができました。この基盤を活用することで、学術研究だけでなく、企業内の知識活用や公共分野など、様々な場所で長文質問応答を中心とした高度なリサーチ機能をシステムに組み込むことが可能になります。
電通総研は、このDeep Research機能を自社の様々なサービスに段階的に組み込むことで、調査、企画、文書作成、問い合わせ対応といった、人が行う知的作業の効率を高め、より高度にすることを目指しています。例えば、製造業での技術文書や過去のトラブル事例の検索、政策を作るための資料調査、コンサルティングプロジェクトにおけるリサーチの自動化など、幅広い分野での活用が期待されます。
中でも特に重要な応用分野の一つが、デジタルファイナンスです。金融サービスが細分化される中で、Deep Research技術を導入することで、法規制や市場データ、企業の公開情報など、多様な情報源を横断的に分析し、新しい金融サービスの企画、審査、監視をより高度にすることを目指します。電通総研は、デジタル技術を前提とした金融機能の提供を強化し、金融を含む様々な産業分野での高度な意思決定を支えるプラットフォーム作りに貢献していきます。
論文情報
今回の研究成果は、以下の論文として発表されています。
-
タイトル: An Open and Reproducible Deep Research Agent for Long-Form Question Answering
-
邦訳: 長文質問応答のためのオープンで再現可能なDeep Researchエージェント
-
著者: Ikuya Yamada, Wataru Ikeda, Ko Yoshida, Mengyu Ye, Hinata Sugimoto, Masatoshi Suzuki, Hisanori Ozaki, Jun Suzuki
関係者のコメント
今回の成果について、各関係者からコメントが寄せられています。
<株式会社電通総研 事業開発室 データサイエンティスト 尾崎 尚憲氏>
「NeurIPS 2025」のコンペティション「MMU-RAG」において、注目されているDeep Researchアプローチを核としたシステムで優勝できたことを大変光栄に思います。今回の取り組みは、多段階の情報探索と推論を組み合わせるだけでなく、AIモデルのチューニングも行い、AIの検索を人間に近づけることを目指したものです。Studio Ousiaの山田氏、鈴木氏、東北大学の鈴木教授および研究室の皆様に心より感謝申し上げます。今回の成果をスタート地点として、実用的なDeep Researchシステムの実用化・高度化に今後も継続して取り組んでいきます。
<東北大学 言語AI研究センター センター長 鈴木潤氏>
普段利用しているウェブ検索の発展形として期待され、今後の様々な調べ物において中心的な方法になる可能性を秘めたDeep Research方式につながる技術を、自分たちで独自に作り上げる貴重な機会となりました。今後の研究に役立つ有益な知識や経験を得ることができました。
<株式会社Studio Ousia チーフサイエンティスト 山田育矢氏>
最近、ChatGPTやGeminiなどに搭載されているLLMによる自律的なリサーチ機能であるDeep Researchは、主にクローズドな商用LLMを用いて実現されていますが、オープンな技術で同様の機能を実現することは難しい課題です。今回のコンペティションで開発したオープンで再現可能なDeep Researchが、その解決の一助となり、この分野の研究がさらに発展していくことを期待します。
用語解説
-
※1 Qwen3-Next-80B-A3B: アリババクラウド社が提供しているオープンソースの大規模言語モデルです。
-
※2 Direct Preference Optimization: AIモデルを直接最適化する学習方法の一つで、報酬関数の設計や、報酬モデルを作る手間をかけずに行うことができます。
-
※3 Key Point Recall: 生成された文章の評価指標の一つです。正解の文章に含まれる重要な情報や単語が、AIが作った文章にどれだけ含まれているかを示します。
-
※4 高度な検索モジュール: 検索で得られた文書を再度並べ替えたり、内容を要約したりする機能です。これにより、AIが作った回答の各文章に、対応する検索文書を引用として添付できるようになります。
各組織について
-
東北大学 言語AI研究センター
自然言語処理というAI研究分野で国内最大級の研究グループを持ち、その研究力は世界最高峰の国際会議で多数の論文が採択されることで示されています。2023年10月に設立され、生成AIを含む高度なAI技術の原理解明、AIの安全性研究、それらの知見を用いたAI基盤技術の発展を推進しています。
https://langai.tohoku.ac.jp/ -
株式会社Studio Ousia
「テキストを「使えるナレッジ」へ」をビジョンに掲げ、自然言語処理を活用して、組織の情報から新しい価値を生み出すことを目指しています。ウェブ上の知識だけでなく、企業独自の知識も活用できる大規模言語モデル(LLM)の開発に強みを持ち、製品提供や共同研究、受託開発、技術コンサルティングを通じて、企業の価値向上や課題解決を支援しています。
https://www.ousia.jp/ -
電通総研
「HUMANOLOGY for the future~人とテクノロジーで、その先をつくる。~」という企業ビジョンの下、「システムインテグレーション」「コンサルティング」「シンクタンク」という3つの機能を連携させ、企業、官庁、自治体、そして生活者を含む社会全体と向き合い、課題の提起からテクノロジーによる解決までを一貫して支援しています。テクノロジーや業界、企業、地域の枠を超えた「X Innovation(クロスイノベーション)」を推進し、これからも人とテクノロジーの力で未来を切り拓き、新しい価値を創出し続けています。
https://www.dentsusoken.com
