電通総研、東北大学 言語AI研究センター、そして株式会社Studio Ousiaの3者が、AI分野で世界最高峰とされる国際会議「NeurIPS(ニューリプス) 2025」のコンペティションで、オープンソース技術部門の優勝を果たしました。

AIの世界大会「NeurIPS」とは
「NeurIPS」は、AIの中でも特に機械学習、深層学習、強化学習といった分野の研究が集まる、非常に大きな国際会議です。この会議のコンペティション「MMU-RAG」では、「Deep Research」と呼ばれる、長い文章の質問にどれだけ正確かつ効率的に答えられるかを競うシステムが評価されました。
東北大学、Studio Ousia、電通総研の3者は、オープンソース技術(誰もが自由に利用・改良できる技術)を使って、この長文質問応答に特化したシステムを作り上げ、その高い精度と再現性が評価され、優勝につながりました。
「Deep Research」ってどんな技術?
コンペティションのテーマとなった「Deep Research」とは、ChatGPTやGeminiのような生成AIが持っている、高度なリサーチ機能のことです。具体的には、AIが自分で情報を探し、内容をまとめて、最終的な回答を作り出す一連の作業を指します。
このような機能は、通常、企業が提供するクローズドなサービスで使われることが多いです。そのため、学術研究や一般の人が自由に試せる環境で利用するのは難しいという課題がありました。そこで、研究者の間では、オープンソース技術を使って同じような仕組みを再現し、さらに発展させる研究が盛んに行われています。
これまでの研究では、短い文章の質問に答えるAIが中心でした。なぜなら、短い文章の方がAIの回答と正しい答えを比べやすく、学習させやすかったからです。しかし、今回のコンペティションでは「長い文章の質問に答える」ことが課題であり、長い回答を自動で評価する方法や、効率よくAIを訓練する方法を考えることが重要なテーマでした。
Deep Researchシステムの活用例
Deep Researchシステムは、大規模言語モデル(LLM)というAIを中心に、様々な「ツール」と呼ばれる機能を組み合わせて作られた、高度な情報検索・分析システムです。まるで専門家が調査レポートを作るように、精度の高い回答を自動で生成できるため、以下のような場面で注目されています。
-
市場の調査や競合他社の分析
-
学術論文を効率よく調べたり、最新の動向を把握したりすること
-
マーケティングのためのリサーチ
-
金融データや経済の動きを分析すること
従来の検索とはここが違う!
この高度な調査能力は、従来のキーワード検索とは異なる、次のような特徴によって支えられています。
- 質問の意図を深く理解し、調査計画を自動で作る
質問された内容をそのまま検索するだけでなく、質問の背景や目的をAIが推測し、複数のステップにわたる調査の計画を自動で立てます。 - 幅広い情報源から自動で情報を集める
立てた計画に従って、AIが持つ知識やインターネット上の様々な情報、データベースなどから、必要な情報を段階的に、そして漏れなく集めます。 - 情報の信頼性を評価し、どこから得た情報かを示す
集めた情報がどれくらい信頼できるか、矛盾がないかなどを様々な視点から評価し、回答に使った情報の出典を明確に示します。 - 多角的に分析し、質の高い洞察を生成する
情報同士の関連性や整合性を確認しながら、多方面から分析を行うことで、ただ情報をまとめるだけでなく、質の高い深い洞察(インサイト)を提供します。
コンペティション参加の背景と目的
電通総研は、自分たちのサービスに生成AIを活用する中で、Deep Researchをとても大切な機能の一つと考えています。特に、デジタルファイナンスの分野など、知識を使った単純作業を効率化するための研究では、これまで主にクローズドな商用Deep Research機能を使ってきました。
しかし、一般的なサービスとして提供されるDeep Research機能は、企業ごとの細かい要望に合わせてカスタマイズするのが難しく、利用にかかる費用も課題でした。そこで、電通総研は、将来的にオープンソース技術を使ったDeep Research機能を自分たちで開発できるようにするため、東北大学やStudio Ousiaと協力して、最新技術の調査や検証を行う目的でこのコンペティションに参加しました。
優勝につながった取り組みと成果
今回のコンペティションでは、Studio Ousiaの山田氏が中心となり、アリババクラウド社が提供するオープンソースの大規模言語モデル「Qwen3-Next-80B-A3B※1」を基盤に、「Direct Preference Optimization※2」という技術を使って、長い回答の生成精度を高めました。
特に、AIが生成した文章の「事実が正しいか」という、自動で評価するのが難しい点をきちんと評価するために、「Key Point Recall※3」という指標を用いた自動評価の仕組みを構築しました。さらに、高度な検索機能※4を組み込み、細かい設定を調整することで、長文形式の質問応答を効率的に処理するシステムを実現しました。これらの工夫が実を結び、オープンソース部門で最高のスコアを記録し、優勝という結果につながりました。
今後の応用と展望
今回の成果によって、オープンソース技術だけでDeep Researchシステムを設計し、作り、評価するための知識と、様々な場所で使えるシステム設計の基盤を手に入れることができました。この基盤を活用することで、学術研究はもちろん、企業での知識活用、公共分野など、様々な場面で長文質問応答を中心とした高度なリサーチ機能をシステムに組み込めるようになります。
電通総研は、このDeep Research機能を自分たちのサービスに段階的に組み込むことで、調査、企画、文書作成、問い合わせ対応といった、知識を使う業務をより効率的で高度なものにしていく予定です。例えば、製造業での技術文書や過去のトラブル事例の横断検索、公共分野での政策立案のための資料調査、コンサルティングプロジェクトでのリサーチの自動化など、幅広い分野での活用が期待されています。
特に重要な応用分野の一つがデジタルファイナンスです。金融サービスが細かく分かれて提供される中で、Deep Research技術を導入することで、法律やガイドライン、市場データ、企業の公開情報など、多様な情報を横断的に分析し、新しい金融サービスの企画、審査、監視をより高度にすることを目指しています。電通総研は、このような金融を含む様々な産業で、より良い意思決定をサポートするプラットフォーム作りに貢献していきます。
論文情報
-
タイトル: An Open and Reproducible Deep Research Agent for Long-Form Question Answering
-
邦訳: 長文質問応答のためのオープンで再現可能なDeep Researchエージェント
-
著者: Ikuya Yamada, Wataru Ikeda, Ko Yoshida, Mengyu Ye, Hinata Sugimoto, Masatoshi Suzuki, Hisanori Ozaki, Jun Suzuki
関係者のコメント
株式会社電通総研 事業開発室 データサイエンティスト 尾崎 尚憲氏のコメント
「NeurIPS 2025」のコンペティション「MMU-RAG」で、現在注目されているDeep Researchのアプローチを核としたシステムで優勝できたことを大変光栄に思います。多段階の情報探索と推論を組み合わせ、さらにリーズニングモデル(推論モデル)のチューニングを行った今回のアプローチは、AIによる検索を人間に近づけることを目指した取り組みです。今回の成果をスタート地点として、実用的なDeep Researchシステムをさらに発展させていくために、今後も取り組みを続けていきます。
東北大学 言語AI研究センター センター長 鈴木潤氏のコメント
普段使っているWeb検索がさらに進化した形として期待され、今後の様々な調べ物の中心になる可能性を秘めたDeep Research方式の技術を、自分たちで独自に作り上げる貴重な機会となりました。今後の研究に役立つ多くの知識や経験を得ることができました。
株式会社Studio Ousia チーフサイエンティスト 山田育矢氏のコメント
最近、ChatGPTやGeminiなどに搭載されている、AIによる自律的なリサーチ機能であるDeep Researchは、主に企業が提供するクローズドなAIで実現されていますが、オープンな技術で同じような機能を実現するのは難しい課題です。今回のコンペティションで開発した、誰もが利用でき、再現可能なDeep Researchが、この課題解決の一助となり、この分野の研究がさらに発展していくことを期待しています。
各組織について
東北大学 言語AI研究センター
東北大学は、自然言語処理というAI研究の分野で国内最大級の研究グループを持ち、世界的なAI会議で多くの論文が採用されるなど、高い研究力を持っています。言語AI研究センターは、これらの優秀な研究者を中心に2023年10月に設立され、生成AIを含む高度なAI技術の仕組みを解明したり、AIの安全性に関する研究を進めたりしています。また、AIを使った研究の推進、AI人材の育成、社会でのAI活用なども含め、幅広い分野でAI技術の発展に貢献することを目指しています。
株式会社Studio Ousia
Studio Ousiaは、「テキストを「使えるナレッジ」へ」をビジョンに掲げ、自然言語処理の技術を使って、組織が持つ情報から新しい価値を生み出すことを目指して活動しています。ウェブ上の知識だけでなく、組織独自の知識も活用できる大規模言語モデル(LLM)の開発に強みを持っており、製品の提供、共同研究、開発受託、技術コンサルティングを通じて、組織の価値向上や課題解決に貢献しています。
電通総研について
電通総研は、「HUMANOLOGY for the future~人とテクノロジーで、その先をつくる。~」という企業ビジョンのもと、「システムインテグレーション」「コンサルティング」「シンクタンク」という3つの機能を連携させることで、企業、官庁、自治体、そして生活者を含む「社会」全体と真剣に向き合っています。課題の提案からテクノロジーによる解決までの一連の流れを生み出し、より良い社会への進化を支援・実現することを目指しています。
テクノロジーや業界、企業、地域の枠を超えた「X Innovation(クロスイノベーション)」を推進し、これからも人とテクノロジーの力で未来を切り開き、新しい価値を創造し続けていきます。
注釈
※1 アリババクラウド社が提供しているオープンソースの大規模言語モデル
※2 スタンフォード大学から発表された、報酬関数の設計や報酬モデルの作成を行わずに、モデルを直接最適化する強化学習手法
※3 生成された文章を評価する指標で、正しい文章に含まれる重要な文章や単語が、生成された文章にどれだけ含まれているかを示す指標
※4 文書を再ランク付けしたり要約したりすることで、生成された回答に含まれる各文章に、対応する検索文書を引用として添付するモジュール
