電通総研、東北大学、Studio OusiaがAI国際会議「NeurIPS 2025」コンペティションで優勝 – オープンソースによる長文質問応答システムが高評価

生成AI(Generative AI)

世界最高峰のAI国際会議「NeurIPS 2025」で優勝

株式会社電通総研、国立大学法人東北大学 言語AI研究センター、そして株式会社Studio Ousiaの3者が共同で、AI分野における世界最高峰の国際会議「NeurIPS(ニューリプス) 2025」のコンペティションに参加し、「Best Static Evaluation」として優勝しました。この成果は、オープンソース技術を使い、複雑な長文の質問に高精度で効率的に答えるシステムを構築したことが高く評価されたものです。

電通総研、東北大学、Studio Ousiaのロゴ

「NeurIPS」と「Deep Research」とは?

「NeurIPS」は、機械学習や深層学習といったAIの様々な研究が集まる、世界で最も規模が大きく権威ある国際会議の一つです。今回のコンペティション「MMU-RAG」では、「Deep Research(ディープリサーチ)」と呼ばれる、長い文章の質問に対して、まるで専門家が調べたかのように詳しく、正確に答えるシステムの性能が競われました。

Deep Researchは、ChatGPTやGeminiのような生成AIに搭載されている、情報を自分で探し、まとめて、回答を作り出す高度な機能です。しかし、これらの機能は通常、企業向けのサービスとして提供されており、研究や自由に試す目的で使うことは難しいのが現状です。そのため、研究者の間では、オープンソース(誰もが自由に使える技術)を使って、このような仕組みを再現し、さらに発展させる研究が盛んに行われています。

これまでの研究は、短い質問に答えるシステムが中心でした。短い質問であれば、AIの答えと正しい答えを比べやすく、AIを効率的に学習させることができたからです。しかし、今回のコンペティションでは、長い質問に答えることが課題でした。長い回答を自動で評価する方法を考え、その評価を使って効率的にAIを訓練する手法が重要となりました。今回のコンペティションで得られた知識は、オープンソースのDeep Researchシステムをさらに高度にし、実用的にしていくための大切な基準となることが期待されています。

Deep Research技術でできること

Deep Researchシステムは、大規模言語モデル(LLM)という生成AIを核として、様々な「ツール」と呼ばれる機能を組み合わせた、高度な情報検索・分析システムです。ユーザーの質問に対して、専門家が調査したレポートに匹敵するような、とても詳しい回答を自動で作ることができます。

この技術は、以下のような場面で活用され始めています。

  • 市場調査や競合他社の分析

  • 学術論文を調べて最新の動向を把握する

  • 商品の売れ行きなどを調べるマーケティングリサーチ

  • 金融データや経済指標の分析

このような高度な調査能力を支えるため、Deep Researchシステムは従来のキーワード検索とは異なる、次のような特徴を持っています。

  1. 質問の意図を深く理解し、調査計画を自動で立てる
    質問文をそのまま検索するのではなく、質問の背景や目的をAIが推測し、複数の段階にわたる調査手順を自動的に計画します。
  2. 幅広い情報源から自動で情報を集める
    計画に沿って、AIが持つ知識やインターネット上の様々な情報、各種データベースなどから、必要な情報を段階的に、そして漏れなく収集します。
  3. 情報の信頼性を評価し、出典を示す
    集めた情報について、信頼できるか、情報に矛盾がないかなどをAIが評価し、回答に使った情報の出典(どこから持ってきたか)をはっきりと示します。
  4. 多角的な分析と質の高い洞察を生成する
    情報同士の関連性や整合性を確認しながら、様々な角度から分析を行うことで、単に情報をまとめるだけでなく、質の高い深い洞察を提供します。

コンペティションへの挑戦と成果

電通総研は、自社のソリューションに生成AIを組み込む中で、Deep Researchを特に重要な機能の一つと考えています。これまで、主に企業向けのDeep Research機能を使っていましたが、個別の要望に合わせた細かいカスタマイズが難しく、コスト面での課題もありました。

そこで、電通総研は、将来的にオープンソース技術を使ってDeep Research機能を自分たちで作ることを視野に入れ、東北大学とStudio Ousiaと協力して、最先端技術の調査や検証を続ける目的で今回のコンペティションに参加しました。

今回の挑戦では、Studio Ousiaの山田氏が中心となり、アリババクラウド社が提供するオープンソース大規模言語モデル「Qwen3-Next-80B-A3B」をベースに、Direct Preference Optimizationという強化学習手法を用いることで、長い回答の生成精度を高めました。特に、自動評価が難しい「事実が正しいか」という点を適切に評価するために、「Key Point Recall」という指標を使った自動評価の仕組みを構築しました。さらに、高度な検索機能も組み込み、設定を最適化することで、長文の質問に効率的に答えるシステムを実現しました。

これらの取り組みの結果、text-to-textトラックのオープンソース部門で最高のスコアを記録し、優勝という素晴らしい成果につながりました。

今後の応用と展望

今回の成果により、オープンソース技術だけでDeep Researchシステムを設計し、作り、評価するための知識と、様々な場面で再利用できるシステムの骨組みを手に入れました。この基盤を活用することで、学術研究、企業内での知識活用、公共分野など、様々な領域で長文質問応答を中心とした高度なリサーチ機能をシステムに組み込むことが可能になります。

電通総研は、このDeep Research機能を自社のソリューションに段階的に組み込むことで、調査、企画、文書作成、問い合わせ対応といった、人が行う知的な作業の効率を上げ、質を高めていく計画です。例えば、製造業における技術文書や故障事例の横断検索、公共分野での政策立案のための資料調査、コンサルティングプロジェクトにおけるリサーチの自動化など、幅広い分野での活用が期待されます。

特に重要な応用分野の一つが「デジタルファイナンス」です。決済や融資などの金融の機能が一つ一つのサービスとして分かれて提供される「アンバンドル化」が進む中で、Deep Research技術を組み込むことで、法律やガイドライン、市場データ、企業の公開情報など、様々な情報源を横断的に分析し、新しい金融サービスの企画、審査、監視を高度化することを目指します。電通総研は、デジタルを前提とした金融機能の提供を広げ、金融を含む様々な産業分野での高度な意思決定を支えるプラットフォームの構築に貢献していきます。

今回の論文情報は以下の通りです。

  • タイトル: An Open and Reproducible Deep Research Agent for Long-Form Question Answering

  • 邦訳: 長文質問応答のためのオープンで再現可能なDeep Researchエージェント

  • 著者: Ikuya Yamada, Wataru Ikeda, Ko Yoshida, Mengyu Ye, Hinata Sugimoto, Masatoshi Suzuki, Hisanori Ozaki, Jun Suzuki

各社代表コメント

電通総研 事業開発室 データサイエンティスト 尾崎 尚憲 氏は、今回の優勝について「現在大きな注目を集めているDeep Researchアプローチを核としたシステムで優勝できたことを大変光栄に思います。LLMの検索を人間に寄せることを目指した取り組みです。今回の成果を出発点として、実用的な本当に役立つDeep Researchシステムの実用化・高度化に、今後も継続して取り組んでいきます。」とコメントしています。

東北大学 言語AI研究センター センター長 鈴木潤 氏は、「Web検索の発展形として期待され、今後の様々な調べ物において中心的な方式になる可能性を秘めたDeep Research方式に連なる技術を自分たちで独自に組み上げる貴重な機会となりました。今後の研究に有益な知見や経験を得ることができました。」と述べています。

Studio Ousia チーフサイエンティスト 山田育矢 氏は、「ChatGPTやGeminiなどに搭載されているLLMによる自律的なリサーチ機能であるDeep Researchは、主にクローズドな商用LLMを用いて実現されていますが、オープンな技術で同様の機能を実現することは難しい課題です。今回のコンペティションで開発したオープンで再現可能なDeep Researchが、その解決の一助となり、この分野の研究がさらに発展していくことを期待します。」と語っています。

各組織について

  • 東北大学 言語AI研究センター
    自然言語処理の分野で国内最大級の研究グループを持ち、高度なAI技術の原理解明や、AIの安全性研究、AI基盤技術の発展を推進しています。AI駆動型研究の推進、AI人材育成、社会実装など、幅広い領域でAI技術の発展に貢献しています。

  • 株式会社Studio Ousia
    「テキストを『使えるナレッジ』へ」をビジョンに掲げ、自然言語処理を活用し、組織の情報資産から新たな価値を生み出すことを目指しています。組織固有の知識も活用できる大規模言語モデル(LLM)の開発に強みを持ち、プロダクト提供、共同研究、受託開発、技術コンサルティングを通じて、組織の価値向上と課題解決を実現しています。

  • 株式会社電通総研
    「HUMANOLOGY for the future~人とテクノロジーで、その先をつくる。~」を企業ビジョンとし、「システムインテグレーション」「コンサルティング」「シンクタンク」の3つの機能連携により、社会全体の課題解決を支援・実装しています。テクノロジーや業界を超えた「X Innovation(クロスイノベーション)」を推進し、人とテクノロジーの力で未来を切り拓き、新しい価値を創出し続けています。

タイトルとURLをコピーしました