NVIDIAがAIの「頭脳」を効率化する「Dynamo 1.0」を発表、大規模AI推論を加速

AI

NVIDIAは2026年3月16日、大規模な生成AIやエージェント型AIの推論を効率的に行うためのオープンソースソフトウェア「NVIDIA Dynamo 1.0」を、本番稼働向けに提供開始したことを発表しました。

データセンターのような空間で緑色に輝く球体が中心にあり、光の線が周囲の機器と接続されている様子

AIの「交通整理」を担うDynamo 1.0

現代のAIシステム、特にエージェント型AIが実用化されるにつれて、データセンターではさまざまな種類やサイズのAIリクエストが予測不能な形で大量に届くようになります。これを効率的に処理することは、まるで複雑な交通渋滞を管理するようなものです。

NVIDIA Dynamo 1.0は、まさにAIファクトリーにおける分散型の「オペレーティング システム」として機能します。コンピューターのOSがハードウェアとアプリケーションを調整するように、Dynamo 1.0はデータセンター内のGPUやメモリといったリソースをシームレスに調整し、複雑なAIの作業を最大限の効率で動かします。

最近の業界ベンチマークでは、Dynamo 1.0がNVIDIA Blackwell GPUと組み合わせることで、AI推論のパフォーマンスを最大7倍向上させ、何百万ものGPUにおけるトークン(AIが生成する情報の最小単位)あたりのコストを削減し、収益機会を増やすことが示されました。

NVIDIAの創業者兼CEOであるジェンスン フアン氏は、「推論は、あらゆるクエリ、あらゆるエージェント、あらゆるアプリケーションを支える知性のエンジンです。NVIDIA Dynamoは、AIファクトリー向け史上初の『オペレーティング システム』を構築しました」と述べています。

賢いリソース管理と広がるエコシステム

Dynamo 1.0は、より高度な「トラフィック制御」機能を持ち、GPUとストレージの間でのデータ移動を効率化します。これにより、推論作業を複数のGPUに分散させ、無駄な作業を減らし、メモリの制約を緩和します。特にエージェント型AIや長いプロンプトの場合、以前のステップの「短期記憶」を持つGPUにリクエストを振り分けたり、不要なメモリを解放したりすることで、効率的な処理を実現します。

NVIDIAは、DynamoとNVIDIA TensorRT™-LLMライブラリの最適化を、LangChain、llm-d、LMCache、SGLang、vLLMといった主要なオープンソースフレームワークに統合し、AI開発のエコシステムを加速させています。また、スマートなメモリ管理を実現するKVBM、GPU間の高速データ転送を可能にするNVIDIA NIXL、拡張を容易にするNVIDIA GroveといったDynamoの中核となる構成要素も、単体モジュールとして利用できます。

NVIDIAの推論プラットフォームは、以下のような幅広いAIエコシステムでサポートされています。

パートナーからのコメント

CoreWeaveの製品およびエンジニアリング担当バイスプレジデントであるChen Goldberg氏は、「NVIDIA Dynamoのサポートにより、複雑なAIエージェントを展開するための、よりシームレスで回復力のある環境を提供できるようになりました」と述べています。

Nebiusの最高技術責任者であるDanila Shtan氏は、「DynamoからTensorRT-LLMまでのNVIDIAソフトウェアスタックが、高度な最適化、予測可能なパフォーマンス、展開までの時間短縮を実現し、AIの本番稼働への移行をよりシンプルで高性能なパスを顧客に提供できることを評価しています」とコメントしています。

Pinterestの最高技術責任者であるMatt Madrigal氏は、「NVIDIA Dynamoが私たちの展開を最適化することで、高性能なAIインフラを活用した、シームレスでパーソナライズされた体験の提供を拡大しています」と語っています。

Together AIの共同創業者兼CEOであるVipul Ved Prakash氏は、「NVIDIA Dynamo 1.0とTogether AIの最先端の推論研究を組み合わせることで、大規模な本番環境ワークロード向けの高速でコスト効率の高い推論を実現する高性能なスタックを提供できます」と述べています。

Dynamo 1.0は、すでに世界中の開発者向けに提供が開始されています。詳細や展開方法については、以下のウェブページで確認できます。

タイトルとURLをコピーしました