水冷GPUサーバーでAIの未来を拓く!国内での商用利用に一歩前進

生成AI(Generative AI)

水冷GPUサーバーの運用効率向上に成功!国内での商用利用に前進

NTTPCコミュニケーションズ株式会社(以下、NTTPC)、株式会社ゲットワークス(以下、ゲットワークス)、株式会社フィックスターズ(以下、フィックスターズ)の3社が共同で、AIの計算を高速に行うための特別なコンピューター「水冷GPUサーバー」の運用効率を高める実証実験(PoC:概念実証)に成功しました。この成功により、国内での商用利用に向けて大きな一歩を踏み出しました。

AI時代に欠かせない高性能GPUサーバー

最近、私たちの身の回りでも「生成AI」という言葉をよく聞くようになりました。この生成AIや、科学技術計算などの高速処理を行う「HPC(High Performance Computing)」の利用が本格化するにつれて、高性能なGPUサーバーの需要が急速に増えています。

高性能なGPUサーバーは、たくさんの熱を出すため、効率よく冷やす仕組みがとても重要です。海外では、水を活用してコンピューターの熱を効率よく冷やす「水冷GPUサーバー」が広く使われ始めていますが、日本国内ではまだ空気を冷やす「空冷式」のデータセンターが主流で、水冷式の導入事例は少ないのが現状です。

また、GPUサーバーの性能を最大限に引き出すためには、データセンターの設備、GPUサーバー本体、そしてそれらを動かすソフトウェアがバラバラではなく、一体となって連携することが大切です。しかし、これまではそれぞれが個別に最適化されていることが多く、統合的な連携が課題となっていました。

コンテナ型データセンターでのPoCに成功

今回のPoCでは、これらの課題を解決し、水冷GPUサーバー本来の能力を最大限に発揮させるため、「コンテナ型データセンター」という運びやすい箱型のデータセンターを活用しました。

コンテナ型データセンター内に水冷GPUサーバーを設置し、データセンターの設備、GPUサーバー、ソフトウェアを統合的に調整した環境で、さまざまな負荷を与えてデータを測定。空冷GPUサーバーとの性能比較も行いました。

その結果、水冷GPUサーバーの商用利用が有効であることが確認され、データセンター全体からGPUサーバー、ソフトウェアまでを統合的に連携させることで、運用効率が最大化されることを実証しました。

特に注目すべきは、データセンターの一部(モジュールやゾーン)の電力効率を示す指標である「pPUE」において、優秀とされる1.1前後を大きく下回る「1.114」という値を記録したことです。pPUEは値が小さいほど電力効率が良いことを意味し、この数値は大規模データセンター以外では達成が難しいとされています。

また、水冷GPUサーバーと空冷GPUサーバーの性能を比較したところ、最大負荷時のGPU平均温度が水冷式では約15度低減されることが確認されました。これは、冷却分配装置(CDU)などが適切に機能していることを示しています。

GPU平均温度推移のグラフ

さらに、サーバーの負荷や温度をリアルタイムで監視し、列間に設置する局所空調システム「InRow空調」の制御や、冷気と排熱を効率的に分離する「キャッピング」を実施。CDUなどの特定モジュールやデータセンタールームの電力使用効率を示すpPUEを統合的に収集・管理するシステムも構築されました。

統合モニタリングシステムによる検証結果の画面

各社の役割

今回のPoCは、3社の専門知識と技術が結集して実現しました。

  • NTTPCコミュニケーションズ株式会社:大規模GPUクラスタの提供実績を活かし、ハードウェアエンジニアリングの観点から検証を実施しました。

  • 株式会社ゲットワークス:新潟県湯沢にある湯沢GXデータセンターにて、商用環境と同等のコンテナ型データセンターを提供。キャッピングなどの調整を行い、最適なサーバー稼働環境を構築しました。

  • 株式会社フィックスターズ:実証実験用の水冷GPUサーバーやサーバー冷却設備を提供し、コンテナ型データセンター内の環境・ハードウェア・ソフトウェアを統合的に管理するモニタリングツールを構築しました。

今後の展開

高性能なGPUサーバーの普及が進む中、水冷GPUサーバーのニーズは今後さらに拡大することが予想されます。3社は今後も連携を強化し、日本国内におけるコンテナ型データセンターでの水冷GPUサーバーの商用利用拡大に向けて取り組んでいくとのことです。

検証レポート

本PoCの検証レポートは、以下のURLからご覧いただけます。

タイトルとURLをコピーしました