日本で水冷GPUサーバーの商用利用が前進!AI・HPC活用を効率化するPoCに成功
生成AIや高性能計算(HPC)の発展により、GPUサーバーという特別なコンピューターの需要が世界中で高まっています。NTTPCコミュニケーションズ株式会社、株式会社ゲットワークス、株式会社フィックスターズの3社は、日本で水冷GPUサーバーをより効率的に使えるようにするための実証実験(PoC)を行い、高い電力効率(pPUE 1.114)を達成しました。この成功は、日本での水冷GPUサーバーの本格的な商用利用に向けて大きな一歩となります。
なぜ水冷GPUサーバーが必要なの?
AIやHPCの計算には、たくさんの熱を出す高性能なGPU(Graphics Processing Unit:画像処理装置)が不可欠です。この熱を効率よく冷やすには、空気で冷やす「空冷」よりも、水で冷やす「水冷」の方が優れています。海外では水冷の導入が進んでいますが、日本ではまだ空冷式のデータセンターが主流であり、水冷GPUサーバーの導入事例は少ないのが現状です。
また、GPUの性能を最大限に引き出すためには、データセンターの設備、GPUサーバー本体、そして動かすソフトウェアがバラバラではなく、一体となって働くように工夫することが大切です。今回のPoCは、これらの課題を解決し、水冷GPUサーバーが本来持っている力を最大限に引き出すために行われました。
実証実験(PoC)の内容
この実験では、コンテナ型データセンターと呼ばれる、運びやすい箱型のデータセンターの中に水冷GPUサーバーを設置しました。データセンターの設備、GPUサーバー、ソフトウェアをまとめて調整し、さまざまな計算をさせて、その時のデータ(温度や電力消費など)を詳しく計測しました。さらに、水冷GPUサーバーと空冷GPUサーバーで、どのくらい性能に違いが出るかも比較しました。
驚きの結果:高い電力効率と安定稼働
実証実験の結果、水冷GPUサーバーがコンテナ型データセンターで商用利用できることが確認されました。データセンター、GPUサーバー、ソフトウェアが一体となって働くことで、運用効率が最大限に高まり、電力効率を示す「pPUE」という値で1.114という優秀な記録を達成しました。
pPUEとは、データセンターの一部分(今回の場合はコンテナ内)の電力効率を示す指標で、ICT機器の消費電力に対して、その部分全体の総消費電力の割合です。一般的に、最新の大規模水冷データセンターではPUEが1.05~1.2程度とされ、pPUEの値は1.1前後が優秀とされています。
水冷GPUサーバーは、空冷GPUサーバーと比べて、最も負荷がかかった時のGPUの平均温度を約15度も下げることができました。これは、冷却装置がきちんと働いている証拠です。
サーバーの負荷や温度をリアルタイムで監視し、空調設備や冷却を効率よく行うための工夫(キャッピングなど)をすることで、電力使用効率を統合的に管理するシステムも作られました。この結果、コンテナ型データセンターという、素早く柔軟に用意できる環境でも、水冷GPUサーバーの性能を最大限に引き出せることを実証できました。


今回の検証レポートは、以下のURLから詳しく見ることができます。
各社の役割
-
NTTPCコミュニケーションズ株式会社: 大規模なGPUクラスターを数多く提供してきた経験を活かし、ハードウェアの専門知識を提供して検証を実施しました。
-
株式会社ゲットワークス: 新潟県越後湯沢にある「湯沢GXデータセンター」から、商用環境と同じ20フィートのコンテナ型データセンター1棟を提供。最適なサーバー稼働環境を整えました。
-
株式会社フィックスターズ: 実証実験用の水冷GPUサーバーと冷却設備を提供し、コンテナ内の環境やハードウェア、ソフトウェアをまとめて管理するモニタリングツールを開発しました。
今後の展望
高性能なGPUサーバーの需要はこれからも増え続けることが予想され、水冷GPUサーバーの必要性も高まっていくでしょう。今回協力した3社は、今後も連携を深め、日本国内でコンテナ型データセンターにおける水冷GPUサーバーの商用利用をさらに広げていくことに取り組んでまいります。

