水冷GPUサーバーが日本のAI活用を加速!NTTPC、ゲットワークス、フィックスターズが電力効率1.114を達成

AI

日本で水冷GPUサーバーの商用利用が前進!AI・HPC活用を効率化するPoCに成功

生成AIや高性能計算(HPC)の発展により、GPUサーバーという特別なコンピューターの需要が世界中で高まっています。NTTPCコミュニケーションズ株式会社、株式会社ゲットワークス、株式会社フィックスターズの3社は、日本で水冷GPUサーバーをより効率的に使えるようにするための実証実験(PoC)を行い、高い電力効率(pPUE 1.114)を達成しました。この成功は、日本での水冷GPUサーバーの本格的な商用利用に向けて大きな一歩となります。

なぜ水冷GPUサーバーが必要なの?

AIやHPCの計算には、たくさんの熱を出す高性能なGPU(Graphics Processing Unit:画像処理装置)が不可欠です。この熱を効率よく冷やすには、空気で冷やす「空冷」よりも、水で冷やす「水冷」の方が優れています。海外では水冷の導入が進んでいますが、日本ではまだ空冷式のデータセンターが主流であり、水冷GPUサーバーの導入事例は少ないのが現状です。

また、GPUの性能を最大限に引き出すためには、データセンターの設備、GPUサーバー本体、そして動かすソフトウェアがバラバラではなく、一体となって働くように工夫することが大切です。今回のPoCは、これらの課題を解決し、水冷GPUサーバーが本来持っている力を最大限に引き出すために行われました。

実証実験(PoC)の内容

この実験では、コンテナ型データセンターと呼ばれる、運びやすい箱型のデータセンターの中に水冷GPUサーバーを設置しました。データセンターの設備、GPUサーバー、ソフトウェアをまとめて調整し、さまざまな計算をさせて、その時のデータ(温度や電力消費など)を詳しく計測しました。さらに、水冷GPUサーバーと空冷GPUサーバーで、どのくらい性能に違いが出るかも比較しました。

驚きの結果:高い電力効率と安定稼働

実証実験の結果、水冷GPUサーバーがコンテナ型データセンターで商用利用できることが確認されました。データセンター、GPUサーバー、ソフトウェアが一体となって働くことで、運用効率が最大限に高まり、電力効率を示す「pPUE」という値で1.114という優秀な記録を達成しました。

pPUEとは、データセンターの一部分(今回の場合はコンテナ内)の電力効率を示す指標で、ICT機器の消費電力に対して、その部分全体の総消費電力の割合です。一般的に、最新の大規模水冷データセンターではPUEが1.05~1.2程度とされ、pPUEの値は1.1前後が優秀とされています。

水冷GPUサーバーは、空冷GPUサーバーと比べて、最も負荷がかかった時のGPUの平均温度を約15度も下げることができました。これは、冷却装置がきちんと働いている証拠です。

サーバーの負荷や温度をリアルタイムで監視し、空調設備や冷却を効率よく行うための工夫(キャッピングなど)をすることで、電力使用効率を統合的に管理するシステムも作られました。この結果、コンテナ型データセンターという、素早く柔軟に用意できる環境でも、水冷GPUサーバーの性能を最大限に引き出せることを実証できました。

検証結果の一例

統合モニタリングシステムによる検証結果の画面

今回の検証レポートは、以下のURLから詳しく見ることができます。

各社の役割

  • NTTPCコミュニケーションズ株式会社: 大規模なGPUクラスターを数多く提供してきた経験を活かし、ハードウェアの専門知識を提供して検証を実施しました。

  • 株式会社ゲットワークス: 新潟県越後湯沢にある「湯沢GXデータセンター」から、商用環境と同じ20フィートのコンテナ型データセンター1棟を提供。最適なサーバー稼働環境を整えました。

  • 株式会社フィックスターズ: 実証実験用の水冷GPUサーバーと冷却設備を提供し、コンテナ内の環境やハードウェア、ソフトウェアをまとめて管理するモニタリングツールを開発しました。

今後の展望

高性能なGPUサーバーの需要はこれからも増え続けることが予想され、水冷GPUサーバーの必要性も高まっていくでしょう。今回協力した3社は、今後も連携を深め、日本国内でコンテナ型データセンターにおける水冷GPUサーバーの商用利用をさらに広げていくことに取り組んでまいります。

タイトルとURLをコピーしました