NVIDIA B300 GPUの性能を徹底検証!生成AI開発に最適なGPU選びのヒント

生成AI(Generative AI)

はじめに

GMOインターネット株式会社は、AI開発を支える「GMO GPUクラウド」において、最新のGPUである「NVIDIA HGX B300 AI インフラストラクチャ」(以下、B300 GPU)と、従来から提供している「NVIDIA H200 Tensor コアGPU」(以下、H200 GPU)の性能を比較検証しました。

この検証は、生成AI(文章や画像を自動で作り出すAI)の開発から運用まで、実際の利用で役立つ性能と、計算処理の速さの両方を評価するために行われました。様々なAIワークロード(AIが行う作業の種類)において、どのGPUを選ぶべきかの参考になる情報が提供されています。

GPUの性能を徹底比較!3つのベンチマークとは?

GMOインターネットは、B300 GPUとH200 GPUの性能を測るために、以下の3種類のテスト(ベンチマーク)を実施しました。

  1. 大規模言語モデル(LLM)の学習ベンチマーク:AIが文章を学ぶ「学習」の効率と速さを測ります。目標の質に達するまでの学習にかかる時間を調べます。
  2. vLLM bench throughputによる推論ベンチマーク:AIが学習した内容を使って新しい文章などを生成する「推論」の速さを測ります。1秒間にどれくらいの量の言葉(トークン)を生成できるかを評価します。
  3. HPL Benchmarkによるベンチマーク:科学技術計算など、とても正確な数値計算の処理能力を測ります。スーパーコンピューターの性能評価にも使われる基本的な計算力を評価するテストです。

これらのテストを通じて、B300 GPUとH200 GPUがそれぞれどのようなAIワークロードに強いのかを明らかにしています。

ベンチマーク結果を詳しく見てみよう!

1. 大規模言語モデル(LLM)の学習性能

大規模言語モデル (LLM) の学習ベンチマーク

大規模言語モデル(LLM)の学習時間を比較したこのテストでは、Llama2 70BというAIモデルを使って学習を行いました。その結果、B300 GPUはH200 GPUに比べて、学習を約2倍速く完了できることが分かりました。

さらに、NVIDIA Blackwellアーキテクチャから新しく対応した「FP4(4ビット浮動小数点演算)」という計算方法を使うと、さらに短い時間で学習が完了しました。これは、FP4が高い計算性能を持っているため、学習の効率を大きく高める可能性があることを示しています。

  • MLPerf®は、MLCommons Associationが管理する機械学習システムの性能測定における国際的なベンチマーク標準です。詳細については、www.mlcommons.orgをご覧ください。

    • FP4(4ビット浮動小数点演算)は、データを4ビットで表現する計算方法で、メモリ使用量を減らし処理速度を上げます。

    • FP8 hybridは、8ビット浮動小数点演算と高精度演算を組み合わせた学習方法です。

2. 大規模言語モデル(LLM)の推論性能

vLLM bench throughput による推論ベンチマーク

次に、AIが生成した文章などの出力速度(推論スループット)を測るテストです。Llama-3.1-405B-Instructというモデルを使って比較したところ、B300 GPUはH200 GPUに比べて、約1.7倍の速さで推論処理を行えることが確認されました。

こちらもFP4(NVFP4)という計算方法を適用すると、B300 GPUはH200 GPUの約2.5倍もの性能向上を達成しました。この結果は、FP4が大規模なAIモデルの推論性能を高めるのに非常に有効な手段であることを示唆しています。

  • vLLM bench throughputは、大規模言語モデル推論エンジン「vLLM」のベンチマークツールで、AIサービスの応答性能や処理能力を評価します。

3. 高精度な数値計算(HPL)の性能

HPL Benchmark によるベンチマーク

最後に、科学技術計算などで使われる非常に正確な数値計算の性能を測るHPL Benchmarkです。このテストでは、B300 GPUの性能はH200 GPUの約2.1%(約47分の1)にとどまるという結果になりました。

この結果から、B300 GPUが生成AIの学習や推論に適した「低精度演算(FP4/FP8)」に特化して設計されている一方で、気象予測や創薬研究など、わずかな誤差も許されない「高精度演算(FP64)」が必要な科学技術計算には、依然としてH200 GPUが適している可能性が考えられます。

  • HPL Benchmarkは、スーパーコンピューターの性能評価に用いられる国際標準ベンチマークです。

  • LINPACK性能は、複雑な数式を正確に解く計算能力を示す指標で、科学技術計算の性能を表します。

まとめ:用途に応じたGPU選びの重要性

今回の検証により、NVIDIAのGPUは、その特性によって得意なAIワークロードが異なることが明確になりました。

  • B300 GPU: 生成AIの学習や推論といったAIワークロードにおいて、非常に高い性能を発揮します。特にFP4のような新しい低精度演算を活用することで、さらなる高速化が期待できます。

  • H200 GPU: 高精度な数値計算が求められる科学技術計算の分野で、優れた性能を維持しています。

GMOインターネットのインフラ・運用本部 プロジェクト統括チーム エグゼクティブリード 佐藤嘉昌氏は、「今回のベンチマーク結果は、提供されている環境・条件下での検証結果ですが、B300 GPUとH200 GPUの性能特性の違いを示す一つのデータとしてご参考いただけると考えている」とコメントしています。また、顧客のAI開発をサポートし、日本のAI産業の発展に貢献していく方針が示されています。

「GMO GPUクラウド」の今後の展望

GMOインターネットは、「GMO GPUクラウド」を通じて、生成AIに取り組む企業や研究機関に対し、それぞれのAIワークロードに最適なGPUクラウドサービスを柔軟に選べる計算環境を提供していく予定です。

今回の検証結果を踏まえ、生成AIの学習・推論に強いB300 GPUと、高精度な数値計算に適したH200 GPUを、顧客の利用シーンに合わせて柔軟に組み合わせた提案が行われます。単にGPUを提供するだけでなく、開発目的や利用用途に合わせた環境のカスタマイズから運用最適化まで、技術面・コスト面の両方でサポートを提供し、開発期間の短縮とコスト削減に貢献することで、国内AI産業の発展を促進していくとしています。

「GMO GPUクラウド」とは?

「GMO GPUクラウド」は、NVIDIA H200 Tensor コアGPUを搭載し、国内初の高速ネットワークNVIDIA Spectrum-Xと高速ストレージを実装したGPUクラウドサービスです。

サービスの詳細については、以下のURLをご覧ください。
https://gpucloud.gmo/

その他の関連情報

タイトルとURLをコピーしました