Supermicro NVIDIA、AIや機械学習などに最適化されたシステムを提供
現代の企業は、事業や業務において高度なアプリケーションやデータ処理を活用することで、大きな競争優位性を獲得しています。これには、ChatGPTやLLaMaなどのAIベースの大規模言語モデル、膨大なトレーニング に基づく機械学習分析、複雑な3Dモデルや有限要素モデルおよびシミュレーション、その他データや計算処理を多用するアプリケーションなどが含まれます。
こうしたワークロードには、少なくとも以下の共通点があります。どのような階層型モデルを採用する場合でも、ストレージへのアクセスが高速化されることで、大きなメリットが得られるという点です。 これが、多くの企業やサービスプロバイダーが、大規模で複雑なデータセットや、それらを処理するワークロードに対応するために、GPUベースのサーバーを採用するようになった主な理由の一つです。GPUベースのサーバーは、より一般的なストレージ構成(例:ローカルRAMNVMe 、LAN上またはクラウド追加ストレージ階層)を備えた従来のサーバーよりも、これらのワークロードをはるかに効率的に処理でき、タスクをより迅速に完了させることができます。
スループットを向上させる秘訣は、レイテンシの低減とストレージ帯域幅の向上にあります。これらは、主にダイレクトメモリー 依存する巧妙なI/Oおよびネットワーク技術を通じて、生産性と機能性の向上に直結します。これについては後ほど詳しく説明します。モデルのトレーニング ジョブの完了が早くなることで、AIを活用したアプリケーションをより迅速に展開し、業務を効率化できるため、価値実現までの時間を短縮できます。
ダイレクトメモリアクセスとそれに相当するリモートメモリー
メモリー (DMA)は、コンピューティングの黎明期からI/Oの高速化に利用されてきました。基本的に、DMAとは、バス(またはインタフェース )を介して、あるデバイスから別のデバイスへとメモリー を行うものです。 その仕組みは、メモリー メモリー あるいは双方向転送の場合は両者間で)、メモリー 直接コピーすることです。この機能により、CPUが処理に関与する必要がなくなり、関与するコピー操作の回数が減ることで転送が高速化されます(つまり、CPUが送信側のデータを自身のメモリーにコピーし、さらにそのデータを自身のメモリー 受信側のメモリーコピーする手間が省けるのです)。
実際、単一システムにおけるDMAのパフォーマンスは、データ転送に関与する送信デバイスと受信デバイスを結ぶバス(またはインタフェース)の速度によってのみ制限されます。PCIe .0の場合、その速度は16ギガトランスファー/秒(GT/s)であり、PCIe .0ではその2倍の32 GT/sとなります。 エンコーディングやパッキングのオーバーヘッドにより、実際のデータ転送速度は当然これより遅くなりますが、PCIe 定格帯域幅は、それぞれ64 Gbps(4.0)および128 Gbps(5.0)となっています。これは非常に高速です!
リモートDMA(RDMAとも呼ばれます)は、単一のコンピュータ内でのDMAの機能を拡張し、ネットワーク接続を介して2つのデバイス間で動作するようにします。RDMAは通常、専用のネットワークハードウェアおよびソフトウェアと連携する独自のアプリケーションインタフェース API)に基づいており、基盤となるネットワーク技術が許す限り、ローカルDMAと同様の利点を可能な限り提供します。
NVIDIA GPUは、このような3つのネットワーク技術をサポートしています:
- NVIDIA NVLinkは、最高速度の独自インターフェースとスイッチ技術を採用し、高速ネットワーク上でGPU間のデータ転送を高速化します。現在、標準的なトレーニング .0ベンチマークにおいて、あらゆる技術の中で最高のパフォーマンスを発揮しています。1枚のNVIDIA H100 Tensor Core GPUは、最大18のNVLink接続をサポートし、最大900 Gbps(PCIe .0の実効速度の7倍)を実現します。
- InfiniBand InfiniBand Association(IBTA)が管理する高速ネットワーク規格InfiniBand 、ハイパフォーマンス 広く採用されています。2020年時点で、測定された最高データ転送速度は約1.2 Tbps(約154 GBps)です。
- イーサネット あまり使われていないTbE(約125 Gbps)や、より一般的な400 GbE(50 Gbps)など、多くのバリエーションを持つ標準的なネットワークイーサネット 。コストが比較的低く、広く導入されており、多くのデータセンターで馴染みのある技術であるという利点があります。
Supermicro でのNVIDIA GPUの活用
NVIDIA RDMA技術は、前述の3つのネットワーク技術すべてにおいてGPUベースのデータアクセスをサポートすることができます。それぞれが異なる価格と性能のトレードオフを提供し、より多くのコストがより高速でより低いレイテンシを実現します。組織は、各オプションが信頼できる価格と性能の特定の組み合わせであることを理解した上で、予算とニーズに最も適した基礎となる接続タイプを選択できます。さまざまなAIやMLベースの(およびその他のデータや計算を多用する)アプリケーションがこのようなサーバー上で実行されるため、GPUストレージの階層型アーキテクチャを利用することができます:
- 第1階層:メモリー 、最も高速で、最も高価であり、かつ最も容量の小さいデータメモリー (例:Tensor H100 GPUは188GBのHBM3メモリを搭載しています)
- 第2層:PCIe 上のローカルSSDは、次に高速ですが、依然として高価であり、ハイエンドGPUの10倍から100倍の容量を備えています
- 第3層:LAN上のリモートストレージサーバーは、アクセスするGPUの1,000倍以上の容量をサポート可能
AIやMLアプリケーションには低遅延と高帯域幅の両方が求められるため、RDMAはDMAのローカル環境における利点をネットワークリソースにも拡張します(ただし、利用される基盤となる接続環境に依存します)。この機能により、デバイス間(一端がGPU、もう一端がストレージデバイス)でのメモリー を通じて、外部データへの高速アクセスが可能になります。 NVLink、InfiniBand、または一部の高速イーサネット 連携することで、リモートアダプタはメモリー メモリー データを転送します。NVIDIA Magnum IOは、データセンター向けのI/Oアクセラレーションプラットフォームを提供し、並列かつインテリジェントなデータセンターI/Oをサポートすることで、それらを必要とする要求の厳しいアプリケーション向けに、ストレージ、ネットワーク、およびマルチノード・マルチGPU間の通信を最大限に活用します。
Supermicro サーバーシステムでは、NVIDIA製GPUおよびそれらをサポートするアクセス方式Supermicro 。これには、ローカルDMA、API経由のRDMAに加え、これら3つの接続タイプすべてに対応した複数のNICおよびスイッチによるハイパフォーマンス が含まれます。さらに、Supermicro 、GPUが実現する高速化されたI/Oをサポートするための「データ処理ユニット(DPU)」と呼ばれる専用ASICが1つまたは2つ搭載されています。これにより、サーバーCPUにかかる追加のI/Oオーバーヘッドを軽減します。 同様に、このようなサーバーは1台あたり最大8つのネットワークアダプタをサポートしており、PCIe .0デバイスとRDMAデバイス間の転送を最大化するために、ネットワーク帯域幅への持続的かつ拡張されたアクセスを可能にします。これにより、PCIe でもボトルネックが発生しないことが保証され、スループットの最大化とレイテンシの最小化に貢献します。
パフォーマンスへの影響は非常にポジティブです。NVIDIAのアクセラレーテッドIOを使用することによるパフォーマンスの向上は、わずか20%から30%から、集中的なワークロードでは最大2倍まで及びます。非効率を防ぐために、ストレージを活用するアプリケーションを設計することも不可欠です。そのため、このようなアプリケーションは定期的にチェックポイントを行うように設定する必要があります。そうでなければ、ノードがネットワークから外れたり、しばらくの間ブロックされたりした場合に、初期状態から再スタートしなければなりません。チェックポイントを使用するということは、ノードの障害やその他のブロックイベントが発生した場合に、進捗が最新のスナップショットに戻るだけということを意味します(このような機能は、ローカルやネットワークのデータ保護ツールから利用できる可能性があり、実際にはアプリケーションに特別に組み込む必要はないかもしれません)。
総じて言えば、AIや機械学習、その他の高負荷ワークロード(3Dモデルや有限要素モデル、シミュレーションなど)にDPUおよびGPUベースのサーバーを活用する真の利点は、インフラストラクチャの構成要素とアプリケーションの処理を分離できる点にあります。これにより、現在インフラストラクチャへのアクセスや管理に費やされているCPUサイクルを20%から30%削減できます。また、I/O機能をハードウェアにオフロードすることで、リソースを解放し、アクセス速度を向上させることができます。