Supermicro NVIDIAはAI、MLなどに最適化されたシステムを提供

高度なデータアクセスと転送を最大限に活用して生産性を向上させる

現代の企業は、ビジネスや業務において高度なアプリケーションやデータ処理を利用することで、大きな競争優位性を獲得しています。これには、ChatGPT、LLaMaなどのAIベースの大規模言語モデル、膨大なデータセットに基づく機械学習分析などが含まれます。トレーニングまた、実データ、複雑な3Dモデルや有限要素モデル、シミュレーション、その他データおよび計算負荷の高いアプリケーションにも対応します。

こうしたワークロードには、少なくとも次の共通点があります。それは、どのような階層型モデルを使用しても、ストレージへのアクセスが高速化されることで大きなメリットが得られるということです。これが、多くの企業やサービスプロバイダーが、大規模で複雑なデータセットや、それらを消費するワークロードを処理するためにGPUベースのサーバーを採用している主な理由の一つです。GPUベースのサーバーは、こうしたワークロードを処理する能力がはるかに高く、従来のストレージ構成（ローカルRAMやGPUなど）を備えたサーバーよりも、こうしたタスクをより迅速に完了できます。 NVMe SSD、LAN またはクラウド)

スループットを向上させる秘訣は、レイテンシの低減とストレージ帯域幅の向上です。これらは、主に直接的およびリモートのI/Oとネットワーク技術を活用した巧妙な技術によって、生産性と機能の向上に直接つながります。メモリーアクセスについては、次述します。より高速なモデルトレーニングまた、ジョブの完了により、AIを活用したアプリケーションをより迅速に展開し、作業をより速く完了させることができ、価値実現までの時間を短縮できます。

直接メモリーアクセスおよびリモート相当機能

直接メモリーアクセス（別名DMA）は、コンピューティングの黎明期からI/Oを高速化するために使用されてきました。基本的に、DMAはメモリー-に-メモリーバス（または別のバス）での乗り換えインタフェースあるデバイスから別のデバイスへ、何らかの種類のデータをコピーすることで機能します。メモリー送信者から直接アドレスを取得メモリー受信者へメモリー（または双方向転送の場合は2者間）。この機能はCPUをプロセスから外し、コピー操作の数を減らすことで転送を高速化します（CPUが送信者のデータをコピーする必要がなくなります）。メモリー次に、そのデータをコピーします。メモリー受取人のメモリー)

実際、単一システムでのDMAパフォーマンスはバスの速度（またはその他の）によってのみ制限されますインタフェースデータ転送に関与する送信デバイスと受信デバイスをリンクする。 PCIe 4.0、つまり16ギガ転送/秒（GT/s）で、その2倍のPCIe 5.0 (32 GT/s)。エンコードとパッケージングのオーバーヘッドのため、データレートは当然遅くなりますが、これら2つの定格帯域幅はPCIe バージョンごとの速度は、それぞれ64Gbps（4.0）と128Gbps（5.0）です。これは高速ですね！

リモートDMA（RDMAとも呼ばれる）は、単一のコンピュータ内のDMAの機能を拡張し、ネットワーク接続を介して2つのデバイス間で動作させるものです。RDMAは通常、独自のアプリケーションプログラミングに基づいています。インタフェース（API）は、専用のネットワークハードウェアおよびソフトウェアと連携して、基盤となるネットワーク技術が許容する限り、ローカルDMAと同様の多くの利点を提供します。

NVIDIA GPUは、速度とコストの高い順に（最も速く、最も高価なものから順に）、3種類のネットワーク技術をサポートしています。

NVIDIA NVLinkは、最高速度の独自インターフェースとスイッチ技術を使用して、高速ネットワーク上のGPU間のデータ転送を高速化します。現在、標準MLPerfにおいて最高のパフォーマンスを発揮しています。トレーニング v3.0 はあらゆるテクノロジーのベンチマークです。単一の NVIDIA H100 Tensor Core GPU は最大 18 の NVLink 接続をサポートし、最大 900 Gbps (実効速度の 7 倍) を実現します。 PCIe 5.0）。
InfiniBand は、高速ネットワーク規格であり、 InfiniBand 貿易協会（IBTA）は広く実施されており、ハイパフォーマンスネットワーク。 2020年時点で測定された最高データレートは約1.2 Tbps、約154 GBpsです。
イーサネットは、あまり使用されていないTbE（約125Gbps）や、より一般的な400GbE（50Gbps）など、多くのバリエーションを持つ標準的なネットワーク技術です。価格が手頃で、広く普及しており、多くのデータセンターで馴染みのある技術であるという利点があります。

NVIDIA GPU を次の用途に活用するSupermicro サーバー

NVIDIA RDMAテクノロジーは、前述の3つのネットワークテクノロジーすべてにおいてGPUベースのデータアクセスをサポートできます。それぞれ価格と性能のトレードオフが異なり、コストが高いほど速度が向上し、レイテンシが低くなります。組織は、予算とニーズに最適な基盤となる接続タイプを選択できます。各オプションは、信頼できる価格と性能の特定の組み合わせを表していることを理解しておく必要があります。このようなサーバー上でさまざまなAIまたはMLベースのアプリケーション（およびその他のデータ集約型および計算集約型アプリケーション）を実行すると、GPUストレージの階層型アーキテクチャを活用できます。利用可能な階層は次のとおりです（性能の高い順、サイズと容量の高い順）。

第1層：GPUメモリー最も高速で、最も高価で、最も容量の小さいデータストアです（例：Tensor H100 GPUは188GBのHBM3 RAMを搭載しています）。
第2層: ローカルSSD PCIe バスは次に高速だが、依然として高価であり、ハイエンドGPUの10～100倍の容量を持つ。
第3層：LAN上のリモートストレージサーバーは、アクセスするGPUの容量の1,000倍以上の容量をサポートできます。

AIおよびMLアプリケーションは低遅延と高帯域幅の両方を必要とするため、RDMAはDMAのローカルな利点をネットワークリソースに拡張するのに役立ちます（関連する基盤となる接続に依存します）。この機能により、外部データへの高速アクセスが可能になります。メモリー-に-メモリーデバイス間でのデータ転送 (片側に GPU、もう片側にストレージデバイス)。NVLink と連携して、 InfiniBandあるいは高速イーサネットバリアントでは、リモートアダプタがデータを転送しますメモリー遠隔システムでメモリー一部のローカルGPU上で動作します。NVIDIA Magnum IOは、データセンター向けのI/Oアクセラレーションプラットフォームを提供し、並列かつインテリジェントなデータセンターI/Oをサポートすることで、要求の厳しいアプリケーションに必要なストレージ、ネットワーク、マルチノード、マルチGPU通信を最大限に活用します。

GPUサーバーシステムでは、 Supermicro NVIDIA GPUとそのサポートするアクセス方法を使用します。これには、ローカルDMA、API経由のRDMA、さらにハイパフォーマンス複数のNICと3種類の接続タイプすべてをサポートするスイッチを介したネットワーク接続。さらに、 Supermicro GPUサーバーには、GPUが実現する高速なI/Oをサポートするために、データ処理ユニット（DPU）と呼ばれる専用ASICが1つまたは2つ搭載されています。これらは、サーバーCPUから追加のI/Oオーバーヘッドをオフロードします。同様に、このようなサーバーは、サーバーあたり最大8つのネットワークアダプタをサポートでき、ネットワーク帯域幅への持続的かつ拡張されたアクセスを可能にし、データ転送を最大化します。 PCIe 5.0 デバイスと RDMA デバイス。これにより、 PCIe バス上で、スループットを最大化し、遅延を最小限に抑えるのに役立ちます。

パフォーマンスへの影響は非常に大きい。NVIDIAの高速I/Oを使用することで、パフォーマンスは20～30%程度向上し、負荷の高いワークロードでは最大2倍に達する。また、非効率性を防ぐために、ストレージを活用するようにアプリケーションを設計することも不可欠である。そのため、そのようなアプリケーションは定期的にチェックポイントを作成するように構成する必要がある。そうしないと、ノードがネットワークから切断されたり、一定時間ブロックされたりした場合に、アプリケーションは最初からやり直さなければならない。チェックポイントを使用することで、ノード障害やその他のブロックイベントが発生した場合でも、進行状況は最新のスナップショットまでしか戻らない（実際には、このような機能はローカルおよびネットワークのデータ保護ツールで利用できる場合があり、アプリケーションに明示的に組み込む必要はない）。

総じて、AI、機械学習、その他の高負荷ワークロード（3Dモデルや有限要素モデル、シミュレーションなど）にDPUおよびGPUベースのサーバーを使用する真の利点は、インフラストラクチャコンポーネントとアプリケーションアクティビティを分離できる点にあります。これにより、現在インフラストラクチャへのアクセスと管理に費やされているCPUサイクルの20～30%を削減できます。I/O機能をハードウェアに移行することで、リソースが解放され、アクセス速度が向上します。

AIインフラストラクチャ

Data Center Building Block Solutions® (DCBBS)

AI ファクトリー

エッジAI

AIストレージ

業界別AIソリューション

NVIDIAソリューション

AMD ソリューション

インテル ソリューション

Arm AGIソリューションズ

ラックマウントサーバー

デュアルプロセッサー

シングルプロセッサー

マルチプロセッサー

GPUサーバー

8U/10U GPUライン

4U/5U GPUライン

2 U GPUライン

1 U GPUライン

Twin サーバー

FlexTwin™

BigTwin®

GrandTwin®

TwinPro®

FatTwin®

ブレード・サーバー

SuperBlade®

MicroBlade®

MicroCloud

ストレージ・サーバー

すべてのストレージシステム

オールフラッシュ NVMe

トップローディング・ストレージ

JBOF

ペタスケール Grace ストレージ

エンタープライズ向けに最適化されたストレージ

JBODストレージエンクロージャー

マザーボード

サーバーボード

ワークステーションボード

組み込み／IoTボード

デスクトップ／ゲーミングボード

マザーボードマトリックス

グローバルSKU

筐体

1Uシャーシ

2Uシャーシ

3Uシャーシ

4U / タワーシャーシ

ミドルタワー／ミニタワー

組み込み／IoTシャーシ

移動式ラック／ドライブキット

JBODストレージエンクロージャー

グローバルSKU

SuperRack®

ラック統合サービス

アクセサリー

ケーブルマトリックス

ライザーカードマトリックス

ストレージAOCマトリックス

電源供給マトリックス

ヒートシンクマトリックス

システムファンマトリックス

移動式ラック／ドライブキット

フロントシャーシベゼル

ストレージ、I/O、セキュリティ

エッジAI およびIoTシステム

コンパクトエッジシステム

コンパクトエッジサーバー

ラックマウント型エッジサーバー

組み込みコンポーネント

組み込みマザーボード

組み込みシャーシ

スイッチ

アダプター

SuperWorkstations

液冷式AI開発プラットフォーム

シングルプロセッサー

デュアルプロセッサー

デスクトップ

インテルソリューション

ラックソリューション

クラウド仮想化

クラウドサービスプロバイダー（CSP）

IoT エッジソリューション