本文へスキップ

Supermicro AMD AIソリューションに高いスループットと低遅延を実現する方法

AIには低遅延ストレージが不可欠です:AMD CPU搭載Supermicro で今すぐ導入ください

現代の企業では、完全な変革が進行中です。その中心となっているのが「AI革命」です。先進的なAIやMLベースのアプリケーションを活用することで、企業は競争上の優位性や重要な洞察を得ています。そのようなワークロードの代表的な例として、ChatGPT、LLaMaなどを含むAIベースの大規模言語モデル(LLM)、膨大なトレーニングデータセットに基づくMLモデル、複雑な3Dモデル、アニメーション、バーチャルリアリティ、シミュレーション、その他のデータや計算負荷の高いアプリケーションが挙げられます。

AIクラスタのGPU駆動の頭脳を格納する派手なラックマウントハードウェアの背後には、クラスタの生産性を維持するための高スループット、低レイテンシのストレージシステムも必要です。これらのストレージは、AI、ML、および同様のワークロードをサポートするために必要な、モデルを訓練し、複雑なシミュレーションと分析を実行するために大量のデータを供給するチャネルをサポートします。実際、AIの成長を活用しようとする企業が直面する最大の課題の1つは、高性能CPU、GPU、データベース・クラスタのボトルネックにならないストレージ・ソリューションを見つけることです。

聖杯高スループット、低レイテンシー

誰もがAIの流行に乗り、対応するワークロードのサポートを求めています。このクレイジーではない夢を実現するには、要求の厳しいワークロードをサポートするために最適化されたサーバー・アーキテクチャが絶対に不可欠です。AMD 、1つのCPUでサーバーのハードウェアとソフトウェアから最高のパフォーマンスを引き出すために、現在9004製品ファミリーの第4世代に当たるEPYC サーバーCPUを構築しました。実際、第4世代のAMD EPYC™ファミリーには、次のような利点があります:

  • 5nmコアコンピュート・ダイ(CCD)に最大96個のZen 4コアを搭載し、ソケット性能とコアあたりの性能をリード
  • 1ソケットあたり最大6TBのDDR5メモリを12チャネル搭載し、メモリ帯域幅と容量で業界をリード
  • CXLメモリデバイス、SSD、NIC、GPUなど、最大128レーンのPCIe 5.0アクセスによるIOのリーダーシップ

AMD EPYCサーバーは、最大限のパフォーマンス、効率性、持続可能性を実現するためにゼロから設計されており、CPU、メモリー、GPU、ストレージ、ネットワーク・インターフェースを最大限に活用するために必要なバランスを管理することができます。実際、AMD EPYC アーキテクチャはスレッドに優先順位を付けているため、集中的なワークロード専用にL3キャッシュを固定することができ、PCIeレーンは一般的なIOスケジューリングや競合遅延の影響を受けません。

ファイルシステムのサポートとボトルネックの回避

分散モードおよび並列モードでは、分散ファイルシステムにおいてデータが複数のソースから到着し、そのデータを様々なプロトコルやアプリケーション向けに大規模に処理する必要があります。一般的なストレージシステムでは、メタデータがすぐにボトルネックとなります。実際、システムを通過できるデータ量はメタデータがサポートする範囲に制限されます。データ量が増加するにつれ、メタデータを処理する能力も比例して拡張する必要があります。Supermicro AMDサーバーはWEKA分散ストレージをサポートしており、 このアーキテクチャは、まさにそのような比例的なスケーリングを実現するよう設計されています。そのため、Supermicro にデータ容量やサービスを追加しても、I/Oパフォーマンスが衰えることはありません。パフォーマンスは、WEKAクラスターの最小ノード数である8ノードから数百ノードまで直線的にスケーリングします。これは、ボトルネックを排除し、最も負荷が高く要求の厳しいAI/ML(およびその他の類似)ワークロードさえもサポートすることで実現されています。

しかし、サーバーやクラスタの最適化には、スケーラブルで高性能、低レイテンシーのストレージを提供すること以上の意味があります。システム全体を設計する場合、単一の機能や特徴だけに焦点を当てることはできません。対象とするワークロードをサポートするためには、アーキテクチャ全体が協調して機能する必要があります。したがって、AIアプリケーション用のシステムを設計するということは、データ集約型のアプリケーションを迅速かつ十分に処理できるよう、ゼロから構築されたランタイム環境を構築することを意味します。これには、推論と分析のための全方位的なサーバー性能と全体的なIO機能が役立ちます。AI(または同様の)ワークロードの処理中にサーバーがデータに対して何を行うかは、任意のノードへのデータトラフィックと同様に重要です。高度に並列化されたアクティビティのサポートが不可欠であるため、そのようなプログラムの実行に関わる並列化されたサブタスクのすべてを処理できる高いコア数が重要です。

もう1つの重要な特徴は、AMD EPYCサーバーのPCIe 5.0レーン数です(シングル・ソケットで最大128)。これにより、サーバーはSSD、NIC、GPU、さらには拡張メモリCXLデバイスの大規模なコレクションに対応できるようになります。これらはすべて、要求の厳しいAIおよびML(または類似の)ワークロードを処理する上で不可欠な役割を果たします:

  • 最大32台のPCIe Gen5 SSDによる高速ローカルストレージ
  • サーバーをストレージや他の専用サーバーなどの他のノードに接続し、データ範囲や到達範囲を拡張するための多数の高速ネットワーク・インターフェース
  • 特化されたターゲットタスクやワークロードを処理するための大量のGPU

一般的に、サーバーノードには十分なストレージ容量と高いネットワーク帯域幅を確保することが重要です。これにより、ホスト上に存在しないストレージからのデータ入出力において、各ノードに適した処理レベルを提供できます。これが、Supermicro AMD EPYC の高スループットと低遅延に関する本稿の主張の大半を支える本質的な要素です。

より多くのコアが、より大きな "力 "を意味します。

AI能力を最適化するもう1つの重要な要因は、CPUあたりのコア数が多いことで、UP(ユニまたはシングル・プロセッサー)と呼ばれるハードウェア・レベルのサポートが提供されることです。コア数におけるAMDリーダーシップ(例えば、AMD EPYC 9004ファミリーは24コアから96コアをサポート)は、多くの必要な機能と利点をもたらします。最も重要な点は、このようなCPUはすべてのコアに対して均一なメモリ・アクセスを提供することです。この機能は決定論に役立ち、ブロッキングを低減し、サーバー・マザーボードの設計と構築を高性能のために容易にします。設計上、AMD EPYC アーキテクチャはAIワークロードのパフォーマンスを高め、最適化されたネットワーク、ストレージ、GPUアクセスを提供します。

具体例:Supermicro 1U ペタスケール・ストレージシステム

Supermicro マイクロH13ペタスケールストレージシステムは、EPYC を如実に示す優れた事例です。ソフトウェア定義ストレージ、インメモリコンピューティング、データ集約型HPC、プライベートおよびパブリッククラウド、そして特にAI/MLアプリケーション向けに高密度を実現します。その仕様には以下の詳細が含まれます:

  • ホットスワップEDSFF E3.S NVMeスロット×16、1Uシャーシに最大480TBのストレージを搭載可能
  • オプションのCXL E3.S 2Tフォーム・ファクタ・メモリ拡張モジュール4台とE3.S NVMeストレージ・デバイス8台
  • 第4世代AMD EPYC™プロセッサー1基(最大96コア
  • 24枚のDIMMで最大6TBのDDR5メモリを搭載可能
  • 2 PCIe 5.0 Open Compute Project (OCP) 3.0 SFF準拠AIOMスロット
  • 補助電源付きフルハイト・ハーフレングスPCIe 5.0スロット×2
  • チタンレベルの効率電源

Supermicro システムは、AIや機械学習をはじめとする、計算処理やデータ集約型のワークロードにおいて、高性能かつ低遅延のストレージアクセス(そして大量のストレージ容量)を必要とするあらゆるデータセンターにおいて、非常に貴重な追加設備となり得ます。

AMD Supermicro アーキテクチャがAIに最適な理由

NVMeはサーバとクラスタのゲームを完全に変えました。NVMeをベースとすることで、アーキテクチャを完全に作り直すことが可能になりました。特にEDSFFフォーム・ファクタでは、高性能CPU、GPU、NICとともに、ストレージをスケールと速度で動作させることができます。シングルソケット設計により、最高のCPUがネットワークカードとストレージを完全に飽和させ、HPC、AI、その他の次世代ソリューション向けに最高レベルの並列処理とクラスタリング機能を活用することができます。性能と消費電力のバランスを取りながら持続可能性をサポートするメモリ帯域幅は、AMD EPYC 第3世代から第4世代へと倍増し、AIワークロードもよりよくサポートします。シングルチップ・アーキテクチャーを扱う場合、他のCPUリソース(L3キャッシュやメモリー帯域幅など)を需要の高いスレッドに優先的に割り当てて、パフォーマンスを向上させ、レイテンシーを削減することができます。このようなワークロードをサポートするために、ハードウェアレベルまでスレッドを調整することができます。AIやMLを活用する上で、このようなサーバーほど優れた、高速で効率的な方法はありません。