跳至內容

如何Supermicro AMD 伺服器提供高吞吐量和低延遲AI 解決方案

AI 需要低延遲存儲:立即獲取Supermicro 基於伺服器AMD EPYC™ CPU

如今,現代企業正經歷一場徹底的變革。這場變革的核心可以說是“ AI 革命。 」當組織採用先進的、 AI或基於機器學習的應用程式。此類工作負載的主要範例包括: AI基於大型語言模型(LLM)的模型,包括 ChatGPT、LLaMa 等,以及基於龐大訓練資料集的機器學習模型、複雜的 3D 模型、動畫和虛擬實境、模擬以及其他資料和運算密集型應用。

在那些華麗的機架式硬體背後,隱藏著任何系統的GPU驅動核心。 AI 為了維持叢集的高效運行,您還必須找到高吞吐量、低延遲的儲存系統。這些系統支援向群集輸送海量資料的通道,用於訓練模型並執行複雜的模擬和分析,從而支援群集的穩定運作。 AI機器學習和類似工作負載。事實上,企業希望利用機器學習的成長,面臨的最大挑戰之一是… AI 正在尋找一種不會成為其高效能 CPU、GPU 或資料庫叢集瓶頸的儲存解決方案。

聖杯:高吞吐量,低延遲

大家都爭相湧入AI 人們紛紛效仿,並尋求相應的負載支援。為了實現這個並非異想天開的夢想,一個針對高負載工作負載進行最佳化的伺服器架構至關重要。 AMD 已建立其EPYC 伺服器 CPU——目前已發展到 9004 產品系列的第四代——旨在透過單一 CPU 充分發揮伺服器硬體和軟體的效能。 CPU事實上,第四代AMD EPYC™ 家庭具有以下優勢:

  • 在插槽和單核心效能方面處於領先地位,5nm核心運算晶片(CCD)中最多可容納96個Zen 4核心。
  • 在記憶體頻寬和容量方面處於領先地位,擁有 12 個通道,最高可達 6TB。 DDR5 每個插槽的記憶體
  • 在 IO 領域處於領先地位,最多可支援 128 條通道PCIe 5.0 版本存取權限CXL 記憶體設備、固態硬碟、網路卡、顯示卡等等

從設計之初就旨在實現最佳性能、效率和永續性, AMD EPYC基於此技術的伺服器可以管理必要的資源平衡,從而最大限度地利用 CPU、記憶體、GPU、儲存和網路介面。事實上, AMD EPYC 此架構優先考慮線程,以便將 L3 快取鎖定給密集型工作負載獨佔使用。 PCIe 通道不受典型的 I/O 調度和爭用延遲的影響。

檔案系統支援和瓶頸規避

在分散式和平行模式下,分散式檔案系統的資料來自多個來源,需要跨越各種協定並針對各種應用程式進行大規模處理。在典型的儲存系統中,元資料很快就會成為瓶頸。實際上,系統能夠處理的資料量取決於元資料的處理能力。隨著資料量的增加,元資料處理能力也需要相應擴展。 Supermicro AMD 伺服器支援WEKA 分散式儲存:它的架構旨在提供這種比例擴展。這就解釋了為什麼即使向伺服器增加更多的資料容量和服務,WEKA 也能保持可擴展性。 Supermicro 無論系統或集群,I/O 效能始終保持穩定。效能可從 8 個節點(WEKA 叢集的最小節點數)線性擴展到數百個節點。這是透過消除瓶頸並支援即使是最繁重、要求最高的任務來實現的。 AI /ML(及其他類似)工作負載。

但優化伺服器和叢集不僅僅是提供可擴展、高效能、低延遲的儲存。在設計整個系統時,不能只專注於任何單一特性或功能。整個架構必須協同工作,才能支援目標工作負載。因此,設計一個系統需要… AI 應用程式意味著創建一個從零開始建置的執行時間環境,以便快速、有效率地處理資料密集型應用程式。這有利於提升伺服器的整體效能。推論 以及分析和整體 I/O 能力。伺服器在處理資料時如何處理資料。 AI (或類似)工作負載與任何給定節點的資料流量同等重要。支援高度並行活動至關重要,因此,要處理涉及此類程式執行的所有平行子任務,需要大量的核心。

另一個關鍵特徵是數量PCIe 5.0 車道AMD EPYC基於 的伺服器(單路最多 128 個)。這使得伺服器能夠容納更多 SSD、網卡、GPU,甚至擴展記憶體。 CXL 裝置.所有這些設備在處理高要求任務中都發揮著至關重要的作用。 AI 以及機器學習(或類似)工作負載,包括:

  • 最多 32 PCIe 用於高速本地儲存的第五代固態硬碟
  • 大量高速網路介面用於將伺服器連接到其他節點,例如儲存伺服器或其他專用伺服器,以擴展資料範圍和傳輸距離。
  • 大量GPU用於處理專門的、針對性的任務或工作負載

一般來說,伺服器節點需要配備充足的儲存空間和高網路頻寬,才能確保每個節點從可能不在主機上的儲存設備獲得適當的資料流入和流出。這基本上就是這裡大多數關於高吞吐量和低延遲的說法背後的邏輯。 Supermicro AMD EPYC 伺服器.

更多核心意味著更強的“動力!”

另一個優化的關鍵因素AI 能力在於每台設備擁有高核心數。 CPU 為所謂的 UP(單處理器)提供硬體級支援。 AMD在核心計數方面的領導地位( AMD EPYC 例如,9004 系列支援 24 到 96 個核心,這賦予了它許多必要的功能和優勢。最重要的是,這類 CPU 為其所有核心提供統一的記憶體存取。這項特性有助於提高確定性,減少阻塞,並使高效能伺服器主機板的設計和製造更加便利。透過設計, AMD EPYC 建築提升AI 工作負載效能,提供最佳化的網路、儲存和 GPU 存取。

舉例說明: Supermicro H13 1U 百億億次級儲存系統

這Supermicro H13 Petascale 儲存系統很好地詮釋了這一點。 EPYC 該架構能夠做到。它為軟體定義儲存、記憶體運算和資料密集型應用提供了高密度。 HPC私有雲和公有雲,以及——尤其—— AI /ML 應用。其規格包括以下詳細資訊:

  • 16個熱插拔EDSFF E3.S NVMe 1U機箱,最多可容納480TB儲存容量的插槽
  • 可選4 CXL E3.S 2T 外形尺寸記憶體擴充模組,外加 8 個 E3.S NVMe 儲存裝置
  • 第四代AMD EPYC™ 處理器-最高可達96核心
  • 24 個 DIMM 插槽,最大支援 6TB 內存DDR5 記憶
  • 2 PCIe 5.0 開放式運算項目 (OCP) 3.0 SFF 相容AIOM 插槽
  • 2個全高半身PCIe 5.0 插槽,附輔助電源
  • 鈦金級效率電源

這Supermicro H13 該系統對於任何數據中心來說都是一個寶貴的補充, AI機器學習或其他運算和資料密集型工作負載需要高效能、低延遲的儲存存取(而且需要大量的儲存容量)。

為什麼AMD 和Supermicro 伺服器架構是最佳的AI

NVMe 徹底改變了伺服器和叢集的格局。 NVMe 從根本上說,完全重新設計的架構成為可能。它使儲存能夠與高效能 CPU、GPU 和網卡協同工作,尤其是在以下情況下: EDSFF 外形尺寸。單路設計使一流的 CPU 能夠充分利用網路卡和儲存設備,並發揮最高等級的並行性和叢集能力。 HPC , AI以及其他下一代解決方案。為了平衡性能和功耗以支持可持續性,記憶體頻寬翻了一番。 AMD EPYC 從第三代到第四代,也更支持AI 工作負載。在處理單晶片架構時,您可以指派其他資源。 CPU 優先將資源(例如,L3 快取和記憶體頻寬)分配給高需求線程,以提高效能並降低延遲。您可以對執行緒進行調優,以支援此類工作負載,甚至可以細化到硬體層級。沒有比這更好、更快或更有效率的方式來實現這一點了。 AI 並且機器學習在這樣的伺服器上比在這樣的伺服器上運作得更好。