Supermicro NVIDIA 提供針對特定需求的最佳化系統AI機器學習及其他
現代企業透過在業務和營運中使用先進的應用程式和資料處理技術,獲得了顯著的競爭優勢。這些優勢包括: AI基於大型語言模型(如 ChatGPT、LLaMa 等)、基於海量訓練資料和真實資料的機器學習分析、複雜的 3D 和有限元素模型及仿真,以及其他資料和計算密集型應用。
所有這些工作負載至少有一點共同點:它們都能從對儲存的快速存取中獲益匪淺,無論你採用何種分層儲存模型。這正是眾多企業和服務供應商轉向基於 GPU 的伺服器來處理大型複雜資料集及其相關工作負載的主要原因之一。與採用更典型儲存配置(例如本機 RAM 和 GPU)的傳統伺服器相比,它們能夠更有效地處理這些工作負載,並更快地完成此類任務。 NVMe SSD,以及區域網路或雲端的額外儲存層)。
提升吞吐量的秘訣在於降低延遲和提高儲存頻寬。這直接轉化為更高的生產力和處理能力,主要透過巧妙的 I/O 和網路技術來實現,這些技術依賴於直接和遠端記憶體訪問,如下文所述。更快的模型訓練和作業完成速度意味著AI借助 -技術,應用程式可以更快地部署,更快地完成任務,從而加快實現價值的速度。
直接記憶體存取及其遠端等效技術
直接記憶體存取(DMA)自電腦誕生之初就用於加速 I/O 操作。 DMA 的基本原理是透過匯流排(或其他介面)將資料從一個裝置直接傳輸到另一個裝置。它的工作原理是將發送方記憶體中的一系列記憶體位址直接複製到接收方記憶體(或在雙向傳輸中在兩個裝置之間複製)。 CPU 退出流程並加快傳輸速度,方法是減少涉及的複製操作次數(以便CPU 無需將發送方的資料複製到其記憶體中,然後再將資料從其記憶體複製到接收方的記憶體)。
事實上,單一系統上的DMA效能僅受限於連接資料傳輸中發送和接收裝置的匯流排(或其他介面)的速度。 PCIe 4.0,也就是每秒 16 千兆傳輸 (GT/s),而 4.0 版本則需要兩倍的傳輸量。 PCIe 5.0 (32 GT/s)。由於編碼和封裝開銷,資料速率自然會較慢,但這兩者的額定頻寬是 5.0 GHz。 PCIe 版本速度分別為 64 Gbps (4.0) 和 128 Gbps (5.0)。真快!
遠端直接記憶體存取 (RDMA) 將單一電腦內部的直接記憶體存取功能擴展到透過網路連接的兩台裝置之間。 RDMA 通常基於獨特的應用程式介面 (API),該介面與專用的網路硬體和軟體搭配使用,在底層網路技術允許的範圍內,提供與本地 DMA 相同的諸多優勢。
NVIDIA GPU 支援三種此類網路技術,依速度和成本遞減的順序排列(速度最快、成本最高排在最前面):
- NVIDIA NVLink 採用高速專有介面和交換技術,可加速高速網路上 GPU 之間的資料傳輸。目前,它在標準 MLPerf Training v3.0 基準測試中,性能在所有技術中名列前茅。單一 NVIDIA H100 Tensor Core GPU 支援最多 18 個 NVLink 連接,傳輸速度高達 900 Gbps(是現有速度的 7 倍)。 PCIe 5.0)。
- InfiniBand 是由以下機構監理的高速網路標準: InfiniBand 國際寬頻傳輸協會(IBTA)已在高效能網路上廣泛應用。截至2020 年,其最高測量數據速率約為 1.2 Tbps(約 154 GBps)。
- 乙太網路是一種標準的網路技術,擁有多種變體,包括很少使用的千兆乙太網路(TbE,速度約為 125 Gbps)和更常見的 400 GbE(速度約為 50 Gbps)。它的優勢在於價格更實惠、部署更廣泛,並且在許多資料中心中都是一種成熟的技術。
讓NVIDIA GPU發揮作用Supermicro 伺服器
NVIDIA RDMA 技術支援基於 GPU 的資料存取,並可跨越上述三種網路技術。每種技術都提供不同的性價比,更高的成本通常意味著更快的速度和更低的延遲。企業可以根據自身預算和需求選擇最合適的底層連接類型,因為每種選項都代表特定的價格和性能組合,企業可以信賴這些組合。 AI - 或在這種伺服器上運行的基於機器學習(以及其他資料和運算密集型應用程式),它們可以利用 GPU 儲存的分層架構,其中提供以下層級(按效能降序排列,按大小和容量升序排列):
- 第一層:GPU 記憶體是速度最快、最昂貴、容量最小的資料儲存(例如,Tensor H100 GPU 擁有 188GB 的 HBM3 記憶體)。
- 第二層:本地 SSD PCIe 總線速度僅次於顯示卡,但價格仍昂貴,容量是高階GPU的10到100倍。
- 第三層:區域網路上的遠端儲存伺服器可以支援超過存取它們的GPU容量1000倍的容量。
因為AI 機器學習應用需要低延遲和高頻寬,RDMA 可以將 DMA 的本地優勢擴展到網路資源(取決於底層連線)。此功能支援透過跨裝置(一端是 GPU,另一端是儲存裝置)的記憶體到記憶體傳輸快速存取外部資料。與 NVLink 搭配使用時, InfiniBand或者使用某種高速乙太網路變體,遠端適配器將資料從遠端系統的記憶體傳輸到本地 GPU 的記憶體。 NVIDIA Magnum IO為資料中心提供 I/O 加速平台,支援並行、智慧的資料中心 I/O,從而最大限度地提高儲存、網路以及多節點、多 GPU 通訊的效能,以滿足對效能要求嚴苛的應用的需求。
在其GPU伺服器系統中, Supermicro 它使用 NVIDIA GPU 及其支援的存取方式。這些方式包括本地 DMA、透過其 API 實現的 RDMA,以及透過支援所有三種連接類型的多個網路卡和交換器實現的高效能網路。此外, Supermicro GPU 伺服器還包含一到兩個稱為資料處理單元 (DPU) 的專用 ASIC,以支援 GPU 提供的加速 I/O 功能。這些 DPU 可以減輕伺服器 CPU 的額外 I/O 開銷。同樣,此類伺服器最多可支援八個網路適配器,從而實現持續和擴展的網路頻寬訪問,以最大限度地提高資料傳輸效率。 PCIe 5.0 設備和 RDMA 設備。這確保即使在以下情況下也不會出現瓶頸: PCIe 總線,有助於最大限度地提高吞吐量並最大限度地降低延遲。
對性能的影響非常顯著。使用 NVIDIA 的加速 I/O 技術,效能提升幅度從 20% 到 30% 不等,對於高強度工作負載,最高可達 2 倍。此外,設計應用程式時充分利用儲存資源至關重要,以避免效率低下。因此,此類應用程式應配置為定期建立檢查點。否則,如果某個節點脫離網路或長時間阻塞,應用程式必須從初始狀態重新開始。使用檢查點意味著,即使發生節點故障或其他阻塞事件,進度也只會回滾到最近的快照(實際上,本地和網路資料保護工具可能提供此類功能,無需專門整合到應用程式中)。
總的來說,使用基於DPU和GPU的伺服器的真正優勢在於: AI機器學習和其他高需求工作負載(例如,3D 或有限元素模型、模擬等)的優勢在於,它們能夠將基礎設施元件與應用程式活動分開。這可以節省 20% 到 30% 的資源。 CPU 目前用於基礎設施存取和管理的周期被節省下來。透過將 I/O 功能推入硬件,可以釋放資源並加快存取速度。