跳至主要内容

Supermicro 与 NVIDIA 共同提供针对 AI、ML 及更多应用优化的系统

充分利用高级数据访问与传输技术提升生产力

现代企业通过在业务和运营中运用先进应用程序和数据处理技术,正获得显著的竞争优势。这些技术包括基于人工智能的大型语言模型(如ChatGPT、LLaMa等)、基于海量训练数据和真实数据的机器学习分析、复杂的3D与有限元模型及仿真,以及其他数据密集型和计算密集型应用程序。

所有此类工作负载至少有一个共同点:无论采用何种分层模型,只要能加快对存储的访问速度,它们都能从中获益匪浅。 这正是众多企业和服务提供商纷纷转向基于 GPU 的服务器来处理庞大、复杂的数据集及其相关工作负载的主要原因之一。相比采用传统存储配置(例如本地 RAM 和NVMe ,并在局域网或云端配置额外存储层)的常规服务器,它们在处理这些工作负载方面能力更强,且能更快地完成相关任务。

提升吞吐量的秘诀在于降低延迟和增强存储带宽。这些优势能直接转化为生产力和能力的提升,主要通过依赖直接和远程内存访问的智能I/O及网络技术实现,具体原理将在下文阐述。更快的模型训练和任务完成速度意味着人工智能应用能够更快部署,更高效地完成工作,从而加速价值实现周期。

直接内存访问与远程等效

直接内存访问(简称DMA)自计算机早期便被用于加速I/O操作。其基本原理是通过总线(或其他接口)实现设备间的内存到内存传输。 其工作原理是将指定范围的内存地址直接从发送方内存复制到接收方内存(双向传输时则在两个参与方之间进行)。该特性使CPU无需参与该过程,通过减少涉及的复制操作数量来加速传输(因此CPU无需将发送方数据复制到自身内存,再从自身内存复制到接收方内存)。

事实上,单系统上的DMA性能仅受限于连接数据传输中发送和接收设备的总线(或其他接口)的速度。对于PCIe .0,该速度为16千兆传输/秒(GT/s),PCIe .0则是其两倍(32 GT/s)。 虽然受编码和封装开销的影响,实际数据速率会自然降低PCIe 标称带宽分别达到 64 Gbps(4.0)和 128 Gbps(5.0)。这速度真快!

远程直接内存访问(RDMA)将直接内存访问技术从单台计算机内部扩展至网络连接中的设备对之间。RDMA通常基于独特的应用程序编程接口(API),配合专用网络硬件和软件协同工作,在底层网络技术允许的范围内,尽可能提供与本地直接内存访问相同的优势。

NVIDIA GPU支持三种此类网络技术,按速度和成本递减顺序排列(最快、最贵者在前):

  • NVIDIA NVLink 采用最高速的专有接口和交换技术,可在高速网络上加速 GPU 之间的数据传输。目前,在标准的 MLPerf Training v3.0 基准测试中,其性能表现位居所有技术之首。单块 NVIDIA H100 Tensor Core GPU 最多支持 18 个 NVLink 连接,带宽可达 900 Gbps(是PCIe .0 有效速度的 7 倍)。
  • InfiniBand 由InfiniBand 协会(IBTA)管理的高速网络标准,广泛应用于高性能网络中。截至2020 年,其测得的最高数据传输速率约为 1.2 Tbps(约 154 GBps)。
  • 以太网是一种标准网络技术,包含多种变体,包括鲜少使用的太比特以太网(TbE,约125 GBps)和更为常见的400千兆以太网(400 GbE,50 GBps)。其优势在于成本更低、部署广泛,且作为成熟技术已在众多数据中心中被熟练掌握。

将 NVIDIA GPU 应用于 Supermicro 服务器

NVIDIA RDMA技术可支持基于GPU的数据访问,覆盖上述三种网络技术。每种技术在性价比上各有取舍——更高成本意味着更快的速度和更低的延迟。 企业可根据预算与需求选择最适配的基础连接类型,需知每种方案都代表着可依赖的特定价格与性能组合。当各类基于AI或ML的应用(及其他数据密集型与计算密集型应用)在服务器上运行时,可充分利用GPU存储的分层架构,其中包含以下层级(按性能递减、容量递增排序):

  • 第一层:GPU内存是速度最快、成本最高且容量最小的数据存储器(例如Tensor H100 GPU配备188GB HBM3内存)
  • 第二梯队:PCIe 上的本地SSD速度紧随其后,但价格依然昂贵,其容量是高端GPU的10到100倍
  • 第三层:局域网上的远程存储服务器可支持超过1000倍于访问它们的GPU的容量

由于人工智能和机器学习应用既需要低延迟又需要高带宽,RDMA 有助于将 DMA 的本地优势扩展到网络资源(取决于涉及的底层连接)。该功能通过跨设备(一端为 GPU,另一端为存储设备)的内存到内存传输,实现了对外部数据的快速访问。 配合 NVLink、InfiniBand 或某些高速以太网变体,远程适配器可将远程系统中的内存数据传输至本地 GPU 的内存中。NVIDIA Magnum IO为数据中心提供了一个 I/O 加速平台,支持并行、智能的数据中心 I/O,从而最大限度地优化存储、网络以及多节点、多 GPU 通信,以满足高要求应用的需求。

在Supermicro 的 GPU 服务器系统中,Supermicro NVIDIA GPU 及其配套的访问方式。这些方式包括本地 DMA、通过 API 实现的 RDMA,以及通过支持这三种连接类型的多网卡和交换机实现的高性能网络连接。此外Supermicro 服务器还配备了一至两个名为数据处理单元(DPU)的专用 ASIC,以支持 GPU 提供的加速 I/O 功能。这些 DPU 能够将额外的 I/O 开销从服务器 CPU 上卸载下来。 同样地,此类服务器每台最多可支持八个网络适配器,从而实现对网络带宽的持续且扩展的访问,以最大化PCIe .0 设备与 RDMA 设备之间的数据传输。这确保了即使在PCIe 也不会出现瓶颈,并有助于最大化吞吐量并最小化延迟。

性能提升效果显著。采用NVIDIA加速I/O技术后,性能提升幅度从20%至30%不等,在高强度工作负载下最高可达2倍。同时必须优化应用程序设计以充分利用存储资源,避免效率低下。因此,此类应用程序应配置为定期执行检查点操作。 否则,当节点脱离网络或遭遇长时间阻塞时,应用程序将被迫从初始状态重启。启用检查点机制意味着节点故障或阻塞事件发生时,进程仅回退至最近的快照状态(此类功能可能由本地及网络数据保护工具提供,实际上未必需要在应用程序中专门构建)。

总体而言,采用基于DPU和GPU的服务器处理AI、机器学习及其他高负载工作负载(如3D或有限元模型、仿真等)的真正优势在于,它们实现了基础设施组件与应用活动的分离。这可节省当前用于基础设施访问和管理的20%至30%的CPU周期,通过将I/O功能移入硬件来释放资源并加速访问。