跳至主要内容

什么是高密度货架?

高密度机架

高密度机架是专为数据中心设计的机柜,与传统服务器机架相比,它能够在单个机架空间内支持更强大的计算能力。这些机架经过精心设计,可容纳高性能服务器、图形处理器优化 ( GPU ) 系统、存储阵列和网络设备,这些设备需要更高的供电能力、更先进的散热系统和更优化的空间利用率。

随着人工智能 (AI)、机器学习(ML)、高性能计算(HPC)、云服务边缘计算等现代工作负载的复杂性不断增加,对每平方英尺计算密度的需求也急剧上升。高密度机架通过使企业能够将更多处理能力整合到更少的机架中来满足这一需求,从而在最大限度地提高性能输出的同时,减少数据中心的整体占地面积。

与传统服务器机架不同,高密度机架经过精心设计,可支持更高的机架功率密度和散热量。这种特性使其在对性能、效率和可扩展性要求极高的环境中至关重要。

如今,什么才算高密度?

机架功率密度通常以每机架千瓦数来衡量。传统的企业级数据中心通常运行在每机架 5 到 10 千瓦的范围内,这种功率水平可以通过标准的空气冷却和常规配电方式来满足,而无需进行重大的架构调整。

如今,高密度机架通常被定义为每个机架功率超过 20 千瓦的部署。在人工智能和 GPU 加速环境中,40 千瓦的密度越来越普遍,而先进的 AI 训练集群的功率则超过每个机架 80 千瓦,一些专用 AI 系统甚至超过 100 千瓦。在如此高的功率水平下,基础设施需求会发生显著变化,从而影响电气设计、数据中心冷却策略和机架结构。

随着计算需求的增长,高密度的定义也在不断演变。曾经被认为是高密度的配置,如今已成为GPU密集型系统和现代高性能计算集群的标配。随着处理器核心数量的增加和加速器应用的普及,机架功率密度持续攀升,重新定义了数据中心基础设施的基本要求。

为什么货架密度正在增加

机架密度增加的主要驱动因素是GPU加速。现代人工智能基础设施通常处理的工作负载依赖于并行处理架构,这种架构将强大的计算能力集中在单个系统中。随着每台服务器集成的GPU数量增加,以及每个机架部署的服务器数量增加,整体功耗和发热量也会相应上升。

人工智能模型训练进一步加速了这一转变。大型语言模型和高级分析平台需要集群计算节点以高利用率持续运行。为人工智能和高性能计算工作负载部署的高性能系统通常经过精心设计,以实现持续运行,从而最大限度地提高计算输出并降低总体拥有成本。 

与许多可能随业务周期或一天中不同时段需求波动的企业IT工作负载不同,人工智能训练和研究环境旨在持续高利用率运行。在优化的机架级架构中部署这些系统可以提高性能并降低互连延迟,但也会增加每个机架的功耗(千瓦)。

高性能计算工作负载的发展模式类似。科学模拟和工程应用需要高度集成、高吞吐量的环境。与此同时,工作负载整合和空间优化的压力促使企业在更少的机架中部署更强大的基础设施,从而在不成比例扩大数据中心规模的情况下实现可扩展的增长。

高密度机架中的电源输送注意事项

随着机架功率密度的增加,电力基础设施也必须相应扩展。高密度机架通常需要更高安培数的电路和三相电源配置来支持持续的负载条件。例如,电力规划必须同时考虑高性能计算研发环境中常见的峰值需求和持续使用模式。

电源分配单元在管理高负荷方面发挥着核心作用。智能电源分配单元 (PDU) 可实现机架或插座级别的监控,从而支持容量规划和跨电路的负载均衡。均衡的配电可降低局部过载的风险,并提高运行稳定性。

随着电力需求的增加,冗余规划变得日益重要。N+1 或 2N 冗余模型有助于确保在组件发生故障时业务的连续性。此外,还必须评估上游基础设施,包括不间断电源和备用发电系统,以支持数据中心更高的总体需求。

冷却挑战与解决方案

随着每机架千瓦数的增加,数据中心冷却变得显著复杂。传统的空气冷却方式可以应对中等密度的负载,但在高功率水平下,仅靠气流可能无法有效地散热,从而导致局部过热。

包括冷热通道隔离在内的各种隔离策略,能够改善气流控制并减少送风和排风的混合。后门热交换器可在机架层面实现局部散热,无需进行重大架构改造即可提高冷却效率。

在高密度环境下,直接液冷的重要性日益凸显。液冷方案通过在处理器和加速器源头处将热量散发出去,降低热阻,从而实现更高效的散热。这些解决方案能够支持GPU密集型系统的持续运行,同时提升数据中心的整体散热性能。当机架密度接近或超过50千瓦时,液冷将从可选的增强功能转变为核心基础设施的必要组成部分。

高密度货架的结构和设计要求

高密度机架必须能够承受因服务器、 GPU加速器以及增强型电源和散热硬件满载而增加的设备重量。必须评估地板的承重能力,以确保架空地板系统或板式基础能够支撑集中质量。

随着网络带宽的增加和电力分配规模的扩大,线缆管理也变得更加复杂。结构化的布线以及电源线和数据线的分离可以提高维护便利性并减少气流阻碍。

即使在液冷散热环境中,气流管理仍然是一个至关重要的设计因素。合理的设备间距、盲板和内部气流通道有助于防止气流循环,并保持所有机架单元一致的散热性能。

人工智能和高性能计算环境中的高密度机架

在人工智能和高性能计算部署中,高密度机架是现代大规模计算的结构和电力支柱。GPU密集型系统需要协调的电源供应、高带宽互连和先进的散热管理,才能在持续负载下高效运行。

机架级架构将计算、网络和冷却资源集成到一个统一的设计框架中。这种方法提高了部署的一致性,并支持在集群环境中实现可预测的性能。

热效率和能源效率与高密度数据中心基础设施设计直接相关。通过优化机架功率密度、冷却策略和电气架构,企业可以在控制运营成本的同时,维持高计算输出。在此背景下,高密度机架不仅仅是机柜,更是支撑下一代人工智能和高性能计算环境的基础架构。

常见问题

  1. 在托管数据中心部署高密度机架有哪些优势?
    高密度机架能够提高每个机架的计算容量,从而帮助企业最大限度地利用租赁空间。这可以提升空间利用率和性能,前提是托管机房能够提供所需的电力和冷却能力。
  2. 高密度货架可能有哪些缺点?
    高密度机架需要大量的电力和先进的冷却基础设施。如果没有妥善的规划,企业可能会面临更高的前期成本、更复杂的设计以及对现有电力和散热系统的潜在压力。
  3. 高密度机架如何支持超大规模和超融合环境?
    高密度机架使超大规模数据中心能够高效地标准化和扩展基础设施。在超融合环境中,它们将计算、存储和网络资源整合到紧凑、可扩展的机架级部署中。