Saltar al contenido principal

Supermicro NVIDIA ofrece sistemas optimizados para IA, aprendizaje automático y más.

Cómo sacar el máximo partido al acceso y la transferencia de datos avanzados para aumentar la productividad.

Las empresas modernas están obteniendo importantes ventajas competitivas gracias al uso de aplicaciones avanzadas y al procesamiento de datos en sus negocios y operaciones. Esto incluye modelos de lenguaje complejos basados ​​en IA, como ChatGPT, LLaMa, etc., análisis de aprendizaje automático basados ​​en enormes conjuntos de datos de entrenamiento y reales, modelos y simulaciones complejos en 3D y de elementos finitos, y otras aplicaciones que requieren un uso intensivo de datos y computación.

Todas estas cargas de trabajo tienen al menos esto en común: se benefician significativamente del acceso acelerado al almacenamiento en cualquier tipo de modelo por niveles que se desee utilizar. Esa es una de las principales razones por las que tantas empresas y proveedores de servicios han recurrido a servidores basados ​​en GPU para manejar conjuntos de datos grandes y complejos y las cargas de trabajo que los consumen. Son mucho más capaces de manejar esas cargas de trabajo y pueden completar dichas tareas más rápidamente que los servidores convencionales con configuraciones de almacenamiento más típicas (por ejemplo, RAM local y NVMe unidades SSD, con niveles de almacenamiento adicionales en la LAN o en la nube).

El secreto para aumentar el rendimiento reside en la reducción de la latencia y un mayor ancho de banda de almacenamiento. Esto se traduce directamente en una mayor productividad y capacidad, principalmente mediante técnicas inteligentes de E/S y redes que se basan en el acceso directo y remoto a la memoria, como se explica a continuación. Un entrenamiento de modelos y una finalización de tareas más rápidos permiten implementar aplicaciones con IA con mayor celeridad y obtener resultados más rápidamente, acelerando así la obtención de valor.

Acceso directo a memoria y equivalentes remotos

El acceso directo a memoria (DMA) se ha utilizado para acelerar las operaciones de entrada/salida desde los inicios de la informática. Básicamente, el DMA implica transferencias de memoria a memoria a través de un bus (u otra interfaz) de un dispositivo a otro. Funciona copiando un rango de direcciones de memoria directamente de la memoria del emisor a la del receptor (o entre dos dispositivos en el caso de transferencias bidireccionales). Esta función elimina la intervención de la CPU y acelera la transferencia al reducir el número de operaciones de copia (de modo que la CPU no necesita copiar los datos del emisor a su memoria y luego copiarlos de su memoria a la del receptor).

De hecho, el rendimiento de DMA en un solo sistema está limitado únicamente por la velocidad del bus (u otra interfaz) que conecta los dispositivos emisor y receptor involucrados en una transferencia de datos. PCIe 4.0, eso son 16 gigatransferencias/segundo (GT/s), con el doble de esa cantidad para PCIe 5.0 (32 GT/s). Las velocidades de datos son naturalmente más lentas debido a los gastos generales de codificación y empaquetado, pero el ancho de banda nominal para estos dos PCIe Las versiones son de 64 Gbps (4.0) y 128 Gbps (5.0), respectivamente. ¡Eso es rápido!

El DMA remoto (también conocido como RDMA) extiende la capacidad del DMA dentro de una misma computadora para que funcione entre dos dispositivos a través de una conexión de red. El RDMA se basa generalmente en una interfaz de programación de aplicaciones (API) única que funciona con hardware y software de red especializados para proporcionar la mayor cantidad posible de las mismas ventajas del DMA local, dentro de las posibilidades que ofrece la tecnología de red subyacente.

Las GPU de NVIDIA admiten tres de estas tecnologías de red, ordenadas de mayor a menor velocidad y coste (de la más rápida a la más cara):

  • NVIDIA NVLink utiliza las interfaces y tecnologías de conmutación propietarias de mayor velocidad para acelerar las transferencias de datos entre GPU en una red de alta velocidad. Actualmente, ofrece el mayor rendimiento en los benchmarks estándar MLPerf Training v3.0 para cualquier tecnología. Una sola GPU NVIDIA H100 Tensor Core admite hasta 18 conexiones NVLink para hasta 900 Gbps (7 veces la velocidad efectiva de PCIe 5.0).
  • InfiniBand es un estándar de red de alta velocidad supervisado por el InfiniBand La Asociación Comercial Internacional (IBTA) se implementó ampliamente en redes de alto rendimiento. Sus velocidades de datos más altas medidas rondan los (1,2 Tbps, ~154 GBps) a partir de 2020 .
  • Ethernet es una tecnología de red estándar con muchas variantes, incluyendo la menos utilizada TbE (~125 GBps) y la más común 400 GbE (50 GBps). Tiene las ventajas de ser más asequible, estar ampliamente implementada y ser una tecnología familiar en muchos centros de datos.

Poniendo las GPU de NVIDIA a trabajar en Supermicro Servidores

Las tecnologías NVIDIA RDMA admiten el acceso a datos basado en GPU en las tres tecnologías de red mencionadas anteriormente. Cada una ofrece una relación precio-rendimiento diferente, donde un mayor costo se traduce en mayor velocidad y menor latencia. Las organizaciones pueden elegir el tipo de conexión que mejor se adapte a sus presupuestos y necesidades, teniendo en cuenta que cada opción representa una combinación específica de precio y rendimiento en la que pueden confiar. A medida que diversas aplicaciones basadas en IA o aprendizaje automático (y otras aplicaciones que requieren gran cantidad de datos y computación) se ejecutan en un servidor de este tipo, pueden aprovechar la arquitectura por niveles del almacenamiento de GPU, donde están disponibles los siguientes niveles (en orden descendente de rendimiento, ascendente por tamaño y capacidad):

  • Primer nivel: La memoria de la GPU es el almacenamiento de datos más rápido, más caro y más pequeño (por ejemplo, la GPU Tensor H100 tiene 188 GB de RAM HBM3).
  • 2.º nivel: SSD locales en el PCIe Los buses son los siguientes más rápidos, aunque siguen siendo caros, y su capacidad es entre 10 y 100 veces mayor que la de una GPU de gama alta.
  • Tercer nivel: los servidores de almacenamiento remoto en la LAN pueden admitir más de 1000 veces la capacidad de las GPU que acceden a ellos.

Debido a que las aplicaciones de IA y ML necesitan baja latencia y alto ancho de banda, RDMA ayuda a extender las ventajas locales de DMA a los recursos de red (sujeto a las conexiones subyacentes involucradas). Esta función permite un acceso rápido a datos externos a través de transferencias de memoria a memoria entre dispositivos (GPU en un extremo, dispositivo de almacenamiento en el otro). Al trabajar con NVLink, InfiniBand Mediante Ethernet de alta velocidad (o alguna variante de Ethernet de alta velocidad), el adaptador remoto transfiere datos desde la memoria de un sistema remoto a la memoria de una GPU local. NVIDIA Magnum IO proporciona una plataforma de aceleración de E/S para centros de datos que admite E/S paralelas e inteligentes para maximizar el almacenamiento, la red y las comunicaciones multi-nodo y multi-GPU para las aplicaciones exigentes que las requieren.

En sus sistemas de servidores GPU, Supermicro Utiliza GPU NVIDIA y sus métodos de acceso compatibles. Estos incluyen DMA local, RDMA a través de su API, además de redes de alto rendimiento a través de múltiples NIC y conmutadores que admiten los tres tipos de conexión. Además, Supermicro Los servidores GPU también incluyen uno o dos ASIC de propósito especial llamados Unidades de Procesamiento de Datos (DPU) para admitir la E/S acelerada que pueden ofrecer las GPU. Estos descargan la sobrecarga de E/S adicional de las CPU del servidor. Asimismo, dichos servidores pueden admitir hasta ocho adaptadores de red por servidor para permitir un acceso sostenido y extendido al ancho de banda de la red para maximizar las transferencias entre PCIe Dispositivos 5.0 y dispositivos RDMA. Esto garantiza que no haya cuellos de botella, incluso en el PCIe bus, y ayuda a maximizar el rendimiento y minimizar la latencia.

Las implicaciones para el rendimiento son muy positivas. Las mejoras de rendimiento derivadas del uso de la E/S acelerada de NVIDIA oscilan entre un 20 % y un 30 %, llegando a duplicarse en cargas de trabajo intensivas. También es fundamental diseñar aplicaciones que aprovechen el almacenamiento para evitar ineficiencias. Por lo tanto, dichas aplicaciones deben configurarse para realizar puntos de control periódicos. De lo contrario, deberán reiniciarse desde su inicio si un nodo se desconecta de la red o se bloquea durante un tiempo. El uso de puntos de control implica que el progreso solo se revierte a la instantánea más reciente en caso de fallo de un nodo u otro evento de bloqueo (estas funcionalidades pueden estar disponibles en herramientas de protección de datos locales y de red, y no necesariamente deben integrarse específicamente en la aplicación).

En general, la principal ventaja de usar servidores basados ​​en DPU y GPU para IA, aprendizaje automático y otras cargas de trabajo exigentes (como modelos 3D o de elementos finitos, simulaciones, etc.) radica en que permiten separar los componentes de infraestructura de las actividades de la aplicación. Esto ahorra entre un 20 % y un 30 % de los ciclos de CPU que actualmente se dedican al acceso y la gestión de la infraestructura. De esta forma, se liberan recursos y se acelera el acceso al trasladar las funciones de E/S al hardware.