Saltar al contenido principal

Cómo Supermicro AMD Los servidores ofrecen un alto rendimiento y baja latencia para soluciones de IA.

La IA requiere almacenamiento de baja latencia: consíguelo ahora con Supermicro Servidores basados ​​en AMD EPYC™ CPU

Actualmente, las empresas modernas están experimentando una transformación radical, centrada en lo que podría denominarse la «revolución de la IA». Las organizaciones obtienen ventajas competitivas e información clave al implementar aplicaciones avanzadas basadas en IA o aprendizaje automático (ML). Entre los ejemplos más destacados de estas cargas de trabajo se encuentran los modelos de lenguaje a gran escala (LLM) basados ​​en IA, como ChatGPT, LLaMa y otros, junto con modelos de ML basados ​​en enormes conjuntos de datos de entrenamiento, modelos 3D complejos, animación y realidad virtual, simulaciones y otras aplicaciones que requieren un uso intensivo de datos y computación.

Detrás del llamativo hardware montado en rack que alberga el núcleo de cualquier clúster de IA impulsado por GPU, también es fundamental contar con sistemas de almacenamiento de alto rendimiento y baja latencia para mantener la productividad del clúster. Estos sistemas soportan los canales que envían grandes cantidades de datos para entrenar modelos y realizar simulaciones y análisis complejos necesarios para respaldar la IA, el aprendizaje automático y cargas de trabajo similares. De hecho, uno de los mayores desafíos para las empresas que buscan capitalizar el crecimiento de la IA es encontrar una solución de almacenamiento que no limite el rendimiento de sus CPU, GPU o clústeres de bases de datos de alto rendimiento.

El Santo Grial: Alto rendimiento, baja latencia

Todos se están sumando a la moda de la IA y buscan el soporte necesario para gestionar las cargas de trabajo. Para que este sueño, que no es tan descabellado, se haga realidad, es absolutamente esencial contar con una arquitectura de servidor optimizada para soportar cargas de trabajo exigentes. AMD ha construido su EPYC Las CPU para servidores —actualmente en su cuarta generación en la familia de productos 9004— permiten obtener el mejor rendimiento del hardware y software del servidor con una sola CPU. De hecho, la cuarta generación AMD EPYC™ La opción familiar ofrece las siguientes ventajas:

  • Liderazgo en rendimiento por socket y por núcleo, con hasta 96 núcleos Zen 4 en chips Core Compute Die (CCD) de 5 nm.
  • Liderazgo en ancho de banda y capacidad de memoria, con 12 canales para hasta 6 TB de DDR5 memoria por zócalo
  • Liderazgo en IO, con hasta 128 carriles de PCIe Acceso 5.0 para CXL dispositivos de memoria, SSD, NIC, GPU y más

Diseñado desde cero para un máximo rendimiento, eficiencia y sostenibilidad, el AMD EPYC Los servidores basados ​​en pueden gestionar los equilibrios necesarios para sacar el máximo provecho de las CPU, la memoria, las GPU, el almacenamiento y las interfaces de red. De hecho, el AMD EPYC La arquitectura prioriza los subprocesos para que la caché L3 pueda bloquearse para que las cargas de trabajo intensivas la utilicen exclusivamente, por lo que PCIe Los carriles no están sujetos a la programación de E/S típica ni a los retrasos por contención.

Compatibilidad con sistemas de archivos y prevención de cuellos de botella

En los modos distribuidos y paralelos, los sistemas de archivos distribuidos reciben datos de múltiples fuentes que deben procesarse a gran escala mediante diversos protocolos y para diferentes aplicaciones. En un sistema de almacenamiento típico, los metadatos se convierten rápidamente en un cuello de botella. De hecho, solo se puede procesar la cantidad de datos que admiten los metadatos. A medida que aumenta el volumen de datos, la capacidad para gestionar los metadatos debe aumentar proporcionalmente. Supermicro AMD Los servidores admiten el almacenamiento distribuido WEKA : está diseñado para proporcionar una escalabilidad proporcional. Eso explica por qué, a pesar de agregar más capacidad de datos y servicio a un Supermicro Ya sea en un sistema o clúster, el rendimiento de E/S se mantiene constante. El rendimiento aumenta linealmente desde ocho (número mínimo de nodos para un clúster WEKA) hasta cientos de nodos. Esto se logra eliminando cuellos de botella y brindando soporte incluso para las cargas de trabajo de IA/ML (y otras similares) más pesadas y exigentes.

Pero la optimización de servidores y clústeres va más allá de proporcionar almacenamiento escalable, de alto rendimiento y baja latencia. Al diseñar un sistema completo, no se puede centrar la atención exclusivamente en una sola característica o función. Toda la arquitectura debe funcionar en conjunto para soportar las cargas de trabajo específicas. Por lo tanto, diseñar un sistema para aplicaciones de IA implica crear un entorno de ejecución diseñado desde cero para gestionar aplicaciones con gran cantidad de datos de forma rápida y satisfactoria. Esto se beneficia del rendimiento general del servidor para la inferencia y el análisis, así como de las capacidades de E/S generales. El uso que el servidor hace de los datos al gestionar una carga de trabajo de IA (o similar) es tan importante como el tráfico de datos que entra y sale de cualquier nodo. La compatibilidad con actividades altamente paralelas es esencial, por lo que un elevado número de núcleos para gestionar todas las subtareas paralelas que implican la ejecución de dichos programas es fundamental.

Otra característica crítica es el número de PCIe 5.0 carriles en AMD EPYC Servidores basados ​​en (hasta 128 para un solo socket). Esto permite que los servidores admitan colecciones más grandes de SSD, NIC, GPU e incluso memoria extendida. CXL dispositivos. Todos ellos desempeñan funciones esenciales en el manejo de cargas de trabajo exigentes de IA y ML (o similares), entre las que se incluyen:

  • Hasta 32 PCIe Unidades SSD Gen5 para almacenamiento local de alta velocidad
  • Gran cantidad de interfaces de red de alta velocidad para conectar servidores a otros nodos, como almacenamiento u otros servidores especializados, para ampliar el alcance y la cobertura de los datos.
  • Gran cantidad de GPU para gestionar tareas o cargas de trabajo especializadas y específicas.

En general, es importante tener mucho almacenamiento en los nodos del servidor y un ancho de banda de red alto para proporcionar niveles adecuados de entrada y salida de datos para cada nodo desde el almacenamiento que puede no residir en el host. Esto es esencialmente lo que respalda la mayoría de las afirmaciones aquí con respecto al alto rendimiento y la baja latencia para Supermicro AMD EPYC servidores.

¡Más núcleos significan más potencia!

Otro factor crítico para optimizar la capacidad de la IA es que un alto número de núcleos por CPU proporciona soporte a nivel de hardware para lo que se denomina un UP (uniprocesador o procesador único). AMD El liderazgo de en el recuento central (el AMD EPYC La familia 9004 admite de 24 a 96 núcleos, por ejemplo, lo que confiere numerosas capacidades y ventajas necesarias. Lo más importante es que estas CPU proporcionan un acceso uniforme a la memoria para todos sus núcleos. Esta característica ayuda con el determinismo, reduce el bloqueo y facilita el diseño y la construcción de placas base para servidores de alto rendimiento. Por diseño, AMD EPYC La arquitectura mejora el rendimiento de las cargas de trabajo de IA, ofreciendo acceso optimizado a la red, el almacenamiento y la GPU.

Caso en punto: Supermicro H13 Sistema de almacenamiento a escala petascale de 1U

El Supermicro El sistema de almacenamiento a escala petascale H13 proporciona una excelente ilustración de lo que es el EPYC La arquitectura puede hacerlo. Ofrece altas densidades para almacenamiento definido por software, computación en memoria, computación de alto rendimiento (HPC) intensiva en datos, nube privada y pública, y, especialmente, aplicaciones de IA/aprendizaje automático. Sus especificaciones incluyen los siguientes detalles:

  • 16 intercambios en caliente EDSFF E3.S NVMe Ranuras para hasta 480 TB de almacenamiento en un chasis de 1U
  • Opcional 4 CXL Módulos de expansión de memoria con factor de forma E3.S 2T más 8 E3.S NVMe dispositivos de almacenamiento
  • Una de cuarta generación AMD EPYC™ procesador: hasta 96 núcleos
  • 24 DIMM para hasta 6 TB de DDR5 memoria
  • 2 PCIe 5.0 Compatible con Open Compute Project (OCP) 3.0 SFF AIOM ranuras
  • 2 de altura completa y media longitud PCIe 5.0 ranuras con alimentación auxiliar
  • Fuentes de alimentación con eficiencia de nivel titanio

El Supermicro H13 Este sistema puede ser una valiosa adición a cualquier centro de datos donde la IA, el aprendizaje automático u otras cargas de trabajo que requieren mucha computación y datos necesiten acceso al almacenamiento de alto rendimiento y baja latencia (y en grandes cantidades).

Por qué AMD y Supermicro La arquitectura del servidor es óptima para la IA.

NVMe ha cambiado por completo el juego de servidores y clústeres. Con NVMe En su base, se hace posible una arquitectura completamente reelaborada. Permite que el almacenamiento funcione a escala y velocidad junto con CPU, GPU y NIC de alto rendimiento, especialmente con la EDSFF Factor de forma. El diseño de un solo socket permite que las mejores CPU de su clase saturen completamente las tarjetas de red y el almacenamiento, y exploten los niveles más altos posibles de paralelismo y capacidades de agrupación para HPC, IA y otras soluciones de próxima generación. Equilibrando el rendimiento y la energía para respaldar la sostenibilidad, el ancho de banda de la memoria se duplica. AMD EPYC De la tercera a la cuarta generación, se obtiene un mejor soporte para cargas de trabajo de IA. Al trabajar con arquitectura de un solo chip, se pueden asignar otros recursos de la CPU (por ejemplo, caché L3 y ancho de banda de memoria) de forma prioritaria a los subprocesos de alta demanda para mejorar el rendimiento y reducir la latencia. Es posible optimizar los subprocesos para soportar dichas cargas de trabajo hasta el nivel de hardware. No existe una forma mejor, más rápida ni más eficiente de implementar IA y aprendizaje automático que en este tipo de servidores.