CommentAMD Supermicro offrent un débit élevé et une faible latence pour les solutions d'IA

L'IA nécessite un stockage à faible latence : obtenez-le dès maintenant avec Supermicro équipés de processeurs AMD

Les entreprises modernes sont aujourd'hui en pleine mutation. Elle s'articule autour de ce que l'on pourrait appeler la "révolution de l'IA". Les organisations obtiennent des avantages concurrentiels et des informations clés lorsqu'elles mettent en œuvre des applications avancées basées sur l'IA ou le ML. Parmi les principaux exemples de ces charges de travail, on peut citer les grands modèles de langage (LLM) basés sur l'IA, tels que ChatGPT, LLaMa et bien d'autres, ainsi que les modèles de ML basés sur d'énormes ensembles de données d'entraînement, des modèles 3D complexes, des animations et des réalités virtuelles, des simulations et d'autres applications gourmandes en données et en calculs.

Derrière le matériel flashy monté en rack qui abrite les cerveaux pilotés par GPU de tout cluster d'IA, vous devez également trouver des systèmes de stockage à haut débit et à faible latence pour maintenir la productivité du cluster. Ces systèmes prennent en charge les canaux qui alimentent des quantités massives de données pour former des modèles et effectuer des simulations et des analyses complexes nécessaires pour soutenir l'IA, la ML et les charges de travail similaires. En effet, l'un des plus grands défis auxquels sont confrontées les entreprises qui cherchent à tirer parti de la croissance de l'IA est de trouver une solution de stockage qui n'engorgera pas leurs CPU, GPU ou clusters de bases de données hautes performances.

Le Saint Graal : Haut débit, faible latence

Tout le monde prend le train de l'IA et cherche à prendre en charge les charges de travail correspondantes. Pour que ce rêve pas si fou devienne réalité, il est absolument essentiel de disposer d'une architecture de serveur optimisée pour prendre en charge les charges de travail exigeantes. AMD a conçu ses processeurs de serveur EPYC , qui en sont actuellement à leur quatrième génération dans la famille de produits 9004, pour obtenir les meilleures performances du matériel et des logiciels de serveur avec un seul et même processeur. En fait, la famille AMD EPYC™ de 4e génération offre les avantages suivants :

Leadership en matière de performances par socket et par cœur, avec jusqu'à 96 cœurs Zen 4 dans des CCD (Core Compute Dies) de 5 nm.
Leadership en matière de bande passante et de capacité de mémoire, avec 12 canaux pour jusqu'à 6 To de mémoire DDR5 par socket
Leadership en matière d'E/S, avec jusqu'à 128 voies d'accès PCIe 5.0 pour les périphériques de mémoire CXL, les SSD, les NIC, les GPU, etc.

Conçus dès le départ pour des performances, une efficacité et une durabilité maximales, les serveursEPYC AMD EPYC peuvent gérer les équilibres nécessaires pour tirer le meilleur parti des CPU, de la mémoire, des GPU, du stockage et des interfaces réseau. En effet, l'architecture AMD EPYC donne la priorité aux threads afin que le cache L3 puisse être verrouillé pour que les charges de travail intensives l'utilisent exclusivement, de sorte que les voies PCIe ne soient pas sujettes aux retards typiques de planification et de contention des E/S.

Prise en charge des systèmes de fichiers et prévention des goulets d'étranglement

En mode distribué et parallèle, les données des systèmes de fichiers distribués proviennent de plusieurs sources et doivent être traitées à grande échelle à travers divers protocoles et pour diverses applications. Dans un système de stockage classique, les métadonnées deviennent rapidement un goulot d'étranglement. En effet, vous ne pouvez pomper que la quantité de données que les métadonnées prennent en charge. À mesure que la quantité de données augmente, la capacité à traiter les métadonnées doit augmenter proportionnellement.AMD Supermicro prennent en charge le stockage distribué WEKA: Il est conçu pour fournir une telle évolutivité proportionnelle. Cela explique pourquoi, malgré l'ajout de capacité de données et de services supplémentaires à un Supermicro ou à un cluster Supermicro , les performances d'E/S restent inchangées. Les performances évoluent de manière linéaire de huit (nombre minimum de nœuds pour un cluster WEKA) à des centaines de nœuds. Pour ce faire, il élimine les goulots d'étranglement et prend en charge même les charges de travail IA/ML (et autres similaires) les plus lourdes et les plus exigeantes.

Mais l'optimisation des serveurs et des clusters ne se limite pas à la fourniture d'un stockage évolutif, performant et à faible latence. Lors de la conception d'un système complet, l'accent ne peut pas être mis exclusivement sur une seule caractéristique ou fonction. L'ensemble de l'architecture doit fonctionner de concert pour prendre en charge les charges de travail ciblées. Ainsi, la conception d'un système pour les applications d'intelligence artificielle implique la création d'un environnement d'exécution conçu dès le départ pour traiter les applications à forte intensité de données de manière rapide et satisfaisante. Cet environnement bénéficie des performances globales du serveur pour l'inférence et l'analyse, ainsi que des capacités globales d'entrée-sortie. Ce que le serveur fait avec les données lorsqu'il traite une charge de travail d'IA (ou similaire) est aussi important que le trafic de données entrant et sortant d'un nœud donné. La prise en charge d'activités hautement parallèles est essentielle, de sorte qu'un nombre élevé de cœurs pour gérer toutes les sous-tâches parallélisées qui impliquent l'exécution de tels programmes est crucial.

Une autre caractéristique essentielle est le nombre de voies PCIe 5.0 dans les serveurs AMD EPYC(jusqu'à 128 pour un seul socket). Cela permet aux serveurs d'accueillir de plus grandes collections de disques SSD, de cartes réseau, de GPU et même de dispositifs CXL à mémoire étendue. Tous ces éléments jouent un rôle essentiel dans la gestion des charges de travail exigeantes d'IA et de ML (ou similaires), notamment :

Jusqu'à 32 disques SSD PCIe Gen5 pour un stockage local à grande vitesse
Un grand nombre d'interfaces réseau à haut débit pour connecter les serveurs à d'autres nœuds, tels que des serveurs de stockage ou d'autres serveurs spécialisés, afin d'étendre la portée des données.
Grand nombre de GPU pour traiter des tâches ou des charges de travail spécialisées et ciblées

En général, il est important de disposer d'un espace de stockage important sur les nœuds de serveur et d'une bande passante réseau élevée afin de fournir des niveaux appropriés d'entrée et de sortie de données pour chacun de ces nœuds à partir d'un espace de stockage qui peut ne pas se trouver sur l'hôte. C'est essentiellement ce qui sous-tend la plupart des déclarations faites ici concernant le débit élevé et la faible latenceEPYC Supermicro AMD EPYC .

Plus de cœurs, c'est plus de puissance !

Un autre facteur critique pour une capacité d'IA optimisée est qu'un nombre élevé de cœurs par CPU fournit un support matériel pour ce que l'on appelle un UP (uni- ou mono-processeur). Le leadership d'AMDen matière de nombre de cœurs (la famille AMD EPYC 9004 prend en charge de 24 à 96 cœurs, par exemple) confère de nombreux avantages et capacités nécessaires. Le plus important est que ces processeurs offrent un accès uniforme à la mémoire pour tous les cœurs. Cette caractéristique favorise le déterminisme, réduit les blocages et facilite la conception et la construction de cartes mères de serveurs à haute performance. De par sa conception, l'architecture AMD EPYC stimule les performances des charges de travail d'IA, en offrant un accès optimisé au réseau, au stockage et au GPU.

Exemple concret : système de stockage pétaoctet Supermicro 1U

Le système de stockage pétaoctet Supermicro H13 illustre parfaitement les capacités de EPYC . Il offre des densités élevées pour le stockage défini par logiciel, le calcul en mémoire, le HPC à forte intensité de données, le cloud privé et public, et surtout les applications d'IA/ML. Ses spécifications comprennent les détails suivants :

16 emplacements EDSFF E3.S NVMe permutables à chaud pour jusqu'à 480 To de stockage dans un châssis 1U
En option, 4 modules d'extension de mémoire CXL E3.S 2T et 8 périphériques de stockage E3.S NVMe.
Un processeur AMD EPYC™ de 4ème génération - jusqu'à 96 cœurs
24 modules DIMM pour un maximum de 6 To de mémoire DDR5
2 emplacements AIOM PCIe 5.0 Open Compute Project (OCP) 3.0 compatibles SFF
2 emplacements PCIe 5.0 pleine hauteur et demi-longueur avec alimentation auxiliaire
Alimentations de niveau Titane

Le système Supermicro peut être un atout inestimable pour tout centre de données où l'IA, le ML ou d'autres charges de travail gourmandes en calcul et en données nécessitent un accès au stockage hautement performant, à faible latence (et en grande quantité).

Pourquoi l'architecture Supermicro AMD Supermicro est optimale pour l'IA

NVMe a totalement changé la donne en matière de serveurs et de clusters. Avec NVMe à la base, une architecture complètement remaniée devient possible. Elle permet au stockage de fonctionner à grande échelle et à grande vitesse avec des CPU, des GPU et des NIC très performants, en particulier avec le facteur de forme EDSFF. La conception monosocket permet aux CPU les plus performants de saturer totalement les cartes réseau et le stockage et d'exploiter les plus hauts niveaux possibles de parallélisme et de capacités de clustering pour le HPC, l'IA et d'autres solutions de nouvelle génération. En équilibrant les performances et la puissance pour soutenir la durabilité, la bande passante de la mémoire double entre AMD EPYC 3rd Gen et 4th Gen, ce qui permet également de mieux prendre en charge les charges de travail d'IA. Dans le cas d'une architecture à puce unique, vous pouvez allouer d'autres ressources CPU (par exemple, le cache L3 et la bande passante mémoire) de manière préférentielle aux threads les plus sollicités afin d'améliorer les performances et de réduire les temps de latence. Vous pouvez régler les threads pour prendre en charge de telles charges de travail jusqu'au niveau du matériel. Il n'y a pas de meilleur moyen, plus rapide ou plus efficace, de faire travailler l'IA et la ML que sur de tels serveurs.

Serveurs Rack

1U avec 2 processeurs

2U avec 2 processeurs

1 Processeur

Multi-processeur

Familles de produits

Serveurs GPU

Gamme GPU 8U/10U

Gamme GPU 4U/5U

Gamme GPU 2U

Gamme GPU 1U

Serveurs Multi-Noeuds

FlexTwin™

BigTwin®

GrandTwin®

TwinPro®

FatTwin®

Serveurs Lames

SuperBlade

MicroBlade

MicroCloud

Serveurs de stockage

Tous les systèmes de stockage

Flash NVMe

Chargement par le haut

JBOF

Stockage Petascale Grace

Stockage optimisé pour l'entreprise

Boîtiers de stockage JBOD

Cartes mères

Cartes pour serveur

Cartes pour station de travail

Cartes embarquées / IoT

Cartes pour PC de bureau / Jeux

Matrice de carte mères

SKUs mondiales

Châssis

Châssis 1U

Châssis 2U

Châssis 3U

Châssis 4U / Tour

Mid / Mini-Tour

Châssis embarqué / IoT

Racks mobiles / Kits disques

Boîtiers de stockage JBOD

SKUs mondiales

SuperRack

Ingénierie des solutions pour les centres de données (DCSE)

Service d'intégration des racks

Accessoires

Matrice des câbles

Matrice des cartes risers

Matrice des cartes de stockages AOC

Matrice des blocs alimentations

Matrice des dissipateurs thermiques

Matrice des ventilateurs

Racks mobiles / Kits disques

Façades avant du châssis

Stockage, E/S, sécurité

Systèmes Edge AI et IoT

Systèmes Edge compacts

Serveurs compacts Edge

Serveurs périphériques montés en rack

Composants embarqués

Cartes mères embarquées

Châssis embarqué

Switches

Adaptateurs

SuperWorkstations

Plateforme de développement de l'IA à refroidissement liquide

Monoprocesseur

Double processeur

Solutions de jeu Supero™

Infrastructure d'IA

Data Center Building Block Solutions® (DCBBS)

L'usine d'IA

Edge IA

Stockage pour l'IA

Solutions NVIDIA

Solutions AMD