Aller au contenu principal

CommentAMD Supermicro AMD offrent un débit élevé et une faible latence pour les solutions d'IA

L'IA nécessite un stockage à faible latence : optez dès maintenant pour Supermicro équipés deEPYC™ AMD EPYC™

Les entreprises modernes sont aujourd'hui en pleine mutation. Elle s'articule autour de ce que l'on pourrait appeler la "révolution de l'IA". Les organisations obtiennent des avantages concurrentiels et des informations clés lorsqu'elles mettent en œuvre des applications avancées basées sur l'IA ou le ML. Parmi les principaux exemples de ces charges de travail, on peut citer les grands modèles de langage (LLM) basés sur l'IA, tels que ChatGPT, LLaMa et bien d'autres, ainsi que les modèles de ML basés sur d'énormes ensembles de données d'entraînement, des modèles 3D complexes, des animations et des réalités virtuelles, des simulations et d'autres applications gourmandes en données et en calculs.

Derrière le matériel flashy monté en rack qui abrite les cerveaux pilotés par GPU de tout cluster d'IA, vous devez également trouver des systèmes de stockage à haut débit et à faible latence pour maintenir la productivité du cluster. Ces systèmes prennent en charge les canaux qui alimentent des quantités massives de données pour former des modèles et effectuer des simulations et des analyses complexes nécessaires pour soutenir l'IA, la ML et les charges de travail similaires. En effet, l'un des plus grands défis auxquels sont confrontées les entreprises qui cherchent à tirer parti de la croissance de l'IA est de trouver une solution de stockage qui n'engorgera pas leurs CPU, GPU ou clusters de bases de données hautes performances.

Le Saint Graal : Haut débit, faible latence

Tout le monde se lance dans l'IA et cherche des solutions pour gérer les charges de travail associées. Pour que ce rêve, qui n'est pas si fou, devienne réalité, une architecture serveur optimisée pour prendre en charge des charges de travail exigeantes est absolument indispensable. AMD conçu ses processeurs EPYC — actuellement dans leur quatrième génération au sein de la gamme 9004 — pour tirer le meilleur parti des performances du matériel et des logiciels serveurs avec un seul processeur. En effet, laEPYC™ AMD EPYC™ de 4e génération offre les avantages suivants :

  • Leadership en matière de performances par socket et par cœur, avec jusqu'à 96 cœurs Zen 4 dans des CCD (Core Compute Dies) de 5 nm.
  • Une position de leader en matière de bande passante et de capacité mémoire, avec 12 canaux permettant d'atteindre jusqu'à 6 To de DDR5 par socket
  • Une technologie de pointe en matière d'interconnexion, offrant jusqu'à 128 voies d'accès PCIe .0 pour les dispositifs CXL , les SSD, les cartes réseau, les GPU et bien plus encore

Conçus dès le départ pour offrir un maximum de performances, d'efficacité et de durabilité, les serveursEPYC sont capables de gérer l'équilibre nécessaire pour tirer le meilleur parti des processeurs, de la mémoire, des cartes graphiques, du stockage et des interfaces réseau. En effet,EPYC AMD EPYC attribue la priorité aux threads de manière à ce que le cache L3 puisse être réservé à l'usage exclusif des charges de travail intensives, évitant ainsi que PCIe ne soient soumises aux retards habituels liés à la planification des E/S et aux conflits d'accès.

Prise en charge des systèmes de fichiers et prévention des goulets d'étranglement

En mode distribué et parallèle, les données des systèmes de fichiers distribués proviennent de multiples sources et doivent être traitées à grande échelle via divers protocoles et pour diverses applications. Dans un système de stockage classique, les métadonnées deviennent rapidement un goulot d’étranglement. En effet, le volume de données pouvant transiter par le système est limité par la capacité de gestion des métadonnées. À mesure que le volume de données augmente, la capacité de gestion des métadonnées doit évoluer proportionnellement.AMD Supermicro AMD prennent en charge le stockage distribué WEKA: Il est conçu pour offrir une telle évolutivité proportionnelle. Cela explique pourquoi, malgré l'ajout de capacité de stockage et de services à un Supermicro ou à un cluster Supermicro , les performances d'E/S restent inchangées. Les performances évoluent de manière linéaire, de huit nœuds (nombre minimum pour un cluster WEKA) à des centaines de nœuds. Pour ce faire, le système élimine les goulots d'étranglement et prend en charge même les charges de travail IA/ML (et autres similaires) les plus lourdes et les plus exigeantes.

Mais l'optimisation des serveurs et des clusters ne se limite pas à la fourniture d'un stockage évolutif, performant et à faible latence. Lors de la conception d'un système complet, l'accent ne peut pas être mis exclusivement sur une seule caractéristique ou fonction. L'ensemble de l'architecture doit fonctionner de concert pour prendre en charge les charges de travail ciblées. Ainsi, la conception d'un système pour les applications d'intelligence artificielle implique la création d'un environnement d'exécution conçu dès le départ pour traiter les applications à forte intensité de données de manière rapide et satisfaisante. Cet environnement bénéficie des performances globales du serveur pour l'inférence et l'analyse, ainsi que des capacités globales d'entrée-sortie. Ce que le serveur fait avec les données lorsqu'il traite une charge de travail d'IA (ou similaire) est aussi important que le trafic de données entrant et sortant d'un nœud donné. La prise en charge d'activités hautement parallèles est essentielle, de sorte qu'un nombre élevé de cœurs pour gérer toutes les sous-tâches parallélisées qui impliquent l'exécution de tels programmes est crucial.

Une autre caractéristique essentielle réside dans le nombre de voies PCIe .0 des serveursEPYC AMD EPYC(jusqu'à 128 pour un seul socket). Cela permet aux serveurs d'accueillir un plus grand nombre de SSD, de cartes réseau, de GPU et même CXL d'extension de mémoire. Tous ces composants jouent un rôle essentiel dans le traitement de charges de travail exigeantes en IA et en apprentissage automatique (ou domaines similaires), notamment :

  • Jusqu'à 32 SSD PCIe pour un stockage local ultra-rapide
  • Un grand nombre d'interfaces réseau à haut débit pour connecter les serveurs à d'autres nœuds, tels que des serveurs de stockage ou d'autres serveurs spécialisés, afin d'étendre la portée des données.
  • Grand nombre de GPU pour traiter des tâches ou des charges de travail spécialisées et ciblées

D'une manière générale, il est important de disposer d'une grande capacité de stockage sur les nœuds de serveur et d'une bande passante réseau élevée afin d'assurer des niveaux adéquats de trafic entrant et sortant pour chaque nœud à partir de systèmes de stockage qui ne se trouvent pas nécessairement sur l'hôte. C'est essentiellement ce qui explique la plupart des affirmations présentées ici concernant le débit élevé et la faible latence desEPYC Supermicro AMD EPYC .

Plus de cœurs, c'est plus de puissance !

Un autre facteur essentiel pour optimiser les capacités d'IA réside dans le fait qu'un nombre élevé de cœurs par processeur offre une prise en charge matérielle de ce qu'on appelle un UP (uni- ou single processor). Le leadership AMDen matière de nombre de cœurs (la gamme AMD EPYC prend en charge de 24 à 96 cœurs, par exemple) confère de nombreuses capacités et avantages indispensables. Plus important encore, ces processeurs offrent un accès uniforme à la mémoire pour tous leurs cœurs. Cette fonctionnalité favorise le déterminisme, réduit les blocages et facilite la conception et la fabrication de cartes mères de serveurs hautes performances. De par sa conception,EPYC AMD EPYC améliore les performances des charges de travail d'IA, en offrant un accès optimisé au réseau, au stockage et au GPU.

Exemple concret : le système de stockage péta-échelle Supermicro H13

Le système de stockageH13 Supermicro H13 illustre parfaitement les capacités de EPYC . Il offre une densité élevée pour le stockage défini par logiciel, le calcul en mémoire, le calcul haute performance (HPC) à forte intensité de données, les clouds privés et publics, et surtout les applications d'IA et d'apprentissage automatique. Ses spécifications comprennent les éléments suivants :

  • 16 NVMe EDSFF .S NVMe remplaçables à chaud, offrant jusqu'à 480 To de capacité de stockage dans un châssis 1U
  • Quatre modules d'extension de mémoire au format CXL .S 2T (en option), ainsi que huit périphériques NVMe E3.S NVMe
  • UnEPYC™ AMD EPYC™ de 4e génération — jusqu'à 96 cœurs
  • 24 modules DIMM pour une capacité maximale de 6 To de DDR5
  • 2 AIOM PCIe .0 conformes à la norme Open Compute Project (OCP) 3.0 SFF
  • 2 emplacements PCIe .0 demi-longueur à hauteur pleine avec alimentation auxiliaire
  • Alimentations de niveau Titane

H13 Supermicro H13 peut constituer un atout inestimable pour tout centre de données où les tâches liées à l'IA, au ML ou à d'autres applications gourmandes en ressources informatiques et en données nécessitent un accès au stockage hautement performant, à faible latence (et en grande quantité).

Pourquoi l'architecture Supermicro AMD Supermicro est idéale pour l'IA

NVMe complètement bouleversé le monde des serveurs et des clusters. Grâce NVMe , une architecture entièrement repensée devient possible. Elle permet au stockage de fonctionner à grande échelle et à grande vitesse aux côtés de processeurs, de cartes graphiques et de cartes réseau haute performance, en particulier avec le EDSFF . La conception à socket unique permet aux processeurs de pointe de saturer pleinement les cartes réseau et le stockage, et d'exploiter les niveaux les plus élevés possibles de parallélisme et de capacités de clustering pour le HPC, l'IA et d'autres solutions de nouvelle génération. En équilibrant performances et consommation pour favoriser la durabilité, la bande passante mémoire double entreEPYC et la 4e génération AMD EPYC , ce qui permet également de mieux prendre en charge les charges de travail d'IA. Avec une architecture à puce unique, vous pouvez allouer d'autres ressources du processeur (par exemple, le cache L3 et la bande passante mémoire) de manière préférentielle aux threads à forte demande afin d'améliorer les performances et de réduire la latence. Vous pouvez optimiser les threads pour prendre en charge ces charges de travail jusqu'au niveau matériel. Il n'existe pas de moyen meilleur, plus rapide ou plus efficace de mettre l'IA et le ML à contribution que sur de tels serveurs.