Aller au contenu principal

Comment les serveurs Supermicro AMD offrent un débit élevé et une faible latence pour les solutions d'IA

L'intelligence artificielle nécessite un stockage à faible latence : Obtenez-le dès maintenant avec les serveurs Supermicro basés sur les CPU AMD EPYC™

Les entreprises modernes sont aujourd'hui en pleine mutation. Elle s'articule autour de ce que l'on pourrait appeler la "révolution de l'IA". Les organisations obtiennent des avantages concurrentiels et des informations clés lorsqu'elles mettent en œuvre des applications avancées basées sur l'IA ou le ML. Parmi les principaux exemples de ces charges de travail, on peut citer les grands modèles de langage (LLM) basés sur l'IA, tels que ChatGPT, LLaMa et bien d'autres, ainsi que les modèles de ML basés sur d'énormes ensembles de données d'entraînement, des modèles 3D complexes, des animations et des réalités virtuelles, des simulations et d'autres applications gourmandes en données et en calculs.

Derrière le matériel flashy monté en rack qui abrite les cerveaux pilotés par GPU de tout cluster d'IA, vous devez également trouver des systèmes de stockage à haut débit et à faible latence pour maintenir la productivité du cluster. Ces systèmes prennent en charge les canaux qui alimentent des quantités massives de données pour former des modèles et effectuer des simulations et des analyses complexes nécessaires pour soutenir l'IA, la ML et les charges de travail similaires. En effet, l'un des plus grands défis auxquels sont confrontées les entreprises qui cherchent à tirer parti de la croissance de l'IA est de trouver une solution de stockage qui n'engorgera pas leurs CPU, GPU ou clusters de bases de données hautes performances.

Le Saint Graal : Haut débit, faible latence

Tout le monde prend le train de l'IA et cherche à prendre en charge les charges de travail correspondantes. Pour que ce rêve pas si fou devienne réalité, il est absolument essentiel de disposer d'une architecture de serveur optimisée pour prendre en charge les charges de travail exigeantes. AMD a conçu ses processeurs de serveur EPYC , qui en sont actuellement à leur quatrième génération dans la famille de produits 9004, pour obtenir les meilleures performances du matériel et des logiciels de serveur avec un seul et même processeur. En fait, la famille AMD EPYC™ de 4e génération offre les avantages suivants :

  • Leadership en matière de performances par socket et par cœur, avec jusqu'à 96 cœurs Zen 4 dans des CCD (Core Compute Dies) de 5 nm.
  • Leadership en matière de bande passante et de capacité de mémoire, avec 12 canaux pour jusqu'à 6 To de mémoire DDR5 par socket
  • Leadership en matière d'E/S, avec jusqu'à 128 voies d'accès PCIe 5.0 pour les périphériques de mémoire CXL, les SSD, les NIC, les GPU, etc.

Conçus dès le départ pour des performances, une efficacité et une durabilité maximales, les serveursEPYC AMD EPYC peuvent gérer les équilibres nécessaires pour tirer le meilleur parti des CPU, de la mémoire, des GPU, du stockage et des interfaces réseau. En effet, l'architecture AMD EPYC donne la priorité aux threads afin que le cache L3 puisse être verrouillé pour que les charges de travail intensives l'utilisent exclusivement, de sorte que les voies PCIe ne soient pas sujettes aux retards typiques de planification et de contention des E/S.

Prise en charge des systèmes de fichiers et prévention des goulets d'étranglement

Dans les modes distribués et parallèles, les données des systèmes de fichiers distribués proviennent de sources multiples et doivent être traitées à l'échelle par le biais de divers protocoles et pour diverses applications. Dans un système de stockage classique, les métadonnées deviennent rapidement un goulot d'étranglement. En effet, le système ne peut traiter que la quantité de données que les métadonnées prennent en charge. Lorsque la quantité de données augmente, la capacité à gérer les métadonnées doit augmenter proportionnellement. Les serveurs Supermicro AMD prennent en charge le stockage distribué WEKA: Il est architecturé pour fournir une telle mise à l'échelle proportionnelle. Cela explique pourquoi, malgré l'ajout d'une plus grande capacité de données et de services à un système ou à un cluster Supermicro , les performances d'E/S restent inchangées. Les performances s'échelonnent linéairement de huit (nombre minimum de nœuds pour un cluster WEKA) à des centaines de nœuds. Pour ce faire, elle élimine les goulets d'étranglement et prend en charge les charges de travail les plus lourdes et les plus exigeantes en matière d'IA/ML (et autres charges similaires).

Mais l'optimisation des serveurs et des clusters ne se limite pas à la fourniture d'un stockage évolutif, performant et à faible latence. Lors de la conception d'un système complet, l'accent ne peut pas être mis exclusivement sur une seule caractéristique ou fonction. L'ensemble de l'architecture doit fonctionner de concert pour prendre en charge les charges de travail ciblées. Ainsi, la conception d'un système pour les applications d'intelligence artificielle implique la création d'un environnement d'exécution conçu dès le départ pour traiter les applications à forte intensité de données de manière rapide et satisfaisante. Cet environnement bénéficie des performances globales du serveur pour l'inférence et l'analyse, ainsi que des capacités globales d'entrée-sortie. Ce que le serveur fait avec les données lorsqu'il traite une charge de travail d'IA (ou similaire) est aussi important que le trafic de données entrant et sortant d'un nœud donné. La prise en charge d'activités hautement parallèles est essentielle, de sorte qu'un nombre élevé de cœurs pour gérer toutes les sous-tâches parallélisées qui impliquent l'exécution de tels programmes est crucial.

Une autre caractéristique essentielle est le nombre de voies PCIe 5.0 dans les serveurs AMD EPYC(jusqu'à 128 pour un seul socket). Cela permet aux serveurs d'accueillir de plus grandes collections de disques SSD, de cartes réseau, de GPU et même de dispositifs CXL à mémoire étendue. Tous ces éléments jouent un rôle essentiel dans la gestion des charges de travail exigeantes d'IA et de ML (ou similaires), notamment :

  • Jusqu'à 32 disques SSD PCIe Gen5 pour un stockage local à grande vitesse
  • Un grand nombre d'interfaces réseau à haut débit pour connecter les serveurs à d'autres nœuds, tels que des serveurs de stockage ou d'autres serveurs spécialisés, afin d'étendre la portée des données.
  • Grand nombre de GPU pour traiter des tâches ou des charges de travail spécialisées et ciblées

En général, il est important d'avoir beaucoup de stockage sur les nœuds de serveurs et une bande passante réseau élevée pour fournir des niveaux appropriés d'entrée et de sortie de données pour chacun de ces nœuds à partir d'un stockage qui peut ne pas résider sur l'hôte. C'est essentiellement ce qui sous-tend la plupart des déclarations faites ici concernant le débit élevé et la faible latence des serveurs Supermicro AMD EPYC .

Plus de cœurs, c'est plus de puissance !

Un autre facteur critique pour une capacité d'IA optimisée est qu'un nombre élevé de cœurs par CPU fournit un support matériel pour ce que l'on appelle un UP (uni- ou mono-processeur). Le leadership d'AMDen matière de nombre de cœurs (la famille AMD EPYC 9004 prend en charge de 24 à 96 cœurs, par exemple) confère de nombreux avantages et capacités nécessaires. Le plus important est que ces processeurs offrent un accès uniforme à la mémoire pour tous les cœurs. Cette caractéristique favorise le déterminisme, réduit les blocages et facilite la conception et la construction de cartes mères de serveurs à haute performance. De par sa conception, l'architecture AMD EPYC stimule les performances des charges de travail d'IA, en offrant un accès optimisé au réseau, au stockage et au GPU.

Exemple concret : Système de stockage Petascale Supermicro H13 1U

Lesystème de stockage Petascale H13 de Supermicro illustre parfaitement les possibilités de l'architecture EPYC . Il offre des densités élevées pour le stockage défini par logiciel, l'informatique en mémoire, le calcul intensif de données, le cloud privé et public et, surtout, les applications IA/ML. Ses spécifications comprennent les détails suivants :

  • 16 emplacements EDSFF E3.S NVMe permutables à chaud pour jusqu'à 480 To de stockage dans un châssis 1U
  • En option, 4 modules d'extension de mémoire CXL E3.S 2T et 8 périphériques de stockage E3.S NVMe.
  • Un processeur AMD EPYC™ de 4ème génération - jusqu'à 96 cœurs
  • 24 modules DIMM pour un maximum de 6 To de mémoire DDR5
  • 2 emplacements AIOM PCIe 5.0 Open Compute Project (OCP) 3.0 compatibles SFF
  • 2 emplacements PCIe 5.0 pleine hauteur et demi-longueur avec alimentation auxiliaire
  • Alimentations de niveau Titane

Le système Supermicro H13 peut être un complément inestimable à tout centre de données où l'IA, le ML ou d'autres charges de travail à forte intensité de calcul et de données nécessitent un accès au stockage haute performance et à faible latence (et beaucoup).

Pourquoi l'architecture des serveurs AMD et Supermicro est optimale pour l'IA

NVMe a totalement changé la donne en matière de serveurs et de clusters. Avec NVMe à la base, une architecture complètement remaniée devient possible. Elle permet au stockage de fonctionner à grande échelle et à grande vitesse avec des CPU, des GPU et des NIC très performants, en particulier avec le facteur de forme EDSFF. La conception monosocket permet aux CPU les plus performants de saturer totalement les cartes réseau et le stockage et d'exploiter les plus hauts niveaux possibles de parallélisme et de capacités de clustering pour le HPC, l'IA et d'autres solutions de nouvelle génération. En équilibrant les performances et la puissance pour soutenir la durabilité, la bande passante de la mémoire double entre AMD EPYC 3rd Gen et 4th Gen, ce qui permet également de mieux prendre en charge les charges de travail d'IA. Dans le cas d'une architecture à puce unique, vous pouvez allouer d'autres ressources CPU (par exemple, le cache L3 et la bande passante mémoire) de manière préférentielle aux threads les plus sollicités afin d'améliorer les performances et de réduire les temps de latence. Vous pouvez régler les threads pour prendre en charge de telles charges de travail jusqu'au niveau du matériel. Il n'y a pas de meilleur moyen, plus rapide ou plus efficace, de faire travailler l'IA et la ML que sur de tels serveurs.