Zum Hauptinhalt springen

Supermicro und NVIDIA liefern optimierte Systeme für KI ML und mehr

Optimale Nutzung fortschrittlicher Datenzugriffs- und Übertragungsmethoden zur Steigerung der Produktivität

Moderne Unternehmen erzielen erhebliche Wettbewerbsvorteile durch den Einsatz fortschrittlicher Anwendungen und Datenverarbeitung in ihren Geschäftsabläufen. Dazu gehören: KI -basierte große Sprachmodelle wie ChatGPT, LLaMa usw., maschinelle Lernanalysen auf der Grundlage enormer Mengen an Trainings- und realen Daten, komplexe 3D- und Finite-Elemente-Modelle und -Simulationen sowie andere daten- und rechenintensive Anwendungen.

Alle diese Workloads haben zumindest eines gemeinsam: Sie profitieren erheblich von einem beschleunigten Speicherzugriff, unabhängig davon, welches mehrstufige Speichermodell Sie verwenden. Das ist ein Hauptgrund, warum so viele Unternehmen und Serviceprovider auf GPU-basierte Server umgestiegen sind, um große, komplexe Datensätze und die dazugehörigen Workloads zu verarbeiten. Sie sind deutlich leistungsfähiger für diese Workloads und können solche Aufgaben schneller erledigen als herkömmliche Server mit typischen Speicherkonfigurationen (z. B. lokalem RAM und Festplattenspeicher). NVMe SSDs, mit zusätzlichen Speicherebenen im LAN oder in der Cloud).

Der Schlüssel zu höherem Durchsatz liegt in reduzierter Latenz und besserer Speicherbandbreite. Dies führt direkt zu gesteigerter Produktivität und Leistungsfähigkeit, vor allem durch intelligente E/A- und Netzwerktechniken, die auf direktem und entferntem Speicherzugriff basieren, wie im Folgenden erläutert wird. Schnelleres Modelltraining und schnellere Auftragsabwicklung bedeuten KI Mit dieser Technologie ausgestattete Anwendungen lassen sich schneller bereitstellen und erledigen Aufgaben zügiger, wodurch die Wertschöpfung beschleunigt wird.

Direkter Speicherzugriff und Remote-Äquivalente

Direkter Speicherzugriff (DMA) wird seit den Anfängen der Computertechnik zur Beschleunigung von Ein-/Ausgabeoperationen eingesetzt. DMA ermöglicht im Wesentlichen Speicher-zu-Speicher-Übertragungen über einen Bus (oder eine andere Schnittstelle) von einem Gerät zum anderen. Dabei wird ein Speicheradressbereich direkt vom Speicher des Senders in den Speicher des Empfängers kopiert (oder bei bidirektionalen Übertragungen zwischen zwei Parteien). Diese Funktion entlastet die CPU und beschleunigt die Übertragung, indem die Anzahl der Kopiervorgänge reduziert wird (die CPU muss die Daten des Senders nicht in ihren eigenen Speicher kopieren und anschließend von dort in den Speicher des Empfängers übertragen).

Tatsächlich wird die DMA-Leistung auf einem einzelnen System nur durch die Geschwindigkeit des Busses (oder einer anderen Schnittstelle) begrenzt, der die an einer Datenübertragung beteiligten Sende- und Empfangsgeräte verbindet. PCIe 4.0, das sind 16 Gigatransfers pro Sekunde (GT/s), mit dem Doppelten dieser Menge für PCIe 5,0 (32 GT/s). Die Datenraten sind aufgrund des Aufwands für Kodierung und Paketierung naturgemäß geringer, aber die angegebene Bandbreite für diese beiden PCIe Die Versionen bieten Geschwindigkeiten von 64 Gbit/s (4.0) bzw. 128 Gbit/s (5.0). Das ist schnell!

Remote DMA (RDMA) erweitert die Funktionalität von DMA innerhalb eines einzelnen Computers auf die Kommunikation zwischen zwei Geräten über eine Netzwerkverbindung. RDMA basiert typischerweise auf einer speziellen Programmierschnittstelle (API), die mit spezialisierter Netzwerk-Hardware und -Software zusammenarbeitet, um möglichst viele Vorteile von lokalem DMA zu bieten, soweit die zugrunde liegende Netzwerktechnologie dies zulässt.

NVIDIA-GPUs unterstützen drei solcher Netzwerktechnologien, in der Reihenfolge abnehmender Geschwindigkeit und Kosten (schnellste, teuerste zuerst):

  • NVIDIA NVLink nutzt proprietäre Schnittstellen und Switch-Technologien höchster Geschwindigkeit, um Datenübertragungen zwischen GPUs in Hochgeschwindigkeitsnetzwerken zu beschleunigen. Es erzielt aktuell die höchste Leistung in den Standard-MLPerf-Training-v3.0-Benchmarks aller Technologien. Eine einzelne NVIDIA H100 Tensor Core GPU unterstützt bis zu 18 NVLink-Verbindungen mit einer effektiven Übertragungsrate von bis zu 900 Gbit/s (das Siebenfache der Geschwindigkeit von …). PCIe 5.0).
  • InfiniBand ist ein Hochgeschwindigkeitsnetzwerkstandard, der von der InfiniBand Die International Business Technology Association (IBTA) ist in Hochleistungsnetzen weit verbreitet. Ihre höchsten gemessenen Datenraten lagen im Jahr 2020 bei etwa 1,2 Tbit/s (~154 GB/s).
  • Ethernet ist eine Standard-Netzwerktechnologie mit vielen Varianten, darunter das selten genutzte TbE (~125 Gbit/s) und das gängigere 400 GbE (50 Gbit/s). Es bietet die Vorteile, kostengünstiger, weit verbreitet und in vielen Rechenzentren eine vertraute Technologie zu sein.

Einsatz von NVIDIA-GPUs in Supermicro Server

NVIDIA RDMA-Technologien unterstützen GPU-basierten Datenzugriff über alle drei zuvor genannten Netzwerktechnologien. Jede bietet ein anderes Preis-Leistungs-Verhältnis: Höhere Kosten bedeuten höhere Geschwindigkeit und geringere Latenz. Unternehmen können den Verbindungstyp wählen, der am besten zu ihrem Budget und ihren Anforderungen passt, da jede Option eine spezifische Kombination aus Preis und Leistung darstellt. KI - oder ML-basierte Anwendungen (und andere daten- und rechenintensive Anwendungen), die auf einem solchen Server ausgeführt werden, können die mehrstufige Architektur des GPU-Speichers nutzen, wobei die folgenden Stufen verfügbar sind (in absteigender Reihenfolge der Leistung, aufsteigend nach Größe und Kapazität):

  • 1. Stufe: Der GPU-Speicher ist der schnellste, teuerste und kleinste Datenspeicher (z. B. verfügt die Tensor H100 GPU über 188 GB HBM3-RAM).
  • 2. Ebene: lokale SSDs auf dem PCIe Busse sind die nächstschnellsten, aber immer noch teuer und bieten die 10- bis 100-fache Kapazität einer High-End-GPU.
  • 3. Ebene: Remote-Speicherserver im LAN können mehr als das 1000-fache der Kapazität der GPUs unterstützen, die darauf zugreifen.

Weil KI Da ML-Anwendungen sowohl geringe Latenz als auch hohe Bandbreite benötigen, erweitert RDMA die lokalen Vorteile von DMA auf Netzwerkressourcen (abhängig von den zugrunde liegenden Verbindungen). Diese Funktion ermöglicht den schnellen Zugriff auf externe Daten durch Speicher-zu-Speicher-Übertragungen zwischen Geräten (GPU auf der einen Seite, Speichergerät auf der anderen). In Verbindung mit NVLink, InfiniBand Alternativ kann der Remote-Adapter Daten über eine Hochgeschwindigkeits-Ethernet-Variante vom Speicher eines entfernten Systems in den Speicher einer lokalen GPU übertragen. NVIDIA Magnum IO bietet eine E/A-Beschleunigungsplattform für Rechenzentren, die parallele, intelligente Rechenzentrums-E/A unterstützt und so Speicher-, Netzwerk- und Multi-Node-Multi-GPU-Kommunikation für anspruchsvolle Anwendungen optimiert.

In seinen GPU-Serversystemen, Supermicro nutzt NVIDIA-GPUs und deren Zugriffsmethoden. Dazu gehören lokales DMA, RDMA über die API sowie Hochleistungsnetzwerke über mehrere Netzwerkkarten und Switches, die alle drei Verbindungstypen unterstützen. Darüber hinaus Supermicro GPU-Server enthalten zudem ein oder zwei spezielle ASICs, sogenannte Datenverarbeitungseinheiten (DPUs), um die von GPUs ermöglichte beschleunigte E/A zu unterstützen. Diese entlasten die Server-CPUs von zusätzlichem E/A-Overhead. Ebenso können solche Server bis zu acht Netzwerkadapter pro Server unterstützen, um einen dauerhaften und erweiterten Zugriff auf die Netzwerkbandbreite für maximale Datenübertragungen zu gewährleisten. PCIe 5.0-Geräte und RDMA-Geräte. Dadurch wird sichergestellt, dass es auch bei den meisten anderen Geräten keine Engpässe gibt. PCIe Bus und helfen dabei, den Durchsatz zu maximieren und die Latenz zu minimieren.

Die Auswirkungen auf die Leistung sind äußerst positiv. Die Leistungssteigerung durch die Nutzung der beschleunigten E/A von NVIDIA reicht von 20 % bis 30 % bis hin zu einer Verdopplung bei rechenintensiven Workloads. Um Ineffizienzen zu vermeiden, ist es außerdem unerlässlich, Anwendungen so zu konzipieren, dass sie den Speicher optimal nutzen. Daher sollten solche Anwendungen so konfiguriert werden, dass sie regelmäßig Checkpoints erstellen. Andernfalls müssen sie von ihrem ursprünglichen Startpunkt neu gestartet werden, falls ein Knoten ausfällt oder für längere Zeit blockiert ist. Durch die Verwendung von Checkpoints wird der Fortschritt im Falle eines Knotenausfalls oder eines anderen blockierenden Ereignisses lediglich auf den letzten Snapshot zurückgesetzt (solche Funktionen sind möglicherweise durch lokale und Netzwerk-Datenschutztools verfügbar und müssen unter Umständen nicht explizit in die Anwendung integriert werden).

Insgesamt liegt der eigentliche Vorteil der Verwendung von DPU- und GPU-basierten Servern für KI Der Vorteil von Machine Learning und anderen rechenintensiven Anwendungen (z. B. 3D- oder Finite-Elemente-Modelle, Simulationen usw.) liegt darin, dass sie die Trennung von Infrastrukturkomponenten und Anwendungsaktivitäten ermöglichen. Dadurch werden 20 bis 30 % der CPU-Zyklen eingespart, die derzeit für den Zugriff auf und die Verwaltung der Infrastruktur benötigt werden. Dies setzt Ressourcen frei und beschleunigt den Zugriff, indem E/A-Funktionen in die Hardware verlagert werden.