Zum Hauptinhalt springen

Supermicro und NVIDIA liefern optimierte Systeme für KI, ML und mehr.

Produktivitätssteigerung durch erweiterten Datenzugriff und -transfer

Moderne Unternehmen erzielen erhebliche Wettbewerbsvorteile durch den Einsatz fortschrittlicher Anwendungen und Datenverarbeitung in ihren Unternehmen und Betrieben. Dazu gehören KI große Sprachmodelle wie ChatGPT, LLaMa usw., Analysen des maschinellen Lernens auf der Grundlage riesiger Mengen von Trainings- und Echtdaten, komplexe 3D- und Finite-Elemente-Modelle und -Simulationen sowie andere daten- und rechenintensive Anwendungen.

All diese Workloads haben zumindest eines gemeinsam: Sie profitieren erheblich von einem beschleunigten Zugriff auf Speicherressourcen, unabhängig davon, welches mehrstufige Modell Sie verwenden. Das ist ein wichtiger Grund, warum so viele Unternehmen und Dienstleister auf GPU-basierte Server umgestiegen sind, um große, komplexe Datensätze und die damit verbundenen Workloads zu bewältigen. Sie sind weitaus besser in der Lage, diese Workloads zu bewältigen, und können solche Aufgaben schneller erledigen als herkömmliche Server mit typischeren Speicherkonfigurationen (z. B. lokaler RAM und NVMe , mit zusätzlichen Speicherebenen im LAN oder in der Cloud).

Das Geheimnis zur Steigerung des Durchsatzes ist eine geringere Latenzzeit und eine bessere Speicherbandbreite. Dies schlägt sich direkt in einer verbesserten Produktivität und Leistungsfähigkeit nieder, vor allem durch clevere IO- und Netzwerktechniken, die auf direktem und ferngesteuertem Speicherzugriff beruhen, wie im Folgenden erläutert wird. Schnelleres Modelltraining und schnellere Auftragsabwicklung bedeuten, dass KI Anwendungen schneller bereitgestellt werden können und die Arbeit schneller erledigt wird, was die Wertschöpfungszeit verkürzt.

Direkter Speicherzugriff und entfernte Äquivalente

Direkter Speicherzugriff (auch DMA genannt) wird seit den Anfängen der Computertechnik zur Beschleunigung der IO eingesetzt. Bei DMA handelt es sich im Wesentlichen um Speicher-zu-Speicher-Übertragungen über einen Bus (oder eine andere Schnittstelle) von einem Gerät zum anderen. Dabei wird ein Bereich von Speicheradressen direkt aus dem Speicher des Senders in den Speicher des Empfängers (oder zwischen zwei Parteien bei bidirektionalen Übertragungen) kopiert. Diese Funktion nimmt die CPU aus dem Prozess heraus und beschleunigt die Übertragung, indem sie die Anzahl der Kopiervorgänge reduziert (so dass die CPU die Daten des Absenders nicht in ihren Speicher kopieren und dann aus ihrem Speicher in den Speicher des Empfängers kopieren muss).

Tatsächlich wird die DMA-Leistung in einem einzelnen System lediglich durch die Geschwindigkeit des Busses (oder einer anderen Schnittstelle) begrenzt, der die an einer Datenübertragung beteiligten Sende- und Empfangsgeräte miteinander verbindet. Bei PCIe .0 beträgt diese 16 Gigatransfers pro Sekunde (GT/s), bei PCIe .0 ist sie doppelt so hoch (32 GT/s). Die Datenraten sind aufgrund von Codierungs- und Paketierungsaufwand natürlich langsamer, aber die Nennbandbreite für diese beiden PCIe beträgt 64 Gbit/s (4.0) bzw. 128 Gbit/s (5.0). Das ist schnell!

Remote DMA (auch bekannt als RDMA) erweitert die Fähigkeit von DMA innerhalb eines einzelnen Computers auf die Arbeit zwischen zwei Geräten über eine Netzverbindung. RDMA basiert in der Regel auf einer einzigartigen Anwendungsprogrammierschnittstelle (API), die mit spezieller Netzwerkhardware und -software zusammenarbeitet, um so viele der Vorteile von lokalem DMA zu bieten, wie die zugrunde liegende Netzwerktechnologie erlaubt.

NVIDIA-Grafikprozessoren unterstützen drei solcher Netzwerktechnologien, geordnet nach abnehmender Geschwindigkeit und Kosten (die schnellste und teuerste zuerst):

  • NVIDIA NVLink nutzt proprietäre Schnittstellen und Switch-Technologien mit höchster Geschwindigkeit, um die Datenübertragung zwischen GPUs in einem Hochgeschwindigkeitsnetzwerk zu beschleunigen. Derzeit erzielt es bei den Standard-Benchmarks von MLPerf Training v3.0 die höchste Leistung aller Technologien. Eine einzelne NVIDIA H100 Tensor Core-GPU unterstützt bis zu 18 NVLink-Verbindungen mit einer Gesamtbandbreite von bis zu 900 Gbit/s (das Siebenfache der effektiven Geschwindigkeit von PCIe .0).
  • InfiniBand ein von der InfiniBand Association (IBTA) betreuter Hochgeschwindigkeits-Netzwerkstandard, der in Hochleistungsnetzwerken weit verbreitet ist. Die höchsten gemessenen Datenraten liegen im Jahr 2020 bei etwa 1,2 Tbit/s (ca. 154 Gbit/s).
  • Ethernet ist eine Standard-Netzwerktechnologie mit vielen Varianten, darunter das selten verwendete TbE (~125 GBps) und das häufigere 400 GbE (50 GBps). Es hat den Vorteil, dass es erschwinglicher ist, weit verbreitet und in vielen Rechenzentren eine vertraute Technologie ist.

Einsatz von NVIDIA GPUs in Supermicro Servern

Die NVIDIA RDMA-Technologien können den GPU-basierten Datenzugriff über alle drei vorgenannten Netzwerktechnologien unterstützen. Jede dieser Technologien bietet ein anderes Preis-Leistungs-Verhältnis, bei dem höhere Kosten mit höherer Geschwindigkeit und geringerer Latenz einhergehen. Unternehmen können den Verbindungstyp wählen, der am besten zu ihrem Budget und ihren Anforderungen passt, wobei sie wissen, dass jede Option eine bestimmte Kombination aus Preis und Leistung darstellt, auf die sie sich verlassen können. Da verschiedene KI oder ML-basierte (und andere daten- und rechenintensive Anwendungen) auf einem solchen Server ausgeführt werden, können sie die abgestufte Architektur des GPU-Speichers nutzen, bei der die folgenden Ebenen verfügbar sind (in absteigender Reihenfolge der Leistung, aufsteigend nach Größe und Kapazität):

  • 1. Ebene: Der GPU-Speicher ist der schnellste, teuerste und kleinste Datenspeicher (z. B. hat die Tensor H100 GPU 188 GB HBM3 RAM)
  • 2. Ebene: Lokale SSDs am PCIe sind die nächstschnellsten, nach wie vor teuer und bieten das 10- bis 100-Fache der Kapazität einer High-End-GPU
  • 3. Ebene: Remote-Storage-Server im LAN können mehr als das 1.000-fache der Kapazität der GPUs unterstützen, die auf sie zugreifen

Da KI ML-Anwendungen sowohl eine geringe Latenz als auch eine hohe Bandbreite erfordern, trägt RDMA dazu bei, die lokalen Vorteile von DMA auf Netzwerkressourcen auszuweiten (vorbehaltlich der zugrunde liegenden Verbindungen). Diese Funktion ermöglicht einen schnellen Zugriff auf externe Daten über Speicher-zu-Speicher-Übertragungen zwischen Geräten (GPU auf der einen Seite, Speichergerät auf der anderen). In Verbindung mit NVLink, InfiniBand oder einer Hochgeschwindigkeits-Ethernet-Variante überträgt der Remote-Adapter Daten aus dem Speicher eines Remote-Systems in den Speicher einer lokalen GPU. NVIDIA Magnum IO bietet eine IO-Beschleunigungsplattform für Rechenzentren, um parallele, intelligente Rechenzentrums-IO zu unterstützen und so die Speicher-, Netzwerk- sowie Multi-Node- und Multi-GPU-Kommunikation für anspruchsvolle Anwendungen zu maximieren, die diese benötigen.

In seinen GPU-Serversystemen Supermicro NVIDIA-GPUs und die dazugehörigen Zugriffsmethoden Supermicro . Dazu gehören lokales DMA, RDMA über die entsprechende API sowie Hochleistungsnetzwerke über mehrere Netzwerkkarten und Switches, die alle drei Verbindungstypen unterstützen. Darüber hinaus verfügen Supermicro über einen oder zwei spezielle ASICs, sogenannte Data Processing Units (DPUs), um die beschleunigte E/A-Leistung der GPUs zu unterstützen. Diese entlasten die Server-CPUs von zusätzlichem E/A-Overhead. Ebenso können solche Server bis zu acht Netzwerkadapter pro Server unterstützen, um einen dauerhaften und erweiterten Zugriff auf die Netzwerkbandbreite zu ermöglichen und so die Datenübertragung zwischen PCIe .0-Geräten und RDMA-Geräten zu maximieren. Dies stellt sicher, dass selbst auf dem PCIe keine Engpässe entstehen, und trägt dazu bei, den Durchsatz zu maximieren und die Latenz zu minimieren.

Die Auswirkungen auf die Leistung sind äußerst positiv. Die Leistungssteigerungen durch die beschleunigte IO von NVIDIA reichen von 20 % bis 30 % bis zum Zweifachen bei intensiven Workloads. Es ist außerdem wichtig, Anwendungen so zu konzipieren, dass der Speicher optimal genutzt wird, um Ineffizienzen zu vermeiden. Daher sollten solche Anwendungen so konfiguriert werden, dass sie regelmäßig Checkpoints durchführen. Andernfalls müssen sie wieder von vorne beginnen, wenn ein Knoten aus dem Netz fällt oder für einige Zeit blockiert ist. Die Verwendung von Checkpoints bedeutet, dass der Fortschritt nur zum letzten Snapshot zurückkehrt, wenn ein Knoten ausfällt oder ein anderes blockierendes Ereignis eintritt (solche Funktionen können von lokalen und Netzwerk-Datenschutz-Tools zur Verfügung gestellt werden und müssen nicht speziell in die Anwendung integriert werden).

Insgesamt liegt der wirkliche Vorteil der Verwendung von DPU- und GPU-basierten Servern für KI, ML und andere anspruchsvolle Arbeitslasten (z. B. 3D- oder Finite-Elemente-Modelle, Simulationen usw.) darin, dass sie die Trennung von Infrastrukturkomponenten und Anwendungsaktivitäten ermöglichen. Dadurch werden 20 bis 30 % der CPU-Zyklen eingespart, die derzeit für den Zugriff auf die Infrastruktur und deren Verwaltung aufgewendet werden. Dadurch werden Ressourcen freigesetzt und der Zugriff beschleunigt, indem IO-Funktionen in die Hardware verlagert werden.