WieAMD hohen Durchsatz und geringe Latenz für KI bieten
In modernen Unternehmen findet derzeit eine umfassende Umgestaltung statt. Im Mittelpunkt steht das, was man die "KI " nennen könnte. Unternehmen erhalten Wettbewerbsvorteile und wichtige Erkenntnisse, wenn sie fortschrittliche, KI oder ML-basierte Anwendungen einsetzen. Zu den führenden Beispielen für solche Workloads gehören KI große Sprachmodelle (LLMs) wie ChatGPT, LLaMa und andere sowie ML-Modelle, die auf riesigen Trainingsdatensätzen, komplexen 3D-Modellen, Animationen und virtueller Realität, Simulationen und anderen daten- und rechenintensiven Anwendungen basieren.
Hinter der auffälligen Rack-Hardware, die die GPU-gesteuerten Gehirne jedes KI beherbergt, müssen Sie auch Speichersysteme mit hohem Durchsatz und niedriger Latenz finden, um den Cluster produktiv zu halten. Diese unterstützen die Kanäle, über die riesige Datenmengen zum Trainieren von Modellen und zur Durchführung komplexer Simulationen und Analysen eingespeist werden, die zur Unterstützung von KI, ML und ähnlichen Workloads erforderlich sind. Eine der größten Herausforderungen für Unternehmen, die vom Wachstum der KI profitieren wollen, besteht darin, eine Speicherlösung zu finden, die ihre Hochleistungs-CPUs, GPUs oder Datenbankcluster nicht in die Enge treibt.
Der Heilige Gral: Hoher Durchsatz, niedrige Latenzzeit
Alle springen auf den KI auf und suchen nach entsprechender Unterstützung für ihre Workloads. Um diesen gar nicht so verrückten Traum wahr werden zu lassen, ist eine Serverarchitektur, die für anspruchsvolle Workloads optimiert ist, absolut unerlässlich. AMD seine EPYC – derzeit in der vierten Generation der 9004-Produktfamilie – entwickelt, um mit einer einzigen CPU die beste Leistung aus Server-Hardware und -Software herauszuholen. Tatsächlich bietet dieEPYC™ der 4. Generation folgende Vorteile:
- Führend bei Sockel- und Pro-Core-Leistung mit bis zu 96 Zen 4 Cores in 5-nm-Core Compute Dies (CCDs)
- Führend bei Speicherbandbreite und -kapazität, mit 12 Kanälen für bis zu 6 TB DDR5 pro Sockel
- Führend im Bereich IO mit bis zu 128 PCIe .0-Kanälen für CXL , SSDs, Netzwerkkarten, GPUs und mehr
DieEPYC AMD EPYC Server wurden von Grund auf für maximale Leistung, Effizienz und Nachhaltigkeit konzipiert und sind in der Lage, den notwendigen Spagat zu meistern, um das Beste aus CPUs, Arbeitsspeicher, GPUs, Speicher und Netzwerkschnittstellen herauszuholen. Tatsächlich priorisiert dieEPYC Threads so, dass der L3-Cache für intensive Workloads exklusiv reserviert werden kann, sodass PCIe nicht den üblichen Verzögerungen durch E/A-Planung und Ressourcenkonflikte unterliegen.
Dateisystemunterstützung und Vermeidung von Engpässen
Im verteilten und parallelen Modus kommen die Daten bei verteilten Dateisystemen aus mehreren Quellen, wo sie in großem Umfang über verschiedene Protokolle hinweg und für verschiedene Anwendungen verarbeitet werden müssen. In einem typischen Speichersystem werden Metadaten schnell zum Engpass. Tatsächlich kann man nur so viele Daten durch das System leiten, wie die Metadaten unterstützen. Wenn die Datenmenge zunimmt, muss die Fähigkeit zur Verarbeitung von Metadaten proportional mitwachsen.AMD unterstützen den verteilten Speicher WEKA: Die Architektur ist darauf ausgelegt, eine solche proportionale Skalierung zu ermöglichen. Das erklärt, warum die I/O-Leistung trotz der Erweiterung eines Supermicro oder -Clusters um zusätzliche Speicherkapazität und Dienste unvermindert hoch bleibt. Die Leistung skaliert linear von acht (Mindestanzahl an Knoten für einen WEKA-Cluster) bis zu Hunderten von Knoten. Dies wird durch die Beseitigung von Engpässen und die Unterstützung selbst der schwersten und anspruchsvollsten KI(und ähnlichen) Workloads erreicht.
Zur Optimierung von Servern und Clustern gehört jedoch mehr als die Bereitstellung eines skalierbaren, leistungsstarken Speichers mit niedriger Latenz. Bei der Entwicklung eines Gesamtsystems darf der Schwerpunkt nicht ausschließlich auf einem einzigen Merkmal oder einer einzigen Funktion liegen. Die gesamte Architektur muss zusammenarbeiten, um die angestrebten Arbeitslasten zu unterstützen. Ein System für KI zu entwerfen bedeutet also, eine Laufzeitumgebung zu schaffen, die von Grund auf so aufgebaut ist, dass datenintensive Anwendungen schnell und zufriedenstellend verarbeitet werden können. Dies profitiert von einer umfassenden Serverleistung für Inferenzen und Analysen sowie von allgemeinen IO-Funktionen. Was der Server mit den Daten macht, während er eine KI (oder ähnliche) Arbeitslast verarbeitet, ist ebenso wichtig wie der Datenverkehr, der in einen bestimmten Knoten ein- und ausgeht. Die Unterstützung hochgradig paralleler Aktivitäten ist von entscheidender Bedeutung, so dass eine hohe Anzahl von Kernen zur Bewältigung aller parallelisierten Teilaufgaben, die mit der Ausführung solcher Programme verbunden sind, von entscheidender Bedeutung ist.
Ein weiteres entscheidendes Merkmal ist die Anzahl der PCIe . PCIe in ServernEPYC AMD EPYC(bis zu 128 bei einem einzelnen Sockel). Dadurch können Server eine größere Anzahl von SSDs, Netzwerkkarten, GPUs und sogar CXL erweiterten Speicher aufnehmen. All diese Komponenten spielen eine wesentliche Rolle bei der Bewältigung anspruchsvoller KI ML-Workloads (oder ähnlicher Workloads), darunter:
- Bis zu 32 PCIe -SSDs für lokalen Hochgeschwindigkeitsspeicher
- Eine große Anzahl von Hochgeschwindigkeitsnetzschnittstellen zur Verbindung von Servern mit anderen Knoten, wie Speicher- oder anderen spezialisierten Servern, um den Datenumfang und die Reichweite zu erweitern
- Eine große Anzahl von GPUs für die Bewältigung spezieller, gezielter Aufgaben oder Workloads
Generell ist es wichtig, über reichlich Speicherkapazität auf den Serverknoten sowie über eine hohe Netzwerkbandbreite zu verfügen, um für jeden dieser Knoten einen angemessenen Datenein- und -ausgang aus Speichersystemen zu gewährleisten, die sich möglicherweise nicht auf dem Host befinden. Dies ist im Wesentlichen der Grund für die meisten der hier gemachten Aussagen zu hohem Durchsatz und geringer Latenz bei Supermicro AMD EPYC .
Mehr Kerne bedeuten mehr "Oomph!"
Ein weiterer entscheidender Faktor für optimierte KI ist, dass eine hohe Kernanzahl pro CPU auf Hardwareebene Unterstützung für sogenannte UP (Uni- oder Single-Prozessoren) bietet. Die Führungsposition AMDbei der Kernanzahl (die AMD EPYC unterstützt beispielsweise 24 bis 96 Kerne) bringt zahlreiche notwendige Funktionen und Vorteile mit sich. Vor allem bieten solche CPUs einen einheitlichen Speicherzugriff für alle ihre Kerne. Diese Funktion trägt zur Determinierbarkeit bei, reduziert Blockierungen und erleichtert die Entwicklung und den Bau von Server-Motherboards für hohe Leistung. DieEPYC ist darauf ausgelegt, die Leistung KI zu steigern, und bietet optimierten Netzwerk-, Speicher- und GPU-Zugriff.
Ein typisches Beispiel: DasH13 -Petascale-SpeichersystemH13 Supermicro
Das Supermicro H13 Storage System veranschaulicht auf hervorragende Weise, wozu die EPYC fähig ist. Es bietet hohe Speicherdichten für softwaredefinierten Speicher, In-Memory-Computing, datenintensives HPC, private und öffentliche Clouds sowie – insbesondere –KI. Zu seinen technischen Daten gehören folgende Details:
- 16 Hot-Swap-fähige EDSFF . NVMe für bis zu 480 TB Speicherplatz in einem 1U-Gehäuse
- Optional 4 Speichererweiterungsmodule im CXL .S 2T-Formfaktor sowie 8 E3. NVMe
- Ein AMD EPYC™ der 4. Generation – mit bis zu 96 Kernen
- 24 DIMMs für bis zu 6 TB DDR5
- 2 PCIe .0 AIOM nach Open Compute Project (OCP) 3.0, SFF-kompatibel ( AIOM
- 2 PCIe .0-Steckplätze in voller Höhe und halber Länge mit zusätzlicher Stromversorgung
- Titanium-Level-Effizienz-Netzteile
DasH13 kann eine unschätzbare Bereicherung für jedes Rechenzentrum sein, in dem KI, ML- oder andere rechen- und datenintensive Workloads einen leistungsstarken Speicherzugriff mit geringer Latenz (und in großem Umfang) erfordern.
Warum die Serverarchitektur AMD Supermicro optimal für KI ist
NVMe die Welt der Server und Cluster grundlegend verändert. NVMe Grundlage NVMe wird eine komplett überarbeitete Architektur möglich. Sie ermöglicht es, Speicherressourcen in großem Maßstab und mit hoher Geschwindigkeit parallel zu Hochleistungs-CPUs, GPUs und Netzwerkkarten zu betreiben, insbesondere im EDSFF . Das Single-Socket-Design ermöglicht es erstklassigen CPUs, Netzwerkkarten und Speicher voll auszureizen und ein Höchstmaß an Parallelität und Clustering-Fähigkeiten für HPC, KI und andere Lösungen der nächsten Generation zu nutzen. Durch die Ausbalancierung von Leistung und Energieverbrauch im Sinne der Nachhaltigkeit verdoppelt sich die Speicherbandbreite vonEPYC zur 4. GenerationEPYC AMD EPYC , was auch KI besser unterstützt. Bei der Single-Chip-Architektur können Sie andere CPU-Ressourcen (z. B. L3-Cache und Speicherbandbreite) vorrangig Threads mit hohem Bedarf zuweisen, um die Leistung zu verbessern und die Latenz zu reduzieren. Sie können Threads bis hinunter auf die Hardwareebene optimieren, um solche Workloads zu unterstützen. Es gibt keinen besseren, schnelleren oder effizienteren Weg, KI ML einzusetzen, als auf solchen Servern.