Startseite Über uns Blog Leistungsbewertung von Anw……
2023-06-20

Leistungsbewertung von Anwendungen zur Wetter- und Klimavorhersage auf Intels Ice Lake-Prozessor

1. Die Intel Xeon Scalable-Prozessoren der dritten Generation (Ice Lake) bieten eine deutliche Leistungssteigerung

Intel hat in diesem Jahr seine neue dritte Generation der Prozessorserie Intel Xeon Scalable (Ice Lake) eingeführt. Im Vergleich zur Vorgängergeneration der Prozessorserie Xeon Scalable (Cascade Lake) bietet dieser Chip der dritten Generation die folgenden Verbesserungen:

Verbesserter Herstellungsprozess (14 nm auf 10 nm) und erhöhte theoretische Transistordichte (um das 2,7-Fache);

Verbesserte Mikroarchitektur und verbesserte IPC (um 20 %);

Erhöhung der maximalen Anzahl der Kerne (von 28 auf 40), optimierte AVX2/AVX512-Befehlssätze und Erhöhung der L3-Cache-Kapazität jedes Kerns (von 1,375 MB auf 1,5 MB)

Deutlich verbesserte E/A-Leistung, erhöhte Anzahl von Speicherkanälen (6 bis 8) und verkürzte Speicherzugriffslatenz. Das PCIe-Protokoll wurde von PCIe 3.0 auf PCIe 4.0 aktualisiert. Die UPI-Busbandbreite wurde leicht verbessert.

Verbessern all diese Hardware-Leistungssteigerungen auch die Anwendungsleistung? Insbesondere für Anwendungen von Wetter- und Klimaprognosen, die eine große Anzahl von CPU-Kernen für groß angelegte parallele Berechnungen erfordern? Im Allgemeinen haben Anwendungen von Wetter- und Klimaprognosen ein relativ hohes BF-Verhältnis, was bedeutet, dass die Leistung solcher Anwendungen in hohem Maße von der Speicherbandbreite und den Gleitkommaoperationen pro Sekunde (FLOPS) abhängt. Für diese Art von Anwendungen sind die oben genannten Verbesserungen der Xeon Scalable-Prozessoren der dritten Generation wirklich beeindruckend und wurden schon lange erwartet, insbesondere die höheren FLOPS, die sich aus den optimierten AVX-Befehlssätzen ergeben, und die verbesserte Speicherbandbreite aufgrund der größeren Anzahl von Speicherkanälen. Wie können die Xeon Scalable-Prozessoren der dritten Generation die Leistung von Anwendungen für Wetter- und Klimaprognosen im Vergleich zu den Prozessoren der vorherigen Generation von Intel verbessern? Wir haben eine Bewertung und Analyse mit Hilfe verschiedener weit verbreiteter Wetter- und Klimaprognosenmodelle durchgeführt, darunter das Modell WRF (Weather Research and Forecasting), MPAS-A (Model for Prediction Across Scales-Atmosphere) und CESM (Community Earth System Model).

Im folgenden Vergleichstest haben wir im HPC-Labor von Kaytus eine Testumgebung für verschiedene Anwendungen aufgebaut, wobei die Rechenknoten die Prozessoren 6230, 6248 und 6258R der zweiten Generation der Xeon Scalable-Prozessorserie (Cascade Lake) und den Prozessor 8358 der dritten Generation der Xeon Scalable-Prozessorserie (Ice Lake) verwendeten.

2. Vergleich der WRF-Leistung

Über WRF

Das WRF-Modell ist ein mesoskaliges numerisches Wetterprognosesystem der nächsten Generation, das sowohl für die atmosphärische Forschung als auch für operationelle Prognoseanwendungen konzipiert ist. Es wurde gemeinsam vom National Center for Atmospheric Research (NCAR), der National Oceanic and Atmospheric Administration (vertreten durch die National Centers for Environmental Prediction (NCEP) und das Earth System Research Laboratory), der US-Luftwaffe, dem Naval Research Laboratory, der University of Oklahoma und der Federal Aviation Administration (FAA) entwickelt.

WRF-Testfall

In Tabelle 1 sind der Simulationsbereich, die zeitliche und räumliche Auflösung des WRF-Testfalls aufgeführt. Es handelt sich um einen Zwei-Domänen-Lauf. Die grobe Domäne und die engere Domäne haben eine Größe von 425×300 und 1150×802 mit einer räumlichen Auflösung von 12 km und 4 km und einem Zeitschritt von 30 s bzw. 10 s. Die Anzahl der vertikalen Schichten betrug 35. Die Prognosezeit betrug 3 Stunden, und die Daten wurden alle 3 Stunden übermittelt.


14430Image16958087980222c9628b78ab73cd553018ad614bd463576.png


WRF-Leistungstestergebnisse

Wir haben die Leistung von WRF auf dem Intel 6230 Cascade Lake-Prozessor und dem 8358 Ice Lake-Prozessor mit 224 Kernen getestet. Das WRF-Modell lief 695 Sekunden auf der 6230-Prozessorplattform und 489 Sekunden auf der 8358-Prozessorplattform, wobei die Leistung auf der letzteren Plattform um 42 % gesteigert wurde (siehe Abbildung 1). Dies ist hauptsächlich darauf zurückzuführen, dass es sich bei WRF um eine rechen- und speicherabhängige Anwendung handelt und die 8-Kanal-Speicherarchitektur des Ice-Lake-Prozessors die Speicherbandbreite verbessert hat. Darüber hinaus trugen die höhere FLOPS-Leistung und der Zugriff auf den Speicher mit geringer Latenz erheblich zur Leistungssteigerung von WRF auf der 8358-Prozessorplattform bei.


14430Image16958088073282c9628b78ab73cd512018ad614e1a03579.jpg


Abbildung 1. Vergleich der WRF-Leistung auf den Prozessorplattformen 6230 und 8358

3. Vergleich der MPAS-A-Leistung

Über MPAS-A

MPAS-A (Model for Prediction Across Scales-Atmosphere) wurde unter der Leitung des NCAR entwickelt und ist ein skalenübergreifendes Prognosemodell, das die vollständig kompressiblen, nicht hydrostatischen Bewegungsgleichungen löst. Das Modell verwendet ein unstrukturiertes zentroidales Voronoi-Netz (siehe Abbildung 2) und eine C-Gitter-Staffelung der Zustandsvariablen als Grundlage für die horizontale Diskreditierung. Die unstrukturierten Gitter mit variabler Auflösung können mit sanft variierenden Gitterübergängen generiert werden, sodass die wichtigsten Simulationsbereiche eine hohe Auflösung aufweisen und abrupte Änderungen der physikalischen Größen in der Nähe der Grenzen vermieden werden können.

MPAS-A-Testfall

Der MPAS-A-Testfall ist eine globale Wettersimulation über 60 km mit einem Zeitschritt von 360 Sekunden. Die Prognosezeit beträgt 2 Stunden, und es gibt 55 vertikale Schichten. 

Abbildung 2. Ein MPAS-Voronoi-Netz mit variabler Auflösung von der offiziellen MPAS-A-Website

MPAS-A-Leistungstestergebnisse

Wir haben die Leistung von MPAS-A auf dem Intel 6230 Cascade Lake-Prozessor und dem 8358 Ice Lake-Prozessor mit 320 Kernen getestet. Das MPAS-A-Modell lief 26,5 Sekunden auf der 6230-Prozessorplattform und 15,5 Sekunden auf der 8358-Prozessorplattform, wobei die Leistung auf der letzteren Plattform um 71 % gesteigert wurde (siehe Abbildung 3). Ähnlich wie WRF ist MPAS-A eine speichergebundene Anwendung. Daher konnte durch die erhöhte Anzahl von Speicherkanälen im 8358-Prozessor auch die Leistung von MPAS-A gesteigert werden.

Abbildung 4 zeigt den Vergleich von Echtzeit-FLOPS und Speicherbandbreite auf einem einzelnen Rechenknoten für den MPAS-A-Testfall, der auf den Prozessorplattformen 6230 und 8358 ausgeführt wird. Wie aus der Abbildung ersichtlich ist, lieferte MPAS-A auf der 8358-Prozessorplattform eine deutlich höhere Leistung als auf der 6230-Prozessorplattform, was auf die stark verbesserte FLOPS- und Speicherbandbreite zurückzuführen ist. Außerdem lag das BF-Verhältnis von MPAS-A auf der 6230-Prozessorplattform bei etwa 2,55 und auf der 8358-Prozessorplattform bei etwa 2,40. Der Grund für die etwas niedrigere BF-Ratio auf der 8358-Prozessorplattform ist die geringere LLC-Fehlschlagrate, die auf den zusätzlichen L3-Cache jedes Kerns zurückzuführen ist.

Abbildung 3. Vergleich der Leistung von MPAS-A auf den Prozessorplattformen 6230 und 8358


3.png



Abbildung 4. Vergleich von Echtzeit-FLOPS und Speicherbandbreite auf einem einzelnen Rechenknoten für den MPAS-A-Test, der auf den Prozessorplattformen 6230 und 8358 ausgeführt wird

4. Vergleich der CESM-Leistung

Über CESM

Das Community Earth System Model (CESM) ist ein gekoppeltes Klimamodell zur Simulation des Klimasystems der Erde. Es besteht aus separaten Modellen, die gleichzeitig die Erdatmosphäre, die Ozeane, das Festland, das Festlandeis und das Meereis simulieren, sowie aus einer zentralen Kopplungskomponente. Mit CESM können Forscher grundlegende Forschungen zum Klima der Erde in der Vergangenheit, Gegenwart und Zukunft durchführen. Das CESM wird hauptsächlich von der National Science Foundation (NSF) unterstützt und vom Climate and Global Dynamics Laboratory (CGD) am NCAR betreut.

CESM-Testfall

In diesem Test ist das CESM ein vollständig gekoppeltes Modell mit dem f19_g16-Raster. Die Prognosezeit beträgt ein Jahr.

.


14430Image16958088311342c9628b78ab73cd5922018ad6153e9e357f.png


CESM-Leistungstestergebnisse

Der Test wird auf einem 8358 Ice Lake-Prozessor und drei Cascade Lake-Prozessoren, einschließlich 6248, 6230 und 6258R, mit einem Knoten durchgeführt. CESM lieferte auf der 8358 Ice Lake-Prozessorplattform eine deutlich höhere Leistung als auf den Cascade Lake-Prozessoren. Die Leistung stieg um 94 % gegenüber dem 6230-Prozessor, um 83 % gegenüber dem 6248-Prozessor und um 65 % gegenüber dem 6258R-Prozessor. CESM hat ein BF-Verhältnis, das nahe bei 1 liegt, und ist E/A- und kommunikationsgebunden. Daher konnte die Leistungssteigerung nicht den idealen linearen Wert erreichen und fiel etwas ab, erreichte aber immer noch 83 % (im Vergleich zum 6248-Prozessor) und 94 % (im Vergleich zum 6230-Prozessor).


14430Image16958088426602c9628b78ab73cd5760018ad6156ba43583.jpg


Abbildung 5. Vergleich der CESM-Leistung auf verschiedenen Prozessorplattformen

5. Fazit

Angesichts der erstaunlichen Verbesserungen der neuen Intel Xeon Scalable-Prozessoren der dritten Generation (Ice Lake), einschließlich der erhöhten Anzahl von Speicherkanälen und optimierten AVX2/AVX512-Befehlssätzen, und unter Berücksichtigung des hohen BF-Verhältnisses in Wetter- und Klimaprognoseanwendungen haben wir mehrere weit verbreitete Anwendungen, darunter WRF, MPAS-A und CESM, auf den HPC-Clustern getestet und analysiert, die mit dem skalierbaren Xeon-Prozessor der dritten Generation ausgestattet sind, und einen Vergleich mit den Xeon-Prozessoren der zweiten Generation durchgeführt. Bei gleicher Anzahl an Kernen wurde die Leistung von WRF auf der Ice Lake 8358-Prozessorplattform im Vergleich zur Cascade Lake 6230-Prozessorplattform um 42 % und die von MPAS-A um 71 % verbessert. Dies ist vor allem darauf zurückzuführen, dass es sich bei WRF um eine rechen- und speicherintensive Anwendung handelt und MPAS-A ebenfalls speicherintensiv ist. Die 8-Kanal-Speicherarchitektur des Ice-Lake-Prozessors verbesserte die Speicherbandbreite. Darüber hinaus wurde die Leistung von WRF und MPAS-A auf der 8358-Prozessorplattform durch die höhere FLOPS-Leistung und den Zugriff auf den Speicher mit geringer Latenz erheblich verbessert. Da CESM nicht durch die Speicherbandbreite begrenzt ist, konnte die Leistung von CESM durch die deutlich höhere Speicherbandbreite und die höhere FLOPS-Leistung des Ice-Lake-Prozessors im Vergleich zum 6248-Prozessor um 82,7 % und im Vergleich zum 6230-Prozessor um 94,1 % gesteigert werden.



TOP

Kontakt

KAYTUS verwendet Cookies, um die Nutzung der Website zu ermöglichen und zu optimieren, Inhalte zu personalisieren und die Nutzung der Website zu analysieren. Weitere Informationen finden Sie in unserer Datenschutzrichtlinie.