2023-06-20

Évaluation des performances des applications de prévision météorologique et climatique sur le processeur Ice Lake d'Intel

1. Les processeurs Intel Xeon Scalable de troisième génération (Ice Lake) offrent une augmentation importante des performances.

Intel a lancé sa nouvelle série de processeurs Intel Xeon Scalable de troisième génération (Ice Lake) cette année. En comparaison avec la génération précédente de processeurs Xeon Scalable (Cascade Lake), cette puce de troisième génération présente les améliorations suivantes :

Amélioration du processus de fabrication (de 14 nm à 10 nm) et augmentation de la densité théorique des transistors (multipliée par 2,7) ;

Modernisation de la micro-architecture et amélioration de l'IPC (de 20 %) ;

Augmentation du nombre maximal de cœurs (28 à 40), optimisation des jeux d'instructions AVX2/AVX512 et augmentation de la capacité du cache L3 de chaque cœur (1,375 Mo à 1,5 Mo) ;

Amélioration considérable des performances d'E/S, augmentation du nombre de canaux de mémoire (de 6 à 8) et réduction de la latence d'accès à la mémoire. Le protocole PCIe est passé de PCIe 3.0 à PCIe 4.0. La bande passante du bus UPI a été légèrement améliorée.

Toutes ces améliorations des performances matérielles améliorent-elles les performances de l'application ? En particulier pour les applications de prévisions météorologiques et climatiques qui nécessitent un grand nombre de cœurs d'unité centrale pour le calcul parallèle à grande échelle ? En général, les applications de prévision météorologique et climatique ont un ratio BF relativement élevé, ce qui signifie que les performances de ces applications dépendent fortement de la bande passante de la mémoire et des FLOPS (opérations en virgule flottante par seconde - floating point operations per second). Pour ces types d'applications, les améliorations susmentionnées des processeurs Xeon Scalable de troisième génération sont vraiment étonnantes et très attendues, en particulier les FLOPS plus élevés résultant des jeux d'instructions AVX optimisés et l'amélioration de la bande passante de la mémoire grâce à un plus grand nombre de canaux de mémoire. Comment les processeurs Xeon Scalable de troisième génération améliorent-ils les performances des applications de prévision météorologique et climatique par rapport aux processeurs Intel de la génération précédente ? Nous avons réalisé une évaluation et une analyse à l'aide de plusieurs modèles de prévisions météorologiques et climatiques largement utilisés, notamment le modèle WRF (Weather Research and Forecasting - Recherche et prévisions météorologiques), le modèle MPAS-A (Model for Prediction Across Scales-Atmosphere - Modèle de prévision multi-échelles - Atmosphère) et le modèle CESM (Community Earth System Model - Modèle communautaire du système terrestre).

Dans le test comparatif suivant, nous avons construit un environnement de test dans le laboratoire HPC de Kaytus pour différentes applications, avec les nœuds de calcul utilisant les processeurs 6230, 6248 et 6258R de la série de processeurs Xeon Scalable de deuxième génération (Cascade Lake) et le processeur 8358 de la série de processeurs Xeon Scalable de troisième génération (Ice Lake).

2. Comparaison des performances de WRF

À propos de WRF

Le modèle WRF est un système numérique de prévision météorologique à méso-échelle de nouvelle génération conçu pour la recherche atmosphérique et les applications de prévision opérationnelle. Il est élaboré conjointement par le National Center for Atmospheric Research (NCAR - Centre national de recherche atmosphérique), la National Oceanic and Atmospheric Administration (Administration nationale des océans et de l'atmosphère), représentée par les National Centers for Environmental Prediction (NCEP - Centres nationaux de prévision environnementale) et le Earth System Research Laboratory (Laboratoire de recherche sur le système terrestre), l'U.S. Air Force, le Naval Research Laboratory, l'Université de l'Oklahoma et la Federal Aviation Administration (FAA).

Cas d'essai WRF

Le tableau 1 montre la zone du domaine de simulation, les résolutions temporelles et spatiales du cas d'essai WRF. Il s'agit d'une exécution à deux domaines. Les dimensions du domaine grossier et du domaine imbriqué sont de 425 × 300 et 1 150 × 802 avec une résolution spatiale de 12 km et 4 km, un pas temporel de 30 s et 10 s, respectivement. Le nombre de couches verticales était de 35. La durée de prévision était de 3 heures et les données étaient émises toutes les 3 heures.

14430Image16958087980222c9628b78ab73cd553018ad614bd463576.png

Résultats des tests de performance de WRF

Nous avons évalué les performances de WRF sur les processeurs Intel 6230 Cascade Lake et 8358 Ice Lake en utilisant 224 cœurs. Le modèle WRF a fonctionné pendant 695 secondes sur la plateforme à processeur 6230 et 489 secondes sur la plateforme à processeur 8358, avec une augmentation de 42 % des performances sur cette dernière plateforme (voir figure 1). Cela s'explique en grande partie par le fait que WRF est une application gourmande en calcul et en mémoire, et que l'architecture de mémoire à 8 canaux du processeur Ice Lake a amélioré la bande passante de la mémoire. En outre, les FLOPS plus élevés et l'accès à la mémoire avec une faible latence ont largement contribué à l'amélioration des performances de WRF sur la plateforme du processeur 8358.

14430Image16958088073282c9628b78ab73cd512018ad614e1a03579.jpg

Figure 1. Comparaison des performances de WRF sur les plateformes 6230 et 8358

3. Comparaison des performances de MPAS-A

À propos de MPAS-A

MPAS-A (Model for Prediction Across Scales-Atmosphere - Modèle de prévision multi-échelles - Atmosphère), développé sous la direction du NCAR, est un modèle de prévision à multi-échelles qui résout les équations de mouvement non hydrostatiques entièrement compressibles. Le modèle utilise un maillage de Voronoï centroïde non structuré (voir la figure 2) et un échelonnement des variables d'état sur une grille C comme base de la discrétisation horizontale. Les maillages non structurés à résolution variable peuvent être générés avec des transitions de maillage à variation régulière, de sorte que les domaines de simulation clés puissent avoir une résolution élevée et que les changements brusques des quantités physiques près des limites puissent être évités.

Cas d'essai MPAS-A

Le cas d'essai MPAS-A est une simulation météorologique globale de 60 km avec un pas temporel de 360 secondes. Son temps de prévision est de 2 heures et il comporte 55 couches verticales.

Figure 2. Un maillage de Voronoï MPAS à résolution variable du site officiel de MPAS-A

Résultats des tests de performance de MPAS-A

Nous avons évalué les performances de MPAS-A sur les processeurs Intel 6230 Cascade Lake et 8358 Ice Lake en utilisant 320 cœurs. Le MPAS-A a fonctionné pendant 26,5 secondes sur la plateforme à processeur 6230 et 15,5 secondes sur la plateforme à processeur 8358, avec une augmentation de 71 % des performances sur cette dernière plateforme (voir figure 3). Comme le WRF, le MPAS-A est une application gourmande en mémoire. Par conséquent, l'augmentation du nombre de canaux de mémoire dans le processeur 8358 a également contribué à améliorer les performances de MPAS-A.

La figure 4 montre la comparaison des FLOPS en temps réel et de la bande passante de la mémoire sur un seul nœud de calcul pour le cas d'essai MPAS-A fonctionnant sur les plates-formes de processeurs 6230 et 8358. Comme le montre la figure, le MPAS-A fonctionnant sur la plate-forme de processeurs 8358 a fourni des performances bien plus élevées que sur la plate-forme de processeurs 6230, en raison de l'amélioration considérable des FLOPS et de la largeur de bande de la mémoire. En outre, le ratio BF de MPAS-A était d'environ 2,55 sur la plate-forme de processeurs 6230 et d'environ 2,40 sur la plate-forme de processeurs 8358. La raison pour laquelle le ratio BF est légèrement inférieur sur la plateforme du processeur 8358 est la réduction du taux d'absence de LLC résultant du cache L3 supplémentaire de chaque cœur.

Figure 3. Comparaison des performances de MPAS-A sur les plateformes de processeurs 6230 et 8358

Figure 4. Comparaison des FLOPS en temps réel et de la bande passante de la mémoire sur un seul nœud de calcul pour le cas d'essai MPAS-A sur les plates-formes de processeurs 6230 et 8358.

4. Comparaison des performances de CESM

À propos de CESM

Le modèle communautaire du système terrestre (CESM) est un modèle climatique couplé qui simule le système climatique de la Terre. Composé de modèles distincts simulant simultanément l'atmosphère, l'océan, la terre, la glace de terre et la glace de mer, ainsi que d'un coupleur central, le CESM permet aux chercheurs de mener des recherches fondamentales sur les états climatiques passés, présents et futurs de la Terre. Le CESM est principalement soutenu par la National Science Foundation (NSF) et entretenu par le Climate and Global Dynamics Laboratory (CGD) du NCAR.

Cas d'essai CESM

Dans ce cas, le modèle CESM est un modèle entièrement couplé avec la grille f19_g16. La période de prévision est d'un an.

14430Image16958088311342c9628b78ab73cd5922018ad6153e9e357f.png

Résultats des tests de performance de CESM

L'essai est réalisé sur le processeur 8358 Ice Lake et sur trois processeurs Cascade Lake (6248, 6230 et 6258R) en utilisant un seul nœud de calcul. Le CESM a fourni des performances nettement plus élevées sur la plateforme du processeur 8358 Ice Lake que sur les processeurs Cascade Lake. Les performances ont augmenté de 94 % par rapport au processeur 6230, de 83 % par rapport au processeur 6248 et de 65 % par rapport au processeur 6258R. Le CESM a un ratio BF proche de 1 et est gourmand en E/S et en communications. Par conséquent, l'augmentation des performances ne pouvait pas atteindre une valeur linéaire idéale et diminuait quelque peu, mais pouvait encore atteindre 83 % (par rapport au processeur 6248) et 94 % (par rapport au processeur 6230).

14430Image16958088426602c9628b78ab73cd5760018ad6156ba43583.jpg

Figure 5. Comparaison des performances du CESM sur différentes plateformes de processeurs

5. Conclusion

En raison des améliorations remarquables apportées par les nouveaux processeurs Xeon Scalable de troisième génération d'Intel (Ice Lake), notamment le nombre accru de canaux de mémoire et les jeux d'instructions AVX2/AVX512 optimisés, et compte tenu du rapport BF élevé dans les applications de prévision météorologique et climatique, nous avons testé et analysé plusieurs applications largement utilisées, notamment WRF, MPAS-A et CESM sur les clusters HPC construits avec le processeur Xeon Scalable de troisième génération, et effectué une comparaison avec les processeurs Xeon de deuxième génération. En utilisant le même nombre de cœurs, les performances de WRF ont été améliorées de 42 % et celles de MPAS-A de 71 % sur la plateforme de processeurs Ice Lake 8358 par rapport à la plateforme de processeurs Cascade Lake 6230. Cela s'explique en grande partie par le fait que WRF est une application gourmande en calcul et en mémoire, et que MPAS-A est également une application gourmande en mémoire. L'architecture mémoire à 8 canaux du processeur Ice Lake a amélioré la bande passante de la mémoire. Par ailleurs, les FLOPS plus élevés et l'accès à la mémoire avec une faible latence ont considérablement amélioré les performances de WRF et de MPAS-A s'exécutant sur la plateforme du processeur 8358. Concernant le CESM qui n'est pas limité par la bande passante de la mémoire, l'augmentation significative de la bande passante de la mémoire et des FLOPS du processeur Ice Lake a permis d'augmenter les performances du CESM de 82,7 % par rapport au processeur 6248, et de 94,1 % par rapport au processeur 6230.

Précédent： La famille de serveurs KAYTUS V2 offre des solutions optimisées en fonction des scénarios, alliant dernière innovation et durabilité.

Suivant： KR6880V2, conçu pour les applications essentielles à la mission

Retour à la liste

Catégories