2023-06-20

Evaluación del rendimiento de aplicaciones de predicción meteorológica y climática en el procesador Ice Lake de Intel

1. Los procesadores escalables Xeon de tercera generación de Intel (Ice Lake) ofrecen un aumento considerable del rendimiento

Intel lanzó este año su nueva serie de procesadores escalables Intel Xeon de tercera generación (Ice Lake). En comparación con la serie de procesadores escalables Xeon de la generación anterior (Cascade Lake), este chip de tercera generación presenta las siguientes mejoras:

Proceso de fabricación actualizado (de 14 nm a 10 nm) y densidad teórica del transistor aumentada (2,7 veces);

Microarquitectura actualizada e IPC mejorado (en un 20 %);

Cantidad máxima de núcleos aumentada (de 28 a 40), conjuntos de instrucciones de AVX2/AVX512 optimizados y mayor capacidad de memoria caché de nivel 3 de cada núcleo (de 1,375 MB a 1,5 MB);

Rendimiento de la E/S mejorada en gran medida, mayor cantidad de canales de memoria (de 6 a 8) y latencia de acceso a la memoria reducida. El protocolo de PCIe se actualizó de la versión 3.0 a la 4.0. Se mejoró ligeramente el ancho de banda del bus de UPI.

¿Todas estas mejoras del rendimiento del hardware impulsan el rendimiento de la aplicación? ¿Lo hacen en especial para las aplicaciones de predicción meteorológica y climática que requieren una gran cantidad de núcleos de CPU para el procesamiento en paralelo a gran escala? En general, las aplicaciones de predicción meteorológica y climática tienen una relación de BF relativamente alta, lo que significa que el rendimiento de dichas aplicaciones depende en gran medida del ancho de banda de la memoria y de las FLOPS (operaciones de punto flotante por segundo). Para estos tipos de aplicaciones, dichas mejoras de los procesadores escalables Xeon de tercera generación son realmente increíbles y muy esperadas, en especial la mayor capacidad de FLOPS resultante de los conjuntos de instrucciones de AVX optimizados y el ancho de banda de memoria mejorado que se debe a una mayor cantidad de canales de memoria. Entonces, ¿en qué forma los procesadores escalables Xeon de tercera generación mejoran el rendimiento de las aplicaciones de predicción meteorológica y climática en comparación con los procesadores de la generación anterior de Intel? Realizamos una evaluación y un análisis con varios modelos de predicción meteorológica y climática muy utilizados, incluidos el modelo de WRF (Investigación y Predicción Meteorológica, Weather Research and Forecasting), MPAS-A (Modelo para la Predicción a través de Escalas, Model for Prediction Across Scales-Atmosphere) y CESM (Modelo del Sistema Comunitario de la Tierra, Community Earth System Model).

En la siguiente prueba comparativa, diseñamos un entorno de prueba en el laboratorio de HPC de Kaytus para distintas aplicaciones, con los nodos de procesamiento que utilizan los procesadores 6230, 6248 y 6258R en la serie de procesadores escalables Xeon de segunda generación (Cascade Lake) y el procesador 8358 en la serie de procesadores escalables Xeon de tercera generación (Ice Lake).

2. Comparación del rendimiento de WRF

Acerca de WRF

El modelo de WRF es un sistema de predicción meteorológica numérico y mesoescala de próxima generación diseñado para la investigación atmosférica y las aplicaciones de predicción operativas. Lo desarrollaron en conjunto el Centro Nacional de Investigación Atmosférica (National Center for Atmospheric Research, NCAR), la Oficina Nacional de Administración Oceánica y Atmosférica, representada por los Centros Nacionales de Predicción Atmosférica (National Centers for Environmental Prediction, NCEP) y el Laboratorio de Investigación del Sistema Terrestre, la Fuerza Aérea de los Estados Unidos, el Laboratorio de Investigación Naval, la Universidad de Oklahoma y la Administración Federal de Aviación (Federal Aviation Administration, FAA).

Caso de prueba de WRF

En la tabla 1, se muestran las resoluciones temporales, espaciales y del área de dominio de la simulación del caso de prueba de la WRF. Es una ejecución de dos dominios. Los tamaños del dominio grueso y del dominio de nido son de 425 × 300 y 1150 × 802 con una resolución espacial de 12 km y 4 km, y un paso temporal de 30 s y 10 s, respectivamente. La cantidad de capas verticales fue de 35. El tiempo de pronóstico fue de 3 horas, y se obtuvieron datos cada 3 horas.

14430Image16958087980222c9628b78ab73cd553018ad614bd463576.png

Resultados de la prueba de rendimiento de WRF

Probamos el rendimiento de WRF en los procesadores 6230 Cascade Lake y 8358 Ice Lake de Intel mediante 224 núcleos. El modelo de WRF se ejecutó durante 695 segundos en la plataforma del procesador 6230 y durante 489 segundos en la del procesador 8358, con un aumento del 42 % en el rendimiento de la segunda plataforma (consulte la figura 1). Esto se debe en gran parte a que WRF es una aplicación relacionada con el procesamiento y la memoria, y la arquitectura de memoria de 8 canales del procesador Ice Lake mejoró el ancho de banda de la memoria. Además, la mayor capacidad de FLOPS y el acceso de latencia baja a la memoria contribuyeron en gran medida a la mejora del rendimiento de WRF en ejecución en la plataforma del procesador 8358.

14430Image16958088073282c9628b78ab73cd512018ad614e1a03579.jpg

Figura 1. Comparación del rendimiento de WRF en las plataformas de los procesadores 6230 y 8358

3. Comparación del rendimiento del MPAS-A

Sobre el MPAS-A

El MPAS-A (Modelo para la Predicción a través de Escalas), que se desarrolló bajo el liderazgo de NCAR, es un modelo de predicción a través de escalas que resuelve las ecuaciones no hidrostáticas completamente compresibles del movimiento. El modelo utiliza un diagrama de Voronoi centroidal sin estructura (consulte la figura 2) y el escalonamiento en red C de las variables de estado como la base de la discretización horizontal. Los diagramas de resolución de variables sin estructura se pueden generar con transiciones de diagramas que varíen de forma fluida, de modo que los dominios de simulación de claves puedan tener alta resolución y se puedan evitar los cambios abruptos en las cantidades físicas cerca de los umbrales.

Caso de prueba del MPAS-A

El caso de prueba del MPAS-A es una simulación meteorológica global de 60 km con un paso temporal de 360 segundos. Su tiempo de pronóstico es de 2 horas, y tiene 55 capas verticales.

Figura 2. Un diagrama de Voronoi del MPAS de resolución de variables del sitio oficial del MPAS-A

Resultados de la prueba de rendimiento del MPAS-A

Probamos el rendimiento del MPAS-A en los procesadores 6230 Cascade Lake y 8358 Ice Lake de Intel mediante 320 núcleos. El MPAS-A se ejecutó durante 26,5 segundos en la plataforma del procesador 6230 y durante 15,5 segundos en la del procesador 8358, con un aumento del 71 % en el rendimiento de la segunda plataforma (consulte la figura 3). Similar a la WRF, el MPAS-A es una aplicación relacionada con la memoria. Por lo tanto, la mayor cantidad de canales de memoria en el procesador 8358 también ayudó a impulsar el rendimiento del MPAS-A.

En la figura 4, se muestra la comparación de las FLOPS y el ancho de banda de memoria en tiempo real en un único nodo de procesamiento para el caso de prueba del MPAS-A que se ejecuta en las plataformas de los procesadores 6230 y 8358. Como se puede observar en la figura, el MPAS-A en ejecución en la plataforma del procesador 8358 obtuvo un rendimiento superior que en la plataforma del procesador 6230, como resultado de las FLOPS y el ancho de banda de memoria que mejoraron en gran medida. Además, la relación de BF del MPAS-A fue de aproximadamente 2,55 en la plataforma del procesador 6230 y de aproximadamente 2,40 en la plataforma del procesador 8358. El motivo de la relación de BF ligeramente inferior en la plataforma del procesador 8358 es la relación de fallo de LLC reducida que resulta de la memoria caché de nivel 3 adicional de cada núcleo.

Figura 3. Comparación del rendimiento del MPAS-A en las plataformas de los procesadores 6230 y 8358

Figura 4. Comparación de las FLOPS y el ancho de banda de memoria en tiempo real en un único nodo de procesamiento para el caso de prueba del MPAS-A que se ejecuta en las plataformas de los procesadores 6230 y 8358

4. Comparación del rendimiento del CESM

Acerca de CESM

El Modelo del Sistema Comunitario de la Tierra (Community Earth System Model, CESM) es un modelo meteorológico acoplado para la simulación del sistema meteorológico de la Tierra. El CESM está compuesto de modelos independientes que simulan de forma simultánea la atmósfera, el océano, la tierra y el hielo en la superficie del mar de la Tierra, además de un componente acoplador central. Les permite a los investigadores realizar una investigación fundamental de los estados climáticos pasados, presentes y futuros de la Tierra. Al CESM lo respalda principalmente la Fundación Nacional de Ciencias (National Science Foundation, NSF) y lo mantiene el Laboratorio de dinámicas climáticas y globales (Climate and Global Dynamics Laboratory, CGD) de NCAR.

Caso de prueba de CESM

En la prueba, el CESM es un modelo completamente acoplado con la red f19_g16. El tiempo de pronóstico es de un año.

14430Image16958088311342c9628b78ab73cd5922018ad6153e9e357f.png

Resultados de la prueba de rendimiento del CESM

La prueba se realiza en el procesador 8358 Ice Lake y los tres procesadores Cascade Lake, incluidos 6248, 6230 y 6258R, mediante un nodo. El CESM obtuvo un rendimiento significativamente superior en la plataforma del procesador 8358 Ice Lake en comparación con los procesadores Cascade Lake. El rendimiento aumentó un 94 % en el procesador 6230, un 83 % en el procesador 6248 y un 65 % en el procesador 6258R. El CESM tiene una relación de BF cercana a 1 y se relaciona con la E/S y la comunicación. Por lo tanto, puede que el aumento del rendimiento no alcance un valor lineal ideal y se reduzca un poco, pero aun así alcance un 83 % (en comparación con el procesador 6248) y un 94 % (en comparación con el procesador 6230).

14430Image16958088426602c9628b78ab73cd5760018ad6156ba43583.jpg

Figura 5. Comparación del rendimiento del CESM en distintas plataformas de procesadores

5. Conclusión

Debido a las increíbles mejoras de los nuevos procesadores escalables Xeon de tercera generación de Intel (Ice Lake), que incluyen una cantidad aumentada de canales de memoria y conjuntos de instrucciones de AVX2/AVX512 optimizados, y considerando la relación de BF alta de las aplicaciones de predicción meteorológica y climática, probamos y analizamos varias aplicaciones muy utilizadas, incluidos la WRF, el MPAS-A y el CESM en los clústeres de HPC desarrollados con el procesador escalable Xeon de tercera generación, y realizamos una comparación con los procesadores Xeon de segunda generación. Con la misma cantidad de núcleos, el rendimiento de la WRF mejoró en un 42 % y el de MPAS-A en un 71 % en la plataforma del procesador 8358 Ice Lake, en comparación con la plataforma del procesador 6230 Cascade Lake. Esto se debe, en gran medida, a que la WRF es una aplicación relacionada con el procesamiento y la memoria, y el MPAS-A también es una aplicación relacionada con la memoria. La arquitectura de memoria de 8 canales del procesador Ice Lake mejoró el ancho de banda de memoria. Además, la mayor capacidad de FLOPS y el acceso de latencia baja a la memoria mejoraron en gran medida el rendimiento del WRF y el MPAS-A en ejecución en la plataforma del procesador 8358. En el caso del CESM que no está vinculado al ancho de banda de memoria, el aumento significativo de FLOPS y el ancho de banda de memoria del procesador Ice Lake generó que el rendimiento del CESM aumentara en un 82,7 % en el procesador 6248 y un 94,1 % en el procesador 6230.

Anterior： La familia de servidores KAYTUS V2 ofrece soluciones optimizadas para cada escenario que combinan la máxima innovación con la sostenibilidad

Siguiente： KR6880V2, diseñado para aplicaciones de misión crítica

Volver a la lista

Categorías