KAYUTS 정보 블로그 인텔 Ice Lake 프로세서의 날씨 및 기후 ……
2023-06-20

인텔 Ice Lake 프로세서의 날씨 및 기후 예측 애플리케이션 성능 평가

1. 성능을 크게 향상시키는 인텔의 3세대 제온 스케일러블 프로세서(Ice Lake)

올해 인텔은 새로운 3세대 인텔 제온 스케일러블 프로세서 시리즈인 Ice Lake를 출시했습니다. 이 3세대 칩은 이전 세대 제온 스케일러블 프로세서 시리즈(Cascade Lake)와 비교하여 다음과 같은 향상된 기능을 제공합니다.

14nm에서 10nm로 제조 공정 업그레이드 및 이론상의 트랜지스터 밀도 2.7배 증가

업그레이드된 마이크로 아키텍처 및 IPC의 20% 개선

28개에서 40개로 최대 코어 개수 증가, AVX2/AVX512 명령어 세트 최적화 및 1.375MB에서 1.5MB로 각 코어의 L3 캐시 용량 증가

IO 성능이 크게 향상되고, 메모리 채널 수가 6개에서 8개로 증가했으며, 메모리 액세스 대기 시간이 단축되었습니다. PCIe 프로토콜은 PCIe 3.0에서 PCIe 4.0으로 업그레이드되었습니다. UPI 버스 대역폭도 다소 개선되었습니다.

이와 같은 하드웨어 성능 향상으로 애플리케이션 성능도 향상될까요? 특히 대규모 병렬 컴퓨팅을 위해 많은 수의 CPU 코어가 필요한 날씨 및 기후 예측 애플리케이션은 어떨까요? 일반적으로 날씨 및 기후 예측 애플리케이션은 BF 비율이 상대적으로 높은데, 이는 이와 같은 애플리케이션의 성능이 메모리 대역폭 및 FLOPS(초당 부동 소수점 연산)에 크게 의존한다는 것을 의미합니다. 이런 유형의 애플리케이션에서 위에 나열된 3세대 제온 스케일러블 프로세서의 향상된 기능은 특히 최적화된 AVX 명령어 세트 덕분에 더 높아진 FLOPS와 더 많은 메모리 채널로 향상된 메모리 대역폭 측면에서 정말 놀랍고 많은 기대를 모으고 있습니다. 그렇다면 인텔의 이전 세대 프로세서에 비교할 때 3세대 제온 스케일러블 프로세서는 날씨 및 기후 예측 애플리케이션에서 어떻게 성능을 향상시킬까요? 우리는 WRF(기후 분석 및 예측) 모델, MPAS-A(규모에 따른 예측 모델-대기), CESM(커뮤니티 지구 시스템 모델) 등 널리 사용되는 여러 기상 및 기후 예측 모델을 사용하여 평가와 분석을 수행했습니다.

다음 비교 테스트에서는 2세대 제온 스케일러블 프로세서 시리즈(Cascade Lake)의 6230, 6248 및 6258R 프로세서와 3세대 제온 스케일러블 프로세서 시리즈(Ice Lake)의 8358 프로세서를 사용한 컴퓨팅 노드로 Kaytus의 HPC 실험실에 다양한 애플리케이션을 위한 테스트 환경을 구축했습니다.

2. WRF 성능 비교

WRF 정보

WRF 모델은 대기 연구 및 운영 예측 애플리케이션 모두를 위해 설계된 차세대 중규모 수치 기후 예측 시스템입니다. 이 모델은 국립대기연구센터(NCAR), 국립해양대기청(국립환경예측센터(NCEP) 및 지구시스템연구소가 대표), 미공군, 해군 연구소, 오클라호마 대학교, 연방 항공국(FAA)에서 공동으로 개발한 시스템입니다.

WRF 테스트 케이스

표 1은 WRF 테스트 케이스의 시뮬레이션 영역, 시간 및 공간 해상도를 표시합니다. 테스트는 2개의 도메인으로 실행됩니다. 코어스 도메인과 네스트 도메인의 크기는 425×300과 1150×802이고, 공간 해상도는 12km와 4km이며, 시간 단계는 각각 30초와 10초입니다. 수직 레이어 수는 35개였습니다. 예측 시간은 3시간이며, 데이터는 3시간마다 출력되었습니다.


14430Image16958087980222c9628b78ab73cd553018ad614bd463576.png


WRF 성능 테스트 결과

224개 코어를 사용하여 인텔 6230 Cascade Lake 프로세서와 8358 Ice Lake 프로세서에서 WRF의 성능이 테스트되었습니다. WRF 모델은 6230 프로세서 플랫폼에서 695초, 8358 프로세서 플랫폼에서 489초간 실행되었으며, 후자 플랫폼에서 성능이 42%까지 향상되었습니다(그림 1 참조). 이는 주로 WRF가 컴퓨팅 및 메모리 바인딩 애플리케이션이고, Ice Lake 프로세서의 8채널 메모리 아키텍처가 메모리 대역폭을 향상시켰기 때문입니다. 또한, 더 높아진 FLOPS와 낮은 메모리 액세스 지연이 8358 프로세서 플랫폼에서 실행되는 WRF의 성능 향상에 크게 기여했습니다.

14430Image16958088073282c9628b78ab73cd512018ad614e1a03579.jpg


그림 1. 6230 및 8358 프로세서 플랫폼의 WRF 성능 비교

3. MPAS-A 성능 비교

MPAS-A 정보

NCAR의 주도로 개발된 MPAS-A(규모에 따른 예측 모델-대기)는 완전 압축 가능한 비정역학적 운동 방정식을 푸는 전체 규모 예측 모델입니다. 이 모델은 수평 이산화의 기초로 비정형 중심 Voronoi 메시(그림 2 참조)와 상태 변수의 C 그리드 스태거링을 사용합니다. 원활하게 변화하는 메시 전환을 갖는 비정형 가변 해상도 메시를 생성할 수 있으므로 주요 시뮬레이션 영역은 높은 해상도를 가지고 경계 주변의 급격한 물리량 변화를 피할 수 있습니다.

MPAS-A 테스트 케이스

MPAS-A 테스트 케이스는 360초의 시간 단계를 가진 60km의 전 세계 기후 시뮬레이션입니다. 예측 시간은 2시간이며, 수직 레이어는 55개입니다. 

그림 2. MPAS-A 공식 사이트의 가변 해상도 MPAS Voronoi 메시

MPAS-A 성능 테스트 결과

320개 코어를 사용하여 인텔 6230 Cascade Lake 프로세서와 8358 Ice Lake 프로세서에서 MPAS-A의 성능이 테스트되었습니다. MPAS-A 모델은 6230 프로세서 플랫폼에서 26.5초, 8358 프로세서 플랫폼에서 15.5초간 실행되었으며, 후자 플랫폼에서 성능이 71%까지 향상되었습니다(그림 3 참조). WRF와 마찬가지로 MPAS-A는 메모리 바인딩 애플리케이션입니다. 따라서 8358 프로세서의 늘어난 메모리 채널 수로 인해 MPAS-A의 성능도 향상되었습니다.

그림 4는 6230 및 8358 프로세서 플랫폼에서 실행되는 MPAS-Atest 케이스에 대한 단일 컴퓨팅 노드의 실시간 FLOPS와 메모리 대역폭을 비교한 것입니다. 그림에서 확인할 수 있듯이 8358 프로세서 플랫폼에서 실행되는 MPAS-A는 크게 향상된 FLOPS 및 메모리 대역폭 덕분에 6230 프로세서 플랫폼보다 훨씬 더 높은 성능을 실현했습니다. 또한, MPAS-A의 BF 비율은 6230 프로세서 플랫폼에서 약 2.55이었고 8358 프로세서 플랫폼에서 약 2.40이었습니다. 8358 프로세서 플랫폼에서 BF 비율이 약간 낮았던 이유는 각 코어의 추가 L3 캐시로 인해 LLC 실패율이 감소했기 때문입니다.

그림 3. 6230 및 8358 프로세서 플랫폼의 MPAS-A 성능 비교


3.png



그림 4. 6230 및 8358 프로세서 플랫폼에서 실행되는 MPAS-A 테스트 케이스에 대한 단일 컴퓨팅 노드의 실시간 FLOPS 및 메모리 대역폭 비교

4. CESM 성능 비교

CESM 정보

CESM(커뮤니티 지구 시스템 모델)은 지구의 기후 시스템을 시뮬레이션하기 위한 결합형 기후 모델입니다. 연구원은 지구의 대기, 대양, 대륙, 육빙 및 해빙을 동시에 시뮬레이션하는 별도의 모델과 하나의 중앙 커플러 구성 요소로 구성된 CESM을 통해 지구의 과거, 현재 및 미래 기후 상태에 대한 기초 연구를 수행할 수 있습니다. CESM은 주로 국립과학재단(NSF)에서 지원하며, NCAR의 기후 및 지구 역학 연구소(CGD)에서 관리합니다.

CESM 테스트 케이스

이 테스트에서 CESM은 f19_g16 그리드와 완전히 결합된 모델입니다. 예측 시간은 1년입니다.

14430Image16958088311342c9628b78ab73cd5922018ad6153e9e357f.png


CESM 성능 테스트 결과

테스트는 8358 Ice Lake 프로세서와 6248, 6230, 6258R을 포함한 3개의 Cascade Lake 프로세서에서 하나의 노드를 사용하여 수행되었습니다. CESM은 Cascade Lake 프로세서보다 8358 Ice Lake 프로세서 플랫폼에서 훨씬 더 우수한 성능을 제공했습니다. 구체적으로 성능은 6230 프로세서에 비해 94%, 6248 프로세서에 비해 83%, 6258R 프로세서에 비해 65% 향상되었습니다. CESM는 BF 비율이 1에 가까운 IO 바인딩 및 통신 바인딩 애플리케이션입니다. 따라서 이상적인 선형값에 도달하지 못하고 다소 저하되었지만, 그래도 83%(6248 프로세서 대비) 및 94%(6230 프로세서 대비)의 성능 향상을 보였습니다.

14430Image16958088426602c9628b78ab73cd5760018ad6156ba43583.jpg

그림 5. 다양한 프로세서 플랫폼에서의 CESM 성능 비교

5. 결론

날씨 및 기후 예측 애플리케이션의 높은 BF 비율을 고려한 우리는 증가된 메모리 채널 수와 최적화된 AVX2/AVX512 명령어 세트가 특징인 인텔의 새로운 3세대 제온 스케일러블 프로세서(Ice Lake)의 놀라운 성능 향상을 감안하여 3세대 제온 스케일러블 프로세서로 구축된 HPC 클러스터에서 WRF, MPAS-A, CESM 등 널리 사용되는 여러 애플리케이션을 테스트 및 분석하고 2세대 제온 프로세서와 비교했습니다. 동일한 수의 코어를 사용했을 때 Cascade Lake 6230 프로세서 플랫폼에 비해 Ice Lake 8358 프로세서 플랫폼에서 WRF의 성능은 42%, MPAS-A의 성능은 71% 향상되었습니다. 이 결과는 주로 WRF가 컴퓨팅 및 메모리 바인딩 애플리케이션이고, MPAS-A 역시 메모리 바인딩 애플리케이션이기 때문입니다. Ice Lake 프로세서의 8채널 메모리 아키텍처는 메모리 대역폭을 향상시켰습니다. 또한, 더 높아진 FLOPS와 낮은 메모리 액세스 지연은 8358 프로세서 플랫폼에서 실행되는 WRF와 MPAS-A의 성능 향상에 크게 기여했습니다. 메모리 대역폭에 바인딩되지 않는 CESM의 경우에도 Ice Lake 프로세서의 크게 증가된 메모리 대역폭과 FLOPS로 인해 CESM의 성능은 6248 프로세서에 비해 82.7%, 6230 프로세서에 비해 94.1% 향상되었습니다.


TOP

문의

KAYTUS는 쿠키를 사용하여 웹사이트 사용을 활성화하고 최적화하며, 콘텐츠를 개인화하고, 웹사이트 사용을 분석합니다. 자세한 정보는 당사의 개인정보 보호정책을참조하세요.