1.Intel社の第3世代「Xeon スケーラブル」プロセッサ(Ice Lake)は、性能を大幅に改善
Intel社は2016年、第3世代の「インテル Xeon スケーラブル」プロセッサシリーズ(Ice Lake)を発表しました。この第3世代チップは、前世代の「Xeon スケーラブル」プロセッサシリーズ(Cascade Lake)と比較して、以下の点が強化されています。
製造プロセスをアップグレード(14nmから10nm)し、理論トランジスタ密度を向上(最大2.7倍)。
マイクロアーキテクチャをアップグレードし、IPCを向上(最大20%)。
最大コア数の増加(28から40)、AVX2/AVX512命令セットの最適化、各コアのL3キャッシュ容量の増加(1.375 MBから1.5 MB)。
IO性能の大幅な向上、メモリチャンネル数の増加(6から8)、メモリアクセスレイテンシーの短縮。PCIeプロトコルをPCIe 3.0からPCIe 4.0にアップグレード。UPIバス帯域幅をわずかに改善。
これらのハードウェアの性能強化は、すべて用途で性能を向上させるでしょうか?特に、大規模な並列コンピューティングのために多数のCPUコアを必要とする気象・気候予測用途では?一般的に、気象・気候予測用途はBF比が比較的高いため、これらの用途での性能はメモリ帯域幅とFLOPS(1秒あたりの浮動小数点演算回数)に大きく依存します。このような用途では、第3世代Xeonスケーラブルプロセッサの上記の強化は本当に驚くべきものであり、大いに期待されています。特に、最適化されたAVX命令セットによる高いFLOPSと、より多くのメモリチャンネルによるメモリ帯域幅の改善は重要です。では、第3世代Xeonスケーラブルプロセッサは、Intel社の旧世代のプロセッサーと比べて、気象・気候予測用途でどのように性能を向上させるのでしょうか?WRF(Weather Research and Forecasting)モデル、MPAS-A(Model for Prediction Across Scales-Atmosphere)モデル、CESM(Community Earth System Model)など、広く使用されている気象・気候予測モデルを用いて評価・分析を実施しました。
以下の比較テストでは、第2世代「Xeonスケーラブル」プロセッサシリーズ(Cascade Lake)の6230、6248、6258Rプロセッサと、第3世代「Xeonスケーラブル」プロセッサシリーズ(Ice Lake)の8358プロセッサを搭載したコンピューティングノードを用いて、KaytusのHPC研究所に用途別のテスト環境を構築しました。
2.WRF性能の比較
WRF について
WRFモデルは、次世代メソスケール数値気象予測システムであり、大気研究および運用予測用途の両方のために設計されています。アメリカ大気研究センター(NCAR)、アメリカ海洋大気庁(代表は国立環境予測センター(NCEP)と地球システム調査研究所)、アメリカ空軍、アメリカ海軍調査研究所、オクラホマ大学、連邦航空局(FAA)によって共同開発されています。
WRFテストケース
表1は、WRFテストケースのシミュレーション領域、時間分解能、空間分解能を示しています。これは2領域実行です。粗領域と巣領域のサイズは、それぞれ425×300と1150×802で、空間分解能は12kmと4km、時間ステップは30sと10sです。垂直層の数は35でした。予測時間は3時間で、データは3時間ごとに出力されました。
WRF性能テスト結果
Intel 6230 Cascade Lakeプロセッサと8358 Ice Lakeプロセッサ、224コアを使用してWRFの性能をテストしました。WRFモデルの実行時間は、6230プロセッサプラットフォームで695秒、8358プロセッサプラットフォームで489秒であり、後者のプラットフォームでは性能が42%向上しました(図1参照)。これは、WRFがコンピューティングバウンドとメモリバウンドの用途であり、Ice Lakeプロセッサの8チャンネルメモリアーキテクチャがメモリ帯域幅を改善したことが主な理由です。さらに、より高いFLOPSとメモリへの低レイテンシーアクセスが、8358プロセッサプラットフォーム上で動作するWRFの性能向上に大きく貢献しました。
図1.6230および8358プロセッサプラットフォームにおけるWRF性能の比較
3.MPAS-A性能の比較
MPAS-Aについて
MPAS-A(Model for Prediction Across Scales-Atmosphere)は、NCARの主導で開発された、完全に圧縮可能な非静力学運動方程式を解くスケール横断的予測モデルです。このモデルは、水平方向の離散化の基礎として、非構造重心ボロノイメッシュ(図2参照)と、状態変数のCグリッドスタッガリングを使用しています。非構造可変解像度メッシュは、メッシュ遷移を滑らかに変化させながら生成できるため、主要なシミュレーション領域は高い解像度を持ち、境界付近での物理量の急激な変化を避けることができます。
MPAS-Aテストケース
MPAS-Aテストケースは、時間ステップ360秒の60 km全球気象シミュレーションです。予測時間は2時間で、55の垂直層があります。
図2.MPAS-A公式サイトからの可変解像度MPASボロノイメッシュ
MPAS-A性能テスト結果
Intel 6230 Cascade Lakeプロセッサと8358 Ice Lakeプロセッサー、320コアを使用してMPAS-Aの性能をテストしました。MPAS-Aの実行時間は、6230プロセッサプラットフォームで26.5秒、8358プロセッサプラットフォームで15.5秒であり、後者のプラットフォームでは性能が71%向上しました(図3参照)。WRFと同様、MPAS-Aはメモリバウンド用途です。このため、8358プロセッサのメモリチャンネル数の増加もMPAS-Aの性能向上に貢献しました。
図4は、6230および8358プロセッサプラットフォーム上で実行されるMPAS-AテストケースのシングルコンピューティングノードにおけるリアルタイムFLOPSとメモリ帯域幅の比較を示しています。図からわかるように、8358プロセッサプラットフォーム上で動作するMPAS-Aは、FLOPSとメモリ帯域幅が大幅に改善された結果、6230プロセッサプラットフォーム上よりもはるかに高い性能を発揮しました。さらに、MPAS-AのBF比は6230プロセッサプラットフォームで約2.55、8358プロセッサプラットフォームで約2.40でした。8358プロセッサプラットフォームのBF比がわずかに低い理由は、各コアのL3キャッシュが追加された結果、LLCミスレートが減少したためです。
図3.6230および8358プロセッサプラットフォームにおけるMPAS-A性能の比較
図4.6230および8358プロセッサプラットフォーム上で実行されるMPAS-AテストケースのシングルコンピューティングノードにおけるリアルタイムFLOPSとメモリ帯域幅の比較
4.CESM性能の比較
CESM について
コミュニティ地球システムモデル(CESM)は、地球の気候システムをシミュレーションするための結合気候モデルです。CESMは、地球の大気、海洋、陸地、陸氷、海氷を同時にシミュレーションする個別のモデルと、中央の1つのカプラコンポーネントで構成され、研究者は地球の過去、現在、未来の気候状態に関する基礎研究を行うことができます。CESMは主にアメリカ国立科学財団(NSF)の支援を受けており、NCARの気候・地球力学研究所(CGD)によって保守管理されています。
CESMテストケース
このテストでは、CESMはf19_g16グリッドとの完全結合モデルです。予測時間は1年です。
CESM性能テスト結果
このテストは、8358 Ice Lakeプロセッサと、6248、6230、6258Rを含む3つのCascade Lakeプロセッサで、1つのノードを使用して行われました。CESMは、8358 Ice Lakeプロセッサプラットフォームにおいて、Cascade Lakeプロセッサよりも大幅に高い性能を発揮しました。性能は6230プロセッサ比で94%、6248プロセッサ比で83%、6258Rプロセッサ比で65%向上しました。CESMのBF比は1に近く、IOバウンドと通信バウンドがあります。このため、性能の向上は理想的な線形値には達せず、多少低下するものの、それでも83%(6248プロセッサとの比較)および94%(6230プロセッサとの比較)に達する可能性があります。
図5.異なるプロセッサプラットフォームにおけるCESM性能の比較
5.結論
メモリチャンネル数の増加や最適化されたAVX2/AVX512命令セットなど、Intel社の新しい第3世代Xeonスケーラブルプロセッサ(Ice Lake)の驚くべき強化点を考慮し、気象・気候予測用途における高いBF比を考慮して、第3世代Xeonスケーラブルプロセッサで構築されたHPCクラスター上でWRF、MPAS-A、CESMなど、広く使用されているいくつかのアプリケーションをテスト・分析し、第2世代Xeonプロセッサとの比較を行いました。同じコア数を使用した場合、Ice Lake 8358プロセッサプラットフォームでは、Cascade Lake 6230プロセッサプラットフォームと比較して、WRFの性能は42%向上し、MPAS-Aの性能は71%向上しました。これは、WRFがコンピューティングバウンドとメモリバウンドの用途であり、MPAS-Aもメモリバウンドの用途であることが主な理由です。Ice Lakeプロセッサの8チャンネルメモリアーキテクチャは、メモリ帯域幅を改善しました。さらに、8358プロセッサプラットフォーム上で動作するWRFとMPAS-Aの性能は、より高いFLOPSとメモリへの低レイテンシーアクセスによって大幅に向上しました。メモリ帯域幅に負荷のかからないCESMについては、Ice Lakeプロセッサのメモリ帯域幅とFLOPSの大幅な向上により、CESMの性能は6248プロセッサ比で82.7%、6230プロセッサ比で94.1%向上しました。
KAYTUS は Web サイトの利用を可能にして最適化し、コンテンツをパーソナライズして、Web サイトの使用状況を分析するために Cookie を使用しています。詳細については、弊社個人情報保護方針をご覧ください。