旬のトピック、最新ニュースのマピオンニュース。地図の確認も。

Intel 第4世代Xeonスケーラブル・プロセッサの性能を読み解く

2023年01月17日07時30分 / 提供:マイナビニュース


Intelは1月10日(米国時間)、第4世代Xeonスケーラブル・プロセッサおよびXeon Maxを正式に発表した。その発表会の模様とかDeep Diveではそもそも性能についての話はスルーさせていただいたが、元々の事前説明でも性能に関してはごく簡単にまとめただけである。そこで、Acceleratorの効果も含めて、もう少し性能についてご紹介してゆきたいと思う。
Cloud & Enterprise分野の性能

IntelによるCloud/Enterprise分野のWorkloadとそのコスト分析がこちら(Photo01)。

その中でも特にワークロード負荷を下げるべき分野がこの3つとする(Photo02)。

これをどうやって第4世代Xeonスケーラブル・プロセッサで解決するか? ということで、Intelはここにデータ移動、セキュリティ、分析の3つに役立つアクセラレータを用意したとする。

まずデータ移動のコストを下げて効率化を図るのに、DSAとQATが有効とする(Photo03)。

DSA(Photo04)は以前もご紹介したが、要するにCPUが直接メモリをアクセスするのではなく、間に仲介するDSAがメモリアクセスを行ってくれるので、それだけ早くCPUを開放できるし、効率も上がるというものだ。

このDSAはSocketあたり最大4インスタンスが利用可能となっている。これと併用可能なのがIntel QAT(Photo05)。QATは要するに圧縮伸長と暗号化/復号化のエンジンであって、これはかなり昔(筆者が記憶している範囲で言えば、2008年に投入されたTolapaiことIntel EP80579にQATが搭載されている)から利用されてきているのでご存じの方も多いだろう。

データの安全性というかセキュリティ対策では、QATによる暗号化/復号化以外に、SGXのSecure Enclaveの対応サイズの倍増とか、新しいIntel TDXなどが搭載されている。このTDXは全く新しいもので、TD(Trusted Domain)と呼ばれる、ハードウェア的にIsolationされたVMを利用できる様にするための仕組みである。

データ分析では、特にIn-Memory Databaseにおける帯域圧縮と検索のオフロードのために、Intel IAAが提供される(Photo07)。

IAAの肝になるのはPhoto08で言う“SQL Filter Functions”であるが、ここではScan(条件を満たすbit-maskの検索)/Extract(必要なデータの抽出)/Select(bit-maskで指定された結果を戻す)/Expand(必要な領域をZero Fillで確保)の4つの処理が行える。要するにSQLのエンジンの一番プリミティブな処理についてCPUをオフロードする形で行えるわけだ。

ではトータルでどこまで性能が上がるか? SAP HANAの場合だと処理性能が2.3倍になり、データベース容量はSocketあたり2倍に向上した(Photo09)とする。

Microservice周りで言えば、アクセラレータを併用する事で様々なコンポーネントの性能が向上するとしており(Photo10)、トータルで60~80%の性能向上が実現(Photo11)。Google Cloudでは25~134%の性能改善(Photo12)、その他の顧客でも大幅な性能改善が可能になった(Photo13)とする。

ちなみに先ほどもちょっと触れたDLBであるが、これは複数のコアで負荷を均等に保つ仕組みである(Photo14)


Network & Edge分野の性能

Network向け、最近だとvRANがホットなトピックであるが、もっと広範にSDNのコンポーネントや、あるいはNetwork EdgeのプロセッサはXeonの主戦場の1つでもある。このマーケットにおける第4世代Xeonスケーラブル・プロセッサの性能の優位性をまとめたのがこちら(Photo15)である。

もうちょっと細かく見てみよう。Networkでは最終的にI/Oスループットがモノをいう事になるが、これに関して第3世代Xeonスケーラブル・プロセッサ比で1.5~2倍の性能を実現する、としている(Photo16)。

実アプリケーションとして、5G Core UPF(User Plane Function)のスループットとか、FirewallにおけるText Inspectionなどを比較したのがこちら(Photo17)。

こうした処理で役に立つのがDDIO(Data Direct I/O Technology)で、これを利用する事で最大で4.1倍ものI/Oスループットを実現できるとする(Photo18)。ちなみにDDIOそのものはSandy Bridge世代のXeonから搭載されている機能だ。

また、3GPPはRelease 17でAIを導入した。現在はNWDAF(Network Data Analytics Function)の一部に留まるが、今後Release 18以降ではさらに広範に適用分野が広がる可能性は高い。それ以外にもNetwork & EdegeでのAIの適用範囲が広がりつつあるが、これに関しては第4世代Xeonスケーラブル・プロセッサで搭載されたAMXが効果的とする(Photo20)。

またQATを使う事で圧縮伸長などにCPU時間を費やさずに済むのも、TCO削減の観点からも効果的とする(Photo21)。


AI & ML分野の性能

AI & MLに関しては特に力を入れている部分でもあり、AMXがフルに活用できる分野でもある。といっても、AI/MLと言われているものが要求する性能は、Networkによって違いがある(Photo22)。

これを踏まえて、そもそもDDR5の採用やXeon MaxではHBM2eの搭載、さらに演算性能の向上など全般的な性能の引き上げを図ったうえでAMXを搭載し、特に畳み込みでの高速化を図るという形のアプローチになっている。

もともとVNNIで従来比3倍程度まで高速化している訳だが、AMXではこれをさらに8倍まで引き上げており(Photo23)、これで専用プロセッサに迫る性能を発揮するとする。

実際、第3世代Xeonスケーラブル・プロセッサやNVIDIAのA10と比較した結果がこちら(Photo24)。

あるいはBroadwell以降のコアと比較した場合、ResNet-50での処理性能と消費電力の関係を示したのがこちら(Photo25)。

もっとも第4世代Xeonスケーラブル・プロセッサでInferenceをバリバリする、という使い方はどうか? という気もするが、ではTrainingは? というのがこちら(Photo26)。

MLPerf v2.1(Training Benchmark)の8つのテストの内3つを30分未満で終わらせられるとしており、第3世代Xeonスケーラブル・プロセッサと比べて3.5~10倍高速であるとする。もっともAMXがあるから、この位上がらないとまずい気もするが。ちなみに今のところMLPerfについてはDLRM/BERT/ResNet-50の数字しか登録されていないので、他の結果も早く見たいところだ。このTrainingに関してのA100との比較がこちら(Photo27)。

大雑把に言えば互角と言ったところだが、そもそもA100と比較しても仕方ないという気はしなくもない。ただA100は一昔前のハイエンドGPUだった訳で、それと互角に近いところまで汎用CPUで迫った、という事は評価しても良いかと思う。
HPC分野の性能

HPCの場合もAIに似ていて、モノによってCompute BoundだったりMemory Boundだったり、あるいはその中間だったりする訳だが(Photo28)、ただ原則論としてはProcessor Performanceの向上に合わせてMemory Bandwidthも引き上げるしかない。

で、第4世代Xeonスケーラブル・プロセッサはDDR5のサポートや、4 Socket以上ではMemory Channel自体も増えている事もあり、Memory Bandwidthが向上している(Photo29)。

加えてProcessor Performanceもコア数とIPCの両方の向上もあって、分野によって差はあるとはいえ、平均50%程度の性能改善が実現している(Photo30)。

この性能差を確保するための方法が、Xeon MaxのHBM2eである(Photo31)。

Sapphire Rapidsは8chのDDR5-4800を搭載し、トータルで307.2GB/secの帯域を誇るが、これを56コアで割るとコアあたりの帯域は僅か5.4GB/secでしかない。ところがHBM2eは1stackあたり409.6GB/secである。これが各Tile(=14コア)に1つ用意されるから、コアあたり29.3GB/secと、DDR5の5倍以上の帯域が利用できる事になる。これは、特にB/F値が問題になりそうなアプリケーションで効果的に働くという訳だ。ちなみにHBMとDDR5は、HBM Only/HBM Flat Mode/HBM Caching Modeの3つが用意される。昔、第3世代のXeon PhiことKnights HillではHBMの代わりにMCDRAMを搭載する予定で、ここではCache Mode/Flat Modeに加えHybrid Modeが用意されていた(Photo32)が、これはサポートされない事になった。

さてそんなHBM2eを搭載したXeon Maxであるが、例えばALTAIR AcuSolveを行った場合、第3世代Xeonスケーラブル・プロセッサと同じ処理性能を遥かに少ないノード数で実現できるとしている(Photo33)。

Photo34はメモリ帯域比較で、これはもう理論性能そのままという感じである。もう少し広範なベンチマーク結果がこちら(Photo35)。

必ずしも全てのアプリケーションで性能が上がる訳ではない(中にはむしろ落ちる場合もある)が、うまくはまると3倍前後の性能向上を示しており、アプリケーションを選びはするものの、うまく嵌れば効果的であることを示している。

ちなみにXeon MaxのSKUは5製品であるが、それぞれの性格分けがこちら(Photo36)。どんなHPC Applicationを走らせるか次第でSKUを決める形になる訳だ。

大原雄介 この著者の記事一覧はこちら

続きを読む ]

このエントリーをはてなブックマークに追加

関連記事

ネタ・コラムカテゴリのその他の記事

地図を探す

今すぐ地図を見る

地図サービス

コンテンツ

電話帳

マピオンニュース ページ上部へ戻る