第4世代Xeonスケーラブル・プロセッサ Deep Dive - 内部構造を解剖してみる

2023年01月12日07時00分 / 提供：マイナビニュース

●
既報のとおり、米国時間の2023年1月10日、Intelは第4世代Xeonスケーラブル・プロセッサおよびXeon Maxの発表会を開催した。これを踏まえて、もう少し細かい話をご紹介したいと思う。
ダイは3種類

すでに説明した様に、第4世代Xeonスケーラブル・プロセッサ/Xeon Maxでは、

MCC：最大32core
XCC：最大15coreのダイ×4のMCM
HBM：最大14coreのダイ×4+HBM2e×4のMCM

の3種類のラインナップがある。

32coreまでの製品は全てMCCで、34core以上は全てXCCかHBMになる。厳密にいうと、Xeon Maxのローエンド(Xeon 9462)は32coreなのだが、MCCにはHBM I/Fを持つダイがないので、こちらはHBMでの実装となるが、後は全部MCCだ。製品ラインナップを見ると、32core以下はXeon Gold/Silver/Bronzeの扱いになっている(Xeon Maxは32coreでもXeon Max扱い)ので、区別としてはGold/Silver/BronzeがMCC、PlatinumがXCC、MaxがHBMと考える方が実情に合っていると言える。

さて今回発表会でも事前説明会でもMCCのダイは公開されておらず、示されたのはXCCとHBMのみである(Photo01)。

XCCの方は事前に説明されていた通りの構造(Photo02,03)である。

一方HBMであるが、こちらはHBM2eをStackする関係で、パッケージの両横に耳が追加されており、追加のパスコンやFPGAが追い出されているのが判る(Photo04,05)。

面白いのは、XCC(やMCC)とHBMはSocket互換な事だ。実際事前説明会では、両方が同じSocketに収まる事をデモしていた(Photo06)。

さて、次にそのXCC/HBMの構造であるが、ちょっと筆者の想像を超える代物だった。XCCあるいはHBMの場合、4つのTileをEMIBで相互接続するという仕組みになっている事は以前から発表されていたが、このEMIBが10個あるという話は2021年のHotChipsで公開された。これを受けて、てっきりUPIで相互接続すると「誤解して」この記事の図3と図4の推定図をご紹介した訳だが、実際はもっとすさまじかった。

今回公開されたスライド(Photo07)は、ワザとなのかDetailがぼやけていて拡大しても判らないので、ちょっと図にしてみた。図1はPhoto07のXCCの左上の拡大図である。

ちょっと古い話だが、初代Xeonスケーラブル・プロセッサことSkylake-SPの内部構造がこちらである。6×6の36個のBlockを、縦方向に3本、横方向に6本のRing Busで貫く様にMesh構造にする仕組みである。Sapphire Rapidsもこれは同じであり、XCCの1つのTileは図1の様に4×5のBlockから構成される。この20個のBlockを、横方向に貫く5対のRing Busが入る(ただしSlideを見ていると、最上段のI/Fを繋ぐRing Busは他のものとはちょっと違う様で、ひょっとするとここは1対ではなく2対なのかもしれないが、図が潰れていて詳細は不明である)。

一方で縦方向は2対のRing Busが入る格好だ。ではこれを4つ繋げるとどうなるのか？　というのが図2である。

要するに4つのTileの縦/横方向のRing BusをEMIB経由で直接接続する事で、内部的には8×10の80個のBlockが存在し、これを縦4対/横10対のRing Busで相互接続するという、論理的には巨大なMonolithic Die構成が出来上がったわけだ。正直舐めていたというか、まさかEMIB経由で内部のRing Busを外に引っ張り出すとは考えて居なかった。ちょっと恐れ入った次第である。

ちなみにHBMの場合、このXCCのダイから一組Core/LCCを抜き、そこにHBMのI/Fを入れる格好になる(DDR5のI/FとHBMのI/Fは別に設けられている、という話は2021年のHotChipsでIntelの関係者から説明を受けている)。Photo07ではHBMでもコアがTileあたり15個ある様に描かれているが、実際にはHBMは最大構成のXeon Max 9480/9470でも56core(つまりTileあたり14core)であり、これはXCC用の図をそのまま転用しただけと考えられる。

●
MCCのダイサイズ

今回、XCC用と思われるWaferが公開された(Photo08)が、300mmウェハで縦横15個分ずつであり、Tileのサイズはほぼ20mm×20mm。事前情報では400平方mmとされていたが、この数字がほぼ正しい事が改めて確認できた格好だ。

さて、Photo09はその拡大図である。

赤/黄/青は筆者が追加したものだが、多分こういう比率で問題ないと思う。さて、この想定だとするとCore+LCCのサイズ(+内部のRing Bus)の寸法は4×4構成で13.6mm×15.6mmといったところ。つまりBlock 1つ分のサイズは概ね3.4mm×3.9mmで13.26平方mmと結構大きい。Interface部の寸法もおなじである。ということで図1に出てくる20Block分の寸法は17.0mm×15.5mmほど。残った周辺部はAcceleratorとかEMIB接続用のI/Fということになる。この周辺部の面積は合計で136.5平方mmになるので、確かにAcceleratorを搭載するには十分なサイズである。

さて、ここからMCCのダイサイズを推定してみたいと思う。Photo07にあるように、MCCコアは7×7の49個のBlockから構成される。ここに今の寸法を当てはめると27.3mm×23.8mmで、49 Blockでほぼ650平方mmに達する計算だ。ここにAccelerator用の面積を例えば100平方mmほど充てたとして、Tile全体の合計のサイズは750平方mmに達する計算になる。今回発表された中で一番安い製品は8coreのXeon Bronze 3408UでRCP(Recommended Customer Price:推奨小売価格)はたったの415ドルなのだが、これ、原価割れしてないかちょっと心配になってくるダイサイズである。もっとも今回発表の52製品のうち、RCPが1000ドルを切ってる製品は4つしかないので、トータルとしてはそれほど問題ではないのかもしれない。

しかしこうなると、トータルでこそ1600平方mmと巨大ながら、Tileあたりで言えば400平方mmでしかないXCCと、本当にMonolithicで750平方mmの巨大なMCC、どちらの方がYieldが高いのだろうか？　とちょっと心配になってくる。
ArchitectureとCXL

ところでSapphire Rapidsそのもので言えば、CPU CoreはAlder Lakeと同じGolden Coveベースである。Golden Coveそのものではないのは、L2/L3の容量が異なる(Photo10)事と、あとはAMXに対応している事だ。

ただAMX命令に関してはCPU側のDecoderで解釈される訳ではなく、AMX側で処理されるためにDecoder部には手は入っておらず、違いはCPUIDにAMX対応を示すbitが追加された程度である。

Golden Coveのコアの性能そのものは以前こちらで評価しており、動作周波数の違いとかはあるにしても基本的な特性は変わらない。変化があるとするとメモリコントローラ周りであろうか。

そのメモリコントローラ周りであるが、こちらでも触れた様に今回第4世代Xeonスケーラブル・プロセッサに合わせてOptane Persistent Memory 300シリーズが投入される事が明らかになっており(Photo11)、当然Alder Lakeとは別物になっている。

Optane Persistent Memoryの容量は最大512MBということで、2 Socketだとトータル32枚で16TBが狙えるか、と思ったらSocketあたり4TB、2 Socket構成で合計6TBに制限されているのは、恐らく既存のOptane Persistent Memory 100/200シリーズとのソフトウェア(主にOSとかミドルウェア)の互換性を保つためと思われる。

ところで恐らくこのOptane Persistent Memoryのあおりを喰らったと思われるのがCXL Memoryのサポートである(Photo12)。

今回公式に、CXL 1.1のType 1およびType 2をサポートすると表明された一方、Type 3のサポートが無い。ただ以前こちらで説明した様に
必要なプロトコル

Type 1: CXL.io CXL.cache
Type 2: CXL.io CXL.cache CXL.mem
Type 3: CXL.io CXL.mem

であって、Type 2がサポートされているのにType 3がサポート出来ない技術的な理由がない事になる。これについて直接聞いたところ「技術的には(Type 3も)動くが、我々はそれを検証するためのプラットフォーム(要するにCXL Memory Device)を持っていないのでサポートから外した」という返事が戻ってきた。つまり挿せば多分動くのである。それに、ここでも説明したが、すでにSamsungは2022年5月に製品をリリース、SK HynixやMicronも製品や評価サンプルをリリースしている状況でこれはちょっと無理がある。要するにCXL Memoryに公式対応してしまうと、Optane Persistent Memory 300シリーズと思いっきり被るため、敢えて今は未サポートとしたという辺りが正直なところと思われる。多分これが正式にサポートされるのは、次のEmerald Rapid世代になるかと思われる。

[ 続きを読む ]

Check

第4世代Xeonスケーラブル・プロセッサ Deep Dive - 内部構造を解剖してみる

関連記事

ネタ・コラムカテゴリのその他の記事

地図を探す

地図サービス

コンテンツ

電話帳