来源:腾讯科技
作者:张书嘉 Morris
10月17日,美国更新出口管制标准,要求先进芯片性能超过特定阈值,即需要申请出口许可。在严苛的限制条件下,$英伟达 (NVDA.US)$针对中国市场的特供版H800、A800两款芯片也面临禁售,以下为美国商务部对先进芯片性能的划定标准:
●总算力之和≥4800 TOPS ,
●总算力≥1600,且性能密度≥5.92;
●2400≤总算力<4800,且1.6<性能密度<5.92;
●总算力≥1600,且3.2≤性能密度<5.92。
面对新的管制条例,英伟达给了两个解法:其一,沟通美国商务部申请许可,给特定的中国客户“开白”;其二,针对新的管制条例,再次定制全新的特供版本。
刚刚举办的第三财季电话会议上,英伟达首席财务官科莱特·克雷斯确认了这一消息。克雷斯表示,英伟达正在与中东和中国的一些客户合作,以获得美国政府销售高性能产品的许可。此外,英伟达正试图开发符合政府政策且不需要许可证的新数据中心产品。
01、H800是如何“阉割”成为H20?
英伟达试图开发的新的特供版,即业内盛传的H20、L20等产品,最新消息显示,相关产品的上市计划已经延后至2024年第一季度。
问题在于,H20等全新特供芯片的研发、设计、生产,完全跳出了常规芯片的节奏,英伟达是如何在短时间内拿出这套特供解决方案?
它的答案就是我们这篇文章要讨论的关键问题之一:后道点断生产工艺,用大家更为常用的词汇总结即——阉割。
按正常的设计、生产周期和产品发布节奏来推断,特供中国市场的H20 / L20等型号的芯片在这个时间节点发布,不太可能是重做光罩、重新投片的产物,一个相对合理的推论——即它们是通过半导体后道的物理点断工艺的改造+再封装,进而推出的新SKUs。
点断工艺是半导体制造的后道工序(BEOL)中的改造方法,可以在无需重做光罩的前提下使用一些管/线修补工艺,包括表面激光点断、CoWoS层面点断,甚至通过隧道镜手工雕线。
可以假定一下这样的场景,代工英伟达H800的$台积电 (TSM.US)$南科Fab18A、台中Fab15B和台中先进封装5厂的洁净室里,此前降规生产的几批次裸片,还没来得及切割、镀上金属线和电极,还未封装成H800和L40S,转而通过后道点断生产工艺再封装成H20、L20。
02、表面激光点断是半导体制造传统艺能
行业惯例来说,一颗数字逻辑芯片的缓存大小(Cache Size)、底层物理互连(PHY channels)都可以通过在后道封测环节重修/点断做失效屏蔽处理的,尤其是针对低分数裸片的改造方法算是几十年的传统艺能,例如早期的奔腾、赛扬处理器的重要区别之一就是点断缓存。
倘若是局部微小部分,曾经可以手工完成(相当于微雕);面积稍大的部分,可以重新设计Layout预留点断位置,再由机器完成点断失效。
实操上,通常的晶圆厂都会配置专业设备,由激光直接在裸片上切割线路/沟槽,而在亚利桑那钱德勒市的Intel Fab42工厂里,还有直接在专用隧道镜下面手工雕刻晶体管的设备,宣称是原子尺度的,不同于寻常的扫描隧道显微镜,几年前Intel有个宣传视频,提到这台设备,据传全球持证的操作手不超过14人。
其实在平面晶体管以前,显微镜手雕不算是高难度动作,但进入FinFET以后,由于垂直方向的3D栅极结构,手雕设备的代价和操作员就变得遥不可及了。
具体到H20/L20,这两款特供产品,是如何通过H800、L40S降规而来?可以先看看相关参数:
H20:对应H100/800系列,Hopper架构(HBM3、2.5D CoWoS封装、NVLink)
L20:对应L40S系列,Ada Lovelace架构(GDDR6,2D InFO封装,PCIe Gen4)
*注:固件相应修改;
回顾H100/H800相同架构之间比较关键的底层物理互连(SerDes PHY)的差异,H100降规阉割成H800,可以通过局部物理点断失效处理来实现;但相比之下,H20虽然与前面两款产品同构,但推测割掉的Dark Si面积可能较大,不确定常规点断操作是否不值得,也许需要重新做Layout。
但是除了底层物理层互连(SerDes PHY)的区别,还有双精度浮点计算(FP64)单元面积、张量核(用于矩阵、卷积类计算任务)单元面积的区别,这部分不好定论,但可以推测是类似利用物理冗余设计并加以屏蔽的操作,毕竟如今的设计方法学都是推动模块化的,流片后的测试原本就会有70分 die与90分 die的区别,以及GPU芯片上也不止一个FP64,局部操作物理点断失效也是合理的。
03、设计冗余为点断创造条件,也是大厂基操
举个例子:A、如今市面仍可见的Intel F系列CPU,就是点断显核的70分die;B、Apple Si的前两代,官宣8核NPU,实际有9个,就是设计冗余。
以上这些,在晶圆制造工序中也算是基本操作,特别是中试厂/线,Alpha - Beta流片的过渡期间,有小错就会直接手改,不会返回修改掩膜重新流片的。
从芯片设计者的角度来看,设计冗余度是在芯片开发流程中原本存在的,因为前道光刻过程是强调高良率的,具体到失效晶体管数,测试环节判断模块级别的良率,坏点可以直接电路割断,后续引线、封盖工艺流程都不变。
例如3年前,Intel曾向市场推出过不带显核的F系列CPU,就是物理降规/阉割的产物,点断显核,重新封装销售。但是该款芯片偶尔耗电巨大,经用户投诉,建环境验证后发现就是原本通过物理点断失效的显核在接电之后不受控制而导致的莫名电源故障。
这个案例反映的情况就是我们上文所讲的,同一条流水线,经过点断失效的芯片,后续的导线/引脚和封装过程不变,可以继续销售。尤其早期Intel 10nm的良率很低,积压很多这样的低分片,才会把显核失效的芯片加印F标继续销售。
如今这个“冗余度”可能有很大空间,毕竟H100已然是814平方毫米的大芯片,几乎接近光罩尺寸边缘(26mm*33mm=858mm2)。而如今发布的H20降规型号,大概是H100 15%的性能,但是其物料成本几近相同。
04、封装层面点断可操作性、经济性更好
除了在逻辑芯片表面的激光点断工艺之外,还有针对某些特殊位置的点断要求,比如CoWoS中介层的点断。
CoWoS作为台积电的2.5D封装方案,可以使得多颗芯片封装到一起,互连和内存等器件均通过硅中介层互联,达到了封装体积小,功耗低,引脚少的效果。
相比表面激光点断,在CoWoS的前道部分——即CoW部分是硅通孔和中介层——在该层面操作点断,做差异化,反而更经济,也更容易保证良率。因为算力逻辑芯片和I/O 芯片是分列的,可以屏蔽底层物理互连的通道,也可以缩减HBM3内存性能,而且在硅中介层修改差异化更容易,相比全部在逻辑芯片上修改的代价更低,因为中介层上操作的线宽精度可以较低,甚至点断最上面那层金属的线宽即可。
但是,CoWoS中介层上面是只能够屏蔽物理互连和HBM内存,但是无法屏蔽FP64单元、Tensor core单元这样的计算逻辑芯片面积,这就需要补充用到前文所说的在逻辑die表面点断失效的方法。
另外,正常情况下,物理点断失效的电路是不能从外部第三方察觉的,且工艺不可逆;尤其如今芯片都是十几层金属,裸片的表面修改了,上面金属层是看不穿的,除非是用到反工程的透视扫描。
综上,我们看到进一步特供/降规生产的H20/L20等型号,可以判断是H800和L40S的裸片的后道物理点断工序的改造产物,同时重新封装、重新修改固件,成为新的SKUs。
回想Nvidia之前积压的、原本销往中国的50亿美元的GPU产品尚未交付,如今返厂做了后道改造才得以如此快速的发布新的SKU,那么猜测国内厂商的50亿美元订单也许会转换为这三个型号。
05、“阉割”后的H20的能与不能
核心AI芯片相关参数及出口管制情况,APPLIES对应受管制,DOESN'T APPLY对应不受管制
如下是针对H20与H100/H800/A100的产品横向比较,比较维度包括“产品规格、单卡和集群算力效能、物料成本、定价体系”等四个方面:
集群综合算力方面,H100/H800目前是AIDC算力集群的顶流部署;其中H100理论扩容极限是5万张卡集群,最多可达10万P算力;H800最大集群是2-3万张卡,合计4万P算力;A100最大集群是1.6万张卡,合计9600P算力。
然而对于H20,其集群的理论扩容极限是5万张卡,以单卡算力0.148P(FP16/BF16)计算,集群合计提供7400P算力,远低于H100/H800/A100。
同时,基于算力与通信均衡度预估,5万张H20合理的整体算力中位数约为3000P左右,倘若H20面对千亿级参数模型训练,恐怕捉襟见肘,需要集群网络拓扑有更大的外延扩展。
但从HGX H20的硬件参数综合来看,几乎把美国商务部性能密度禁令中严格限制的算力门槛以外的指标全部拉满,显然是定位为一颗训推通用的处理器。
只是针对LLM大模型业态而言,实际使用H20做千卡分布式训练,虽然大部分有效利用时间都是GPU上的矩阵乘加计算的时间,通信和访存的时间占比缩小,但毕竟单卡算力规格较低,超限度的千卡集群扩展反而会使其费效比降低,H20更适用于垂直类模型的训练/推理,不容易满足千亿参数级LLM的训练需求。
需要注意的是,选用更多低规格、更廉价的GPU并联集群,试图追平或是超过一台超高算力的GH200效能,这是一种悖论。
因为这种方案的掣肘很多,环境搭建和运行的ROI并不高。因为在算力利用率、并行策略的执行、集群综合能耗、硬件成本和组网成本等等方面都不可能获得理想方案;H20集群与A800集群效能可以同比,对比H100/GH200集群效能则是不实际的。
H20的基本规格方面,算力水平约等于50% A100和15% H100,单卡算力是0.148P(FP16)/ 0.296P(Int8),900GB/S NVLink,6颗HBM3e(显存的物料与H100 SXM版本配置相同,即6*16GB=96GB容量),die size同样都是814mm2 。
考虑到H100 GPU单卡物料成本中的HBM颗粒成本独占55%-60%,整卡的物料成本约3320美元(H20成本相近,甚至由于增配的L2 Cache以及追加了点断工序而成本更高,且相比H800更加增配了HBM3容量和NVLink lanes带宽),那么对应最终的渠道定价规则,H20的渠道单价可能与H100/H800处于相近水平。
同比参考几个市面流通价格(来自某一线互联网公司和某一线服务器厂的渠道货价):
- DGX A800 PCIe 8卡服务器约145万元/台,NVLink版本200万元/台
- DGX H800 NVLink版本服务器,国内渠道报价约310万元/台(不含IB)
- DGX H100 NVLink版本服务器,香港渠道报价约45万美元/台(不含IB)
- H100 PCIe单卡报价约2.5-3万美元,H800 PCIe单卡尚不确定,且单卡流通渠道不正规
编辑/jayden
來源:騰訊科技
作者:張書嘉 Morris
10月17日,美國更新出口管制標準,要求先進芯片性能超過特定閾值,即需要申請出口許可。在嚴苛的限制條件下,$英偉達 (NVDA.US)$針對中國市場的特供版H800、A800兩款芯片也面臨禁售,以下爲美國商務部對先進芯片性能的劃定標準:
●總算力之和≥4800 TOPS ,
●總算力≥1600,且性能密度≥5.92;
●2400≤總算力<4800,且1.6<性能密度<5.92;
●總算力≥1600,且3.2≤性能密度<5.92。
面對新的管制條例,英偉達給了兩個解法:其一,溝通美國商務部申請許可,給特定的中國客戶“開白”;其二,針對新的管制條例,再次定製全新的特供版本。
剛剛舉辦的第三財季電話會議上,英偉達首席財務官科萊特·克雷斯確認了這一消息。克雷斯表示,英偉達正在與中東和中國的一些客戶合作,以獲得美國政府銷售高性能產品的許可。此外,英偉達正試圖開發符合政府政策且不需要許可證的新數據中心產品。
01、H800是如何“閹割”成爲H20?
英偉達試圖開發的新的特供版,即業內盛傳的H20、L20等產品,最新消息顯示,相關產品的上市計劃已經延後至2024年第一季度。
問題在於,H20等全新特供芯片的研發、設計、生產,完全跳出了常規芯片的節奏,英偉達是如何在短時間內拿出這套特供解決方案?
它的答案就是我們這篇文章要討論的關鍵問題之一:後道點斷生產工藝,用大家更爲常用的詞彙總結即——閹割。
按正常的設計、生產週期和產品發佈節奏來推斷,特供中國市場的H20 / L20等型號的芯片在這個時間節點發布,不太可能是重做光罩、重新投片的產物,一個相對合理的推論——即它們是通過半導體後道的物理點斷工藝的改造+再封裝,進而推出的新SKUs。
點斷工藝是半導體制造的後道工序(BEOL)中的改造方法,可以在無需重做光罩的前提下使用一些管/線修補工藝,包括表面激光點斷、CoWoS層面點斷,甚至通過隧道鏡手工雕線。
可以假定一下這樣的場景,代工英偉達H800的$台積電 (TSM.US)$南科Fab18A、臺中Fab15B和臺中先進封裝5廠的潔淨室裏,此前降規生產的幾批次裸片,還沒來得及切割、鍍上金屬線和電極,還未封裝成H800和L40S,轉而通過後道點斷生產工藝再封裝成H20、L20。
02、表面激光點斷是半導體制造傳統藝能
行業慣例來說,一顆數字邏輯芯片的緩存大小(Cache Size)、底層物理互連(PHY channels)都可以通過在後道封測環節重修/點斷做失效屏蔽處理的,尤其是針對低分數裸片的改造方法算是幾十年的傳統藝能,例如早期的奔騰、賽揚處理器的重要區別之一就是點斷緩存。
倘若是局部微小部分,曾經可以手工完成(相當於微雕);面積稍大的部分,可以重新設計Layout預留點斷位置,再由機器完成點斷失效。
實操上,通常的晶圓廠都會配置專業設備,由激光直接在裸片上切割線路/溝槽,而在亞利桑那錢德勒市的Intel Fab42工廠裏,還有直接在專用隧道鏡下面手工雕刻晶體管的設備,宣稱是原子尺度的,不同於尋常的掃描隧道顯微鏡,幾年前Intel有個宣傳視頻,提到這臺設備,據傳全球持證的操作手不超過14人。
其實在平面晶體管以前,顯微鏡手雕不算是高難度動作,但進入FinFET以後,由於垂直方向的3D柵極結構,手雕設備的代價和操作員就變得遙不可及了。
具體到H20/L20,這兩款特供產品,是如何通過H800、L40S降規而來?可以先看看相關參數:
H20:對應H100/800系列,Hopper架構(HBM3、2.5D CoWoS封裝、NVLink)
L20:對應L40S系列,Ada Lovelace架構(GDDR6,2D InFO封裝,PCIe Gen4)
*注:固件相應修改;
回顧H100/H800相同架構之間比較關鍵的底層物理互連(SerDes PHY)的差異,H100降規閹割成H800,可以通過局部物理點斷失效處理來實現;但相比之下,H20雖然與前面兩款產品同構,但推測割掉的Dark Si面積可能較大,不確定常規點斷操作是否不值得,也許需要重新做Layout。
但是除了底層物理層互連(SerDes PHY)的區別,還有雙精度浮點計算(FP64)單元面積、張量核(用於矩陣、卷積類計算任務)單元面積的區別,這部分不好定論,但可以推測是類似利用物理冗餘設計並加以屏蔽的操作,畢竟如今的設計方法學都是推動模塊化的,流片後的測試原本就會有70分 die與90分 die的區別,以及GPU芯片上也不止一個FP64,局部操作物理點斷失效也是合理的。
03、設計冗餘爲點斷創造條件,也是大廠基操
舉個例子:A、如今市面仍可見的Intel F系列CPU,就是點斷顯核的70分die;B、Apple Si的前兩代,官宣8核NPU,實際有9個,就是設計冗餘。
以上這些,在晶圓製造工序中也算是基本操作,特別是中試廠/線,Alpha - Beta流片的過渡期間,有小錯就會直接手改,不會返回修改掩膜重新流片的。
從芯片設計者的角度來看,設計冗餘度是在芯片開發流程中原本存在的,因爲前道光刻過程是強調高良率的,具體到失效晶體管數,測試環節判斷模塊級別的良率,壞點可以直接電路割斷,後續引線、封蓋工藝流程都不變。
例如3年前,Intel曾向市場推出過不帶顯核的F系列CPU,就是物理降規/閹割的產物,點斷顯核,重新封裝銷售。但是該款芯片偶爾耗電巨大,經用戶投訴,建環境驗證後發現就是原本通過物理點斷失效的顯核在接電之後不受控制而導致的莫名電源故障。
這個案例反映的情況就是我們上文所講的,同一條流水線,經過點斷失效的芯片,後續的導線/引腳和封裝過程不變,可以繼續銷售。尤其早期Intel 10nm的良率很低,積壓很多這樣的低分片,才會把顯核失效的芯片加印F標繼續銷售。
如今這個“冗餘度”可能有很大空間,畢竟H100已然是814平方毫米的大芯片,幾乎接近光罩尺寸邊緣(26mm*33mm=858mm2)。而如今發佈的H20降規型號,大概是H100 15%的性能,但是其物料成本幾近相同。
04、封裝層面點斷可操作性、經濟性更好
除了在邏輯芯片表面的激光點斷工藝之外,還有針對某些特殊位置的點斷要求,比如CoWoS中介層的點斷。
CoWoS作爲台積電的2.5D封裝方案,可以使得多顆芯片封裝到一起,互連和內存等器件均通過硅中介層互聯,達到了封裝體積小,功耗低,引腳少的效果。
相比表面激光點斷,在CoWoS的前道部分——即CoW部分是硅通孔和中介層——在該層面操作點斷,做差異化,反而更經濟,也更容易保證良率。因爲算力邏輯芯片和I/O 芯片是分列的,可以屏蔽底層物理互連的通道,也可以縮減HBM3內存性能,而且在硅中介層修改差異化更容易,相比全部在邏輯芯片上修改的代價更低,因爲中介層上操作的線寬精度可以較低,甚至點斷最上面那層金屬的線寬即可。
但是,CoWoS中介層上面是隻能夠屏蔽物理互連和HBM內存,但是無法屏蔽FP64單元、Tensor core單元這樣的計算邏輯芯片面積,這就需要補充用到前文所說的在邏輯die表面點斷失效的方法。
另外,正常情況下,物理點斷失效的電路是不能從外部第三方察覺的,且工藝不可逆;尤其如今芯片都是十幾層金屬,裸片的表面修改了,上面金屬層是看不穿的,除非是用到反工程的透視掃描。
綜上,我們看到進一步特供/降規生產的H20/L20等型號,可以判斷是H800和L40S的裸片的後道物理點斷工序的改造產物,同時重新封裝、重新修改固件,成爲新的SKUs。
回想Nvidia之前積壓的、原本銷往中國的50億美元的GPU產品尚未交付,如今返廠做了後道改造才得以如此快速的發佈新的SKU,那麼猜測國內廠商的50億美元訂單也許會轉換爲這三個型號。
05、“閹割”後的H20的能與不能
核心AI芯片相關參數及出口管制情況,APPLIES對應受管制,DOESN'T APPLY對應不受管制
如下是針對H20與H100/H800/A100的產品橫向比較,比較維度包括“產品規格、單卡和集群算力效能、物料成本、定價體系”等四個方面:
集群綜合算力方面,H100/H800目前是AIDC算力集群的頂流部署;其中H100理論擴容極限是5萬張卡集群,最多可達10萬P算力;H800最大集群是2-3萬張卡,合計4萬P算力;A100最大集群是1.6萬張卡,合計9600P算力。
然而對於H20,其集群的理論擴容極限是5萬張卡,以單卡算力0.148P(FP16/BF16)計算,集群合計提供7400P算力,遠低於H100/H800/A100。
同時,基於算力與通信均衡度預估,5萬張H20合理的整體算力中位數約爲3000P左右,倘若H20面對千億級參數模型訓練,恐怕捉襟見肘,需要集群網絡拓撲有更大的外延擴展。
但從HGX H20的硬件參數綜合來看,幾乎把美國商務部性能密度禁令中嚴格限制的算力門檻以外的指標全部拉滿,顯然是定位爲一顆訓推通用的處理器。
只是針對LLM大模型業態而言,實際使用H20做千卡分佈式訓練,雖然大部分有效利用時間都是GPU上的矩陣乘加計算的時間,通信和訪存的時間佔比縮小,但畢竟單卡算力規格較低,超限度的千卡集群擴展反而會使其費效比降低,H20更適用於垂直類模型的訓練/推理,不容易滿足千億參數級LLM的訓練需求。
需要注意的是,選用更多低規格、更廉價的GPU並聯集群,試圖追平或是超過一臺超高算力的GH200效能,這是一種悖論。
因爲這種方案的掣肘很多,環境搭建和運行的ROI並不高。因爲在算力利用率、並行策略的執行、集群綜合能耗、硬件成本和組網成本等等方面都不可能獲得理想方案;H20集群與A800集群效能可以同比,對比H100/GH200集群效能則是不實際的。
H20的基本規格方面,算力水平約等於50% A100和15% H100,單卡算力是0.148P(FP16)/ 0.296P(Int8),900GB/S NVLink,6顆HBM3e(顯存的物料與H100 SXM版本配置相同,即6*16GB=96GB容量),die size同樣都是814mm2 。
考慮到H100 GPU單卡物料成本中的HBM顆粒成本獨佔55%-60%,整卡的物料成本約3320美元(H20成本相近,甚至由於增配的L2 Cache以及追加了點斷工序而成本更高,且相比H800更加增配了HBM3容量和NVLink lanes帶寬),那麼對應最終的渠道定價規則,H20的渠道單價可能與H100/H800處於相近水平。
同比參考幾個市面流通價格(來自某一線互聯網公司和某一線服務器廠的渠道貨價):
- DGX A800 PCIe 8卡服務器約145萬元/臺,NVLink版本200萬元/臺
- DGX H800 NVLink版本服務器,國內渠道報價約310萬元/臺(不含IB)
- DGX H100 NVLink版本服務器,香港渠道報價約45萬美元/臺(不含IB)
- H100 PCIe單卡報價約2.5-3萬美元,H800 PCIe單卡尚不確定,且單卡流通渠道不正規
編輯/jayden