文 | 半導體產業縱橫
最近機構把博通(Broadcom)ASIC/DSA的概念炒的很熱。根據摩根士丹利預測,高端定製ASIC芯片市場規模將在200億至300億美元之間,年複合增長率(CAGR)爲20%。(編者:DSA不僅沒「死」,而且迸發出更強的力量)目前博通和Marvell兩家公司佔據60%以上的市場份額。其中博通佔據約 55-60% 的市場份額,且增長率超過英偉達;Marvell 緊隨其後,佔據約 13-15% 的市場份額。
博通在數據中心和網絡增長率超過英偉達(來源:Internet Plus-related)
但是,撥開ASIC概念的面紗,一個產品或企業是否能持續向上發展,更要看技術和產品的本質或基本面。不是所有的GPGPU都叫英偉達:很多非英偉達的GPU企業,在實際的大模型部署中並未受到市場的熱捧。同樣,不是所有的ASIC都叫博通定製AI芯片。博通已經具備了其他ASIC/DSA企業不具備的關鍵優勢,其他的AI ASIC企業在短期內還難以衝擊博通的產業地位。本文將對博通的優勢進行技術底層的深度分析。
01
ASIC/DSA與博通的領先優勢
1.1 ASIC和DSA的概念
與CPU、GPGPU等通用集成電路不同,ASIC(Application Specific Integrated Circuit)是專門爲特定應用設計的集成電路。在應用和算法不變的前提下,ASIC一般具有高效能、低功耗和低成本的優勢。
ASIC成爲數字貨幣挖礦的首選(來源:chipstrat)
例如在數字貨幣領域,挖礦算法相對穩定,ASIC礦機表現出比傳統GPU更理想的能效比和性價比,在2013年之後成爲數字貨幣挖礦的首選。
相對ASIC這種傳統的叫法,現在業內更習慣把博通AI專用加速芯片歸類爲DSA。領域專用加速器(Domain Specific Accelerator,DSA)是指爲特定領域或應用定製的加速器。一方面,針對雲場景的博通AI芯片不僅僅面向某個特定應用(例如聊天、辦公處理、圖像識別),更多的時候要處理包含多個應用範疇的AI領域的計算加速;另一方面,博通給其AI芯片架構起名XPU,也預示着其AI芯片將具備一定的領域通用性。
博通累積的定製芯片設計經歷(來源:博通)
1.2 博通定製AI芯片的優勢
根據JP摩根的說法,在Google、Meta、字節跳動之後,OpenAI也成了博通AI DSA的客戶。這些客戶將與博通合作開發下一代XPU架構,該架構基於3nm/2nm和3D SOIC技術(注:博通提供的SOIC爲大寫,與TSMC的SoIC寫法不同);同時該架構將集成博通的200Gbps/Channel SerDes技術。
根據這一分析,博通AI DSA的主要優勢應包括:
1.博通爲Google定製數代TPU的設計流程與優化技術;
2.博通的3D/3.5D SOIC技術;
3.博通的高速互連與CPO技術。
博通XPU的核心技術(來源:博通)
我們可以看到,同時掌握這幾個核心技術的,全世界恐怕也只有博通。包括英偉達在3D IC技術方面還沒有特別具體的公開進展。換句話說,博通的這些客戶大概率是希望通過與博通合作獲得高配版的TPU方案。
2D到4D先進封裝集成技術(來源:Internet Plus-related)
02
DSA定製加速芯片與Trillium TPU
2.1 基本架構
根據博通公開的信息,定製AI芯片(XPU)的架構由其客戶決定,博通會提供相應的設計流程和性能優化技術。
由於博通已公開的信息有限,那了解博通定製加速芯片技術的最好參照就是Google的Trillium TPU,也就是TPU v6。
TPU架構圖與性能提升(來源:Nextplatform)
相較前一代TPU,4nm工藝的Trillium TPU具備以下改進:
預測的Trillium TPU架構(將TPUv5e鏡像並形成Virtual Core)
預計博通爲Google等客戶同時提供了Matirx計算單元的定製設計及其與HBM的接口IP(主要是PHY)。根據上面的性能提升分析,可以大致推斷博通在定製加速芯片方面的關鍵優勢在於矩陣計算單元的電路優化和矩陣單元之間的互連性能提升。
2.2 博通定製設計技術的積累
乍一看,似乎博通有的別家也都有。但如果深入分析,就可以看到博通在這幾年的發展中已經積累了大量的成體系的高性能計算/互連IP核和相關技術。
博通定製技術能力與IP核(來源:博通)
按照博通的公開信息,除了傳統的CPU/DSP IP核外,博通還具有交換、互連接口、存儲接口等關鍵IP核。這些成體系的IP核可以幫助博通降低ASIC/DSA產品成本和研發週期,特別是降低不同IP核聯合使用的設計風險。
Google、Meta等企業也具備足夠的芯片設計能力,但對他們來說,採用博通的成體系的IP核設計高性能AI芯片可以更省錢更節約時間。僅就這一點,就已形成了博通獨特的護城河。
03 3.5D XDSiP架構技術
3.1 3.5D XDSiP概況
博通的第二個殺手鐧就是3.5D XDSiP技術。
隨着芯片越做越大,光刻技術線寬越來越逼近原子尺度。算力芯片的性能提升也逐漸變緩。
工藝提升變緩導致XPU性能提升變緩(來源:博通)
爲了對抗工藝進步變緩帶來的技術挑戰。博通準備的方案是在原有2.5D方案基礎之上堆疊計算核心的3.5D SiP技術。據傳博通正爲客戶開發五種以上的 3.5D 產品,並將於2026 年2月開始生產發貨。(消息來源:eenewseurope.com)
3.5D 與2.5D技術對比(來源:博通)
在3.5D XDSiP技術中,博通整合了3D IC、2.5D CoWoS、D2D(Die to Die互連)等技術。
在每個3.5D XPU中,可集成了超過6000mm²的芯片面積和多組HBM:
1)2個計算大核(圖中Compute Core),分別堆疊在具備D2D和HBM接口的2個邏輯Die上;
2)每個邏輯Die與4組HBM連接
3)每個邏輯Die與IO Die通過D2D互連;
4)每個IO Die包括 100GE/200GE互連(網絡/交換機)與PCIe Gen5/6接口;
5)2組計算核心形成一個Virtual Core,剛好與Trillium TPU的Virtual Core對應。
6)計算大核與邏輯Die通過Face to Face(Top Metal對Top Metal)方式進行鍵合。F2F的好處在於兩個Die之間的高速互連無需通過TSV。
3.2 3.5D IC與F2F 技術
先進存儲集成方案與發展預測(來源:中存算)
業內最先進的封裝/集成技術正在從3D過渡到3.5D。3.5D技術包括了三維堆疊和平行的基於Interposer/封裝基板擴展。理想情況下,3D IC是2D SoC的最佳擴展方案,但在實際設計中一些3D IC遇到了過於集中的散熱挑戰。因此結合了2.5D和3D架構的3.5D IC方案被研發出來,其本質是散熱與集成度的折衷方案。
三星的3.5D方案(最右,來源:三星)
3.5D IC技術的特點包括:
1.提供足夠的物理空間分離以有效解決散熱和串擾問題。
2.提供了異質集成方法,特別是添加更多大容量SRAM存儲的方法。在先進工藝中,大容量SRAM不再以與數字晶體管以相同的密度Scaling down,更適合通過垂直堆疊Die來增加大容量SRAM面積。
3.通過提升互連接口密度和互連區域總面積,3.5D可縮短信號傳輸距離,並提高處理速度。
其中2)和3)對於大模型所需的大容量存儲和高速數據交互至關重要,有助於計算系統的Scale up(向上性能擴展)。
相對3D IC方案,3.5D方案將高密度熱量分散開,等效於增大散熱面積,避免了HBM和CPO(共光學封裝)與計算Die的熱量垂直疊加。
博通3.5D方案另外一個典型的特點是Face to Face(面對面,F2F)堆疊結構。與F2B(Face to Back)技術相比,F2F結構無需再通過高高大大的TSV進行Die間的信號傳輸,減少了寄生電容與電阻,將堆疊Die之間信號密度的提高約7倍,同時使用Top Metal直連代替Die之間的PHY,將3D堆疊的接口功耗降低了約10倍。
Face to Back與 Face to Face鍵合方式對比(來源:博通)
3.3 3D/3.5D IC技術產業鏈與設計挑戰
可能3D/3.5D看起來只是比2D/2.5D加了1,但實際上產業鏈整合難度和設計挑戰升級不小。目前3D/3.5D IC方案並未形成標準,方案多樣化,需要嚴格按照不同供應鏈條的設計要求進行,且缺乏成熟標準的EDA設計工具與參考流程。換句話說,無論是巨頭還是創企在3D/3.5D IC領域都還處於摸着石頭過河的階段。
3D/3.5D IC產業鏈(來源:中存算)
對芯片設計企業來說,除了在2D/2.5D芯片設計中需要面對的電源與信號完整性挑戰外(3D/3.5D的電源與信號完整性挑戰更加苛刻),還需要面對TSV冗餘/修復、3D/3.5D立體佈局佈線和立體結構熱分析的挑戰。特別是散熱問題在3D/3.5D芯片中可能引發晶圓形變,導致芯片失效和良率大幅下降。
3D/3.5D IC(包括3D/3.5D存算一體芯片)設計的挑戰(來源:中存算)
如果想要達到博通定製AI芯片的水平,在3D/3.5D設計能力方面需要進行非常多的積累,這也不是一般的ASIC企業能完成的。
04 光互連CPO技術
4.1 Scale up與Scale out面臨的挑戰
僅在單台服務器上運行AI計算,目前已經很難滿足大模型不斷增長的訓練和集群數據存儲/處理要求。集群設計者往往面臨兩種不同的方案:使用更強的處理器/芯片和更大的存儲進行垂直擴展(Scale up),或將工作負載分配到能夠滿足其性能需求的新服務器上進行水平擴展(Scale out)。
Scale up與Scale out
對於算力芯片,單個Die的面積受到光刻尺度的限制。單純的Scale up事實上面臨半導體設備製造能力的限制。如果要在長程範圍集成更強大的算力/存力(Scale out),就需要藉助更高帶寬的光互連技術。這也是目前光模塊在計算集群中廣泛使用的重要原因。
但是,PCB互連和卡間互連的信號損耗、延遲功耗都遠大於Die內。400G、800G光模塊的功耗約爲10W/15W。對於48口交換機,功耗就是48×15=720W。在一些計算服務器集群,光模塊佔據30%-50%以上功耗,並佔據較大比例的通信延遲。大功率的電氣連接同時在連接器上導致了嚴重的信號完整性問題。
4.2 CPO技術簡介
傳統PCB與卡間互連的信號損耗遠大於Die內(來源:博通)
光互連功耗佔比逐年提升(來源:George@fs.com)
博通解決Scale out問題的殺手鐧就是光互連技術,確切的說是片上可集成CPO(Co-Packaging Optics)技術。
共封裝光學 (CPO) 是一種將光學和硅異質集成在單個封裝基板上的技術,可將光學器件直接集成到芯片封裝中。該技術旨在解決下一代互連帶寬和功率挑戰。CPO將光學引擎下移到交換或計算芯片附近,減少了金屬導線(例如PCB銅線)傳輸距離,其佔用空間、帶寬密度、能源成本、延遲比可插拔光學器件更好。
2.5D/3D CPO與光模塊、OBO、NPO的對比(來源:ALPHAWAVE SEMI)
CPO具備如下特點或優勢,使得CPO成爲數據密集型AI和HPC應用的理想方案:
1.減少銅線傳輸損耗。與可插拔光學器件不同,CPO信號(從計算Die)無需通過損耗大的銅線鏈路穿過電路板到達板卡或服務器接口面板。與之相反,CPO將光纖直接連接到計算Die/芯片邊緣,從而實現芯片和光纖之間的短距離、低損耗通信。
2.減少了數字信號處理器 (DSP)。基於DSP 的重定時器已成爲高速可插拔光學器件中必備的組件,DSP會使整個系統功率提高 25-30%。在CPO中,由於消除了銅互連損耗,可以無需DSP進行主動分析和補償信號衰減。
3.高帶寬和低延遲。由於減少了銅線傳輸損耗和DSP傳輸延遲,CPO可以實現更高的帶寬和更低的延遲。
4.更好的信號完整性和更低的誤碼率。與傳統光通信系統相比,CPO通過減少電氣連接和信號轉換,降低了信號衰減和干擾的可能性。這提高了數據傳輸質量和信號完整性,降低誤碼率並提高系統可靠性。
我們結合完整的3.5D剖面結構來看,CPO的光學部分與HBM結構對稱。通過Interposer或substrate與計算Die連接,這種方案的互連代價遠小於現有的光模塊方案。
CPO與3.5D集成工藝結合(來源:台積電)
4.3 博通的CPO技術特點
根據已公開資料,博通的CPO設計能力涵蓋了TH4-Humboldt和TH5-Baily兩種。作爲製造商,台積電預計在2025年下半年將CPO投入量產,爲博通提供1.6T光傳輸產品。除了博通外,英偉達也是台積電CPO的首批客戶,使用CPO技術爲NVLink升級。
TH4-Humboldt等2.5D集成將 PIC(光學IC)和 EIC(電學IC)並排倒裝放置在Interposer上,保持了類似於3D集成的互連性能和密度。TH5-Baily等3D集成將PIC放置在EIC之上,提供更高的互連密度,同時也會引入更復雜的熱設計挑戰。
博通的兩種CPO方案(來源:博通)
以博通的典型CPO方案爲例,整體封裝結構爲CoWoS,計算Die(ASIC)通過Interposer/Package Substrate與CPO互連,互連接口爲高速IO(例如Serdes/D2D)。
博通CPO+ASIC/DSA+HBM結構(來源:博通)
4.4 CPO方案的設計難度與擴展
當然CPO設計並不簡單,想要進入CPO設計領域需要很強的資金實力和技術儲備。對於典型的CPO設計來說,完整的設計流程/挑戰包括:
1.計算Die高速接口IP/波形矯正電路設計能力
2.混合信號接口IC設計能力
3.光學器件製造/集成能力
4.2.5D/3D測試方案與集成方案設計能力
5.硅光電路設計能力
CPO方案的設計挑戰(來源:博通)
博通在2021年就爲其交換機制定了CPO路線。到2024年才形成完整的CPO設計方案。如此看來,想成爲博通定製AI芯片,絕大部分海外廠商還需要在CPO集成設計能力方面下大工夫。
除了計算Die與交換機互連外,預計博通也計劃使用CPO實現CPU和GPU到各種設備的直連,實現資源池化和設備間的內存共享。CPO技術與3.5D IC技術具備天然的整合優勢,或許CPO+3.5D IC會成爲未來大算力AI芯片的標配之一。
博通的CPO方案佈局(來源:博通)
05 DSA與GPGPU的名利場
按照牧本定律,半導體芯片會在通用化/標準化和定製的兩種相反趨勢振盪,這一振盪週期約爲10年。大概10年前,Alexnet算法一鳴驚人,帶飛了英偉達GPGPU的銷量。那麼,10年後的今天,博通已經擁有除了生態之外的AI芯片的頂級技術。在博通股價大漲之後,估計很多人會有一個疑問:博通定製AI芯片是否能夠以定製AI芯片成爲新的主流呢 ?
牧本定律
我們分析,這一問題的答案主要取決於2點:
1.大模型算法架構是否會止步於Transformer。目前Transformer架構的競爭者包括北美的Mamba和中國的RWKV。這兩者都以RNN+長程注意力機制的方式試圖減小巨大KV Cache帶來的計算成本上升,在長序列處理方面具有顯著優勢。初步預測,要麼Transformer在3-5年內有巨大升級,要麼Mamba/ RWKV等新架構代替Transformer。
2.英偉達是否會自廢內功更多的擁抱ASIC/DSA思路。事實上在早期的V100架構中,英偉達就已經引入了類似DSA的TensorCore,以提升傳統GPGPU的GEMM性能。現在,面對新的挑戰,據稱英偉達專門成立了ASIC設計部門,目前尚無法確定英偉達是否會更多的採用DSA的思路來縮減傳統GPU的計算單元。
但不管怎麼說,想成爲AI芯片這個領域的「武林盟主」,在3.5D IC和光互連方面都要有「幾把刷子」。以往的ASIC/GPU積累,正成爲人人都有的常規技術,只有不斷的產業創新,才能坐穩算力霸主的位子。
——————————————————
【鈦媒體作者介紹】
陳巍博士
AI芯片+大模型,高級職稱,中國計算機學會(CCF)專委委員,國際計算機學會(ACM)會員。曾擔任領域華X系AI企業(自然語言處理)首席科學家、國際存儲大廠3DNAND芯片團隊/架構負責人、中科院副主任(SoC/IP核),畢業於清華大學,個人中國發明專利、美國發明專利與軟體著作權70+項,著有Sora視頻大模型與GPT-4相關著作。
曾帶隊完成:
- 國內首個醫療領域專用AI處理器
- 首個RISC-V/x86/ARM平台兼容的AI加速編譯器
- 國內首個3D 存儲器芯片架構與設計團隊建立(對標三星,已成爲國家級存儲企業的前置工作)
- 國內首個嵌入式閃存平台與編譯器(對標台積電/SST,該平台流片量數十億顆)
評論(0)
請選擇舉報原因