来源:锦缎
作者:由我、苏扬
DeepSeek带动推理需求爆发,$英伟达 (NVDA.US)$的“算力霸权”被撕开一道口子,一个新世界的大门逐渐打开——由ASIC芯片主导的算力革命,正从静默走向喧嚣。
日前,芯流智库援引知情人士的消息,称DeepSeek正在筹备AI芯片自研。相比这个后起之秀,国内大厂如 $阿里巴巴 (BABA.US)$ 、$百度 (BIDU.US)$、字节们更早就跨过了“自研”的大门。
大洋彼岸,OpenAI自研芯片的新进展也在年初释出,外媒披露$博通 (AVGO.US)$为其定制的首款芯片几个月内将在$台积电 (TSM.US)$流片。
此前更是一度传出Sam Altman计划筹集70000亿美元打造“芯片帝国”,设计与制造通吃。此外, $谷歌-C (GOOG.US)$ 、$亚马逊 (AMZN.US)$、$微软 (MSFT.US)$、 $Meta Platforms (META.US)$ 也都先后加入了这场“自研热潮”。
一个明显的信号是——无论DeepSeek、OpenAI,还是中国公司和硅谷大厂,谁都不希望在算力时代掉队。而ASIC芯片,可能会成为他们跨越新世界大门的入场券。
这会不会“杀死”英伟达?或者,会不会“再造”第二个英伟达?现在还没有答案。
不过可以明确的是,这场轰轰烈烈的“自研浪潮”,其上游的产业链企业已经“春江水暖鸭先知”,例如给各家大厂提供设计定制服务的博通,业绩已经“起飞”:2024年AI业务收入同比240%,达到37亿美元;2025Q1AI业务营收41亿美元,同比增77%;其中80%来自ASIC芯片设计。
在博通的眼里,ASIC芯片这块蛋糕,价值超过900亿美元。
1、从GPU到ASIC,算力经济学走向分水岭
低成本是AI推理爆发的必要条件,与之相对的是——通用GPU芯片成了AI爆发的黄金枷锁。
英伟达的H100和A100是大模型训练的绝对王者,甚至连B200、H200也让科技巨头们趋之若鹜。金融时报此前援引Omdia的数据,2024年,英伟达Hopper架构芯片的主要客户包括微软、Meta、$特斯拉 (TSLA.US)$/xAI等,其中微软的订单量达到50万张。
但是,作为通用GPU的绝对统治者,英伟达产品方案其“硬币的另一面”已逐渐显现:高昂的成本与冗余的能耗。
成本方面,单个H100售价超3万美元,训练千亿参数模型需上万张GPU,再加上网络硬件、存储和安全等后续的投入,总计超5亿美元。根据汇丰的数据,最新一代的GB200 NVL72方案,单机柜超过300万美元,NVL36也在180万美元左右。
可以说,基于通用GPU的模型训练太贵了,只不过是算力不受限制的硅谷,仍然偏向于“力大砖飞”的叙事,资本支出并未就此减速。就在日前,马斯克旗下xAI,不久之前公布的Grok-3,训练的服务器规模,已经达到了20万张GPU的规模。
超大规模数据中心运营商预计2024年资本支出(CapEx)超过 2000亿美元,到2025年这一数字预计将接近2500亿美元,且主要资源都将倾斜给人工智能。
能耗方面,根据SemiAnalysis的测算,10万卡H100集群,总功耗为150MW,每年耗费1.59TWh的电量,按0.078美元/千瓦时计算,每年电费高达1.239亿美元。
对照OpenAI公布的数据,推理阶段GPU的算力利用率仅30%-50%,“边算边等”现象显著,如此低效的性能利用率,在推理时代,确实是大材小用,浪费过于严重。
谷歌此前公布的TPU V4与A100针对不同架构模型的训练速度性能领先、价格昂贵,效率不佳,外加生态壁垒,过去一年业内都在喊“天下苦英伟达久矣”——云厂商逐渐丧失硬件自主权,叠加供应链风险,再加上AMD暂时还“扶不起来”,诸多因素倒逼巨头开始自研ASIC专用芯片。
自此,AI芯片战场,从技术竞赛转向经济性博弈。
正如西南证券的研究结论,“当模型架构进入收敛期,算力投入的每一美元都必须产出可量化的经济收益。”
从北美云厂商最近反馈的进展看,ASIC已体现出一定的替代优势:
谷歌:博通为谷歌定制的TPU v5芯片在Llama-3推理场景中,单位算力成本较H100降低70%。
亚马逊:3nm制程的AWS Trainium 3,同等算力下能耗仅为通用GPU的1/3,年节省电费超千万美元;据了解,亚马逊Trainium芯片2024年出货量已超50万片。
微软:根据IDC数据,微软Azure自研ASIC后,硬件采购成本占比从75%降至58%,摆脱长期被动的议价困境。
作为北美ASIC链的最大受益者,博通这一趋势在数据中愈发显著。
博通2024年AI业务收入37亿美元,同比增240%,其中80%来自ASIC设计服务。2025Q1,其AI业务营收41亿美元,同比增77%,同时预计第二季度AI营收44亿美元,同比增44%。
早在年报期间,博通指引2027年ASIC收入将大爆发,给市场画了3年之后ASIC芯片将有望达到900亿美元的市场规模这个大饼。Q1电话会期间,公司再次重申了这一点。
凭借这个大的产业趋势,博通也成为全球继英伟达、台积电之后,第三家市值破1万亿美元的半导体公司,同时也带动了海外对于Marvell、AIchip等公司的关注。
图:市面主流GPU与ASIC算力成本对比 资料来源:西南证券不过,有一点需要强调——“ASIC虽好,但也不会杀死GPU”。
微软、谷歌、Meta都在下场自研,但同时又都在抢英伟达B200的首发,这其实说明了双方之间不是直接的竞争关系。
更客观的结论应该是,GPU仍将主导高性能的训练市场,推理场景中由于GPU的通用性仍将是最主要的芯片,但在未来接近4000亿美元的AI芯片蓝海市场中,ASIC的渗透路径已清晰可见。
IDC预测,2024-2026年推理场景中,ASIC占比从15%提升至40%,即最高1600亿美元。
这场变革的终局或许是:ASIC接管80%的推理市场,GPU退守训练和图形领域。真正的赢家将是那些既懂硅片、又懂场景的“双栖玩家”,英伟达显然是其中一员,看好ASIC断然不是唱空英伟达。
而新世界的指南,是去寻找除英伟达之外的双栖玩家,如何掘金ASIC新纪元。
2、ASIC的“手术刀”:非核心模块,通通砍掉
CPU、GPU用户早已耳熟能详,FPGA应用市场小众,最为陌生的当属ASIC。
特性 | CPU | GPU | FPGA | ASIC |
定制化程度 | 通用 | 半通用 | 半定制化 | 全定制化 |
灵活性 | 高 | 高 | 高 | 低 |
成本 | 较低 | 高 | 较高 | 低 |
功耗 | 较高 | 高 | 较高 | 低 |
主要优点 | 通用性最强 | 计算能力强,生态成熟 | 灵活强较高 | 能效最高 |
主要缺点 | 并行算力弱 | 功耗较大,编程难度较大 | 峰值计算能力弱,编程难度较难 | 研发时间长,技术风险高 |
应用场景 | 较少用于AI | 云端训练和推理 | 云端推理,终端推理 | 云端训练和推理,终端推理 |
图:算力芯片对比 资料来源:中泰证券
那么,都说ASIC利好AI推理,究竟它是一个什么样的芯片?
从架构上来说, GPU这样的通用芯片,其局限在于“以一敌百”的设计——需要兼顾图形渲染、科学计算、不同的模型架构等多元需求,导致大量晶体管资源浪费在非核心功能模块。
英伟达GPU最大的特点,就是有众多“小核”,这些“小核”可以类比成猎鹰火箭多台发动机,开发者可以凭借CUDA多年积累的算子库,平稳、高效且灵活地调用这些小核用于并行计算。
但如果下游模型相对确定,计算任务就是相对确定的,不需要那么多小核来保持灵活性,ASIC最底层的原理正是如此,所以也被称为全定制化高算力芯片。
通过 “手术刀式”精准裁剪,仅保留与目标场景强相关的硬件单元,释放出惊人的效率,这在谷歌、亚马逊都已经在产品上得到了验证。
谷歌TPU v5e AI加速器实拍对于GPU来说,调用它们最好的工具是英伟达的CUDA,而对于ASIC芯片,调用它们的是云厂商自研的算法,这对于软件起家的大厂来说,并不是什么难事:
谷歌TPU v4中,95%的晶体管资源用于矩阵乘法单元和向量处理单元,专为神经网络计算优化,而GPU中类似单元的占比不足60%。
不同于传统冯·诺依曼架构的“计算-存储”分离模式,ASIC可围绕算法特征定制数据流。例如在博通为Meta定制的推荐系统芯片中,计算单元直接嵌入存储控制器周围,数据移动距离缩短70%,延迟降低至GPU的1/8。
针对AI模型中50%-90%的权重稀疏特性,亚马逊Trainium2芯片嵌入稀疏计算引擎,可跳过零值计算环节,理论性能提升300%。
当算法趋于固定,对于确定性的垂直场景,ASIC就是具有天然的优势,ASIC设计的终极目标是让芯片本身成为算法的“物理化身”。
在过去的历史和正在发生的现实中,我们都能够找到ASIC成功的力证,比如矿机芯片。
早期,行业都是用英伟达的GPU挖矿,后期随着挖矿难度提升,电力消耗超过挖矿收益(非常类似现在的推理需求),挖矿专用ASIC芯片爆发。虽然通用性远不如GPU,但矿机ASIC将并行度极致化。
例如,比特大陆的$比特币 (BTC.CC)$矿机ASIC,同时部署数万个SHA-256哈希计算单元,实现单一算法下的超线性加速,算力密度达到GPU的1000倍以上。不仅专用能力大幅提升,而且能耗实现了系统级节省。
此外,使用ASIC可精简外围电路(如不再需要PCIe接口的复杂协议栈),主板面积减少40%,整机成本下降25%。
低成本、高效率,支持硬件与场景深度咬合,这些ASIC技术内核,天然适配AI产业从“暴力堆算力”到“精细化效率革命”的转型需求。
随着推理时代的到来,ASIC成本优势将重演矿机的历史,实现规模效应下的“死亡交叉”——尽管初期研发成本高昂(单芯片设计费用约5000万美元),但其边际成本下降曲线远陡于通用GPU。
以谷歌TPU v4为例,当出货量从10万片增至100万片时,单颗成本从3800美元骤降至1200美元,降幅接近70%,而GPU的成本降幅通常不超过30%。根据产业链最新信息,谷歌TPU v6预计2025年出货160万片,单片算力较前代提升3倍,ASIC的性价比,还在快速提升。
这又引申出一个新的话题,是否所有人都可以涌入自研ASIC大潮中去?这取决于自研成本与需求量。
按照7nm工艺的ASIC推理加速卡来计算,涉及IP授权费用、人力成本、设计工具、掩模板在内的一次流片费用等,量级可能就在亿元的级别,还不包括后期的量产成本。在这方面,大厂更具有资金优势。
目前,像谷歌、亚马逊这样的云厂商,因为有成熟的客户体系,能够形成研发、销售闭环,自研上拥有先天的优势。
Meta这种企业,自研的逻辑则在于内部本身就有天量级的算力需求。今年初,扎克伯格就曾透露,计划在2025年上线约1GW的计算能力,并在年底前拥有超过130万张GPU。
3、“新地图”价值远不止1000亿美元
仅仅是挖矿需求就带来了近100亿美元的市场,所以当博通2024年底喊出AI ASIC市场空间700-900亿美元的时候,我们并不意外,甚至认为可能这个数字都保守了。
现在,ASIC芯片的产业趋势不应当再被质疑,重点应该是如何掌握“新地图”的博弈法则。
近千亿美元的AI ASIC市场中,已经形成清晰的三大梯队——“制定规则的ASIC芯片设计者和制造者” 、“产业链配套”、“垂直场景下的Fabless”。
第一梯队,是制定规则的ASIC芯片设计者和制造者,他们可以制造单价超过1万美元的ASIC芯片,并与下游的云厂商合作商用,代表玩家有博通、Marvell、AIchip,以及不管是什么先进芯片都会受益的代工王者——台积电。
第二梯队,产业链配套,已经被市场关注到的配套逻辑包括先进封装与更下游的产业链。
先进封装:台积电CoWoS产能的35%已转向ASIC客户,国产对应的$中芯国际 (00981.HK)$、$长电科技 (600584.SH)$、$通富微电 (002156.SZ)$等。
云厂商英伟达硬件方案解耦带来的新硬件机会:如AEC铜缆,亚马逊自研单颗ASIC需配3根AEC,若2027年ASIC出货700万颗,对应市场超50亿美元,其他还包括服务器、PCB均是受益于相似逻辑。
第三梯队,是正在酝酿的垂直场景的Fabless。ASIC的本质是需求驱动型市场,谁能最先捕捉到场景痛点,谁就掌握定价权。ASIC的基因就是定制化,与垂直场景天然适配。以智驾芯片为例,作为典型的ASIC芯片,随着比亚迪等All in智驾,这类产品开始进入爆发期。
映射全球ASIC产业链三大梯队对应的机会,可以看作是国产的“三把秘钥”。
受制于禁令的限制,国产GPU与英伟达的差距仍然巨大,生态建设也是一个漫长的路程,但是对于ASIC,我们甚至与海外在同一起跑线上,再结合垂直场景,中国不少Fabless能够做出更有能效比的产品,前面提及的矿机ASIC、智驾ASIC以及阿里平头哥的含光、百度的昆仑芯这些AI ASIC。
与之配套的芯片制造,主要依赖中芯国际,中兴旗下的中兴微等则是新入场的“玩家”,不排除未来他们将与国内厂商合作,上演一场“谁将是中国博通”的戏码。
英伟达主要上游供应商,来源Fubon Research
GB200 NV72L机柜的总长接近2英里的NVlink Spine铜缆
产业链配套部分难度相对较低,对应的服务器、光模块、交换机、PCB、铜缆,由于技术难度低,国内企业本来竞争力就比较强。与此同时,这些产业链企业与国产算力属于“共生”关系,ASIC芯片产业链也不会缺席。
应用场景上,除了反复提及的智驾芯片和AI推理加速卡,其他国产设计公司的机会,取决于什么场景能爆发,对应哪些公司又能把握住机遇。
4、结语
当AI从大力出奇迹的训练军备竞赛,跃进推理追求能效的深水区,算力战争的下半场注定属于那些能将技术狂想,转化为经济账本的公司。
ASIC芯片的逆袭,不仅是一场技术革命,更是一本关于效率、成本和话语权的商业启示录。
在这场新的牌局中,中国选手的筹码正在悄然增加——机会永远留给准备好的人。
编辑/rice
來源:錦緞
作者:由我、蘇揚
DeepSeek帶動推理需求爆發,$英偉達 (NVDA.US)$的「算力霸權」被撕開一道口子,一個新世界的大門逐漸打開——由ASIC芯片主導的算力革命,正從靜默走向喧囂。
日前,芯流智庫援引知情人士的消息,稱DeepSeek正在籌備AI芯片自研。相比這個後起之秀,國內大廠如 $阿里巴巴 (BABA.US)$ 、$百度 (BIDU.US)$、字節們更早就跨過了「自研」的大門。
大洋彼岸,OpenAI自研芯片的新進展也在年初釋出,外媒披露$博通 (AVGO.US)$爲其定製的首款芯片幾個月內將在$台積電 (TSM.US)$流片。
此前更是一度傳出Sam Altman計劃籌集70000億美元打造「芯片帝國」,設計與製造通吃。此外, $谷歌-C (GOOG.US)$ 、$亞馬遜 (AMZN.US)$、$微軟 (MSFT.US)$、 $Meta Platforms (META.US)$ 也都先後加入了這場「自研熱潮」。
一個明顯的信號是——無論DeepSeek、OpenAI,還是中國公司和硅谷大廠,誰都不希望在算力時代掉隊。而ASIC芯片,可能會成爲他們跨越新世界大門的入場券。
這會不會「殺死」英偉達?或者,會不會「再造」第二個英偉達?現在還沒有答案。
不過可以明確的是,這場轟轟烈烈的「自研浪潮」,其上游的產業鏈企業已經「春江水暖鴨先知」,例如給各家大廠提供設計定製服務的博通,業績已經「起飛」:2024年AI業務收入同比240%,達到37億美元;2025Q1AI業務營收41億美元,同比增77%;其中80%來自ASIC芯片設計。
在博通的眼裏,ASIC芯片這塊蛋糕,價值超過900億美元。
1、從GPU到ASIC,算力經濟學走向分水嶺
低成本是AI推理爆發的必要條件,與之相對的是——通用GPU芯片成了AI爆發的黃金枷鎖。
英偉達的H100和A100是大模型訓練的絕對王者,甚至連B200、H200也讓科技巨頭們趨之若鶩。金融時報此前援引Omdia的數據,2024年,英偉達Hopper架構芯片的主要客戶包括微軟、Meta、$特斯拉 (TSLA.US)$/xAI等,其中微軟的訂單量達到50萬張。
但是,作爲通用GPU的絕對統治者,英偉達產品方案其「硬幣的另一面」已逐漸顯現:高昂的成本與冗餘的能耗。
成本方面,單個H100售價超3萬美元,訓練千億參數模型需上萬張GPU,再加上網絡硬件、存儲和安全等後續的投入,總計超5億美元。根據匯豐的數據,最新一代的GB200 NVL72方案,單機櫃超過300萬美元,NVL36也在180萬美元左右。
可以說,基於通用GPU的模型訓練太貴了,只不過是算力不受限制的硅谷,仍然偏向於「力大磚飛」的敘事,資本支出並未就此減速。就在日前,馬斯克旗下xAI,不久之前公佈的Grok-3,訓練的服務器規模,已經達到了20萬張GPU的規模。
超大規模數據中心運營商預計2024年資本支出(CapEx)超過 2000億美元,到2025年這一數字預計將接近2500億美元,且主要資源都將傾斜給人工智能。
能耗方面,根據SemiAnalysis的測算,10萬卡H100集群,總功耗爲150MW,每年耗費1.59TWh的電量,按0.078美元/千瓦時計算,每年電費高達1.239億美元。
對照OpenAI公佈的數據,推理階段GPU的算力利用率僅30%-50%,「邊算邊等」現象顯著,如此低效的性能利用率,在推理時代,確實是大材小用,浪費過於嚴重。
谷歌此前公佈的TPU V4與A100針對不同架構模型的訓練速度性能領先、價格昂貴,效率不佳,外加生態壁壘,過去一年業內都在喊「天下苦英偉達久矣」——雲廠商逐漸喪失硬件自主權,疊加供應鏈風險,再加上AMD暫時還「扶不起來」,諸多因素倒逼巨頭開始自研ASIC專用芯片。
自此,AI芯片戰場,從技術競賽轉向經濟性博弈。
正如西南證券的研究結論,「當模型架構進入收斂期,算力投入的每一美元都必須產出可量化的經濟收益。」
從北美雲廠商最近反饋的進展看,ASIC已體現出一定的替代優勢:
谷歌:博通爲谷歌定製的TPU v5芯片在Llama-3推理場景中,單位算力成本較H100降低70%。
亞馬遜:3nm製程的AWS Trainium 3,同等算力下能耗僅爲通用GPU的1/3,年節省電費超千萬美元;據了解,亞馬遜Trainium芯片2024年出貨量已超50萬片。
微軟:根據IDC數據,微軟Azure自研ASIC後,硬件採購成本佔比從75%降至58%,擺脫長期被動的議價困境。
作爲北美ASIC鏈的最大受益者,博通這一趨勢在數據中愈發顯著。
博通2024年AI業務收入37億美元,同比增240%,其中80%來自ASIC設計服務。2025Q1,其AI業務營收41億美元,同比增77%,同時預計第二季度AI營收44億美元,同比增44%。
早在年報期間,博通指引2027年ASIC收入將大爆發,給市場畫了3年之後ASIC芯片將有望達到900億美元的市場規模這個大餅。Q1電話會期間,公司再次重申了這一點。
憑藉這個大的產業趨勢,博通也成爲全球繼英偉達、台積電之後,第三家市值破1萬億美元的半導體公司,同時也帶動了海外對於Marvell、AIchip等公司的關注。
圖:市面主流GPU與ASIC算力成本對比 資料來源:西南證券不過,有一點需要強調——「ASIC雖好,但也不會殺死GPU」。
微軟、谷歌、Meta都在下場自研,但同時又都在搶英偉達B200的首發,這其實說明了雙方之間不是直接的競爭關係。
更客觀的結論應該是,GPU仍將主導高性能的訓練市場,推理場景中由於GPU的通用性仍將是最主要的芯片,但在未來接近4000億美元的AI芯片藍海市場中,ASIC的滲透路徑已清晰可見。
IDC預測,2024-2026年推理場景中,ASIC佔比從15%提升至40%,即最高1600億美元。
這場變革的終局或許是:ASIC接管80%的推理市場,GPU退守訓練和圖形領域。真正的贏家將是那些既懂硅片、又懂場景的「雙棲玩家」,英偉達顯然是其中一員,看好ASIC斷然不是唱淡英偉達。
而新世界的指南,是去尋找除英偉達之外的雙棲玩家,如何掘金ASIC新紀元。
2、ASIC的「手術刀」:非核心模塊,通通砍掉
CPU、GPU用戶早已耳熟能詳,FPGA應用市場小衆,最爲陌生的當屬ASIC。
特性 | CPU | GPU | FPGA | ASIC |
定製化程度 | 通用 | 半通用 | 半定製化 | 全定製化 |
靈活性 | 高 | 高 | 高 | 低 |
成本 | 較低 | 高 | 較高 | 低 |
功耗 | 較高 | 高 | 較高 | 低 |
主要優點 | 通用性最強 | 計算能力強,生態成熟 | 靈活強較高 | 能效最高 |
主要缺點 | 並行算力弱 | 功耗較大,編程難度較大 | 峰值計算能力弱,編程難度較難 | 研發時間長,技術風險高 |
應用場景 | 較少用於AI | 雲端訓練和推理 | 雲端推理,終端推理 | 雲端訓練和推理,終端推理 |
圖:算力芯片對比 資料來源:中泰證券
那麼,都說ASIC利好AI推理,究竟它是一個什麼樣的芯片?
從架構上來說, GPU這樣的通用芯片,其侷限在於「以一敵百」的設計——需要兼顧圖形渲染、科學計算、不同的模型架構等多元需求,導致大量晶體管資源浪費在非核心功能模塊。
英偉達GPU最大的特點,就是有衆多「小核」,這些「小核」可以類比成獵鷹火箭多臺發動機,開發者可以憑藉CUDA多年積累的算子庫,平穩、高效且靈活地調用這些小核用於並行計算。
但如果下游模型相對確定,計算任務就是相對確定的,不需要那麼多小核來保持靈活性,ASIC最底層的原理正是如此,所以也被稱爲全定製化高算力芯片。
通過 「手術刀式」精準裁剪,僅保留與目標場景強相關的硬件單元,釋放出驚人的效率,這在谷歌、亞馬遜都已經在產品上得到了驗證。
谷歌TPU v5e AI加速器實拍對於GPU來說,調用它們最好的工具是英偉達的CUDA,而對於ASIC芯片,調用它們的是雲廠商自研的算法,這對於軟體起家的大廠來說,並不是什麼難事:
谷歌TPU v4中,95%的晶體管資源用於矩陣乘法單元和向量處理單元,專爲神經網絡計算優化,而GPU中類似單元的佔比不足60%。
不同於傳統馮·諾依曼架構的「計算-存儲」分離模式,ASIC可圍繞算法特徵定製數據流。例如在博通爲Meta定製的推薦系統芯片中,計算單元直接嵌入存儲控制器周圍,數據移動距離縮短70%,延遲降低至GPU的1/8。
針對AI模型中50%-90%的權重稀疏特性,亞馬遜Trainium2芯片嵌入稀疏計算引擎,可跳過零值計算環節,理論性能提升300%。
當算法趨於固定,對於確定性的垂直場景,ASIC就是具有天然的優勢,ASIC設計的終極目標是讓芯片本身成爲算法的「物理化身」。
在過去的歷史和正在發生的現實中,我們都能夠找到ASIC成功的力證,比如礦機芯片。
早期,行業都是用英偉達的GPU挖礦,後期隨着挖礦難度提升,電力消耗超過挖礦收益(非常類似現在的推理需求),挖礦專用ASIC芯片爆發。雖然通用性遠不如GPU,但礦機ASIC將並行度極致化。
例如,比特大陸的$比特幣 (BTC.CC)$礦機ASIC,同時部署數萬個SHA-256哈希計算單元,實現單一算法下的超線性加速,算力密度達到GPU的1000倍以上。不僅專用能力大幅提升,而且能耗實現了系統級節省。
此外,使用ASIC可精簡外圍電路(如不再需要PCIe接口的複雜協議棧),主板面積減少40%,整機成本下降25%。
低成本、高效率,支持硬件與場景深度咬合,這些ASIC技術內核,天然適配AI產業從「暴力堆算力」到「精細化效率革命」的轉型需求。
隨着推理時代的到來,ASIC成本優勢將重演礦機的歷史,實現規模效應下的「死亡交叉」——儘管初期研發成本高昂(單芯片設計費用約5000萬美元),但其邊際成本下降曲線遠陡於通用GPU。
以谷歌TPU v4爲例,當出貨量從10萬片增至100萬片時,單顆成本從3800美元驟降至1200美元,降幅接近70%,而GPU的成本降幅通常不超過30%。根據產業鏈最新信息,谷歌TPU v6預計2025年出貨160萬片,單片算力較前代提升3倍,ASIC的性價比,還在快速提升。
這又引申出一個新的話題,是否所有人都可以湧入自研ASIC大潮中去?這取決於自研成本與需求量。
按照7nm工藝的ASIC推理加速卡來計算,涉及IP授權費用、人力成本、設計工具、掩模板在內的一次流片費用等,量級可能就在億元的級別,還不包括後期的量產成本。在這方面,大廠更具有資金優勢。
目前,像谷歌、亞馬遜這樣的雲廠商,因爲有成熟的客戶體系,能夠形成研發、銷售閉環,自研上擁有先天的優勢。
Meta這種企業,自研的邏輯則在於內部本身就有天量級的算力需求。今年初,扎克伯格就曾透露,計劃在2025年上線約1GW的計算能力,並在年底前擁有超過130萬張GPU。
3、「新地圖」價值遠不止1000億美元
僅僅是挖礦需求就帶來了近100億美元的市場,所以當博通2024年底喊出AI ASIC市場空間700-900億美元的時候,我們並不意外,甚至認爲可能這個數字都保守了。
現在,ASIC芯片的產業趨勢不應當再被質疑,重點應該是如何掌握「新地圖」的博弈法則。
近千億美元的AI ASIC市場中,已經形成清晰的三大梯隊——「制定規則的ASIC芯片設計者和製造者」 、「產業鏈配套」、「垂直場景下的Fabless」。
第一梯隊,是制定規則的ASIC芯片設計者和製造者,他們可以製造單價超過1萬美元的ASIC芯片,並與下游的雲廠商合作商用,代表玩家有博通、Marvell、AIchip,以及不管是什麼先進芯片都會受益的代工王者——台積電。
第二梯隊,產業鏈配套,已經被市場關注到的配套邏輯包括先進封裝與更下游的產業鏈。
先進封裝:台積電CoWoS產能的35%已轉向ASIC客戶,國產對應的$中芯國際 (00981.HK)$、$長電科技 (600584.SH)$、$通富微電 (002156.SZ)$等。
雲廠商英偉達硬件方案解耦帶來的新硬件機會:如AEC銅纜,亞馬遜自研單顆ASIC需配3根AEC,若2027年ASIC出貨700萬顆,對應市場超50億美元,其他還包括服務器、PCB均是受益於相似邏輯。
第三梯隊,是正在醞釀的垂直場景的Fabless。ASIC的本質是需求驅動型市場,誰能最先捕捉到場景痛點,誰就掌握定價權。ASIC的基因就是定製化,與垂直場景天然適配。以智駕芯片爲例,作爲典型的ASIC芯片,隨着比亞迪等All in智駕,這類產品開始進入爆發期。
映射全球ASIC產業鏈三大梯隊對應的機會,可以看作是國產的「三把秘鑰」。
受制於禁令的限制,國產GPU與英偉達的差距仍然巨大,生態建設也是一個漫長的路程,但是對於ASIC,我們甚至與海外在同一起跑線上,再結合垂直場景,中國不少Fabless能夠做出更有能效比的產品,前面提及的礦機ASIC、智駕ASIC以及阿里平頭哥的含光、百度的崑崙芯這些AI ASIC。
與之配套的芯片製造,主要依賴中芯國際,中興旗下的中興微等則是新入場的「玩家」,不排除未來他們將與國內廠商合作,上演一場「誰將是中國博通」的戲碼。
英偉達主要上游供應商,來源Fubon Research
GB200 NV72L機櫃的總長接近2英里的NVlink Spine銅纜
產業鏈配套部分難度相對較低,對應的服務器、光模塊、交換機、PCB、銅纜,由於技術難度低,國內企業本來競爭力就比較強。與此同時,這些產業鏈企業與國產算力屬於「共生」關係,ASIC芯片產業鏈也不會缺席。
應用場景上,除了反覆提及的智駕芯片和AI推理加速卡,其他國產設計公司的機會,取決於什麼場景能爆發,對應哪些公司又能把握住機遇。
4、結語
當AI從大力出奇跡的訓練軍備競賽,躍進推理追求能效的深水區,算力戰爭的下半場註定屬於那些能將技術狂想,轉化爲經濟賬本的公司。
ASIC芯片的逆襲,不僅是一場技術革命,更是一本關於效率、成本和話語權的商業啓示錄。
在這場新的牌局中,中國選手的籌碼正在悄然增加——機會永遠留給準備好的人。
編輯/rice
評論(9)
請選擇舉報原因