来源:晚点LatePost 作者:贺乾明 邱豪
整整两年前,英伟达发布 AI 芯片 H100,训练大模型的性能是上一代产品的 9 倍。直到去年底,竞争对手 AMD、英特尔才拿出硬件性能可以和 H100 相比的产品——算上软件生态,还有不少差距。
其实 H100 刚推出的时候,资本市场并不看好英伟达的未来。当时 ChatGPT 还没上线,谁会需要一款专门针对大模型优化的芯片呢?H100 推出后的半年,又赶上比特币矿难,英伟达股价腰斩。
后来 ChatGPT、GPT-4 接连发布,H100 成为稀缺的战略物资,推着英伟达毛利润在 2023 年飙升到 73%,远超苹果,甚至超过了爱马仕。
3 月 19 日发布的 B200 则表明,即便在资本市场已经丧失信心的时候,英伟达创始人、CEO 黄仁勋依然坚定看好 AI 的未来。他在 H100 发布后又投入 100 亿美元——相当于前年的利润两倍多——研发新一代 AI 芯片。
根据英伟达公开的数据,B200 训练万亿大模型的性能是 H100 的 4 倍,推理性能最多提升 30 倍。
B200 依然不愁卖。在 2 月的财报会上,黄仁勋就已经预告 B200 供不应求。亚马逊、Google、微软和甲骨文等云计算公司已经下了大单。
英伟达对极致性能的投入还在加速。按照其去年公布的产品路线图,它的下一代 GPU 已经在准备中,将在明年发布。按照黄仁勋的行事风格,新款 GPU 的性能大概率会大幅提升。
“就像流水线上的工人一样。” 一位英伟达 GPU 架构工程师如此形容他的工作,每完成一个 GPU 架构中自己负责的部分,下一代架构就来了。
游戏行业 30 年塑造的独特惯性 黄仁勋 1993 年创办英伟达时,选择做 PC 上的图形处理器,是为了押注 3D 游戏行业未来会发展壮大,会有越来越多的人会用 PC 玩游戏。那一年《毁灭战士》(Doom)发布,游戏开始有了 3D 画面。
当时做一款专业的 PC 图形处理器并不容易。PC 主要用处是办公,而不是玩游戏,也没那么多 3D 游戏给人玩。赚钱的复杂图形处理市场被硅谷巨头 SGI 垄断,斯皮尔伯格制作《侏罗纪公园》得去买专门的图形工作站。
为了提高产品吸引力,英伟达在第一款产品 NV1 中塞了多个功能:不只提供 2D、3D 图形计算,还要接管音频处理(当时还需要在电脑里插一张单独声卡)、自带游戏手柄接口(当时还没有 USB 接口,需要专门的接口)。黄仁勋当时接受采访说:“PC 消费者会为我们的成果感到震惊。”
凭借团队过去在芯片行业的积累,英伟达两年就把它造了出来,但因为每个方向都不突出,最后惨遭滑铁卢。英伟达想打翻身仗的第二代产品 NV2 还没做出来,就被大客户世嘉抛弃。
这时黄仁勋已经创业 3 年,资金只能维持公司再经营 9 个月。他决定放手一搏,做一款专注图形处理的处理器。这就是后来的 RIVA 128,性能达到同行的 4 倍,上市 4 个月就卖出 100 万张。然后每隔每半年,英伟达就迭代一次产品,成功度过生死危机,并在 1999 年上市。
沿用这个策略,英伟达继续推出 GeForce 256,把性能提升到竞品的 5 倍,再次成功。“当技术发展如此之快时,如果你不重塑自己,你就会慢慢死去。” 黄仁勋 2003 年在斯坦福大学的商业课上说。
接下来 10 多年,英伟达一直保持类似的产品迭代节奏,而游戏行业也给了它这个环境。
1998 年,Epic Games 发布虚幻引擎,大幅降低 3D 游戏的开发门槛,让游戏开发者把竞争重心放到了游戏的真实感上。游戏行业的需求,不再只是简单呈现 3D 画面,还有模拟真实世界的光影变幻、让游戏中人物或物体之间的交互变得自然,每一项都要求图形处理器有更高性能。《孤岛危机》(Crysis)2007 年发布时,画面已经逼真到没什么 PC 处理器可以带得动。
1993 年发布的《毁灭战士》游戏画面 2007 年发布的《孤岛危机》游戏画面 英伟达只能不断提高处理器性能,芯片的晶圆面积也越做越大。“每一年,我们的产品性能都是前一年的两倍。但每一年,人们都会说,‘这还不够好’,我想要更强的。” 黄仁勋说。
没几个公司坚持下来。1990 年代与英伟达竞争的 90 多家公司都倒了。ATI 也卖给了 AMD,分精力去做成本更低、适合更广泛场景的 GPU。英特尔把优先级放在 PC 办公领域,更在意芯片成本和能耗,而不是图形处理器的性能。
英伟达追求极致性能的惯性,让它很难适应许多领域的竞争,比如给移动设备开发的芯片 Tegra 以失败告终。但这个习惯也让它在 AI 领域找到了发挥空间。
同行们都没有英伟达同等的规模效应 专门给 AI 开发芯片,Google 比英伟达早。它在 2015 年就在内部使用 TPU,英伟达直到 2016 年才发布针对深度学习优化的 P100。同一年,市场还出现一批 AI 芯片创业公司,比如英国的 Graphcore,中国的寒武纪。
但因为当时模型普遍较小,消耗算力不多,AI 芯片市场规模有增长,但不算大。根据 Stratview Research 数据,2021 年整个 AI 芯片市场只有 108 亿美元规模——差不多是汽车芯片的 1/5、整个芯片行业的不到 2%。
没有哪家公司能靠专卖 AI 芯片很好地活下来,创业公司基本都是巨亏,需要持续不断的巨额融资。称得上有规模的只有 Google 和英伟达,分别依赖内部需求和游戏主业为 AI 芯片 “输血”,但发展路线截然不同。
Google 一直专注为内部业务开发新款 TPU。英伟达则是做平台,借助免费的 CUDA 吸引更多 AI 开发者,占住 AI 芯片市场超 80% 的市场份额。
等到 ChatGPT 爆发后,借助游戏业务加持,英伟达的 AI 芯片已经建立起同行都无法匹敌的规模优势。当前高性能 AI 芯片主要供应瓶颈是 CoWoS 先进封装和高带宽内存(HBM),英伟达比竞争对手更容易拿到产能。
CoWoS 先进封装最大的供应商是台积电。因为游戏业务,英伟达与台积电合作 20 多年,一直是它的大客户。随着 AI 芯片出货量加大,到 2024 年,英伟达已经是台积电第二大客户,仅次于苹果。这让它有机会用更低的价格抢占台积电的产能。
HBM 的主要供应商是三星和 SK 海力士。因为高性能游戏显卡也需要高性能的显存,英伟达同样一直是它们的大客户。随着英伟达 GPU 供不应求,HBM 采购量扩大,它们更加依赖英伟达。
英伟达也在充分利用它的规模优势。根据 SemiAnalysis 的信息,英伟达早早包下了台积电约六成 CoWoS 产能,并向 HBM 的三家供应商 SK 海力士、三星等下了巨额订单,尽可能抢占有限产能,保证自己供应时,还可以挤压对手。
借助 CUDA 聚集的数百万开发者和销售 GPU 积累的庞大客户群,英伟达还能比大多数同行更早感受到变化到来。最典型的例子是英伟达 2022 年 3 月发布的 H100,当时距离 OpenAI 发布 ChatGPT 还有大半年,它就针对 Transformer 架构做了优化。
“过去几十年来,我们改进芯片架构的一个重要部分就是与许多关键客户的联系。” 英伟达 CFO 科莱特·克雷斯(Colette Kress)前不久参加一场活动时说。“他们不会对新架构感到意外,因为我们一直在了解他们的需求,以便将其纳入新架构中。”
规模优势为英伟达带来了高额利润。去年英伟达毛利率达到 73%,比爱马仕还高,远超同行。这让英伟达有充分的资金可以继续投入研发、抢占供应链产能,把规模做得更大。
挖更深的护城河 庞大的 AI 芯片需求和丰厚利润,给英伟达带来更多的竞争对手。微软、Meta、Google、亚马逊、特斯拉等英伟达的大客户,都投入更多资源研发 AI 芯片,甚至 OpenAI 都开始筹备芯片项目。
竞争对手已经在蚕食英伟达的领地。Google 用 Gemini Ultra 证明,不用英伟达的顶级 GPU 也可以训练出比肩 GPT-4 的大模型,它还成功把自研的 TPU 卖给 OpenAI 的竞争对手们。微软、Meta 等英伟达的大客户也开始采购更便宜的 AMD 芯片。
竞争必然更激烈。英伟达的利润率有多高,对手甚至客户就有多大动力替换它。
英伟达的反击不只是用更短的时间推出性能更强的 GPU。它还在借助自己的 GPU 供不应求,扩大业务边界,尽可能绑定客户。
去年 3 月的 GTC 上,英伟达推出云计算服务 DXG Cloud:英伟达把卖给云计算公司的 GPU 租回来,由英伟达员工进一步优化,提供软件服务,再出租给需要 GPU 算力的客户。一来一回,云计算平台承担了数据中心的建设成本,客户却去了英伟达。但微软、Google、甲骨文依然加入了英伟达的计划,AWS 抗争大半年后,也只能选择加入,换取更快购买新款 GPU 的资格。
今年英伟达继续在软件上加码,推出软件平台 NIM,让用户更容易在生产环境中部署定制和预训练的 AI 模型。像当年的 CUDA 一样,NIM 免费提供,但只能与 GPU 搭配使用。在分析师本·汤普森(Ben Thompson)看来,这是英伟达试图在大模型时代锁定客户的尝试。现在大模型架构趋于固定,CUDA 的优势在削弱。
英伟达 NIM 架构图 英伟达销售的产品也不再限于单张 GPU,或者用多张 GPU 做成的服务器,还用 2019 年收购 Mellanox 获得的 Infiniband、以太网等数据中心网络产品,搭上自研的 CPU、GPU,推出整个数据中心解决方案。
黄仁勋称它为 “人工智能工厂”,他认为这是一个全新的行业,不只提供数据存储、计算服务,还能直接把数据变成有价值的大模型,“这和上次工业革命中的交流发电机没什么不同”。
当被问及英伟达如何看待 AMD 等公司的竞争,英伟达 CFO 科莱特·克雷斯说,现在的英伟达,业务已经不再是简单地设计芯片、解决某个特定任务,而是提供数据中心需要的任何形式的计算方案,包括计算基础设施、网络基础设施、内存……. 和一个完整的超级计算机。
编辑/lambor
來源:晚點LatePost 作者:賀乾明 邱豪
整整兩年前,英偉達發佈 AI 芯片 H100,訓練大模型的性能是上一代產品的 9 倍。直到去年底,競爭對手 AMD、英特爾才拿出硬件性能可以和 H100 相比的產品——算上軟件生態,還有不少差距。
其實 H100 剛推出的時候,資本市場並不看好英偉達的未來。當時 ChatGPT 還沒上線,誰會需要一款專門針對大模型優化的芯片呢?H100 推出後的半年,又趕上比特幣礦難,英偉達股價腰斬。
後來 ChatGPT、GPT-4 接連發布,H100 成爲稀缺的戰略物資,推着英偉達毛利潤在 2023 年飆升到 73%,遠超蘋果,甚至超過了愛馬仕。
3 月 19 日發佈的 B200 則表明,即便在資本市場已經喪失信心的時候,英偉達創始人、CEO 黃仁勳依然堅定看好 AI 的未來。他在 H100 發佈後又投入 100 億美元——相當於前年的利潤兩倍多——研發新一代 AI 芯片。
根據英偉達公開的數據,B200 訓練萬億大模型的性能是 H100 的 4 倍,推理性能最多提升 30 倍。
B200 依然不愁賣。在 2 月的業績會上,黃仁勳就已經預告 B200 供不應求。亞馬遜、Google、微軟和甲骨文等雲計算公司已經下了大單。
英偉達對極致性能的投入還在加速。按照其去年公佈的產品路線圖,它的下一代 GPU 已經在準備中,將在明年發佈。按照黃仁勳的行事風格,新款 GPU 的性能大概率會大幅提升。
“就像流水線上的工人一樣。” 一位英偉達 GPU 架構工程師如此形容他的工作,每完成一個 GPU 架構中自己負責的部分,下一代架構就來了。
遊戲行業 30 年塑造的獨特慣性 黃仁勳 1993 年創辦英偉達時,選擇做 PC 上的圖形處理器,是爲了押注 3D 遊戲行業未來會發展壯大,會有越來越多的人會用 PC 玩遊戲。那一年《毀滅戰士》(Doom)發佈,遊戲開始有了 3D 畫面。
當時做一款專業的 PC 圖形處理器並不容易。PC 主要用處是辦公,而不是玩遊戲,也沒那麼多 3D 遊戲給人玩。賺錢的複雜圖形處理市場被硅谷巨頭 SGI 壟斷,斯皮爾伯格製作《侏羅紀公園》得去買專門的圖形工作站。
爲了提高產品吸引力,英偉達在第一款產品 NV1 中塞了多個功能:不只提供 2D、3D 圖形計算,還要接管音頻處理(當時還需要在電腦裏插一張單獨聲卡)、自帶遊戲手柄接口(當時還沒有 USB 接口,需要專門的接口)。黃仁勳當時接受採訪說:“PC 消費者會爲我們的成果感到震驚。”
憑藉團隊過去在芯片行業的積累,英偉達兩年就把它造了出來,但因爲每個方向都不突出,最後慘遭滑鐵盧。英偉達想打翻身仗的第二代產品 NV2 還沒做出來,就被大客戶世嘉拋棄。
這時黃仁勳已經創業 3 年,資金只能維持公司再經營 9 個月。他決定放手一搏,做一款專注圖形處理的處理器。這就是後來的 RIVA 128,性能達到同行的 4 倍,上市 4 個月就賣出 100 萬張。然後每隔每半年,英偉達就迭代一次產品,成功度過生死危機,並在 1999 年上市。
沿用這個策略,英偉達繼續推出 GeForce 256,把性能提升到競品的 5 倍,再次成功。“當技術發展如此之快時,如果你不重塑自己,你就會慢慢死去。” 黃仁勳 2003 年在斯坦福大學的商業課上說。
接下來 10 多年,英偉達一直保持類似的產品迭代節奏,而遊戲行業也給了它這個環境。
1998 年,Epic Games 發佈虛幻引擎,大幅降低 3D 遊戲的開發門檻,讓遊戲開發者把競爭重心放到了遊戲的真實感上。遊戲行業的需求,不再只是簡單呈現 3D 畫面,還有模擬真實世界的光影變幻、讓遊戲中人物或物體之間的交互變得自然,每一項都要求圖形處理器有更高性能。《孤島危機》(Crysis)2007 年發佈時,畫面已經逼真到沒什麼 PC 處理器可以帶得動。
1993 年發佈的《毀滅戰士》遊戲畫面 2007 年發佈的《孤島危機》遊戲畫面 英偉達只能不斷提高處理器性能,芯片的晶圓面積也越做越大。“每一年,我們的產品性能都是前一年的兩倍。但每一年,人們都會說,‘這還不夠好’,我想要更強的。” 黃仁勳說。
沒幾個公司堅持下來。1990 年代與英偉達競爭的 90 多家公司都倒了。ATI 也賣給了 AMD,分精力去做成本更低、適合更廣泛場景的 GPU。英特爾把優先級放在 PC 辦公領域,更在意芯片成本和能耗,而不是圖形處理器的性能。
英偉達追求極致性能的慣性,讓它很難適應許多領域的競爭,比如給移動設備開發的芯片 Tegra 以失敗告終。但這個習慣也讓它在 AI 領域找到了發揮空間。
同行們都沒有英偉達同等的規模效應 專門給 AI 開發芯片,Google 比英偉達早。它在 2015 年就在內部使用 TPU,英偉達直到 2016 年才發佈針對深度學習優化的 P100。同一年,市場還出現一批 AI 芯片創業公司,比如英國的 Graphcore,中國的寒武紀。
但因爲當時模型普遍較小,消耗算力不多,AI 芯片市場規模有增長,但不算大。根據 Stratview Research 數據,2021 年整個 AI 芯片市場只有 108 億美元規模——差不多是汽車芯片的 1/5、整個芯片行業的不到 2%。
沒有哪家公司能靠專賣 AI 芯片很好地活下來,創業公司基本都是巨虧,需要持續不斷的巨額融資。稱得上有規模的只有 Google 和英偉達,分別依賴內部需求和遊戲主業爲 AI 芯片 “輸血”,但發展路線截然不同。
Google 一直專注爲內部業務開發新款 TPU。英偉達則是做平台,藉助免費的 CUDA 吸引更多 AI 開發者,佔住 AI 芯片市場超 80% 的市場份額。
等到 ChatGPT 爆發後,藉助遊戲業務加持,英偉達的 AI 芯片已經建立起同行都無法匹敵的規模優勢。當前高性能 AI 芯片主要供應瓶頸是 CoWoS 先進封裝和高帶寬內存(HBM),英偉達比競爭對手更容易拿到產能。
CoWoS 先進封裝最大的供應商是台積電。因爲遊戲業務,英偉達與台積電合作 20 多年,一直是它的大客戶。隨着 AI 芯片出貨量加大,到 2024 年,英偉達已經是台積電第二大客戶,僅次於蘋果。這讓它有機會用更低的價格搶佔台積電的產能。
HBM 的主要供應商是三星和 SK 海力士。因爲高性能遊戲顯卡也需要高性能的顯存,英偉達同樣一直是它們的大客戶。隨着英偉達 GPU 供不應求,HBM 採購量擴大,它們更加依賴英偉達。
英偉達也在充分利用它的規模優勢。根據 SemiAnalysis 的信息,英偉達早早包下了台積電約六成 CoWoS 產能,並向 HBM 的三家供應商 SK 海力士、三星等下了巨額訂單,儘可能搶佔有限產能,保證自己供應時,還可以擠壓對手。
藉助 CUDA 聚集的數百萬開發者和銷售 GPU 積累的龐大客戶群,英偉達還能比大多數同行更早感受到變化到來。最典型的例子是英偉達 2022 年 3 月發佈的 H100,當時距離 OpenAI 發佈 ChatGPT 還有大半年,它就針對 Transformer 架構做了優化。
“過去幾十年來,我們改進芯片架構的一個重要部分就是與許多關鍵客戶的聯繫。” 英偉達 CFO 科萊特·克雷斯(Colette Kress)前不久參加一場活動時說。“他們不會對新架構感到意外,因爲我們一直在了解他們的需求,以便將其納入新架構中。”
規模優勢爲英偉達帶來了高額利潤。去年英偉達毛利率達到 73%,比愛馬仕還高,遠超同行。這讓英偉達有充分的資金可以繼續投入研發、搶佔供應鏈產能,把規模做得更大。
挖更深的護城河 龐大的 AI 芯片需求和豐厚利潤,給英偉達帶來更多的競爭對手。微軟、Meta、Google、亞馬遜、特斯拉等英偉達的大客戶,都投入更多資源研發 AI 芯片,甚至 OpenAI 都開始籌備芯片項目。
競爭對手已經在蠶食英偉達的領地。Google 用 Gemini Ultra 證明,不用英偉達的頂級 GPU 也可以訓練出比肩 GPT-4 的大模型,它還成功把自研的 TPU 賣給 OpenAI 的競爭對手們。微軟、Meta 等英偉達的大客戶也開始採購更便宜的 AMD 芯片。
競爭必然更激烈。英偉達的利潤率有多高,對手甚至客戶就有多大動力替換它。
英偉達的反擊不只是用更短的時間推出性能更強的 GPU。它還在藉助自己的 GPU 供不應求,擴大業務邊界,儘可能綁定客戶。
去年 3 月的 GTC 上,英偉達推出雲計算服務 DXG Cloud:英偉達把賣給雲計算公司的 GPU 租回來,由英偉達員工進一步優化,提供軟件服務,再出租給需要 GPU 算力的客戶。一來一回,雲計算平台承擔了數據中心的建設成本,客戶卻去了英偉達。但微軟、Google、甲骨文依然加入了英偉達的計劃,AWS 抗爭大半年後,也只能選擇加入,換取更快購買新款 GPU 的資格。
今年英偉達繼續在軟件上加碼,推出軟件平台 NIM,讓用戶更容易在生產環境中部署定製和預訓練的 AI 模型。像當年的 CUDA 一樣,NIM 免費提供,但只能與 GPU 搭配使用。在分析師本·湯普森(Ben Thompson)看來,這是英偉達試圖在大模型時代鎖定客戶的嘗試。現在大模型架構趨於固定,CUDA 的優勢在削弱。
英偉達 NIM 架構圖 英偉達銷售的產品也不再限於單張 GPU,或者用多張 GPU 做成的服務器,還用 2019 年收購 Mellanox 獲得的 Infiniband、以太網等數據中心網絡產品,搭上自研的 CPU、GPU,推出整個數據中心解決方案。
黃仁勳稱它爲 “人工智能工廠”,他認爲這是一個全新的行業,不只提供數據存儲、計算服務,還能直接把數據變成有價值的大模型,“這和上次工業革命中的交流發電機沒什麼不同”。
當被問及英偉達如何看待 AMD 等公司的競爭,英偉達 CFO 科萊特·克雷斯說,現在的英偉達,業務已經不再是簡單地設計芯片、解決某個特定任務,而是提供數據中心需要的任何形式的計算方案,包括計算基礎設施、網絡基礎設施、內存……. 和一個完整的超級計算機。
編輯/lambor