在Blackwell GPU即將投放市場之際,英偉達遭遇新的技術難題:據悉,這款AI核心產品在高密度服務器中出現嚴重過熱問題。
英偉達(NVDA.O)在Blackwell GPU正式上市前是否遇到了新的障礙?據The Information報道,繼幾個月前的產量問題後,這家人工智能巨頭的Blackwell處理器在高容量服務器架中安裝時遭遇過熱問題。
報告指出,這些挑戰已導致設計修改和延遲,引起包括谷歌(GOOGL.O)、Meta Platforms(META.O)和微軟(MSFT.O)等主要客戶對Blackwell服務器及時部署的擔憂。
報道中提到,知情人士告訴The Information,用於AI和高性能計算(HPC)的Blackwell GPU在容納72個處理器的服務器中面臨過熱問題,這些服務器每個架子可能需要高達120kW的功率。
因此,英偉達據報道已多次修改其服務器架設計,因爲過熱不僅妨礙GPU性能,還可能損壞硬件。
鑑於像谷歌、Meta和微軟這樣的客戶依賴這些GPU來訓練他們最先進的大型語言模型,英偉達的一位發言人告訴路透社,該公司正在與雲服務提供商密切合作,並將設計調整描述爲開發過程中的常規部分。
值得注意的是,據Tom's Hardware報道,儘管此類調整在大規模技術推廣中很常見,但它們已導致延誤,可能會進一步推遲預期的發貨時間表。
Tom's Hardware指出,Blackwell的最終修訂版僅在10月底進入大規模生產,預計發貨將在1月底開始。最新的過熱問題是否會進一步延遲Blackwell的發貨,尚待觀察。
這絕非英偉達首次在Blackwell上遇到問題。幾個月前,據報道GPU因設計缺陷影響處理器產量,這與台積電(TSM.N)的CoWoS高級封裝有關,但最終通過更改GPU的掩模得以解決。
然而,英偉達首席執行官黃仁勳在10月駁斥了台積電應受責備的傳言,強調台積電幫助解決了問題,並以「難以置信的速度」恢復了製造。他還形容對Blackwell的需求「瘋狂」。