來源:半導體行業觀察
英特爾近期需要痛苦的事情實在太多太多了,一方面代工業務做不起來,另一方面AI業務也不如預期,數據中心市場同時面臨AMD和Arm的進攻,就連它引以爲傲的消費市場,也出了一點小小的麻煩。
在2024年第三季度業績發佈後,英特爾首席執行官帕特·基辛格(Pat Gelsinger)表示,近期英特爾所推出的Lunar Lake架構被設計爲一個小衆、一次性的產品,沒有直接繼任者。在業績電話會議中,他解釋說,採用外部製程節點以及LPDDR5X內存集成到封裝中的複雜性,導致了低利潤率,這影響了英特爾未來產品線的決策。
根據基辛格的說法,即將推出的Panther Lake CPU將有超過70%的部分由英特爾自己的晶圓廠製造,並且將是第一款採用英特爾18A製程節點的客戶端CPU,該產品計劃在2025年下半年發佈,且將不包含封裝內存,而作爲Panther Lake繼任者的NOVA Lake也不會包含封裝內存。
這意味着封裝內存只是英特爾處理器歷史中短暫劃過的一道流星,剛出生不到兩個月就被宣判了死刑,讓人爲之惋惜之餘,也心生疑問:爲什麼要砍掉好不容易才用上的封裝內存?
ARM難倒了英特爾
英特爾所代表的x86曾多次迎戰像ARM這樣的精簡指令集對手,最早可以追溯到上個世紀的PowerPC,其曾經以一己之力同IBM、蘋果、摩托羅拉這三者展開爭鬥,並最終取得了輝煌的勝利,實現了消費和服務器市場兩開花,一度壓得其他廠商透不過氣。
但即便是如此強大的x86帝國,依舊無法涵蓋消費電子的方方面面,尤其是在以嵌入式爲代表的低功耗領域,但有意思的事情來了,ARM似乎就是爲了這方面而生的。
最早的ARM處理器起源於Acorn代號爲Acorn RISC的項目,由兩位來自劍橋大學的才華橫溢的計算機科學家Sophie Wilson和Steve Furber在資源極度有限的情況下爲設計了一款Acorn 自己的 32 位微處理器。
ARM1的結構非常簡單,基於 808 行 Basic 語言創建,僅有個25,000晶體管,甚至沒有乘法部件,引用 Sophie 在一次電報採訪中的話:「我們通過事先非常非常仔細地思考事情來實現這一點」,儘管在當時並沒有引起太大反響,但卻在英國保留了一枚處理器的火種。
不過與當時最火的386處理器不同的是,ARM處理器一開始的設計理念是low-cost, low-power和high- performance,這顯然和移動市場不謀而合,儘管當時還未發展出真正意義上的移動市場。
幾年後,蘋果似乎看到了ARM的潛力,和Acorn以及VLSI共同出資創建了ARM。蘋果當時正在爲代號爲牛頓的項目尋找低功耗處理器,這一項目的終極目標是打造地球上第一個平板電腦。
只可惜,牛頓項目過於超前,打造出來的平板電腦和現在相比,性能過於弱小,很快就宣告了失敗,但ARM並未從此一蹶不振,反而藉由這一次失敗,尋得了一片更廣闊的天空。
1993年至1995年,$凌雲半導體 (CRUS.US)$、$德州儀器 (TXN.US)$、$諾基亞 (NOK.US)$、$夏普 (6753.JP)$、三星和 NEC等公司、先後加入ARM陣營,通過合作,ARM發明了16位的Thumb指令集,也真正意義上創建了基於ARM的SoC商業模式,同時還迎來了公司成立以來最重要的一顆處理器內核——ARM7。ARM7使用的Die尺寸是80486的十六分之一,售價僅爲50美金左右,較小的Die尺寸使得ARM7處理器獲得了較低功耗,適合手持式應用。
爲什麼這麼多公司,包括已經生產自己的芯片的大型電子公司,都想與 ARM 簽約?部分原因是成本優勢——ARM 許可證並不昂貴,而且肯定比花數年時間僱傭數百名工程師從頭開始設計新芯片要便宜,而另一部分原因是 Sophie Wilson 和 Steve Furber 創造的技術遺產。ARM 芯片製造速度快、簡單,而且功耗低。
此外,ARM 還有另一張王牌:它不僅僅是一家芯片製造公司。當 ARM 與其他公司合作時,它就成爲了合作伙伴,幫助設計可根據其他公司特定需求定製的解決方案,許多公司通過與ARM的合作,成功研發出了符合自身需求的處理器,進而取得了商業成功。
ARM的低功耗與精簡,以及實惠的授權費用,讓它在英特爾處理器之外的空白站穩了腳跟。
不過,ARM處理器真正迎來自己的成功,還要等到蘋果之後的四款產品線:iPod、iPhone、iPad和ARM Mac。
其中最值得關注也是最有意思的,就是初代iPhone所搭載的ARM處理器。
喬布斯曾問過英特爾的CEO保羅·歐德寧是否有興趣競標,爲蘋果即將推出的手機制造芯片。當時,這家制造業巨頭正因桌面x86 CPU的銷售勢頭強勁,英特爾還擁有一個基於ARM的業務,即1998年從數字設備公司(DEC)收購的XScale,因此,英特爾本來可以輕鬆滿足蘋果的需求。
但是歐德寧拒絕了這個提議。他計算出蘋果願意支付的每個CPU的最高價格低於英特爾的生產成本,而且他並不確定蘋果的手機會有很高的銷量。此外,他對支持XScale業務感到擔憂,特別是在英特爾正在研發低功耗的x86版本Atom的情況下。於是,他決定加碼x86,並在2006年出售了XScale部門。
在英特爾拒絕這個合作機會後,蘋果轉向了三星,其同意爲蘋果即將推出的手機制造一款強大的新ARM芯片。它就是S5L8900,這是一款SoC(系統級芯片),採用ARM11核心,運行頻率(降頻)爲412 MHz,配備128MB內存,最高16GB存儲空間,並集成了PowerVR MBX Lite 3D圖形處理器。這款處理器讓人想起了1991年的ARM 250「Archimedes on a chip」,但它並不是臺式電腦,而是一部手機——一部革命性的手機。
也正是從這一年開始,ARM憑藉着自己低功耗的特性,迅速佔領了手機市場,並在隨後的iPad發佈後,順勢佔領平板電腦市場,而被英特爾寄予衆望的Atom卻不堪一擊,市場份額很快就降至了冰點。
移動市場的失守已經是讓英特爾備受煎熬了,蘋果之後還在PC市場對英特爾和x86發起了進攻:2020年11月,蘋果正式發佈M1芯片,同時宣佈了搭載了該芯片的MacBook,並宣佈Mac在未來逐步放棄英特爾的x86平台,逐步轉向蘋果自研的ARM平台。
而M1芯片的最大優勢,也是ARM從80年代延續至今的優勢,就是低功耗。
低功耗並不意味着低性能,而在相同的性能下消耗更少的電量,或者在消耗相同電量的情況下,達成更高的性能。在蘋果2020年展示的PPT當中,M1的 CPU 功耗峯值約爲 18W。而作爲對比的x86芯片的峯值功耗則在 35-40W 範圍內,而結論是M1在低核心頻率下實現了更高性能:在峯值到峯值時,M1 的性能比x86產品提升了約 40%,同時功耗僅爲其 40%。
英特爾在它的幾十年發展歷史中從未受到過如此沉重的打擊。
破除ARM高效神話
相信很多人都有過這樣的一個疑問:在同性能下,x86一定比ARM功耗更高嗎?
答案自然是否定的,沒有天生低功耗的架構,ARM現在的低功耗也是多年來持續導向和優化的結果,x86並非沒有低功耗的嘗試,例如前文中提到過的Atom,就是英特爾用來對標ARM低功耗的一條產品線。
多年來,在蘋果和$高通 (QCOM.US)$等公司不懈努力下,ARM架構的高效被打造成了一個神話,乃至於許多消費者都形成了這樣的固有印象,但英特爾決定自己來破除這個神話。
在今年6月的Computex前夕,英特爾在臺北舉辦了Intel技術巡展(Intel Tech Tour),詳細介紹了其即將推出的代號爲Lunar Lake的移動處理器。新芯片旨在實現多種目標,從更高效能到設備上的人工智能。英特爾還特別提到,他們希望「打破x86無法像ARM一樣高效的神話」。
在活動中,英特爾並未迴避關於ARM芯片的討論,也沒有試圖忽視這個「房間裏的大象」,高通和蘋果正在不斷侵蝕原本屬於英特爾和x86的市場份額,英特爾要怎麼做才能挽回十幾年以來的陳規陋見呢?
首先需要明確的是,x86是一種極其強大的架構。x86處理器基於複雜指令集計算(CISC)架構,包含更多複雜的指令,這些指令消耗更多功率。有些x86指令甚至需要多個週期來執行,這會增加功耗但降低效率。
由於擁有更復雜的指令,x86還可能具有更復雜的流水線。例如,x86使用的是可變長度的指令集,指令長度從1字節到15字節不等,而ARM的指令長度是固定的(儘管Thumb指令可以是可變的)。由於指令複雜性,分支預測在x86處理器中也顯得尤爲重要,因爲這些指令通常會被轉換成更簡單的類似RISC的微操作。這些分支預測器非常先進,因爲錯誤預測和隨後的停滯成本可能比在ARM架構中的停滯成本大得多。
此外,ARM每條指令所需的晶體管較少,這也是其功耗需求較低的原因之一。這些只是ARM實現高效性的一些方法,但兩種架構之間還有大量的細微差異,使得ARM在效率上佔據優勢。然而,較少的每指令晶體管數也意味着複雜性降低,而這正是x86作爲強大架構的閃光點,能夠滿足巨大的計算需求。
爲了使x86能夠像ARM一樣高效,英特爾需要做大量工作。首先,從功耗角度來看,x86的指令集本身就很「昂貴」,因爲在x86上指令的取指、解碼和執行週期比ARM更復雜。將簡單的指令組合成一個單獨的微操作也有幫助,特別是在減少開銷方面。
相比之下,ARM的RISC架構是一個巨大的優勢,尤其是每條指令在ARM中設計得更快更易執行。ARM還採用固定長度的指令,使得解碼更簡單,而較低位的Thumb指令可以減小代碼大小,減少所需的內存空間。Thumb指令更小,意味着執行時需要的內存提取更少,並且更多的指令可以放入處理器的緩存中。
此外,ARM芯片通常是更大系統級芯片(SoC)的一部分,而不是通過主板與計算機其他部分接口的獨立CPU。ARM CPU與內存控制器、GPU和計算機硬件的其他關鍵部件的直接連接也可以帶來效率提升。這正是蘋果統一內存的運作方式,並且是其卓越電池續航能力的一個原因。
英特爾的實際做法也在相當程度上借鑑了蘋果,讓我們來看看英特爾Lunar Lake架構。
與去年的Meteor Lake架構的Core Ultra 100系列芯片類似,Lunar Lake也是通過英特爾的Foveros技術將多顆小芯片封裝在一起。在Meteor Lake中,Intel使用Foveros技術組合了不同公司製造的多個硅芯片——英特爾製造了主CPU核心所在的計算單元,而$台積電 (TSM.US)$則負責圖形、I/O及其他功能模塊的製造。
在Lunar Lake中,英特爾仍然使用Foveros技術,即通過一個「基礎單元」作爲插入層,使不同的芯片之間能夠進行通信來連接整個芯片。但是這次CPU、GPU和NPU都被整合在同一個計算單元中,而I/O和其他功能則由平台控制單元(在之前的英特爾CPU中也稱爲PCH,平台控制集線器)負責。另外還包括一個「填充單元」,僅僅是爲了讓最終產品呈矩形。這次計算單元和平台控制單元都由台積電製造。
英特爾仍然將其CPU核心分爲高效能的E核(Efficiency Core)和高性能的P核(Performance Core),但總體核心數量相較於上一代Core Ultra芯片以及更早的第12和第13代Core芯片有所減少。
Lunar Lake擁有四個E核和四個P核,這種配置在Apple的M系列芯片中較常見,但在英特爾中並不多見。例如,Meteor Lake的Core Ultra 7 155H包含六個P核和總計十個E核;Core i7-1255U則包含兩個P核和八個E核。Intel還移除了P核的超線程(Hyperthreading)技術,騰出的硅片空間更適合用於提升單核性能。
英特爾還爲Lunar Lake引入了一種新的GPU架構,代號爲Battlemage,它也將驅動未來的桌面Arc獨立顯卡,根據英特爾的說法,集成顯卡Arc 140V在遊戲中平均比舊的Meteor Lake Arc GPU快31%,比AMD最新的Radeon 890M快16%,具體性能會因遊戲不同而有較大差異。而Arc 130V顯卡少了一個英特爾的Xe核心(7個,而不是8個),頻率也更低。
計算模塊的最後一部分是神經處理單元(NPU),它可以在本地處理一些AI和機器學習任務,英特爾表示,Lunar Lake的NPU在不同型號的芯片中性能介於40到48 TOPS之間,滿足或超過$微軟 (MSFT.US)$的40 TOPS要求,且整體性能約爲Meteor Lake NPU的四倍(11.5 TOPS)。
當然,Lunar Lake最重大的改變還是將內存集成在CPU封裝中,而這一點恰恰就是蘋果和高通正在做的。據介紹,Lunar Lake芯片有16GB或32GB內存(根據已發佈的型號,型號以8結尾的(例如Core Ultra 7 258V)爲32GB,以6結尾的爲16GB),這種封裝方式不僅節省了主板空間,也因爲數據的傳輸距離更短而減少了功耗。
在經過這一系列大刀闊斧的改革之後,Lunar Lake最終實現了x86架構下比肩ARM架構的功耗:根據媒體此前的測試,在搭載了258V的華碩Zenbook上,PCMark現代辦公電池續航測試中可持續約16.5小時,而配置相似的155H Zenbook 則僅持續了12小時出頭,這一成績和搭載M3的MacBook非常接近,是近幾年來續航最好的x86架構筆記本之一。
英特爾確實做到了,它用Lunar Lake這柄大錘打破了蘋果和ARM塑造的功耗神話。
壯士斷腕?
但很可惜的是,英特爾在打破神話之後卻選擇了放棄,直接宣告未來的處理器不會使用Lunar Lake這樣的封裝內存,再度回歸傳統的處理器設計。
有意思的是,英特爾在Lunar Lake正式發售的半年前,就決定了後續的Arrow Lake、Nova Lake、Raptor Lake、Twin Lake、Panther Lake與Wildcat Lake等新產品,均不採用Lunar Lake的封裝方式,也就是說Lunar Lake在英特爾內部判了死刑。
爲什麼口碑還不錯的Lunar Lake,英特爾自己卻不看好呢?
分析師郭明錤提供了一種觀點,他認爲Lunar Lake的誕生有兩個原因,首先是與蘋果的競爭,MacBook採用自研芯片後市佔率提升,英特爾想要證明x86架構也能達到相似能效和續航;
第二個原因則是對微軟Surface改用ARM處理器的回應,微軟2Q24的新款Surface系列全面採用有45 TOPS算力的高通處理器,針對它推出競品。
他表示,雖然英特爾稱Lunar Lake因封裝內存稀釋毛利率而失敗,但真正原因是品牌和代工廠商因採用零件彈性降低不利於利潤因而採購意願低、英特爾對DRAM供應商議價能力遠低於蘋果且需要依靠台積電代工因而不利於成本優化、AI PC應用不成熟因而消費者不願意爲Lunar Lake買單。
他指出,從Lunar Lake失敗可見,英特爾面臨的挑戰不僅是製程落後,更深層的問題在於產品規劃能力(另一證明爲AMD在服務器的佔有率持續提升),製程技術或許只是表象,導致一連串錯誤產品決策的組織機制可能才是英特爾的核心問題。
郭明錤的看法可能不是完全正確,但他確實指出了英特爾產品線的一個核心問題:混亂。
英特爾的服務器芯片暫且不做討論,面向消費市場的芯片已經亂成了一團亂麻,試想一下,倘若一個消費者對過往幾年的英特爾處理器續航感到失望,但在Lunar Lake上卻驚喜地獲得了比肩ARM MacBook的續航,但當下一代推出時,這樣優秀的續航表現卻消失不見,消費者內心會作何想法呢?
話說回來,英特爾的18A製程即將量產,但對於它自己的處理器來說,卻並不是什麼好消息,這一製程目前有且只有英特爾自家會用,尚未敲定任何大客戶,每一次製程升級都像是摸着石頭過河,對比之下,台積電卻有足夠的客戶來驗證和改良自己的最新制程,愈發凸顯英特爾的尷尬。
英特爾砍掉Lunar Lake的更深層原因,不僅僅是內存影響利潤那麼簡單,對於如今的首席執行官基辛格來說,最頭疼的就是如何做好處理器部門和代工部門之間的平衡,如果處理器部門未來持續選擇台積電代工,那麼代工部門處境就會更加艱難,但如果處理器部門遲遲得不到最先進的製程技術,那麼不光是服務器市場,連消費市場也會被競爭對手奪走。
歸根結底,就是一個讓誰吃苦的問題,很顯然,誰都不想過幾天苦日子。
但回想一下,蘋果爲了一塊指甲蓋大小的芯片的芯片,又吃了多少苦呢,從摩托羅拉68K到PowerPC,再到英特爾,三度改換門庭,手機芯片也曾一度只能仰人鼻息,看三星的臉色行事,花了幾年導入台積電,最終推出自研的M1芯片,其中的坎坷都可以寫成一本血淚史了。
而英特爾如今要吃這一點苦,比起前幾十年的順風順水,又算得了什麼呢?
編輯/Rocky