share_log

AMD推出新一代GPU,多款芯片齐发

AMD推出新一代GPU,多款芯片齊發

來源:半導體行業觀察

作者:李壽鵬

日前,AMD董事會主席及首席執行官Lisa Su博士在社交媒體發佈消息表示:「10 年前,我有幸被任命爲AMD首席執行官。這是一段令人難以置信的旅程,有很多值得驕傲的時刻。」誠然,翻看AMD過去十年的發展歷程,也的確稱得上是奇蹟。

以服務器CPU爲例,在Lisa Su出任CEO後,AMD加大了這個市場的投入,並於2017年推出了公司面向數據中心市場的EPYC系列。歷經七年的發展,AMD在服務器CPU市場不但已經收復失地,甚至還屢創新高。如圖所示,在今年上半年,公司EPYC CPU的市場佔有率高達34%,這足以說明EPYC的成功。

但其實除了服務器CPU以外,AMD在面向PC的CPU和GPU、面向數據中心的GPU和DPU方面都取得了飛躍式的發展。在今日於舊金山舉辦的「AMD Advancing AI 2024」峯會現場,AMD還帶來了面向AI PC、數據中心和人工智能的CPU、GPU和DPU的重磅更新。

緊盯AI市場,持續加碼GPU

在AMD近些年發佈的產品以來,面向AI市場的Instinct GPU無疑是最受關注的一系列產品。因爲以ChatGPT爲代表的GenAI的火熱,市場上對GPU的需求與日俱進。作爲目前全球爲數不多能與英偉達競爭的廠商之一,AMD的Instinct系列也發展迅猛。

根據Lisa Su在今年七月的業績會議中所說,AMD Instinct MI300X GPU在今年第二季度爲數據中心帶來了超過 10 億美元的收入。她同時指出,這些加速器將在2024 財年爲AMD帶來超過 45 億美元的收入,高於 4 月份預期的 40 億美元的目標。

爲了進一步抓住GenAI市場的機會,AMD在峯會上詳細披露了更新版本的Instinct MI325X加速器。

對於AMD有關注的讀者應該知道,這款加速器早在今年六月的臺北國際電腦展上就有披露。如圖所示,作爲MI300X的升級版本GPU,全新的AMD Instinct MI325X 加速器在大部分配置上都與前者相似,甚至連在基板服務器設計方面,也都是採用與前者相同的設計。不同之處在於,MI325X 將配備 288GB HBM3E 內存和 6TB/秒的內存帶寬。作爲對比,MI300採用的是192GB HBM3,內存帶寬也只有5.2 TB/秒。

得益於這個更新,如上圖所示,AMD Instinct MI325X在多個模型的推理表現領域優於英偉達H200。AMD同時透露,公司基於MI325X的8路 OAM平台也將在今年Q4發貨。如圖所示,在與NVIDIA H200 HGX相比時,新平台在內存容量(1.8倍)、內存帶寬(1.3倍)和FP16 和FP8 Flops(1.3倍)上的表現都領先於前者。其在推理方面的表現也爲前者的1.4倍。

來到訓練方面,AMD Instinct MI325X平台的表現也毫不遜色於NVIDIA H200 HGX。如圖所示,無論是在單GPU還是在8 GPU的Meta Llama-2訓練場景,AMD Instinct MI325X平台的表現都不遜色於後者,這讓公司在這個市場上擁有了更多的籌碼。

爲了滿足日益增長的 AI 計算需求,AMD強調,公司Instinct 加速器將執行年度更新的節奏。這就意味着公司該系列的下一代產品——AMD Instinct MI350系列或將於2025年上市。

據介紹,AMD將於明年推出的AMD Instinct MI350系列首款產品AMD Instinct MI350X加速器預計基於AMD CDNA 4架構設計。如圖所示,相比前代產品,新一代的GPU架構會獲得大幅度的性能提升,使AMD Instinct MI350X的性能得到了保證。

在架構表現大幅提升的同時,新一代的Instinct GPU還使用了先進的3nm工藝技術構建,搭載高達288 GB的HBM3E內存,並支持FP4和FP6 AI數據類型,進一步提升了整體的性能表現。同時,因爲採用了與其他MI300系列加速器相同的行業標準通用基板服務器設計,新的GPU讓終端的芯片升級變得更簡單。

與AMD Instinct MI325X相比,如上圖所示,新加速器的在多方面的表現都取得了不錯的成績。當然,基於MI350X打造的平台表現也同樣出色。AMD方面透露,這個產品計劃將在明年二季度正式準備好。

爲了方便開發者更好地用上公司的GPU,AMD除了持續更新其ROCm系列,還在與業界生態夥伴緊密合作。

據介紹,AMD新版本的ROCm 6.2 現在提供了包括FP8 數據類型、Flash Attention 3、Kernel Fusion 在內的多項關鍵 AI 功能的支持。有了這些新功能,與 ROCm 6.0 相比,ROCm 6.2 在推理6上的性能提升高達 2.4 倍,在各種 LLM7的訓練上的性能提升高達 1.8 倍。

與此同時,AMD 還在推動最廣泛使用的 AI 框架、庫和模型(包括 PyTorch、Triton、Hugging Face 等)對 AMD 計算引擎的支持。這項工作轉化爲 AMD Instinct 加速器在流行的生成 AI 模型(如 Stable Diffusion 3、Meta Llama3、3.1 和 3.2 以及 Hugging Face 上的一百多萬個模型)上的開箱即用的性能和支持。

此外,AMD同時透露,公司最近斥資 6.65 億美元收購的Silo AI將解決客戶AI的最後一英里問題。如AMD 高級副總裁、AIG 總裁 Vamsi Boppana 所說:「Silo AI 團隊開發了最先進的語言模型,這些模型已在 AMD Instinct 加速器上進行了大規模訓練,他們在開發和集成 AI 模型以解決最終客戶的關鍵問題方面擁有豐富的經驗。我們期望他們的專業知識和軟件能力將直接改善客戶在 AMD 平台上提供最佳性能 AI 解決方案的體驗。」

值得一提的是,按照這個更新節奏,AMD Instinct MI400系列或將於2026年亮相。

CPU不甘人後,推陳出新

如文章開頭所說,在數據中心市場,EPYC系列CPU是AMD最引以爲傲的產品,關於這系列產品近年的發展,在前面我們已經概述了。除此以外,面向消費級PC市場的銳龍 CPU,也是AMD近年來在CPU市場力挽狂瀾的另一個倚仗。

在今天的峯會上,AMD也帶來了CPU更新。分別是面向數據中心的第五代EPYC以及面向AI PC的銳龍 AI PRO 300系列。

首先看最新一代的EPYC處理器。如下圖所示,AMD 基於 Zen 5 的 EPYC 服務器處理器代號爲「Turin」,使用台積電3nm/4nm工藝製造,主頻高達5Ghz。具體而言,Turin 有兩種版本:一種配備Zen 5 內核(128內核、256線程),另一種配備 Zen 5c內核。

其中,經過密度優化的 CPU 內核Zen 5c 芯片將配備多達 192 個內核和 384 個線程,這些內核和線程採用 3nm 工藝製造,然後與塞入單個插槽的 6nm I/O 芯片 (IOD) 配對,整個芯片由 17 個chiplet(芯粒)組成;具有標準全性能 Zen 5 內核的型號則配備 12 個具有 N4P 工藝節點的計算芯片和一箇中央 6nm IOD 芯片,共 13 個芯粒。

在基本內存和 I/O 方面,該系列則提供12 個 DDR5 內存通道和 160個 PCIe 5.0 通道。而基於這兩個內核,AMD爲Turin系列設計出多款SKU,以滿足不同場景的多個需求。

從AMD提供的數據來看,第五代EPYC在多個方面表現優越。例如面向企業和雲應用,Zen 5內核的IPC提升了17%;面向HPC和AI應用,其IPC提升了37%;其他如世界級的SPEC CPU 2017整數吞吐、領先的單核性能和出色的負載表現,也是第五代EPYC不得不提的又一個優勢;此外,在AI如火如荼的當下,第五代EPYC在推理方面也交出了一份不錯的答案。

在充當AI host 處理器的時候, 第五代 AMD EPYC 9575F CPU給GPU系統帶來的改善也是有目共睹。

據AMD介紹,通過優化的 CPU + GPU 解決方案,第五代EPYC能夠賦能傳統計算、混合 AI 和大規模 AI。而經過多年的發展,該系列CPU也已經成爲了機密計算領域安全領導者。更重要的是,因爲其本身的X86架構以及成熟生態等天然特性,該系列處理器能夠讓開發者可以輕易從Intel平台遷移過來,實現數據中心現代化,增加更多容量以滿足客戶計算需求。

基於這些領先表現,第五代EPYC處理器是適用於雲、企業和 AI 的全球最佳 CPU。

其次,來到銳龍AI CPU方面,這是AMD近年發力的又一個重點,也是GenAI崛起的一個產物。

據IDC在報告中介紹,在芯片廠商和ODM的推動下,2024年已經成爲了AI PC發展的元年,雖然在整個PC的市場佔有率僅爲3%,但其崛起勢頭無法阻擋,預計到2028年出貨量將達到今年的60倍。AMD的銳龍 AI 300 系列CPU,就是爲這個市場準備的。

今天發佈的銳龍 AI PRO 300系列,則是AMD面向這個市場推出的最新產品。

AMD方面表示,如圖所示,該系列處理器主要由最新一代的Zen 5 CPU、RDNA 3.5 GPU和XDNA NPU組成。其中,在CPU方面有高達12個內核、24個線程;GPU方面有16個計算單元,NPU的算力則高達50到55 TOPS。

據介紹,新系列的處理器較之上一代有了明顯的提升。而爲了滿足多個應用場景的需求,AMD 銳龍 AI PRO 300提供了三個SKU供選擇。

在這些領先CPU、GPU和NPU的加持下,與競爭對手的同類型產品相比,銳龍 AI PRO 300系列的表現全面領先。例如在與Intel Core Ultra 7 w/ vPro 165U相比時,AMD 銳龍 AI 7 PRO 360的CPU性能領先30% ;與Intel Core Ultra 7 165H相比時,銳龍AI 9 HX PRO 375 CPU的性能更是領先40%。

在NPU方面,銳龍 AI PRO 300系列更是遙遙領先於競爭對手。這也讓其在執行AI任務的時候遊刃有餘,而爲了便利開發者,AMD在軟件和生態方面也和合作夥伴強強聯手,加快AI PC的普及。

網絡,不容忽視的一環

我們平時談及AI服務器系統的時候,很多時候關注的GPU或者CPU,甚至存儲、功耗。但其實對於當前的AI系統而言,網絡連接是最不容忽視的一環。

從芯片層面看,受困於摩爾定律放緩和光罩尺寸的影響,在單芯片上實現更多的算力變得越來越難,這也正是AMD大力推行Chiplet的原因,而要爲了將這些不同的Chiplet連接起來,這就需要更好的網絡連接;從系統層面看,因爲單機櫃的算力始終有限,因此如何在一個數據中心內將更多的節點連接到一起形成集群,就成爲了整個行業操心的問題。同時,考慮到需要在系統中處理越來越多的數據,這就讓網絡變得空前重要。

據相關資料介紹,隨着人工智能應用的增長和 GPU 在服務器中的使用,由服務器中使用的以太網交換機和網絡適配器 (或 NIC) 組成的傳統數據中心網絡已成爲「前端網絡」。按照AMD所說,該網絡連接到前端計算和存儲服務器,這些服務器通常處理數據提取並支持訪問 AI 服務的許多用戶和設備。它們承載兩種類型的流量 [南北 (NS)] 往返外部世界(互聯網或其他數據中心)的流量和來自同一數據中心內網絡端點的 [東/西 (EW)] 流量。這兩者都有不同的要求。

與此同時,一種被稱作「後端網絡」的新網絡也已經發展起來。該網絡的主要作用是將 AI 節點相互連接以進行分佈式計算。在AMD看來,後端網絡需要高性能和低延遲,以支持 AI 工作負載的高速通信要求。有些機器通常稱爲 GPU 節點(包含一個或多個 CPU 和 GPU)。GPU 節點在兩個網絡上都有多個網絡接口。如今,GPU 節點每個 GPU 都有一個 RDMA NIC。節點集合形成 pod(連接到同一節點並可用於並行處理的 GPU 組)。一組相互連接的節點共同爲特定計算任務提供加速計算能力,形成一個集群。

爲了處理這些問題,不同廠商都在採用不同的解決方案。AMD則認爲,DPU和以太網會是一個解決辦法。

基於這些思考,AMD首先以約 19 億美元收購數據中心優化初創公司Pensando。該公司的產品包括可編程數據包處理器(DPU),可管理工作負載在硬件基礎設施中的移動方式,儘可能將工作從 CPU 上移開以提高性能;同時,AMD還參與推動Ultra Ethernet的發展。

「對於後端網絡而言,無論從成本還是可擴展性上看,Ultra Ethernet都是首選」,AMD方面強調。

在AMD等超高速以太網聯盟 (UEC:Ultra Ethernet Consortium )的推動下,Ultra Ethernet的相關協議表現優越。與此同時,AMD在今天的峯會上也發佈了第三代的P4引擎和Pensando Salina 400以及Pensando Pollara 400。

據介紹,Pensando Salina 400是一個面向前端網絡的DPU,也是是全球性能最高、可編程性最強的 DPU 的第三代產品。與上一代產品相比,其性能、帶寬和規模提高了 2 倍。同時,該DPU還支持 400G 吞吐量以實現快速數據傳輸速率,這就讓AMD Pensando Salina DPU 成爲AI 前端網絡集群中的關鍵組件,可優化數據驅動型 AI 應用的性能、效率、安全性和可擴展性。

至於搭載了AMD P4 可編程引擎的Pensando Pollara 400則是業內首個UEC ready AI NIC。支持下一代 RDMA 軟件,並由開放的網絡生態系統支持。在AMD看來, 新的Pensando Pollara 400 對於在後端網絡中提供加速器到加速器通信的領先性能、可擴展性和效率至關重要。

憑藉這些領先產品,AMD在巨大的網絡系統市場中,也能分一杯羹。AMD同時透露,公司的 Pensando Salina DPU 和Pensando Pollara 400 均在 2024 年第四季度向客戶提供樣品,並有望在 2025 年上半年上市。

寫在最後

自Lisa Su出任AMD CEO以來,AMD市值和營收實現了指數級增長,公司也成爲了AI芯片市場爲數不多的全能型選手。這一方面受惠於在Lisa Su帶領下的管理團隊的運籌帷幄;另一方面,AMD的團隊能夠堅定地執行公司領導層的策略,也是AMD取得當前成功的關鍵。

現在,隨着LLM規模的越來越大,如何搭建一個擁有更強CPU和GPU的集群已經成爲了全球追逐的共同目標,這也是LLM參與者的共識。擁有豐富算力和網絡產品線佈局,並在軟件生態有廣泛投入的AMD已然成爲算力市場的舉足輕重的角色。

正如Lisa Su在社交媒體中所說:「儘管過去 10 年令人驚歎,但最好的還在後頭。」

編輯/Rocky

譯文內容由第三人軟體翻譯。


以上內容僅用作資訊或教育之目的,不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。
    搶先評論