share_log

进一步揭开AMD ZEN 5的神秘面纱

進一步揭開AMD ZEN 5的神祕面紗

半導體行業觀察 ·  07/26 10:03

如果您希望可以時常見面,歡迎標星 收藏哦~

來源:內容由半導體行業觀察(ID:icbank)綜合自tomshardware,謝謝。

AMD 最近向全世界公佈了即將發佈的Ryzen 9000“Granite Ridge”和 Ryzen AI 300“Strix Point”處理器的細節。信息量很大,但該公司本週又對其 Zen 5 微架構和 SoC 佈局進行了更深入的介紹。AMD透露,其 Zen 5c“緊湊型”內核比標準全功能 Zen 5 內核小約 25%,並且這兩種內核類型在同一芯片上具有不同數量的緩存——這是 AMD 設計的第一次。該公司還宣佈了許多其他有趣的技術細節,我們將在下面介紹。

AMD ZEN 5架構的特點

AMD 開發了 Zen 5 架構,然後對其進行了定製,以實現更緊湊的 Zen 5c 核心實現。這種單一架構部署在兩種可定製的核心類型中,將用於其桌面、移動和服務器處理器,並涵蓋 4nm 和 3nm 工藝節點。

與之前的 Zen 4 架構相比,這些處理器的平均每週期指令 (IPC) 性能提升了 16%。這一增強意味着 Zen 5 芯片在相同的時鐘速度和核心數量下效率提高了 16%,具體取決於特定的工作負載。與之前的 Zen 迭代之間經常看到的增量更新不同,AMD 將 Zen 5 描述爲 Zen 4 的實質性飛躍。

爲了實現這一進步,AMD 實施了多項架構改進。其中,AMD 優化了分支預測的準確性並降低了其延遲,以提高處理器在確認分支指令之前預測其方向的效率。AMD 還通過擴展管道和矢量大小來增強吞吐能力,這有助於同時處理更多數據並提高核心的並行處理能力。此外,據報道,Zen 5 處理器具有更大的窗口大小,允許管道中容納更多指令,從而提高了整體計算吞吐量。

在數據處理方面,AMD 告訴我們,Zen 5 架構將前端指令的帶寬增加了一倍。這一增強還體現在 L1 和 L2 緩存之間以及從 L1 緩存到浮點 (FP) 單元的數據傳輸速率增加,這將顯著提高處理器處理複雜計算和數據密集型任務的效率。

AMD 在 Zen 5 架構中的最新分支預測器旨在減少延遲並提高準確性,從而提高整體吞吐量。較低的延遲使 CPU 能夠更快地訪問和處理分支預測數據。增強的準確性減少了誤預測,從而節省了 CPU 資源。鑑於 Zen 5 的更寬核心設計,增加的分支預測器吞吐量對於保持最佳性能至關重要。額外的解碼管道通過確保高效的數據流進一步支持了這一目標。Zen 5 引入了 8 寬調度,與以前的 Zen 架構的 6 寬調度相比,這是一個值得注意的改進。這種擴展允許 Zen 5 CPU 核心同時處理更多操作,前提是它們接收到足夠的數據。

SoC 和 Zen 5c 的芯片面積減少了約 25%

AMD對其“緊湊型”Zen 5c 核心的方法本質上不同於英特爾對其 e 核心的方法。與英特爾的 E 核心一樣,AMD 的 Zen 5c 核心旨在比“標準”性能核心佔用更少的處理器芯片空間,同時爲不太苛刻的任務提供足夠的性能,從而節省電力並提供比以前更多的每平方毫米計算馬力(深入了解此處)。但相似之處到此爲止。與英特爾不同,AMD 採用相同的微架構,並通過其較小的核心支持相同的功能。

AMD 的全尺寸 Zen 5 和緊湊型 Zen 5c 內核可用於多個部分,既可以採用同一芯片上兩種內核類型的異構設計(如 Strix Point),也可以採用僅使用一種內核類型的同質設計(如僅具有全尺寸內核的 Granite Ridge 臺式機芯片,或僅具有較小的緊湊型內核的上一代EPYC Bergamo服務器芯片)。

Ryzen 9000 Granite Ridge 處理器完全符合預期 - 單個 CCD(核心小芯片芯片)包含八個完整的 Zen 5 核心,並配有 32MB 的 L3 緩存。CPU 將配備一個或兩個 CCD,並配有一個 IOD(輸入輸出芯片),用於處理現代 SoC 中的許多其他功能。

Strix Point SOC 完全獨一無二。緊湊型核心專爲橫向擴展性能而設計,同時提供更優化的功率性能比。部分差異源於 AMD 對這種核心類型使用不同的緩存容量。

該芯片有兩個 CCX(核心複合體 - 同一芯片上的核心集群),就像我們在舊款 AMD Zen 2 芯片中看到的一樣。兩種核心類型都有自己的私有 L1 和 L2 緩存,但 24MB 的 L3 緩存分爲標準核心的 16MB 部分和 Zen 5c 緊湊核心的 8MB 部分。AMD

的 Zen 5c 核心標誌着它首次在同一芯片上擁有兩種具有不同緩存容量的核心類型 - 四個全尺寸性能核心每個都有 4MB 的 L3,以滿足低延遲和突發工作負載。相比之下,八個緊湊型核心每個只有 1MB 的 L3,用於低利用率高駐留工作負載。

減少的 L3 緩存容量不僅爲緊湊型內核節省了空間,還大大降低了功耗——該芯片每個緊湊型內核使用的耗電緩存要少得多。鑑於 AMD 希望儘可能多地在緊湊型內核上運行整個機器,同時對性能內核及其大型 L3 緩存進行電源門控,這具有極大的延長電池壽命的潛力——前提是調度機制按預期工作。

轉向非對稱緩存設計給 AMD 帶來了新的調度和管理問題。這兩個 L3 緩存必須通過數據結構相互通信,就像 AMD 較舊的 Zen 2 架構中的 CCX-to-CCX 緩存一致性機制一樣。這會導致緩存到緩存傳輸的延遲更高,AMD 表示“不會超過您必須轉到內存的時間”。

因此,AMD 使用 Windows 調度程序機制嘗試將工作負載限制在 Zen 5 或 5c 內核上,以減少高延遲傳輸的發生,而後台工作負載通常分配給 5c 內核。

與英特爾不同,英特爾會優先將工作調度到 E 核中,如果較小的核心速度不夠快,則再將其發送到其他核心,而 AMD 則不會優先考慮工作負載首先落在何處。相反,AMD 允許操作系統根據優先級和 QoS 機制選擇目標核心類型,從而確保根據給定的工作負載獲得最佳的用戶體驗。AMD 擁有自己的線程調度機制,併爲操作系統提供表格,其中列舉了每個核心的性能和功率特徵,併爲各種操作提供了權重,從而允許操作系統做出調度決策。

我們還可以在幻燈片中看到 EPYC SoC 的細分,AMD 對其下一代 Zen 5 EPYC CPU 含糊其辭,只是列出了每個 CCD 的“N-Classic/Compact”核心,以限制 CCD 的核心數量——儘管如果按照慣例,每個 CCD 的核心數量將與臺式機部件相同。我們在“X-MB L3”列表中看到了同樣的情況。“未來”項目符號在 EPYC CCD 旁邊列出了同質和異質類型的芯片,有些人可能認爲這意味着 AMD 可能會推出一些具有混合核心類型的 Zen 5 EPYC 芯片——這將是第一次。但是,請注意,項目符號列表是功能的經驗列表,而不是僅與旁邊列出的 EPYC CCD 相關。

AMD 還詳細闡述了 Zen 5c 緊湊型核心的原理和目標。與英特爾的方法不同,兩種 Zen 5 核心類型都支持 SMT 和相同的指令集 (ISA),從而避免了英特爾在不同核心類型上面臨的調度問題——英特爾的核心類型不支持相同的 ISA。

AMD的方法也不同於英特爾,因爲它優先考慮在多核工作負載期間使 Zen 5c 核心的性能儘可能接近標準核心。這可以防止較大核心等待較小核心完成工作負載的情況,這對於具有線程依賴性的多核工作負載等情況非常重要。這避免了 Zen 首席架構師 Mike Clark 所說的“調度懸崖”,如果將工作負載安排到 Zen 5c 核心中,性能將出現巨大差異,從而對用戶體驗產生負面影響。

最終,目標是在兩種核心類型之間提供儘可能最小的差異。因此,AMD 並沒有設定 Zen 5c 設計目標,而是針對較小的內核設定了特定的電壓/頻率 (V/F) 曲線。

與所有處理器一樣,由於功率和熱限制,Zen 5 的時鐘頻率會隨着加載更多內核而下降。這意味着當四個性能內核處於活動狀態時,處理器的時鐘速度將低於一個活動內核時。AMD 使用加載頻率作爲指導,決定在何處定義緊湊內核的 V/F 曲線目標,從而保持兩種內核類型之間的速度差異。

降低 Zen 5c 的頻率目標使該公司能夠將設計分解爲更少、更大的塊,這些塊的位置更近,從而帶來降低功耗的好處。AMD 移除了 5c 內核中不再需要的高速中繼器和緩衝電路,以達到標準內核支持的最大頻率。再加上每個內核的 L3 緩存容量更低,與標準內核相比,Zen 5c 的內核面積大大減少。

最終,與標準 Zen 5 核心相比,AMD 將 Zen 5c 核心的面積減少了約 25%(Clark 指出這是一個大概的數字)。這低於我們在 EPYC Bergamo 處理器中使用的 Zen 4c 核心中看到的 35% 的減少(上面的幻燈片供參考)。

Clark表示,對於具有不同性能目標的緊湊核心(同質)設計,Zen 5 核心可以進一步壓縮(作爲參考,Bergamo 只有緊湊核心),但這種設計滿足了這種特定異構設計的目標。因此,我們可能會看到其他產品中出現更密集的 Zen 5c 核心設計。

毫無疑問,Zen 5c 的核心面積減少 25% 令人印象深刻,特別是如果 AMD 設法將核心之間的性能差異保持在較低水平。但是,只有測試才能說明問題。我們似乎也找不到 AMD 網站上列出的 Zen 5c 核心的時鐘,但我們正在跟進以獲取更多詳細信息。

AMD Strix Point和Granite Ridge

AMD 提供了Strix Point SoC 的細分,提供了更多細節。最有趣的花絮是不同計算單元之間的各種數據路徑寬度。這些數據路徑通過 Infinity Fabric 與內存通信。

Zen5 和 Zen 5c 核心集群都有自己的 32B/週期端口,這意味着 CCX 之間的 L3 緩存到緩存傳輸將受到限制。同時,帶寬需求大的 GPU 有四個 32B/週期端口。XDNA 神經處理單元 (NPU) 也有自己的單個 32B/週期數據結構接口。我們還看到了固定功能加速器塊的標準補充,例如視頻編碼/解碼等。Strix 支持 LPDDR5-7500 和 DDR5-5600 內存。

值得注意的是,AMD 削減了 PCIe 通道分配。按照其移動部件的慣例,AMD 退回到上一代 PCIe 接口(在本例中爲 PCIe 4.0)以節省電量。然而,AMD 還將連接通道數從 20 條減少到了 16 條,並表示做出這一決定是因爲該公司確定額外的 4 條通道幾乎總是用於二級存儲。然而,AMD 表示,這種用例在這一領域並不常見(低連接率)。因此,AMD 認爲減少通道數是一種可接受的權衡,可以減少引腳數,從而有助於節省芯片和基板面積(減少與芯片和系統板的連接),同時進一步降低功耗。

Ryzen 9000 臺式機芯片中的 Granite Ridge SoC 驚喜較少,佈局與上一代芯片相似。事實上,SoC 使用與 Zen 4 Ryzen 7000 芯片相同的 IOD。這意味着 CPU 對 DDR5-5600 內存、28 條 PCIe 5.0 通道、五個 USB 端口和來自集成 RDNA 2 圖形引擎的四個顯示流具有相同的支持。使用相同的 IOD

遵循 AMD 的標準政策,即儘可能智能重用。RDNA 2 引擎足以滿足 AMD 的目的——它實際上只是爲了點亮顯示器,僅此而已。它還允許 AMD 保持與以前相同的封裝尺寸,從而減輕其繼續支持 AM5 平台的努力。iGPU 具有雙 32B/週期端口到 Infinity Fabric。IOD

與一個或兩個八核 CCD 配對。具有單個 CCD 的處理器具有 32B/週期讀/寫端口,用於通過芯片到芯片 (D2D) Infinity Fabric 連接與 IOD 進行通信。但是,與以前一樣,雙 CCD 芯片在 IOD 之間具有 16B/週期寫入和 32B/週期讀取連接,以節省高功率 SERDES 的功耗並簡化封裝佈局。接口的大小在這裏很重要,因爲設計在兩個芯片的情況下空間更加受限。AMD 表示,它已經描述了實際工作負載,並發現讀取與寫入的典型比率爲 3:1,因此性能基本不受 16B/週期寫入帶寬減少的影響。

Granite Ridge “Eldora” CCD 在 70.6 平方毫米的硅片上封裝了 83.15 億個 TSMC N4P 晶體管,相當於 117.78 MTr/平方毫米的晶體管密度,比 Zen 4 的 Durango CCD 提高了 28%。Strix

Point 的芯片面積爲 232.5 平方毫米,比上一代 Hawk Point 的 178 平方毫米大得多。這主要是因爲兩個芯片都使用相同的工藝節點,但 Strix 擁有更多的內核和緩存。Strix 還擁有功能更強大、因此也更大的集成 GPU——多達 16 個 RDNA 3.5 計算單元,而 Hawk/Phoenix Point 只有 12 個 RDNA 3 CU。AMD 尚未公佈 Strix 的晶體管數量,但我們正在跟進更多細節。

參考鏈接

點這裏 加關注,鎖定更多原創內容

譯文內容由第三人軟體翻譯。


以上內容僅用作資訊或教育之目的,不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。
    搶先評論