share_log

英伟达高管谈NVL72 机架的新设计

英偉達高管談NVL72 機架的新設計

半導體行業觀察 ·  03/28 09:31

半導體行業觀察(ID:icbank)編譯自hpcwire,謝謝。

如果您希望可以時常見面,歡迎標星 收藏哦~

GTC 展廳上的 Nvidia 新款旗艦級大型服務器 DGX GB200 的照片因其爲人工智能帶來的強大計算能力而在社交媒體上獲得了好評。

Nvidia 的 DGX GB200(也稱爲 NVL72 機架服務器)可在 NVLink 域內配置多達 576 個 GPU。除此之外,DGX 系統還可以通過 SuperPOD 配置和 InfiniBand 網絡擴展到數以萬計的其他 GB200 系統,以實現長距離通信。

HPCwire 採訪了 Nvidia DGX 系統部門副總裁兼總經理 Charlie Boyle,了解該系統的設計和底層技術。這是經過編輯的文字記錄。

HPCwire:新的 DGX 系統是什麼?

Boyle:2016 年,當我們在 GTC 上推出原始平台時,我們推出了一些世界前所未見的東西。這是我們第一次擁有 NVLink、GPU 和 SXM。我們經歷了多代 DGX 系統,從 Pascal 到 Volta 和 Hopper,顯然在全球客戶和各種形式的企業中都取得了非常成功的成果。

我們宣佈了一種新型系統,就像八年前我們宣佈了一種新型系統一樣。這個新系統是機架級計算機,我們稱之爲DGX GB200系統。它擁有 72 個 Blackwell 和 36 個 Grace GPU,全部集成到單個 NVLink 域中。

HPCwire:顯然,更大強的動力,您能否分享更多關於採用該配置的決定?

Boyle:最初的 DGX 自誕生以來一直是單個機箱中的 NVLink 域。DGX-2 有一段時間有 16 路變體,但即使在那之後,我們又回到了 8 路域。隨着人工智能模型變得越來越複雜,特別是在稱爲專家混合的新型模型中,多個人工智能模型一起工作來回答單個問題或生成單個輸出,我們在實踐中看到了一個限制因素。

在 MLPerf 示例中,限制因素之一是非常大的模型花費大約 60% 的時間在實際模型內相互通信。我們意識到,如果我們能夠構建一個更大的 NVLink 域,就可以緩解通信問題,因爲 NVLink 甚至比最快的 InfiniBand 還要快得多。

藉助這個新系統,您可以在單個機架中獲得 72 個 GPU、36 個 CPU 和 9 個 NVSwitch 單元,所有這些都作爲單個 DGX 單元交付給客戶。新的機架系統也是液冷的,非常節能,並且可以利用環境水和輸入水來節省數據中心的費用。

HPCwire:您可以擴展到超出 GB200 系統多遠?

Boyle:我們將這個單一系統稱爲 DGX GB200 系統(您也可能會看到它稱爲 NVL-72),可以與任意數量的機架連接,在 DGX SuperPOD 配置中可連接多達數萬個 GPU 。

SuperPOD 產品是 Nvidia 的交鑰匙產品。我們構建它,將其運送給客戶,並安裝一切,包括客戶驗收測試。

這款 SuperPOD 的一大新特點是,上一代 SuperPOD 是在客戶所在地使用您習慣看到的經典 DGX 系統進行現場組裝的。

這款新的 SuperPOD 將完全在工廠製造,通過所有老化測試,拆除一半電纜,然後將機架運送給客戶。一旦到達那裏,電纜將重新插入,最終客戶將接受驗收,以更快地實現價值。

HPCwire:NVLink 和 InfiniBand 之間有什麼區別?

Boyle:NVLink 是一種芯片間通信技術,其運行方式類似於內存系統。從語義和執行操作的方式來看,它的功能類似於內存總線。

由於其專業性,NVLink 比 InfiniBand 快得多,但由於速度和延遲最大值而存在距離限制。NVLink 具有使其能夠同時與所有芯片快速通信的功能。相比之下,InfiniBand 等傳統網絡技術以經典的數據源-目標方式發送信息。

在 72 GPU 機架配置中,任何 GPU 都可以直接訪問任何其他 GPU 的內存,就好像它是本地的一樣。NVLink 和 InfiniBand 是互補技術。此前,最大的 NVLink 域位於名爲 HGX 板的物理板上,該板有 8 個 GPU 和幾個 NVSwitch 單元,所有 NVLink 連接均在 PCB 走線上完成。

在新一代中,我們能夠從計算芯片本身(即 Grace-Hopper 超級芯片)擴展 NVLink 領域。

當您看到系統圖片並查看其背面時,您會注意到計算托盤。每個計算托盤都有兩個 Grace CPU 模塊和四個 Hopper 模塊。每個托盤的背面都有外部 NVLink 連接器。您將看到一個完全佈線的背板。計算架背面的每個 NVLink 端口都直接連接到同一機架中的外部 NVSwitch,所有連接都發生在系統背面。

在系統的正面,您會發現所有正常的網絡連接。每個托盤都有四個 InfiniBand 端口,幷包含我們用於南北通信的 BlueField-3 技術。BlueField 可以在 InfiniBand 或以太網模式下運行。該托盤還具有所有標準管理和以太網端口。機架本身包括用於機架內管理的網絡基礎設施。

HPCwire:新系統會改變 CUDA 程序員爲 Nvidia 系統編寫代碼的方式嗎?

Boyle:NVL72 是新系統更常見的配置,其中所有內容都設計爲無縫協作。非常重要的核心庫之一是 NCCL(NVIDIA Collective Communications Library)。多年來,我們改進了 NCCL,並增強了它理解系統中不同元素的能力。

在這個新系統中,作爲 CUDA 程序員或更高級的程序員,您可以從任何應用程序訪問所有 GPU 內存。與上一代產品相比,Hopper 的訓練性能提高了 4 倍,推理能力提高了 30 倍以上。最好的部分是,它運行與 A100 上相同的軟件,無需任何特殊的編程語義即可利用新系統的強大功能。

我們在軟件方面所做的一件大事就是,如果人們不想要的話,就不會將這種複雜性暴露給他們。當然,如果需要,您仍然可以直接在較低級別進行編程。但是,您也可以運行一個簡單的 [PyTorch] 命令……系統將自動將所有工作放置在機架中運行的所有操作系統映像上,確保以最佳位置完成工作。

考慮到通常購買大量 DGX 系統的企業越來越多地進入這一領域,我們已經從軟件中消除了很多複雜性。他們有數據科學家和想要運行人工智能的人,但他們不一定有想要直接在低水平上對芯片進行編程的人。顯然,我們有一些客戶這樣做,我們完全爲他們啓用該技術。

HPCwire:您如何看待未來的 DGX 設計?您從過去的設計中學到了什麼?

Boyle:當我們將 GB200 系統視爲未來的旗艦產品時,我們在系統中放入的很多內容都是希望客戶永遠不會看到的東西。我們從構建超大型集群中學到了很多東西,因爲 NVIDIA 爲研究人員獨立完成了這項工作。

我們在系統中添加了大量的預測性維護、工作自動化和遙測功能,以便系統能夠自行管理。隨着系統變得越來越複雜,用戶群越來越多地擴展到企業的其他方面,許多企業沒有數據中心來放置這些系統,因此它們將被放置在我們的數據中心提供商之一。我們爲此制定了完整的 DGX 計劃。

未來,客戶將運行極其複雜的作業,整個集群中的任何小問題都可能導致作業中斷。然而,客戶只想完成工作。

我們在這個平台上所取得的進步之一是硬件和軟件的結合……芯片中有特定的新 RAS(可靠性、可用性和可服務性)功能,可以幫助我們預測正在發生的情況。

我們有一個預測性維護人工智能,我們在集群級別運行,以查看哪些節點健康,哪些節點不健康。我們不僅僅是一個二進制文件“這個是健康的,這個不是”,我們正在查看來自所有這些 GPU 的數據軌跡,每秒監控數千個數據點,以了解如何以最佳方式完成工作。

從系統設計的角度來看,我們最初的 DGX 目標是構建當時無法構建的東西。2016 年,8 路 NVLink 系統聞所未聞,但現在它已成爲標準,每個 CSP 都在構建它們。然而,我們仍然構建它們,當我們展望未來時,我們會構建越來越大的集群,同時使集群足夠智能來執行客戶希望它做的工作,處理所有經常發生的小事情在集群中。

如果您正在運行大型系統,總會發生一些事情。我們希望將智能構建到集群本身中,以便它可以執行主要指令(如果您願意):完成工作。如果作業終止,我們希望最小化重新啓動時間。對於一項非常大的工作,過去需要幾分鐘甚至幾個小時,我們正在努力將其縮短到幾秒鐘。

HPCwire:雲提供商擁有與您的系統類似的多路 DGX 配置。是這樣的嗎?

Boyle:這就是我們 DGX 的目標。我們將其構建爲設計參考並在內部使用,但我們也與所有合作伙伴廣泛共享該信息。

許多采用 GB200 GPU 的雲提供商都從該參考設計開始,因爲它爲他們節省了大量的研發時間和金錢。

他們查看參考設計並說:“這很棒,但我需要它更高一點,我需要不同的流形,並且我想使用我自己的系統管理。”這就是其背後的想法。我們已經向所有合作伙伴發佈了 GB200 架構,他們都在基於它構建系統。

譯文內容由第三人軟體翻譯。


以上內容僅用作資訊或教育之目的,不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。
    搶先評論