英偉達高管談NVL72 機架的新設計

半导体行业观察（ID：icbank）编译自hpcwire，谢谢。

如果您希望可以时常见面，欢迎标星收藏哦~

GTC 展厅上的 Nvidia 新款旗舰级大型服务器 DGX GB200 的照片因其为人工智能带来的强大计算能力而在社交媒体上获得了好评。

Nvidia 的 DGX GB200（也称为 NVL72 机架服务器）可在 NVLink 域内配置多达 576 个 GPU。除此之外，DGX 系统还可以通过 SuperPOD 配置和 InfiniBand 网络扩展到数以万计的其他 GB200 系统，以实现长距离通信。

HPCwire 采访了 Nvidia DGX 系统部门副总裁兼总经理 Charlie Boyle，了解该系统的设计和底层技术。这是经过编辑的文字记录。

HPCwire：新的 DGX 系统是什么？

Boyle：2016 年，当我们在 GTC 上推出原始平台时，我们推出了一些世界前所未见的东西。这是我们第一次拥有 NVLink、GPU 和 SXM。我们经历了多代 DGX 系统，从 Pascal 到 Volta 和 Hopper，显然在全球客户和各种形式的企业中都取得了非常成功的成果。

我们宣布了一种新型系统，就像八年前我们宣布了一种新型系统一样。这个新系统是机架级计算机，我们称之为DGX GB200系统。它拥有 72 个 Blackwell 和 36 个 Grace GPU，全部集成到单个 NVLink 域中。

HPCwire：显然，更大强的动力，您能否分享更多关于采用该配置的决定？

Boyle：最初的 DGX 自诞生以来一直是单个机箱中的 NVLink 域。DGX-2 有一段时间有 16 路变体，但即使在那之后，我们又回到了 8 路域。随着人工智能模型变得越来越复杂，特别是在称为专家混合的新型模型中，多个人工智能模型一起工作来回答单个问题或生成单个输出，我们在实践中看到了一个限制因素。

在 MLPerf 示例中，限制因素之一是非常大的模型花费大约 60% 的时间在实际模型内相互通信。我们意识到，如果我们能够构建一个更大的 NVLink 域，就可以缓解通信问题，因为 NVLink 甚至比最快的 InfiniBand 还要快得多。

借助这个新系统，您可以在单个机架中获得 72 个 GPU、36 个 CPU 和 9 个 NVSwitch 单元，所有这些都作为单个 DGX 单元交付给客户。新的机架系统也是液冷的，非常节能，并且可以利用环境水和输入水来节省数据中心的费用。

HPCwire：您可以扩展到超出 GB200 系统多远？

Boyle：我们将这个单一系统称为 DGX GB200 系统（您也可能会看到它称为 NVL-72），可以与任意数量的机架连接，在 DGX SuperPOD 配置中可连接多达数万个 GPU 。

SuperPOD 产品是 Nvidia 的交钥匙产品。我们构建它，将其运送给客户，并安装一切，包括客户验收测试。

这款 SuperPOD 的一大新特点是，上一代 SuperPOD 是在客户所在地使用您习惯看到的经典 DGX 系统进行现场组装的。

这款新的 SuperPOD 将完全在工厂制造，通过所有老化测试，拆除一半电缆，然后将机架运送给客户。一旦到达那里，电缆将重新插入，最终客户将接受验收，以更快地实现价值。

HPCwire：NVLink 和 InfiniBand 之间有什么区别？

Boyle：NVLink 是一种芯片间通信技术，其运行方式类似于内存系统。从语义和执行操作的方式来看，它的功能类似于内存总线。

由于其专业性，NVLink 比 InfiniBand 快得多，但由于速度和延迟最大值而存在距离限制。NVLink 具有使其能够同时与所有芯片快速通信的功能。相比之下，InfiniBand 等传统网络技术以经典的数据源-目标方式发送信息。

在 72 GPU 机架配置中，任何 GPU 都可以直接访问任何其他 GPU 的内存，就好像它是本地的一样。NVLink 和 InfiniBand 是互补技术。此前，最大的 NVLink 域位于名为 HGX 板的物理板上，该板有 8 个 GPU 和几个 NVSwitch 单元，所有 NVLink 连接均在 PCB 走线上完成。

在新一代中，我们能够从计算芯片本身（即 Grace-Hopper 超级芯片）扩展 NVLink 领域。

当您看到系统图片并查看其背面时，您会注意到计算托盘。每个计算托盘都有两个 Grace CPU 模块和四个 Hopper 模块。每个托盘的背面都有外部 NVLink 连接器。您将看到一个完全布线的背板。计算架背面的每个 NVLink 端口都直接连接到同一机架中的外部 NVSwitch，所有连接都发生在系统背面。

在系统的正面，您会发现所有正常的网络连接。每个托盘都有四个 InfiniBand 端口，并包含我们用于南北通信的 BlueField-3 技术。BlueField 可以在 InfiniBand 或以太网模式下运行。该托盘还具有所有标准管理和以太网端口。机架本身包括用于机架内管理的网络基础设施。

HPCwire：新系统会改变 CUDA 程序员为 Nvidia 系统编写代码的方式吗？

Boyle：NVL72 是新系统更常见的配置，其中所有内容都设计为无缝协作。非常重要的核心库之一是 NCCL（NVIDIA Collective Communications Library）。多年来，我们改进了 NCCL，并增强了它理解系统中不同元素的能力。

在这个新系统中，作为 CUDA 程序员或更高级的程序员，您可以从任何应用程序访问所有 GPU 内存。与上一代产品相比，Hopper 的训练性能提高了 4 倍，推理能力提高了 30 倍以上。最好的部分是，它运行与 A100 上相同的软件，无需任何特殊的编程语义即可利用新系统的强大功能。

我们在软件方面所做的一件大事就是，如果人们不想要的话，就不会将这种复杂性暴露给他们。当然，如果需要，您仍然可以直接在较低级别进行编程。但是，您也可以运行一个简单的 [PyTorch] 命令……系统将自动将所有工作放置在机架中运行的所有操作系统映像上，确保以最佳位置完成工作。

考虑到通常购买大量 DGX 系统的企业越来越多地进入这一领域，我们已经从软件中消除了很多复杂性。他们有数据科学家和想要运行人工智能的人，但他们不一定有想要直接在低水平上对芯片进行编程的人。显然，我们有一些客户这样做，我们完全为他们启用该技术。

HPCwire：您如何看待未来的 DGX 设计？您从过去的设计中学到了什么？

Boyle：当我们将 GB200 系统视为未来的旗舰产品时，我们在系统中放入的很多内容都是希望客户永远不会看到的东西。我们从构建超大型集群中学到了很多东西，因为 NVIDIA 为研究人员独立完成了这项工作。

我们在系统中添加了大量的预测性维护、工作自动化和遥测功能，以便系统能够自行管理。随着系统变得越来越复杂，用户群越来越多地扩展到企业的其他方面，许多企业没有数据中心来放置这些系统，因此它们将被放置在我们的数据中心提供商之一。我们为此制定了完整的 DGX 计划。

未来，客户将运行极其复杂的作业，整个集群中的任何小问题都可能导致作业中断。然而，客户只想完成工作。

我们在这个平台上所取得的进步之一是硬件和软件的结合……芯片中有特定的新 RAS（可靠性、可用性和可服务性）功能，可以帮助我们预测正在发生的情况。

我们有一个预测性维护人工智能，我们在集群级别运行，以查看哪些节点健康，哪些节点不健康。我们不仅仅是一个二进制文件“这个是健康的，这个不是”，我们正在查看来自所有这些 GPU 的数据轨迹，每秒监控数千个数据点，以了解如何以最佳方式完成工作。

从系统设计的角度来看，我们最初的 DGX 目标是构建当时无法构建的东西。2016 年，8 路 NVLink 系统闻所未闻，但现在它已成为标准，每个 CSP 都在构建它们。然而，我们仍然构建它们，当我们展望未来时，我们会构建越来越大的集群，同时使集群足够智能来执行客户希望它做的工作，处理所有经常发生的小事情在集群中。

如果您正在运行大型系统，总会发生一些事情。我们希望将智能构建到集群本身中，以便它可以执行主要指令（如果您愿意）：完成工作。如果作业终止，我们希望最小化重新启动时间。对于一项非常大的工作，过去需要几分钟甚至几个小时，我们正在努力将其缩短到几秒钟。

HPCwire：云提供商拥有与您的系统类似的多路 DGX 配置。是这样的吗？

Boyle：这就是我们 DGX 的目标。我们将其构建为设计参考并在内部使用，但我们也与所有合作伙伴广泛共享该信息。

许多采用 GB200 GPU 的云提供商都从该参考设计开始，因为它为他们节省了大量的研发时间和金钱。

他们查看参考设计并说：“这很棒，但我需要它更高一点，我需要不同的流形，并且我想使用我自己的系统管理。”这就是其背后的想法。我们已经向所有合作伙伴发布了 GB200 架构，他们都在基于它构建系统。

半導體行業觀察（ID：icbank）編譯自hpcwire，謝謝。

如果您希望可以時常見面，歡迎標星收藏哦~

GTC 展廳上的 Nvidia 新款旗艦級大型服務器 DGX GB200 的照片因其爲人工智能帶來的強大計算能力而在社交媒體上獲得了好評。

Nvidia 的 DGX GB200（也稱爲 NVL72 機架服務器）可在 NVLink 域內配置多達 576 個 GPU。除此之外，DGX 系統還可以通過 SuperPOD 配置和 InfiniBand 網絡擴展到數以萬計的其他 GB200 系統，以實現長距離通信。

HPCwire 採訪了 Nvidia DGX 系統部門副總裁兼總經理 Charlie Boyle，了解該系統的設計和底層技術。這是經過編輯的文字記錄。

HPCwire：新的 DGX 系統是什麼？

Boyle：2016 年，當我們在 GTC 上推出原始平台時，我們推出了一些世界前所未見的東西。這是我們第一次擁有 NVLink、GPU 和 SXM。我們經歷了多代 DGX 系統，從 Pascal 到 Volta 和 Hopper，顯然在全球客戶和各種形式的企業中都取得了非常成功的成果。

我們宣佈了一種新型系統，就像八年前我們宣佈了一種新型系統一樣。這個新系統是機架級計算機，我們稱之爲DGX GB200系統。它擁有 72 個 Blackwell 和 36 個 Grace GPU，全部集成到單個 NVLink 域中。

HPCwire：顯然，更大強的動力，您能否分享更多關於採用該配置的決定？

Boyle：最初的 DGX 自誕生以來一直是單個機箱中的 NVLink 域。DGX-2 有一段時間有 16 路變體，但即使在那之後，我們又回到了 8 路域。隨着人工智能模型變得越來越複雜，特別是在稱爲專家混合的新型模型中，多個人工智能模型一起工作來回答單個問題或生成單個輸出，我們在實踐中看到了一個限制因素。

在 MLPerf 示例中，限制因素之一是非常大的模型花費大約 60% 的時間在實際模型內相互通信。我們意識到，如果我們能夠構建一個更大的 NVLink 域，就可以緩解通信問題，因爲 NVLink 甚至比最快的 InfiniBand 還要快得多。

藉助這個新系統，您可以在單個機架中獲得 72 個 GPU、36 個 CPU 和 9 個 NVSwitch 單元，所有這些都作爲單個 DGX 單元交付給客戶。新的機架系統也是液冷的，非常節能，並且可以利用環境水和輸入水來節省數據中心的費用。

HPCwire：您可以擴展到超出 GB200 系統多遠？

Boyle：我們將這個單一系統稱爲 DGX GB200 系統（您也可能會看到它稱爲 NVL-72），可以與任意數量的機架連接，在 DGX SuperPOD 配置中可連接多達數萬個 GPU 。

SuperPOD 產品是 Nvidia 的交鑰匙產品。我們構建它，將其運送給客戶，並安裝一切，包括客戶驗收測試。

這款 SuperPOD 的一大新特點是，上一代 SuperPOD 是在客戶所在地使用您習慣看到的經典 DGX 系統進行現場組裝的。

這款新的 SuperPOD 將完全在工廠製造，通過所有老化測試，拆除一半電纜，然後將機架運送給客戶。一旦到達那裏，電纜將重新插入，最終客戶將接受驗收，以更快地實現價值。

HPCwire：NVLink 和 InfiniBand 之間有什麼區別？

Boyle：NVLink 是一種芯片間通信技術，其運行方式類似於內存系統。從語義和執行操作的方式來看，它的功能類似於內存總線。

由於其專業性，NVLink 比 InfiniBand 快得多，但由於速度和延遲最大值而存在距離限制。NVLink 具有使其能夠同時與所有芯片快速通信的功能。相比之下，InfiniBand 等傳統網絡技術以經典的數據源-目標方式發送信息。

在 72 GPU 機架配置中，任何 GPU 都可以直接訪問任何其他 GPU 的內存，就好像它是本地的一樣。NVLink 和 InfiniBand 是互補技術。此前，最大的 NVLink 域位於名爲 HGX 板的物理板上，該板有 8 個 GPU 和幾個 NVSwitch 單元，所有 NVLink 連接均在 PCB 走線上完成。

在新一代中，我們能夠從計算芯片本身（即 Grace-Hopper 超級芯片）擴展 NVLink 領域。

當您看到系統圖片並查看其背面時，您會注意到計算托盤。每個計算托盤都有兩個 Grace CPU 模塊和四個 Hopper 模塊。每個托盤的背面都有外部 NVLink 連接器。您將看到一個完全佈線的背板。計算架背面的每個 NVLink 端口都直接連接到同一機架中的外部 NVSwitch，所有連接都發生在系統背面。

在系統的正面，您會發現所有正常的網絡連接。每個托盤都有四個 InfiniBand 端口，幷包含我們用於南北通信的 BlueField-3 技術。BlueField 可以在 InfiniBand 或以太網模式下運行。該托盤還具有所有標準管理和以太網端口。機架本身包括用於機架內管理的網絡基礎設施。

HPCwire：新系統會改變 CUDA 程序員爲 Nvidia 系統編寫代碼的方式嗎？

Boyle：NVL72 是新系統更常見的配置，其中所有內容都設計爲無縫協作。非常重要的核心庫之一是 NCCL（NVIDIA Collective Communications Library）。多年來，我們改進了 NCCL，並增強了它理解系統中不同元素的能力。

在這個新系統中，作爲 CUDA 程序員或更高級的程序員，您可以從任何應用程序訪問所有 GPU 內存。與上一代產品相比，Hopper 的訓練性能提高了 4 倍，推理能力提高了 30 倍以上。最好的部分是，它運行與 A100 上相同的軟件，無需任何特殊的編程語義即可利用新系統的強大功能。

我們在軟件方面所做的一件大事就是，如果人們不想要的話，就不會將這種複雜性暴露給他們。當然，如果需要，您仍然可以直接在較低級別進行編程。但是，您也可以運行一個簡單的 [PyTorch] 命令……系統將自動將所有工作放置在機架中運行的所有操作系統映像上，確保以最佳位置完成工作。

考慮到通常購買大量 DGX 系統的企業越來越多地進入這一領域，我們已經從軟件中消除了很多複雜性。他們有數據科學家和想要運行人工智能的人，但他們不一定有想要直接在低水平上對芯片進行編程的人。顯然，我們有一些客戶這樣做，我們完全爲他們啓用該技術。

HPCwire：您如何看待未來的 DGX 設計？您從過去的設計中學到了什麼？

Boyle：當我們將 GB200 系統視爲未來的旗艦產品時，我們在系統中放入的很多內容都是希望客戶永遠不會看到的東西。我們從構建超大型集群中學到了很多東西，因爲 NVIDIA 爲研究人員獨立完成了這項工作。

我們在系統中添加了大量的預測性維護、工作自動化和遙測功能，以便系統能夠自行管理。隨着系統變得越來越複雜，用戶群越來越多地擴展到企業的其他方面，許多企業沒有數據中心來放置這些系統，因此它們將被放置在我們的數據中心提供商之一。我們爲此制定了完整的 DGX 計劃。

未來，客戶將運行極其複雜的作業，整個集群中的任何小問題都可能導致作業中斷。然而，客戶只想完成工作。

我們在這個平台上所取得的進步之一是硬件和軟件的結合……芯片中有特定的新 RAS（可靠性、可用性和可服務性）功能，可以幫助我們預測正在發生的情況。

我們有一個預測性維護人工智能，我們在集群級別運行，以查看哪些節點健康，哪些節點不健康。我們不僅僅是一個二進制文件“這個是健康的，這個不是”，我們正在查看來自所有這些 GPU 的數據軌跡，每秒監控數千個數據點，以了解如何以最佳方式完成工作。

從系統設計的角度來看，我們最初的 DGX 目標是構建當時無法構建的東西。2016 年，8 路 NVLink 系統聞所未聞，但現在它已成爲標準，每個 CSP 都在構建它們。然而，我們仍然構建它們，當我們展望未來時，我們會構建越來越大的集群，同時使集群足夠智能來執行客戶希望它做的工作，處理所有經常發生的小事情在集群中。

如果您正在運行大型系統，總會發生一些事情。我們希望將智能構建到集群本身中，以便它可以執行主要指令（如果您願意）：完成工作。如果作業終止，我們希望最小化重新啓動時間。對於一項非常大的工作，過去需要幾分鐘甚至幾個小時，我們正在努力將其縮短到幾秒鐘。

HPCwire：雲提供商擁有與您的系統類似的多路 DGX 配置。是這樣的嗎？

Boyle：這就是我們 DGX 的目標。我們將其構建爲設計參考並在內部使用，但我們也與所有合作伙伴廣泛共享該信息。

許多采用 GB200 GPU 的雲提供商都從該參考設計開始，因爲它爲他們節省了大量的研發時間和金錢。

他們查看參考設計並說：“這很棒，但我需要它更高一點，我需要不同的流形，並且我想使用我自己的系統管理。”這就是其背後的想法。我們已經向所有合作伙伴發佈了 GB200 架構，他們都在基於它構建系統。

譯文內容由第三人軟體翻譯。

以上內容僅用作資訊或教育之目的，不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。

英伟达高管谈NVL72 机架的新设计

英偉達高管談NVL72 機架的新設計

風險及免責聲明

聲明