英偉達新GPU強是真強，貴是真貴

如果您希望可以时常见面，欢迎标星收藏哦~

来源：内容由半导体行业观察（ID：icbank）编译自tomshardware，谢谢。

《巴伦周刊》资深作家@firstadopter援引汇丰银行分析师的话称，用于人工智能应用的 Nvidia Blackwell GPU 将比该公司基于 Hopper 的处理器更贵。分析师称，一颗 GB200 超级芯片（CPU+GPU）的成本可能高达 70,000 美元。

然而，Nvidia 可能更倾向于销售基于 Blackwell GPU 的服务器，而不是单独销售芯片，特别是考虑到 B200 NVL72 服务器预计每台成本高达 300 万美元。

汇丰银行估计，Nvidia 的“入门级”B100 GPU 的平均售价（ASP）将在 30,000 美元至 35,000 美元之间，至少在 Nvidia H100 的价格范围内。据报道，功能更强大的 GB200 将单个 Grace CPU 与两个 B200 GPU 结合在一起，售价在 60,000 至 70,000 美元之间。让我们面对现实吧：实际上最终的成本可能会比这高得多，因为这些只是分析师的估计。

基于 Nvidia 设计的服务器将会更加昂贵。配备 36 GB200 超级芯片（18 个 Grace CPU 和 36 个增强型 B200 GPU）的 Nvidia GB200 NVL36 平均售价可能为 180 万美元，而配备 72 GB200 超级芯片（36 个 CPU 和 72 个 GPU）的 Nvidia GB200 NVL72 价格可能约为数百万美元。

当 Nvidia 首席执行官 Jensen 在今年的 GTC 2024 上展示 Blackwell 数据中心芯片时，很明显其意图是移动整个机架的服务器。Jensen 反复表示，当他想到 GPU 时，他现在想到的是 NVL72 机架。整个设置通过高带宽连接集成，充当大型 GPU，提供 13,824 GB 的总 VRAM——这是训练更大的 LLM 的关键因素。

销售整个系统而不是独立的 GPU/超级芯片使 Nvidia 能够吸收系统集成商赚取的部分溢价，这将增加其收入和盈利能力。考虑到 Nvidia 的竞争对手 AMD 和 Intel 的 AI 处理器（例如 Instinct MI300 系列、Gaudi 3）的吸引力非常缓慢，Nvidia 肯定可以以巨大的溢价出售其 AI 处理器。因此，据称汇丰银行估算的价格并不特别令人惊讶。

强调 H200 和 GB200 之间的差异也很重要。H200 的单个 GPU 定价已高达 40,000 美元。GB200 将有效地将 GPU 数量增加四倍（四个硅芯片，每个 B200 两个），并为所谓的 Superchip 添加 CPU 和大型 PCB。单个 GB200 Superchip 的原始计算为 5 petaflops FP16（10 petaflops，稀疏），而 H200 上的原始计算为 1/2 petaflops（密集/稀疏）。这大约是计算量的五倍，甚至没有考虑其他架构升级。

应该记住，数据中心级硬件的实际价格始终取决于单个合同、基于订购的硬件数量和其他谈判。因此，在盐的帮助下获取这些估计数字。像亚马逊和微软这样的大买家可能会获得巨大的折扣，而小客户可能需要支付比汇丰银行报告的更高的价格。

NVIDIA Blackwell 平台，突破界限

随着加速计算和人工智能的进步推动世界下一个重大突破，科学计算和基于物理的模拟有望在造福人类的领域迈出巨大步伐。

NVIDIA 在 3 月份的 GTC 上推出了NVIDIA Blackwell 平台，该平台承诺在万亿参数大语言模型 (LLM) 上提供生成式 AI，其成本和能耗比 NVIDIA Hopper 架构低 25 倍。

Blackwell 对人工智能工作负载具有强大的影响，其技术能力还可以帮助在所有类型的科学计算应用程序（包括传统的数值模拟）中提供发现。

通过降低能源成本，加速计算和人工智能推动可持续计算。许多科学计算应用程序已经受益。与传统的基于 CPU 的系统和其他系统相比，模拟天气的成本可降低 200 倍，能耗降低 300 倍，而数字孪生模拟的成本降低 65 倍，能耗降低 58 倍。

科学计算和基于物理的模拟通常依靠所谓的双精度格式或FP64（浮点）来解决问题。Blackwell GPU 的FP64 和 FP32 FMA（融合乘加）性能比 Hopper 高出 30%。

基于物理的模拟对于产品设计和开发至关重要。从飞机和火车到桥梁、硅芯片和药品——在模拟中测试和改进产品可以为研究人员和开发人员节省数十亿美元。

如今，专用集成电路 (ASIC) 几乎完全是在 CPU 上设计的，工作流程漫长而复杂，包括用于识别电压和电流的模拟分析。

但这种情况正在改变。Cadence SpectreX模拟器是模拟电路设计求解器的示例之一。SpectreX 电路仿真预计在 GB200 Grace Blackwell Superchip（连接 Blackwell GPU 和 Grace CPU）上运行速度比传统 CPU 快 13 倍。

此外，GPU 加速的计算流体动力学 (CFD) 已成为一种关键工具。工程师和设备设计师使用它来预测设计的行为。Cadence Fidelity 运行 CFD 仿真，预计在 GB200 系统上的运行速度比传统 CPU 驱动的系统快 22 倍。凭借并行可扩展性和每个 GB200 NVL72 机架 30TB 的内存，可以前所未有地捕获流细节。

在另一个应用中，Cadence Reality 的数字孪生软件可用于创建物理数据中心的虚拟副本，包括其所有组件 - 服务器、冷却系统和电源。这种虚拟模型允许工程师在现实世界中实施之前测试不同的配置和场景，从而节省时间和成本。

Cadence Reality 的神奇之处在于基于物理的算法，该算法可以模拟热量、气流和电力使用如何影响数据中心。这有助于工程师和数据中心运营商更有效地管理容量、预测潜在的运营问题并做出明智的决策，以优化数据中心的布局和运营，从而提高效率和容量利用率。使用 Blackwell GPU，这些模拟的运行速度预计比 CPU 快 30 倍，从而提供更快的时间线和更高的能源效率。

新的 Blackwell 加速器和网络将为高级仿真带来性能飞跃。

NVIDIA GB200 开启了高性能计算 (HPC) 的新时代。其架构采用第二代transformer引擎，经过优化可加速LLM的推理工作负载。

与 H100 一代相比，这使得资源密集型应用程序（例如 1.8 万亿参数 GPT-MoE（生成式预训练transformer混合专家）模型）的速度提高了 30 倍，从而为 HPC 带来了新的可能性。通过使LLM能够处理和解读大量科学数据，高性能计算应用程序可以更快地获得有价值的见解，从而加速科学发现。

桑迪亚国家实验室正在构建一个用于并行编程的LLM copilot。传统人工智能可以有效地生成基本的串行计算代码，但当涉及到 HPC 应用程序的并行计算代码时，LLM可能会犹豫不决。桑迪亚研究人员正在通过一个雄心勃勃的项目来正面解决这个问题——在 Kokkos 中自动生成并行代码，Kokkos 是一种由多个国家实验室设计的专用编程语言，用于在世界上最强大的超级计算机中的数万个处理器上运行任务。

桑迪亚正在使用一种称为检索增强生成（RAG）的人工智能技术，它将信息检索功能与语言生成模型结合起来。该团队正在创建 Kokkos 数据库，并使用 RAG 将其与 AI 模型集成。

初步结果是有希望的。桑迪亚的不同 RAG 方法已经展示了用于并行计算应用程序的自主生成的 Kokkos 代码。通过克服基于人工智能的并行代码生成的障碍，桑迪亚的目标是在全球领先的超级计算设施中释放 HPC 的新可能性。其他例子包括可再生能源研究、气候科学和药物发现。

量子计算为聚变能源、气候研究、药物发现和许多其他领域开启了时间机器之旅。因此，研究人员正在努力在基于 NVIDIA GPU 的系统和软件上模拟未来的量子计算机，以比以往更快地开发和测试量子算法。

NVIDIA CUDA-Q 平台通过CPU、GPU 和QPU（量子处理单元）协同工作的统一编程模型，支持量子计算机模拟和混合应用程序开发。

CUDA-Q 正在加速巴斯夫化学工作流程、石溪分校高能和核物理以及 NERSC 量子化学的模拟。

NVIDIA Blackwell 架构将有助于将量子模拟推向新的高度。利用最新的 NVIDIA NVLink 多节点互连技术有助于更快地传输数据，从而为量子模拟带来加速优势。

使用 RAPIDS 进行数据处理在科学计算中很流行。Blackwell 引入了硬件解压缩引擎来解压缩压缩数据并加快 RAPIDS 中的分析速度。

解压缩引擎的性能提升高达 800GB/s，使 Grace Blackwell 在 Sapphire Rapids 上的执行速度比 CPU 快 18 倍，在查询基准测试方面比 NVIDIA H100 Tensor Core GPU 快 6 倍。

该引擎通过 8TB/s 的高内存带宽和 Grace CPU 高速 NVLink 芯片到芯片 (C2C) 互连实现高速数据传输，加快了数据库查询的整个过程。Blackwell 在数据分析和数据科学用例中提供一流的性能，可加速数据洞察并降低成本。

NVIDIA Quantum-X800 InfiniBand 网络平台为科学计算基础设施提供最高的吞吐量。

它包括 NVIDIA Quantum Q3400 和 Q3200 交换机以及 NVIDIA ConnectX-8 SuperNIC，带宽是上一代产品的两倍。Q3400 平台通过 NVIDIA 的可扩展分层聚合和缩减协议 (SHARPv4) 提供高出 5 倍的带宽容量和 14.4Tflops 的网络内计算能力，与上一代相比提高了 9 倍。

性能飞跃和能效意味着科学计算工作负载完成时间和能源消耗的显着减少。

参考链接

点这里加关注，锁定更多原创内容

如果您希望可以時常見面，歡迎標星收藏哦~

來源：內容由半導體行業觀察（ID：icbank）編譯自tomshardware，謝謝。

《巴倫週刊》資深作家@firstadopter援引匯豐銀行分析師的話稱，用於人工智能應用的 Nvidia Blackwell GPU 將比該公司基於 Hopper 的處理器更貴。分析師稱，一顆 GB200 超級芯片（CPU+GPU）的成本可能高達 70,000 美元。

然而，Nvidia 可能更傾向於銷售基於 Blackwell GPU 的服務器，而不是單獨銷售芯片，特別是考慮到 B200 NVL72 服務器預計每臺成本高達 300 萬美元。

匯豐銀行估計，Nvidia 的“入門級”B100 GPU 的平均售價（ASP）將在 30,000 美元至 35,000 美元之間，至少在 Nvidia H100 的價格範圍內。據報道，功能更強大的 GB200 將單個 Grace CPU 與兩個 B200 GPU 結合在一起，售價在 60,000 至 70,000 美元之間。讓我們面對現實吧：實際上最終的成本可能會比這高得多，因爲這些只是分析師的估計。

基於 Nvidia 設計的服務器將會更加昂貴。配備 36 GB200 超級芯片（18 個 Grace CPU 和 36 個增強型 B200 GPU）的 Nvidia GB200 NVL36 平均售價可能爲 180 萬美元，而配備 72 GB200 超級芯片（36 個 CPU 和 72 個 GPU）的 Nvidia GB200 NVL72 價格可能約爲數百萬美元。

當 Nvidia 首席執行官 Jensen 在今年的 GTC 2024 上展示 Blackwell 數據中心芯片時，很明顯其意圖是移動整個機架的服務器。Jensen 反覆表示，當他想到 GPU 時，他現在想到的是 NVL72 機架。整個設置通過高帶寬連接集成，充當大型 GPU，提供 13,824 GB 的總 VRAM——這是訓練更大的 LLM 的關鍵因素。

銷售整個系統而不是獨立的 GPU/超級芯片使 Nvidia 能夠吸收系統集成商賺取的部分溢價，這將增加其收入和盈利能力。考慮到 Nvidia 的競爭對手 AMD 和 Intel 的 AI 處理器（例如 Instinct MI300 系列、Gaudi 3）的吸引力非常緩慢，Nvidia 肯定可以以巨大的溢價出售其 AI 處理器。因此，據稱匯豐銀行估算的價格並不特別令人驚訝。

強調 H200 和 GB200 之間的差異也很重要。H200 的單個 GPU 定價已高達 40,000 美元。GB200 將有效地將 GPU 數量增加四倍（四個硅芯片，每個 B200 兩個），併爲所謂的 Superchip 添加 CPU 和大型 PCB。單個 GB200 Superchip 的原始計算爲 5 petaflops FP16（10 petaflops，稀疏），而 H200 上的原始計算爲 1/2 petaflops（密集/稀疏）。這大約是計算量的五倍，甚至沒有考慮其他架構升級。

應該記住，數據中心級硬件的實際價格始終取決於單個合同、基於訂購的硬件數量和其他談判。因此，在鹽的幫助下獲取這些估計數字。像亞馬遜和微軟這樣的大買家可能會獲得巨大的折扣，而小客戶可能需要支付比匯豐銀行報告的更高的價格。

NVIDIA Blackwell 平台，突破界限

隨着加速計算和人工智能的進步推動世界下一個重大突破，科學計算和基於物理的模擬有望在造福人類的領域邁出巨大步伐。

NVIDIA 在 3 月份的 GTC 上推出了NVIDIA Blackwell 平台，該平台承諾在萬億參數大語言模型 (LLM) 上提供生成式 AI，其成本和能耗比 NVIDIA Hopper 架構低 25 倍。

Blackwell 對人工智能工作負載具有強大的影響，其技術能力還可以幫助在所有類型的科學計算應用程序（包括傳統的數值模擬）中提供發現。

通過降低能源成本，加速計算和人工智能推動可持續計算。許多科學計算應用程序已經受益。與傳統的基於 CPU 的系統和其他系統相比，模擬天氣的成本可降低 200 倍，能耗降低 300 倍，而數字孿生模擬的成本降低 65 倍，能耗降低 58 倍。

科學計算和基於物理的模擬通常依靠所謂的雙精度格式或FP64（浮點）來解決問題。Blackwell GPU 的FP64 和 FP32 FMA（融合乘加）性能比 Hopper 高出 30%。

基於物理的模擬對於產品設計和開發至關重要。從飛機和火車到橋樑、硅芯片和藥品——在模擬中測試和改進產品可以爲研究人員和開發人員節省數十億美元。

如今，專用集成電路 (ASIC) 幾乎完全是在 CPU 上設計的，工作流程漫長而複雜，包括用於識別電壓和電流的模擬分析。

但這種情況正在改變。Cadence SpectreX模擬器是模擬電路設計求解器的示例之一。SpectreX 電路仿真預計在 GB200 Grace Blackwell Superchip（連接 Blackwell GPU 和 Grace CPU）上運行速度比傳統 CPU 快 13 倍。

此外，GPU 加速的計算流體動力學 (CFD) 已成爲一種關鍵工具。工程師和設備設計師使用它來預測設計的行爲。Cadence Fidelity 運行 CFD 仿真，預計在 GB200 系統上的運行速度比傳統 CPU 驅動的系統快 22 倍。憑藉並行可擴展性和每個 GB200 NVL72 機架 30TB 的內存，可以前所未有地捕獲流細節。

在另一個應用中，Cadence Reality 的數字孿生軟件可用於創建物理數據中心的虛擬副本，包括其所有組件 - 服務器、冷卻系統和電源。這種虛擬模型允許工程師在現實世界中實施之前測試不同的配置和場景，從而節省時間和成本。

Cadence Reality 的神奇之處在於基於物理的算法，該算法可以模擬熱量、氣流和電力使用如何影響數據中心。這有助於工程師和數據中心運營商更有效地管理容量、預測潛在的運營問題並做出明智的決策，以優化數據中心的佈局和運營，從而提高效率和容量利用率。使用 Blackwell GPU，這些模擬的運行速度預計比 CPU 快 30 倍，從而提供更快的時間線和更高的能源效率。

新的 Blackwell 加速器和網絡將爲高級仿真帶來性能飛躍。

NVIDIA GB200 開啓了高性能計算 (HPC) 的新時代。其架構採用第二代transformer引擎，經過優化可加速LLM的推理工作負載。

與 H100 一代相比，這使得資源密集型應用程序（例如 1.8 萬億參數 GPT-MoE（生成式預訓練transformer混合專家）模型）的速度提高了 30 倍，從而爲 HPC 帶來了新的可能性。通過使LLM能夠處理和解讀大量科學數據，高性能計算應用程序可以更快地獲得有價值的見解，從而加速科學發現。

桑迪亞國家實驗室正在構建一個用於並行編程的LLM copilot。傳統人工智能可以有效地生成基本的串行計算代碼，但當涉及到 HPC 應用程序的並行計算代碼時，LLM可能會猶豫不決。桑迪亞研究人員正在通過一個雄心勃勃的項目來正面解決這個問題——在 Kokkos 中自動生成並行代碼，Kokkos 是一種由多個國家實驗室設計的專用編程語言，用於在世界上最強大的超級計算機中的數萬個處理器上運行任務。

桑迪亞正在使用一種稱爲檢索增強生成（RAG）的人工智能技術，它將信息檢索功能與語言生成模型結合起來。該團隊正在創建 Kokkos 數據庫，並使用 RAG 將其與 AI 模型集成。

初步結果是有希望的。桑迪亞的不同 RAG 方法已經展示了用於並行計算應用程序的自主生成的 Kokkos 代碼。通過克服基於人工智能的並行代碼生成的障礙，桑迪亞的目標是在全球領先的超級計算設施中釋放 HPC 的新可能性。其他例子包括可再生能源研究、氣候科學和藥物發現。

量子計算爲聚變能源、氣候研究、藥物發現和許多其他領域開啓了時間機器之旅。因此，研究人員正在努力在基於 NVIDIA GPU 的系統和軟件上模擬未來的量子計算機，以比以往更快地開發和測試量子算法。

NVIDIA CUDA-Q 平台通過CPU、GPU 和QPU（量子處理單元）協同工作的統一編程模型，支持量子計算機模擬和混合應用程序開發。

CUDA-Q 正在加速巴斯夫化學工作流程、石溪分校高能和核物理以及 NERSC 量子化學的模擬。

NVIDIA Blackwell 架構將有助於將量子模擬推向新的高度。利用最新的 NVIDIA NVLink 多節點互連技術有助於更快地傳輸數據，從而爲量子模擬帶來加速優勢。

使用 RAPIDS 進行數據處理在科學計算中很流行。Blackwell 引入了硬件解壓縮引擎來解壓縮壓縮數據並加快 RAPIDS 中的分析速度。

解壓縮引擎的性能提升高達 800GB/s，使 Grace Blackwell 在 Sapphire Rapids 上的執行速度比 CPU 快 18 倍，在查詢基準測試方面比 NVIDIA H100 Tensor Core GPU 快 6 倍。

該引擎通過 8TB/s 的高內存帶寬和 Grace CPU 高速 NVLink 芯片到芯片 (C2C) 互連實現高速數據傳輸，加快了數據庫查詢的整個過程。Blackwell 在數據分析和數據科學用例中提供一流的性能，可加速數據洞察並降低成本。

NVIDIA Quantum-X800 InfiniBand 網絡平台爲科學計算基礎設施提供最高的吞吐量。

它包括 NVIDIA Quantum Q3400 和 Q3200 交換機以及 NVIDIA ConnectX-8 SuperNIC，帶寬是上一代產品的兩倍。Q3400 平台通過 NVIDIA 的可擴展分層聚合和縮減協議 (SHARPv4) 提供高出 5 倍的帶寬容量和 14.4Tflops 的網絡內計算能力，與上一代相比提高了 9 倍。

性能飛躍和能效意味着科學計算工作負載完成時間和能源消耗的顯着減少。

參考鏈接

點這裏加關注，鎖定更多原創內容

譯文內容由第三人軟體翻譯。

以上內容僅用作資訊或教育之目的，不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。

英伟达新GPU强是真强，贵是真贵

英偉達新GPU強是真強，貴是真貴

風險及免責聲明

聲明