share_log

英伟达新GPU强是真强,贵是真贵

英偉達新GPU強是真強,貴是真貴

半導體行業觀察 ·  05/15 09:20

如果您希望可以時常見面,歡迎標星 收藏哦~

來源:內容由半導體行業觀察(ID:icbank)編譯自tomshardware,謝謝。

《巴倫週刊》資深作家@firstadopter援引匯豐銀行分析師的話稱,用於人工智能應用的 Nvidia Blackwell GPU 將比該公司基於 Hopper 的處理器更貴。分析師稱,一顆 GB200 超級芯片(CPU+GPU)的成本可能高達 70,000 美元。

然而,Nvidia 可能更傾向於銷售基於 Blackwell GPU 的服務器,而不是單獨銷售芯片,特別是考慮到 B200 NVL72 服務器預計每臺成本高達 300 萬美元。

匯豐銀行估計,Nvidia 的“入門級”B100 GPU 的平均售價(ASP)將在 30,000 美元至 35,000 美元之間,至少在 Nvidia H100 的價格範圍內。據報道,功能更強大的 GB200 將單個 Grace CPU 與兩個 B200 GPU 結合在一起,售價在 60,000 至 70,000 美元之間。讓我們面對現實吧:實際上最終的成本可能會比這高得多,因爲這些只是分析師的估計。

基於 Nvidia 設計的服務器將會更加昂貴。配備 36 GB200 超級芯片(18 個 Grace CPU 和 36 個增強型 B200 GPU)的 Nvidia GB200 NVL36 平均售價可能爲 180 萬美元,而配備 72 GB200 超級芯片(36 個 CPU 和 72 個 GPU)的 Nvidia GB200 NVL72 價格可能約爲數百萬美元。

當 Nvidia 首席執行官 Jensen 在今年的 GTC 2024 上展示 Blackwell 數據中心芯片時,很明顯其意圖是移動整個機架的服務器。Jensen 反覆表示,當他想到 GPU 時,他現在想到的是 NVL72 機架。整個設置通過高帶寬連接集成,充當大型 GPU,提供 13,824 GB 的總 VRAM——這是訓練更大的 LLM 的關鍵因素。

銷售整個系統而不是獨立的 GPU/超級芯片使 Nvidia 能夠吸收系統集成商賺取的部分溢價,這將增加其收入和盈利能力。考慮到 Nvidia 的競爭對手 AMD 和 Intel 的 AI 處理器(例如 Instinct MI300 系列、Gaudi 3)的吸引力非常緩慢,Nvidia 肯定可以以巨大的溢價出售其 AI 處理器。因此,據稱匯豐銀行估算的價格並不特別令人驚訝。

強調 H200 和 GB200 之間的差異也很重要。H200 的單個 GPU 定價已高達 40,000 美元。GB200 將有效地將 GPU 數量增加四倍(四個硅芯片,每個 B200 兩個),併爲所謂的 Superchip 添加 CPU 和大型 PCB。單個 GB200 Superchip 的原始計算爲 5 petaflops FP16(10 petaflops,稀疏),而 H200 上的原始計算爲 1/2 petaflops(密集/稀疏)。這大約是計算量的五倍,甚至沒有考慮其他架構升級。

應該記住,數據中心級硬件的實際價格始終取決於單個合同、基於訂購的硬件數量和其他談判。因此,在鹽的幫助下獲取這些估計數字。像亞馬遜和微軟這樣的大買家可能會獲得巨大的折扣,而小客戶可能需要支付比匯豐銀行報告的更高的價格。

NVIDIA Blackwell 平台,突破界限

隨着加速計算和人工智能的進步推動世界下一個重大突破,科學計算和基於物理的模擬有望在造福人類的領域邁出巨大步伐。

NVIDIA 在 3 月份的 GTC 上推出了NVIDIA Blackwell 平台,該平台承諾在萬億參數大語言模型 (LLM) 上提供生成式 AI,其成本和能耗比 NVIDIA Hopper 架構低 25 倍。

Blackwell 對人工智能工作負載具有強大的影響,其技術能力還可以幫助在所有類型的科學計算應用程序(包括傳統的數值模擬)中提供發現。

通過降低能源成本,加速計算和人工智能推動可持續計算。許多科學計算應用程序已經受益。與傳統的基於 CPU 的系統和其他系統相比,模擬天氣的成本可降低 200 倍,能耗降低 300 倍,而數字孿生模擬的成本降低 65 倍,能耗降低 58 倍。

科學計算和基於物理的模擬通常依靠所謂的雙精度格式或FP64(浮點)來解決問題。Blackwell GPU 的FP64 和 FP32 FMA(融合乘加)性能比 Hopper 高出 30%。

基於物理的模擬對於產品設計和開發至關重要。從飛機和火車到橋樑、硅芯片和藥品——在模擬中測試和改進產品可以爲研究人員和開發人員節省數十億美元。

如今,專用集成電路 (ASIC) 幾乎完全是在 CPU 上設計的,工作流程漫長而複雜,包括用於識別電壓和電流的模擬分析。

但這種情況正在改變。Cadence SpectreX模擬器是模擬電路設計求解器的示例之一。SpectreX 電路仿真預計在 GB200 Grace Blackwell Superchip(連接 Blackwell GPU 和 Grace CPU)上運行速度比傳統 CPU 快 13 倍。

此外,GPU 加速的計算流體動力學 (CFD) 已成爲一種關鍵工具。工程師和設備設計師使用它來預測設計的行爲。Cadence Fidelity 運行 CFD 仿真,預計在 GB200 系統上的運行速度比傳統 CPU 驅動的系統快 22 倍。憑藉並行可擴展性和每個 GB200 NVL72 機架 30TB 的內存,可以前所未有地捕獲流細節。

在另一個應用中,Cadence Reality 的數字孿生軟件可用於創建物理數據中心的虛擬副本,包括其所有組件 - 服務器、冷卻系統和電源。這種虛擬模型允許工程師在現實世界中實施之前測試不同的配置和場景,從而節省時間和成本。

Cadence Reality 的神奇之處在於基於物理的算法,該算法可以模擬熱量、氣流和電力使用如何影響數據中心。這有助於工程師和數據中心運營商更有效地管理容量、預測潛在的運營問題並做出明智的決策,以優化數據中心的佈局和運營,從而提高效率和容量利用率。使用 Blackwell GPU,這些模擬的運行速度預計比 CPU 快 30 倍,從而提供更快的時間線和更高的能源效率。

新的 Blackwell 加速器和網絡將爲高級仿真帶來性能飛躍。

NVIDIA GB200 開啓了高性能計算 (HPC) 的新時代。其架構採用第二代transformer引擎,經過優化可加速LLM的推理工作負載。

與 H100 一代相比,這使得資源密集型應用程序(例如 1.8 萬億參數 GPT-MoE(生成式預訓練transformer混合專家)模型)的速度提高了 30 倍,從而爲 HPC 帶來了新的可能性。通過使LLM能夠處理和解讀大量科學數據,高性能計算應用程序可以更快地獲得有價值的見解,從而加速科學發現。

桑迪亞國家實驗室正在構建一個用於並行編程的LLM copilot。傳統人工智能可以有效地生成基本的串行計算代碼,但當涉及到 HPC 應用程序的並行計算代碼時,LLM可能會猶豫不決。桑迪亞研究人員正在通過一個雄心勃勃的項目來正面解決這個問題——在 Kokkos 中自動生成並行代碼,Kokkos 是一種由多個國家實驗室設計的專用編程語言,用於在世界上最強大的超級計算機中的數萬個處理器上運行任務。

桑迪亞正在使用一種稱爲檢索增強生成(RAG)的人工智能技術,它將信息檢索功能與語言生成模型結合起來。該團隊正在創建 Kokkos 數據庫,並使用 RAG 將其與 AI 模型集成。

初步結果是有希望的。桑迪亞的不同 RAG 方法已經展示了用於並行計算應用程序的自主生成的 Kokkos 代碼。通過克服基於人工智能的並行代碼生成的障礙,桑迪亞的目標是在全球領先的超級計算設施中釋放 HPC 的新可能性。其他例子包括可再生能源研究、氣候科學和藥物發現。

量子計算爲聚變能源、氣候研究、藥物發現和許多其他領域開啓了時間機器之旅。因此,研究人員正在努力在基於 NVIDIA GPU 的系統和軟件上模擬未來的量子計算機,以比以往更快地開發和測試量子算法。

NVIDIA CUDA-Q 平台通過CPU、GPU 和QPU(量子處理單元)協同工作的統一編程模型,支持量子計算機模擬和混合應用程序開發。

CUDA-Q 正在加速巴斯夫化學工作流程、石溪分校高能和核物理以及 NERSC 量子化學的模擬。

NVIDIA Blackwell 架構將有助於將量子模擬推向新的高度。利用最新的 NVIDIA NVLink 多節點互連技術有助於更快地傳輸數據,從而爲量子模擬帶來加速優勢。

使用 RAPIDS 進行數據處理在科學計算中很流行。Blackwell 引入了硬件解壓縮引擎來解壓縮壓縮數據並加快 RAPIDS 中的分析速度。

解壓縮引擎的性能提升高達 800GB/s,使 Grace Blackwell 在 Sapphire Rapids 上的執行速度比 CPU 快 18 倍,在查詢基準測試方面比 NVIDIA H100 Tensor Core GPU 快 6 倍。

該引擎通過 8TB/s 的高內存帶寬和 Grace CPU 高速 NVLink 芯片到芯片 (C2C) 互連實現高速數據傳輸,加快了數據庫查詢的整個過程。Blackwell 在數據分析和數據科學用例中提供一流的性能,可加速數據洞察並降低成本。

NVIDIA Quantum-X800 InfiniBand 網絡平台爲科學計算基礎設施提供最高的吞吐量。

它包括 NVIDIA Quantum Q3400 和 Q3200 交換機以及 NVIDIA ConnectX-8 SuperNIC,帶寬是上一代產品的兩倍。Q3400 平台通過 NVIDIA 的可擴展分層聚合和縮減協議 (SHARPv4) 提供高出 5 倍的帶寬容量和 14.4Tflops 的網絡內計算能力,與上一代相比提高了 9 倍。

性能飛躍和能效意味着科學計算工作負載完成時間和能源消耗的顯着減少。

參考鏈接

點這裏 加關注,鎖定更多原創內容

譯文內容由第三人軟體翻譯。


以上內容僅用作資訊或教育之目的,不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。
    搶先評論