IBM芯片，吊打GPU

如果您希望可以时常见面，欢迎标星收藏哦~

来源：内容编译自ibm，谢谢。

较低的延迟通常是以牺牲能源效率为代价的，但在新发布的实验结果中，受大脑启发的IBM NorthPole 研究原型芯片实现了比下一个最快的 GPU 低得多的延迟，并且能源效率比下一个最高效的 GPU 高得多。

随着研究人员竞相开发下一代计算机芯片，人工智能成为他们关注的焦点。随着最近生成式人工智能（包括大型语言模型）应用的激增，很明显，传统的 CPU 和 GPU 难以提供速度和能效的必要组合。为了大规模提供人工智能（尤其是对于代理工作流和数字工作者而言），运行这些模型的硬件需要运行得更快。与此同时，人工智能功耗对环境的影响是一个紧迫的问题，因此降低人工智能的功耗至关重要。在加利福尼亚州阿尔马登的 IBM Research 实验室中，一个团队一直在重新思考芯片架构的基础，以实现这两个目标，他们的最新成果展示了未来的处理器如何消耗更少的能源并更快地运行。

AIU NorthPole 是 IBM Research 去年首次推出的一款 AI 推理加速器芯片。在基于 IBM Granite-8B-Code-Base 模型开发的 30 亿参数 LLM 上运行的推理测试中， NorthPole 实现了每token 1 毫秒以下的延迟，比下一个最低延迟 GPU 快 46.9 倍。在运行 16 个通过 PCIe 通信的 NorthPole 处理器的现成薄型 2U 服务器中，该芯片背后的团队发现它可以在同一型号上实现每秒 28,356 个token的吞吐量。它在达到这些速度水平的同时，仍实现了比下一个最节能的 GPU 高 72.7 倍的能效。

研究原型 NorthPole 比通常用于 LLM 推理的四个 GPU 具有更低的延迟和更高的能效。

该团队今天在 IEEE 高性能计算会议上展示了他们的研究成果。新的性能数据基于去年 10 月的成果，当时该团队展示了 NorthPole 能够比市场上其他边缘应用芯片更快、更高效地进行神经推理。在这些实验中，NorthPole 的能效是常见的 12 nm GPU 和 14 nm CPU 的 25 倍，以每单位功率解释的帧数来衡量。

NorthPole 采用 12nm 工艺制造，每块芯片在 795 平方毫米内包含 220 亿个晶体管。在《科学》杂志上发表的结果显示，该芯片的延迟也低于所有其他测试过的芯片，甚至比那些制造工艺更小的芯片都要低。这些测试是在 ResNet-50 图像识别和 YOLOv4 物体检测模型上运行的，因为该团队专注于自动驾驶汽车等应用的视觉识别任务。一年后，新结果来自在更大的 30 亿参数 Granite LLM 上试用 NorthPole 芯片。

“这里最重要的是质量的大幅提升。这些新成果与我们的科学成果相当，但应用领域完全不同，”领导芯片开发团队的 IBM 研究员 Dharmendra Modha 表示。“鉴于 NorthPole 的架构在完全不同的领域运行良好，这些新成果不仅强调了架构的广泛适用性，还强调了基础研究的重要性。”

标准 2U 服务器在其四个托架中每个托架可容纳四张 NorthPole 卡

Modha 表示，当企业部署代理工作流、数字员工和交互式对话时，低延迟对于 AI 的顺利运行至关重要。但延迟和能源效率之间存在根本性的矛盾——通常，一个领域的改进是以牺牲另一个领域为代价的。

降低 AI 推理延迟和功耗的主要障碍之一是所谓的冯·诺依曼瓶颈。几乎所有现代微处理器都采用冯·诺依曼架构，其中内存与处理器（包括 CPU 和 GPU）在物理上是分开的。尽管这种设计在历史上具有简单灵活的优势，但在内存和计算之间来回传送数据限制了处理器的速度。对于 AI 模型来说尤其如此，因为其计算简单但数量众多。尽管处理器效率每两年提高两倍，但内存和计算之间的带宽仅以该速度的一半左右增长。此外，高带宽内存价格昂贵。

NorthPole 的设计通过将内存和处理放在同一位置来消除这种不匹配，这种架构称为片上内存或内存计算。受大脑的启发，NorthPole 将内存与芯片的计算单元和控制逻辑紧密结合，将内存与芯片的计算单元和控制逻辑紧密结合。这带来了每秒 13 TB 的庞大片上内存带宽。

NorthPole 团队将 30 亿参数的 LLM 映射到 16 张卡片上：每张卡片上有 14 个变换器层，两张卡片上有 1 个输出层

该团队的下一个挑战是看看专为边缘推理而设计的 NorthPole 是否适用于数据中心的语言模型。一开始，这似乎是一项艰巨的任务，因为 LLM 不适合 NorthPole 的片上内存。

为了应对挑战，该团队选择在 16 卡 NorthPole 设置上运行 30 亿参数的 Granite LLM。他们将 14 个变压器层映射到每张卡上，并将输出层映射到其余两张卡上。LLM 通常受内存带宽限制，但在这种流水线并行设置中，只需在卡之间移动很少的数据 - PCIe 就足够了，并且不需要高速网络。这是存储模型权重的片上内存和所谓的键值 (KV) 缓存的结果，这意味着在生成token时需要在单独的 PCIe 卡之间传递更少的数据。该模型被量化为 4 位权重和激活，并且量化模型经过微调以匹配准确性。

根据最新实验的成功，Modha表示，他的团队目前正致力于构建包含更多北极芯片的单元，并计划在这些单元上映射更大的模型。

IBM 研究科学家正在致力于开发装有数百张 NorthPole 卡的服务器机架，以便以比同类基于 GPU 的硬件更快的速度和更低的能耗执行大量推理操作。

尽管新的性能结果具有开创性，但 Modha 相信他的团队将继续将前沿技术推向更高水平，以提高 NorthPole 的能源效率，同时降低其延迟。他说，关键是在整个垂直堆栈中进行创新。这将需要从头开始共同设计在下一代硬件上运行的算法，利用技术扩展和封装，并设想全新的系统和推理设备——他和 IBM 研究部门的其他人目前正在研究这些进步。

参考链接

如果您希望可以時常見面，歡迎標星收藏哦~

來源：內容編譯自ibm，謝謝。

較低的延遲通常是以犧牲能源效率爲代價的，但在新發布的實驗結果中，受大腦啓發的IBM NorthPole 研究原型芯片實現了比下一個最快的 GPU 低得多的延遲，並且能源效率比下一個最高效的 GPU 高得多。

隨着研究人員競相開發下一代計算機芯片，人工智能成爲他們關注的焦點。隨着最近生成式人工智能（包括大型語言模型）應用的激增，很明顯，傳統的 CPU 和 GPU 難以提供速度和能效的必要組合。爲了大規模提供人工智能（尤其是對於代理工作流和數字工作者而言），運行這些模型的硬件需要運行得更快。與此同時，人工智能功耗對環境的影響是一個緊迫的問題，因此降低人工智能的功耗至關重要。在加利福尼亞州阿爾馬登的 IBM Research 實驗室中，一個團隊一直在重新思考芯片架構的基礎，以實現這兩個目標，他們的最新成果展示了未來的處理器如何消耗更少的能源並更快地運行。

AIU NorthPole 是 IBM Research 去年首次推出的一款 AI 推理加速器芯片。在基於 IBM Granite-8B-Code-Base 模型開發的 30 億參數 LLM 上運行的推理測試中， NorthPole 實現了每token 1 毫秒以下的延遲，比下一個最低延遲 GPU 快 46.9 倍。在運行 16 個通過 PCIe 通信的 NorthPole 處理器的現成薄型 2U 服務器中，該芯片背後的團隊發現它可以在同一型號上實現每秒 28,356 個token的吞吐量。它在達到這些速度水平的同時，仍實現了比下一個最節能的 GPU 高 72.7 倍的能效。

研究原型 NorthPole 比通常用於 LLM 推理的四個 GPU 具有更低的延遲和更高的能效。

該團隊今天在 IEEE 高性能計算會議上展示了他們的研究成果。新的性能數據基於去年 10 月的成果，當時該團隊展示了 NorthPole 能夠比市場上其他邊緣應用芯片更快、更高效地進行神經推理。在這些實驗中，NorthPole 的能效是常見的 12 nm GPU 和 14 nm CPU 的 25 倍，以每單位功率解釋的幀數來衡量。

NorthPole 採用 12nm 工藝製造，每塊芯片在 795 平方毫米內包含 220 億個晶體管。在《科學》雜誌上發表的結果顯示，該芯片的延遲也低於所有其他測試過的芯片，甚至比那些製造工藝更小的芯片都要低。這些測試是在 ResNet-50 圖像識別和 YOLOv4 物體檢測模型上運行的，因爲該團隊專注於自動駕駛汽車等應用的視覺識別任務。一年後，新結果來自在更大的 30 億參數 Granite LLM 上試用 NorthPole 芯片。

「這裏最重要的是質量的大幅提升。這些新成果與我們的科學成果相當，但應用領域完全不同，」領導芯片開發團隊的 IBM 研究員 Dharmendra Modha 表示。「鑑於 NorthPole 的架構在完全不同的領域運行良好，這些新成果不僅強調了架構的廣泛適用性，還強調了基礎研究的重要性。」

標準 2U 服務器在其四個托架中每個托架可容納四張 NorthPole 卡

Modha 表示，當企業部署代理工作流、數字員工和交互式對話時，低延遲對於 AI 的順利運行至關重要。但延遲和能源效率之間存在根本性的矛盾——通常，一個領域的改進是以犧牲另一個領域爲代價的。

降低 AI 推理延遲和功耗的主要障礙之一是所謂的馮·諾依曼瓶頸。幾乎所有現代微處理器都採用馮·諾依曼架構，其中內存與處理器（包括 CPU 和 GPU）在物理上是分開的。儘管這種設計在歷史上具有簡單靈活的優勢，但在內存和計算之間來回傳送數據限制了處理器的速度。對於 AI 模型來說尤其如此，因爲其計算簡單但數量衆多。儘管處理器效率每兩年提高兩倍，但內存和計算之間的帶寬僅以該速度的一半左右增長。此外，高帶寬內存價格昂貴。

NorthPole 的設計通過將內存和處理放在同一位置來消除這種不匹配，這種架構稱爲片上內存或內存計算。受大腦的啓發，NorthPole 將內存與芯片的計算單元和控制邏輯緊密結合，將內存與芯片的計算單元和控制邏輯緊密結合。這帶來了每秒 13 TB 的龐大片上內存帶寬。

NorthPole 團隊將 30 億參數的 LLM 映射到 16 張卡片上：每張卡片上有 14 個變換器層，兩張卡片上有 1 個輸出層

該團隊的下一個挑戰是看看專爲邊緣推理而設計的 NorthPole 是否適用於數據中心的語言模型。一開始，這似乎是一項艱鉅的任務，因爲 LLM 不適合 NorthPole 的片上內存。

爲了應對挑戰，該團隊選擇在 16 卡 NorthPole 設置上運行 30 億參數的 Granite LLM。他們將 14 個變壓器層映射到每張卡上，並將輸出層映射到其餘兩張卡上。LLM 通常受內存帶寬限制，但在這種流水線並行設置中，只需在卡之間移動很少的數據 - PCIe 就足夠了，並且不需要高速網絡。這是存儲模型權重的片上內存和所謂的鍵值 (KV) 緩存的結果，這意味着在生成token時需要在單獨的 PCIe 卡之間傳遞更少的數據。該模型被量化爲 4 位權重和激活，並且量化模型經過微調以匹配準確性。

根據最新實驗的成功，Modha表示，他的團隊目前正致力於構建包含更多北極芯片的單元，並計劃在這些單元上映射更大的模型。

IBM 研究科學家正在致力於開發裝有數百張 NorthPole 卡的服務器機架，以便以比同類基於 GPU 的硬件更快的速度和更低的能耗執行大量推理操作。

儘管新的性能結果具有開創性，但 Modha 相信他的團隊將繼續將前沿技術推向更高水平，以提高 NorthPole 的能源效率，同時降低其延遲。他說，關鍵是在整個垂直堆棧中進行創新。這將需要從頭開始共同設計在下一代硬件上運行的算法，利用技術擴展和封裝，並設想全新的系統和推理設備——他和 IBM 研究部門的其他人目前正在研究這些進步。

參考鏈接

譯文內容由第三人軟體翻譯。

以上內容僅用作資訊或教育之目的，不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。

IBM芯片，吊打GPU

IBM芯片，吊打GPU

風險及免責聲明

聲明