share_log

黄仁勋GTC演讲中被忽视的重磅技术:即将改写AI工厂游戏规则的CPO

腾讯科技 ·  03/20 14:47

在GTC2025大会上, $英伟达 (NVDA.US)$ 依旧延续着“算力的故事”。如果AI的发展依旧遵循着scaling law(规模定律),那么这个故事还能继续讲下去。

而事实却是,虽然“算力不眠”的核心框架未变,但底层技术架构正在悄然发生变革。

当行业目光仍聚焦于 Blackwell Ultra GPU 的性能突破时,演讲中那仅有几分钟的技术发布 ——“将硅光技术直接集成至交换机芯片”—— 实则暗藏着 AI 基础设施演进的关键密码。

英伟达的CPO,究竟是什么?

在GTC大会上,黄仁勋的Keynote环节里,英伟达宣布了Spectrum-X和Quantum-X硅光CPO交换机。这两款产品支持144×800G(H2 2025推出)和512×800G(H2 2026推出)的配置,旨在满足AI超算对高带宽、低功耗的迫切需求。

  • Spectrum-X Photonics: 以太网交换机,提供高达512个800Gb/s端口或2,048个200Gb/s端口,总吞吐量可达400Tbps

  • Quantum-X Photonics: InfiniBand交换机,提供144个基于200Gb/s SerDes的800Gb/s端口,总吞吐达115.2Tbps

根据Keynote提供的信息,这些交换机相比传统解决方案提供了显著优势:

  • 减少了系统整体的激光器数量(75%)

  • 实现了3.5倍的能耗降低

  • 网络弹性提升10倍,显著增强可靠性并保障运行时间

  • 部署速度提升1.3倍

  • 信号完整性提高到63倍

为百万GPU,AI工厂打开大门

发布会上,老黄的原话是:“NVIDIA将硅光直接集成到交换机中,打破了超大规模和企业网络的旧有限制,为百万GPU AI工厂打开大门。”

在Scaling Law的引领下,不断提升算力的规模成为了业界共识。从系统的角度看,扩大算力规模有两个维度:一是提升芯片算力;二是增加系统中芯片的数量,也就是提升集群规模。这又有两种方式:横向扩展(Scale-Out)和纵向扩展(Scale-Up)。

1)在第一种情况下,单芯片算力本身的效能提升主要受两个因素的影响:算力值(密度)和内存带宽,要想取得大幅度提升都需要在高端工艺制程上下功夫。

举例来说,同样面积下3nm制程的芯片就是比12nm的算力密度要高很多,HBM的带宽就是要比传统的DDR要高很多,这都和生产制造能力强相关。

对Fabless的AI芯片公司来讲,卷算力就是卷制程,已经无法靠自己的架构设计的多么巧妙来实现了,而是是否可以获得甚至牵头开发顶级制造能力的竞争。而即便这些都可以解决,基于电子计算的硅芯片的高端制程工艺提升,也面临着物理极限的限制(划重点,后面会提到)。

2)第二种是集群规模的提升,横向扩展(Scale Out)指的是突破规模限制进行扩展,而纵向扩展(Scale Up)则指成比例地增加性能。

  • 横向扩展:可以理解为分布式计算,通过增加独立的服务器来分散工作负载,从而提高计算容量。在AI集群里可以类比为InfiniBand或者RoCE网络在做的事;

  • 纵向扩展:专注于升级单台服务器或基于机箱的系统,通过向现有系统增加芯片来提升算力。在AI集群里可以类比为NVLink在做的事情;

可以看出,提升集群规模算力的本质,是在卷通信技术;

CPO究竟解决了什么问题?

这样一来,集群中的通信和组网技术就成了系统算力提升的关键要素。

传统的方案里,其中最重要的是两点一线:两点指的是通信两端的网络芯片(卡)和交换机,一线指的是基于包含了光模块和光纤在内的光传输系统。信号的传输是在光纤里,通过光模块连接到交换机。

传统的光通讯架构里,随着交换机带宽的增加,总链路功耗也快速增长。如下图所示:

链路速率提升不仅意味着功耗增加,也加大了信号完整性(SI)的技术难度,技术进步的挑战显著增大,如下图所示:

考虑到光模块中DSP和交换机中的ASIC都是电芯片,如果将DSP的一些功能转移到ASIC上,就可以省掉DSP,进而降低功耗。而另一方面,如果光模块中的光芯片和交换机中的电芯片(ASIC)的距离缩的足够短,短到可以集成在一颗芯片上,那就又解决了信号完整性的问题。如图所示:

Co-Packaged Optics(CPO,共封装光学,笔者也会翻译作光电合封)的出现,就是为了解决这一系列问题。与传统基于DSP的可插拔光模块相比具有显著优势。

CPO将光学元件直接与ASIC集成,拿掉了DSP芯片,将其功能迁移至ASIC(交换机的Switch芯片)侧。这种集成有效降低了功耗,提升了效率和整体性能。通过将DSP从光模块中移除,并将光芯片与Switch ASIC芯片集成在一起从而极大缩短了二者之间的传输距离,CPO减少了信号转换过程中的延迟和功耗,使其成为高速数据传输中更具可扩展性和能效优势的解决方案。如图所示,基于台积电工艺下的能耗与延时在可插拔和CPO下的提升。

简而言之,这次发布的CPO交换机,就是去掉了光模块,让光纤连接器直接接入交换机。

对于上图中典型的“AI工厂”,以400K的GPU数量为例,主要的功耗数据如下表所示:

巨头入局,AI计算将迎来改变

事实上,英伟达并不是业内首家发布CPO交换机的企业,此前,Broadcom率先发布了25.6T和51.2T的CPO交换机芯片,并和业内厂商推出对应的CPO交换机。

还有Marvell,也推出了Teralynx® 的CPO方案。思科之前也推出过25.6T的CPO交换机。

今天NVIDIA CPO方案的正式推出,其重要的意义在于,全球最重要的数据中心级芯片大厂,继Broadcom和Marvell两大顶级通信芯片和AI ASIC定制业务巨头之后,计算与通信双料芯片巨头的英伟达也实现了产品化。这些顶级巨头在产业具有极大的影响力,其在硅光和光电子领域的投入与产品迭代,对推动硅光与光电子产业的发展、进而实现计算系统的光化,都会起到超越推波助澜的作用。

到此,意义已经不限于交换机。基于硅光的光电合封,将会从面向交换的CPO扩展到 GPU或其他AI计算芯片上,进一步提升计算芯片间通讯效能。如图所示,Broadcom面向横向扩展的基于网络交换的CPO方案和面向纵向扩展的基于AI计算核的CPO方案示意图。

事实上,如果将同样的思路用在Scale-Up上,也就是说将AI芯片和光芯片集成到一颗芯片上,AI芯片间互联会极大地提高传输带宽、降低功耗、提升信号完整性,还可以大幅度拓展节点数。拿英伟达来举例,如果可以实现GPU+SiPh(硅光)的CPO,既可以加大NVLink的带宽,还可以拓展集联的GPU数量,NVL后面的数字可能就会超越288了。这种将GPU的基于电计算的硅芯片和基于光的硅光芯片异质集成,就是面向AI计算的CPO了。如图所示,传输每比特所耗费的能量更低,延时更短。

如果站在互联的角度,业内也将这样的方案称之为OIO(Optical I/O);

本次GTC上发布的新GPU架构名叫Rubin,下一代将会是Feynman,预期在2028年推出。到那时,基于Feynman的架构将会是具备OIO能力新芯片:

  • Silicon Photonics (硅光连接) 将会替代铜缆互联

  • 世界第一颗 1.6T 基于硅光的光互连接口

  • GPU/NVSwitch 将会实现光互连,如图所示:

对中国的意义和影响是什么?

近些年来,地缘政治格局出现巨大的不确定性,技术限制成了新闻常态。对我国来说,基于电计算的算力芯片,一直面临着高端工艺制程和封装的技术限制。美国商务部从2022年开始,逐年对此推出限制,从早起的算力密度、算力上限和互联带宽,到后来的晶体管数量、芯片面积和制程工艺,以致近期直接推行的白名单制度。中国算力芯片的前行之路,困难重重。多少业内精英,投身其中;多少天量资本,投入其中;而今,似有希望的微光,但产能依然紧缺;高端技术与工艺,仍需追赶。

而光计算与光传输给了另一重希望。

前面提到,算力芯片本身算力的提高,如果还是基于电子计算的硅算力核(Si-Compute Die),就要面临着物理的极限。从技术路线的可行性角度看,基于光计算的算力核(Optical-Compute Die)是提升算力能耗比新的方向。当把AI芯片中的算力核也换成光计算的时候,这种基于光计算核+OIO的新型光电合封芯片,就会成为非常重要的技术路线和产品方案。

这种形态的AI算力芯片新形态,是下一阶段算力的竞争战略高地。

硅光芯片的流片,对Fab的要求并没有那么高,DUV光刻机就可以满足需求,甚至都可以脱离光刻机采取其他的方式来实现更有想象力的产品形态。基于传统电芯片封装技术的积累,突破光电合封的难度并不会比传统电芯片难更多。从这个角度来说,CPO带来的趋势对我国是友好的。在光通讯领域,中国有着世界前列的光模块和光芯片厂商,交换机领域国内企业市占率也较高。硅光产业近一两年来也获得了更多的重视,硅光产线的建设也方兴未艾。

但,还是要正视差距。如前所述,此领域靠前的依然是Broadcom、NVDIA和Marvell这些传统大厂,是他们在引领产业和技术的发展。而在制造端,台积电作为传统硅电芯片的高端制造巨头,在2024年也对外宣布了面向光电合封的技术方案——COUPE方案,在当前时刻又处于领先优势。

更需要谨慎的是,美国在去年也开始关注中国的硅光产业发展,表示会实施出台限制政策。国会两党议员在10月28日敦促美国商务部审查中国发展硅光子技术对美国国家安全造成的威胁。其表示,硅光子技术是一个迅速发展的领域,可以加快人工智能的进步。

但,东方既白,曙“光”已然呈现。在AI产业的竞争中,一直可以留在牌桌上是最重要的战略目标。电芯片的时代在努力赶上,光芯片在更好开局的情况下,中国更不能、也不会落下。

编辑/Somer

以上内容仅用作资讯或教育之目的,不构成与富途相关的任何投资建议。富途竭力但不能保证上述全部内容的真实性、准确性和原创性。
13
评论 评论 · 浏览 2万

热点推荐

抢沙发