登录路演时代
忘记密码
忘记密码
忘记密码
欢迎注册路演时代
已有账号?马上登陆
GTC大会回顾(三) :Feynman、GTC 2026 对供应链的影响 等内容
发布来源: 路演时代 时间: 2026-03-26 11:26:12 0

(接上篇)

Feynman

虽然关于 Feynman 的细节披露不多,但主题演讲中的预告已⾜以让我们预⻅其令⼈兴 奋的前景。该平台将同时推进三项重⼤技术创新:混合键合/SoICA16 ⼯艺、CPO (共封装光学)以及定制化 HBM

虽然 Feynman 采⽤ CPO 已列⼊路线图,但问题在于其应⽤程度如何?机架内的互连 将基于铜缆还是光纤?我们将在付费墙后展⽰可能的配置⽅案。Vera ETL256随着 AI ⼯作负载在 GPU 计算之外需要更多的数据处理、预处理和编排,CPU 的需 求正在不断上升。强化学习进⼀步增加了这⼀需求,因为 CPU 需要并⾏运⾏模拟、 执⾏代码并验证输出。由于 GPU 的扩展速度快于 CPU,因此需要更⼤的 CPU 集群 来保持 GPU 的充分利⽤,这使得 CPU 正⽇益成为⼀个瓶颈。

Vera 独⽴机架直接解决了这⼀问题,通过在单个机架中容纳 256 CPU 实现了前所 未有的密度——这⼀壮举必须依赖液冷技术。其底层逻辑与 NVL 机架的设计理念如 出⼀辙:将计算单元封装得⾜够紧密,使得铜缆互连能够覆盖机架内的所有设备,从 ⽽消除了对主⼲⽹光收发器的需求。铜缆节省的成本⾜以抵消额外的散热开销。

每个 Vera ETL 机架包含 32 个计算托盘,上下各 16 个,对称地排列在中间四个基于 Spectrum-6 1U MGX ETL 交换机托盘周围。这种对称设计是刻意为之:它最⼤限 度地减少了计算托盘与主⼲(spine)之间的电缆⻓度差异,使所有连接都保持在铜缆 传输范围内。从每个交换机托盘出发,后置端⼝连接到该铜缆主⼲以进⾏机架内通 信,⽽ 32 个前置 OSFP 插槽则为 POD 的其余部分提供光纤连接。

机架内的⽹络采⽤ Spectrum-X 多平⾯拓扑结构,将 200 Gb/s 通道分布在四个交换机 上,在保持单⼀⽹络层级的同时实现全对全连接。由于每个计算托盘容纳 8 Vera CPU,整机架共有 256 CPU,所有 CPU 都通过单⼀的扁平化⽹络在以太⽹上互 联。

CMX和CTX

我们在上⼀篇关于 Rubin 的⽂章和内存模型中详细阐述了 NVIDIA 的 CMX(即 ICMS 平台)。NVIDIA 此次推出了 STX 参考存储机架架构。

CMX

CMX 是 NVIDIA 的上下⽂内存存储平台。CMX 旨在解决现代推理基础设施中⽇益 严重的瓶颈:为⽀持⻓上下⽂和智能体(agentic)⼯作负载⽽迅速扩张的 KV 缓存 (KV Cache)需求。

KV 缓存随输⼊序列⻓度和⽤⼾数量线性增⻓,是影响预填充性能(⾸字延迟)的主 要权衡因素。在⼤规模应⽤中,设备端的 HBM 容量已不⾜。主机 DRAM 通过增加⼀ 层缓存扩展了 HBM 之外的容量,但在单节点总量、内存带宽和⽹络带宽⽅⾯也⾯临 限制。于是,NVMe 存储被引⼊⽤于进⼀步的 KV 缓存卸载。

英伟达在 1 ⽉份的 CES 上,于推理内存层级结构中引⼊了⼀个全新的中间存储层 “G3.5 G3.5 NVMe 介于 G3 DRAM G4 层共享存储(同样是 NVMe,或 SATA/SAS SSD,或 HDD)之间。该技术此前被称为 ICMS(推理上下⽂内存存 储),现品牌更名为 CMX 平台,这本质上只是将通过 Bluefield ⽹卡连接到计算服务 器的存储服务器进⾏了重新包装。与传统 NVMe 架构唯⼀的区别在于,将 Connect-X ⽹卡更换为了 Bluefield ⽹卡。

STX

为了扩⼤ CMX 的应⽤范围,英伟达还推出了 STXSTX 是⼀种参考机架架构,采⽤ 英伟达基于 BF-4 的存储解决⽅案,⽤以补充 Vera 计算机架。该参考架构明确规定了 特定集群所需的驱动器、Vera CPUBF-4 DPUCX-9 NIC 以及 Spectrum-X 交换 机的具体数量。

VR NVL72 中由⼀颗 Grace CPU 和单个 CX-9 NIC 组成的 BF-4 不同,STX 参考 设计中的 BF-4 包含⼀颗 Vera CPU、两个 CX-9 NIC 和两个 SOCAMM 模块。每个 STX 机箱包含两个 BF-4 单元,总计两颗 Vera CPU、四个 CX-9 NIC 和四个 SOCAMM 模块。对于整个 STX 机架,它共有 16 个机箱,这意味着拥有 32 Vera CPU64 CX-9 NIC 64 SOCAMM

STX 的发布展⽰了英伟达⼀贯的实⼒,他们列出了所有⽀持 STX 的主流存储⼚商, 包括 AICCloudianDDNDell TechnologiesEverpureHitachi VantaraHPEIBMMinIONetAppNutanixSupermicroQuanta Cloud Technology (QCT)VAST Data WEKA

综上所述,BlueField-4CMX STX 代表了英伟达在存储层标准化集群设计⽅⾯的 更⼴泛努⼒。英伟达已经占领了计算层和⽹络层,并正随着时间的推移积极向存储、 软件及基础设施运营层迈进。

Feynman NVL1152 网络拓扑结构

为了利⽤铜缆互连实现翻倍的扩展带宽,英伟达必须实现单向 448Gbit/s 的单通道带 宽(并采⽤同步双向 SerDes,使每个物理通道同时承载 448G 的接收和 448G 的发 送)。然⽽,这是⼀项极具挑战性的任务,因为他们⾸先必须证明 448Gb/s PAM4 SerDes 在⼤规模量产中的可⾏性,然后还要通过实现回声消除来达成双向带宽,这本 ⾝就极其困难。我们认为英伟达⽬前仅倾向于采⽤单向 448G ⽅案。

Feynman 可能会采⽤机架内光互连技术,即交换机板卡通过光纤连接器与中板进⾏盲 插,并使⽤细光纤束代替⻜线电缆(flyover cables)将光纤连接器连接到 NVLink 8 交换机,但我们认为这种可能性极低。

对于机架间互连,我们探讨了两种不同的拓扑结构。第⼀种是类似于 Oberon 形态的 两层 CLOS ⽹络,但每个 GPU NVLink 交换机的带宽都翻了⼀倍。

第⼆种是采⽤可重构的 Dragonfly 拓扑结构,利⽤ OCS 交换机连接 8 个机架。该拓扑 结构所需的 OCS 端⼝数量⽬前尚不确定。

GTC 2026 Supply Chain Implications GTC 2026 对供应链的影响 

在此,我们将讨论在 GTC 的⼀系列发布之后,我们所观察到的供应链内容发⽣的重 ⼤变化。 

 LP30 工艺中的 AlphaWave 112G Serdes 

读者可能会感到惊讶,⾼通在 Groq LPU 3 芯⽚中拥有 IP!更具体地说,是⾼通去年 收购的 AlphaWave Groq C2C 提供了 112G SerDesAlphaWave 被选为三星代 ⼯⼚(Samsung Foundry)唯⼀拥有⾼速 SerDes IP 供应商。正是 AlphaWave SerDes 曾导致 Groq LPU 2 出现问题。LP35 将继续使⽤ Alphawave,但当 LP40 回台积电(TSMC)时,英伟达⾃然会使⽤其⾃有的 NVLink SerDes IP

LPX PCB

接下来,我们提到 LPX 计算托盘需要规格极⾼的 PCB。我们估计每个计算托盘主板 PCB 的平均售价(ASP)将达到 7000 美元。其供应商为胜宏科技(Victory Giant和沪⼠电⼦(WUS)。当然,计算托盘中还有其他⼏个 PCB 模块,但它们不需要如此 ⾼的规格。英伟达延续了类似于 Vera Rubin 计算托盘的⽆电缆设计理念,这需要⼤ 量的板对板连接器,这也引出了下⼀个主要的受益者。

电缆与连接器:安费诺(Amphenol)持续受益

对于 LPX,安费诺将成为背板所有连接器的受益者。每个 LPX 节点需要 16 个⽤于背 板的 80DP Paladin 连接器。此外,连接托盘内各种模块也需要板对板连接器:包括 LPU 主板与主机 CPU 模块,以及位于 CPU 模块下⽅的 OSFP/QSFP 模块、前端 NIC 模块和管理模块之间的连接。安费诺还将供应电缆背板,每机架包含 8,160 DP

NVL288 系统

对于我们上⽂讨论的 Vera Rubin Ultra NVL288 系统,我们可以称之为 Kyber 的电缆 背板回归。如果 Rubin Ultra 以这种形态部署——每颗 Rubin Ultra GPU 将拥有 14.4Tbit/s 的单向扩展带宽(scale-up bandwidth),则需要 144 对(DPs)电缆来连 接到 NVSwitch144 对电缆乘以 288 GPU,意味着连接这个更⼤规模的域总共需 41,472 对电缆。这是⼀个庞⼤的电缆数量,因此这更多是此处可能使⽤的电缆含量 的上限。如果存在超分(oversubscription),或者机架间连接是通过交换机完成的, 则可能需要较少的电缆对数。

鸿腾精密加入盛会

背板电缆盒和 Paladin 连接器的需求如此强劲,以⾄于安费诺(Amphenol)的产能已 ⽆法满⾜供应。安费诺现已完成向鸿腾精密(FIT)授予 VR NVL72 背板电缆盒以及 Paladin HD 连接器的⽣产许可,后者现在可以制造这些组件。此事筹划已久,现终于 尘埃落定。安费诺将从鸿腾精密销售这些授权组件中获取授权费。

Kyber Voronoi —— 鸿腾精密的又一次胜利?

Kyber 中板将采⽤多个 8×19 DP 连接器,⽤于与机架前部的计算托盘以及机架后部的 交换机⼑⽚进⾏接⼝连接。

对于 Kyber,英伟达⽬前在 IP ⽅⾯占据主导地位,并设计了⼀种名为 Voronoi 的专有 连接器规范,因此将不再使⽤安费诺(Amphenol)的 Paladin 连接器。⽬前有三家供 应商在竞标该项⽬:鸿腾精密(FIT)、莫仕(Molex)和安费诺。鸿腾精密在这些连 接器市场中似乎处于领先地位,但据报道,安费诺也在与鸿腾精密紧密合作⽣产这些 连接器。Voronoi 的设计和实施仍处于变动之中,但鸿腾精密和安费诺都需要根据英 伟达授权的规范⼤幅提升产能。

中板、交换机托盘和计算托盘均采⽤⺟头连接器,这将需要使⽤带弹簧的公头部件来 保护引脚并连接两侧。这些连接器的密度最终将远⾼于安费诺的 Paladin 连接器。

板载光学器件(Mid-board Optics)——英伟达对可插拔模块的宣战

有趣的是,在 GTC 2026 展出的 Kyber 机架缺少⽤于向外扩展(scale-out)联⽹的 OSFP 笼⼦。相反,我们只看到每个计算托盘引出的 4 MPO 接⼝。这种设计实际 上将除 DSP 以外的关键可插拔收发器组件(驱动器、TIA 等)移到了板载光学模块 MBOM)上,随后通过平⾯⽹格阵列(LGA)插槽连接到 PCB。两个 CX-9 共享 ⼀个 MBOM,然后通过短光纤连接到 MPO ⾯板。该 MBOM 提供两个 MPO 接⼝, 每个接⼝速率为 2x800G,总连接带宽达 1.6T

使⽤ MBOM 将⽆法使⽤任何形式的可插拔收发器或 AEC,超⼤规模云⼚商⾃然对这 ⼀想法表⽰绝对不⾏,并继续推动使⽤ OSFP 笼⼦,以便能够继续使⽤可插拔组 件。

需要指出的是,Kyber 设计的许多⽅⾯仍处于变动之中,在 Kyber 机架实际部署之 前,可能还会发⽣多次设计变更。毕竟,从四机箱设计改为两个计算托盘机箱加⼀个 交换机⼑⽚组,这本⾝已经是⼀个巨⼤的变化。

温馨提示:内容源于第三方以及公开平台,仅供用户参考,恕本平台对内容合法性、真实性、准确性不承担责任。如有异议/反馈可与平台客服联系处理(微信:_LYSD_)。