路演时代

GTC大会回顾（三）：Feynman、GTC 2026 对供应链的影响等内容

（接上篇）

Feynman

虽然关于 Feynman 的细节披露不多，但主题演讲中的预告已⾜以让我们预⻅其令⼈兴奋的前景。该平台将同时推进三项重⼤技术创新：混合键合/SoIC、A16 ⼯艺、CPO （共封装光学）以及定制化 HBM。

虽然 Feynman 采⽤ CPO 已列⼊路线图，但问题在于其应⽤程度如何？机架内的互连将基于铜缆还是光纤？我们将在付费墙后展⽰可能的配置⽅案。Vera ETL256随着 AI ⼯作负载在 GPU 计算之外需要更多的数据处理、预处理和编排，CPU 的需求正在不断上升。强化学习进⼀步增加了这⼀需求，因为 CPU 需要并⾏运⾏模拟、执⾏代码并验证输出。由于 GPU 的扩展速度快于 CPU，因此需要更⼤的 CPU 集群来保持 GPU 的充分利⽤，这使得 CPU 正⽇益成为⼀个瓶颈。

Vera 独⽴机架直接解决了这⼀问题，通过在单个机架中容纳 256 颗 CPU 实现了前所未有的密度——这⼀壮举必须依赖液冷技术。其底层逻辑与 NVL 机架的设计理念如出⼀辙：将计算单元封装得⾜够紧密，使得铜缆互连能够覆盖机架内的所有设备，从⽽消除了对主⼲⽹光收发器的需求。铜缆节省的成本⾜以抵消额外的散热开销。

每个 Vera ETL 机架包含 32 个计算托盘，上下各 16 个，对称地排列在中间四个基于 Spectrum-6 的 1U MGX ETL 交换机托盘周围。这种对称设计是刻意为之：它最⼤限度地减少了计算托盘与主⼲（spine）之间的电缆⻓度差异，使所有连接都保持在铜缆传输范围内。从每个交换机托盘出发，后置端⼝连接到该铜缆主⼲以进⾏机架内通信，⽽ 32 个前置 OSFP 插槽则为 POD 的其余部分提供光纤连接。

机架内的⽹络采⽤ Spectrum-X 多平⾯拓扑结构，将 200 Gb/s 通道分布在四个交换机上，在保持单⼀⽹络层级的同时实现全对全连接。由于每个计算托盘容纳 8 颗 Vera CPU，整机架共有 256 颗 CPU，所有 CPU 都通过单⼀的扁平化⽹络在以太⽹上互联。

CMX和CTX

我们在上⼀篇关于 Rubin 的⽂章和内存模型中详细阐述了 NVIDIA 的 CMX（即 ICMS 平台）。NVIDIA 此次推出了 STX 参考存储机架架构。

CMX

CMX 是 NVIDIA 的上下⽂内存存储平台。CMX 旨在解决现代推理基础设施中⽇益严重的瓶颈：为⽀持⻓上下⽂和智能体（agentic）⼯作负载⽽迅速扩张的 KV 缓存（KV Cache）需求。

KV 缓存随输⼊序列⻓度和⽤⼾数量线性增⻓，是影响预填充性能（⾸字延迟）的主要权衡因素。在⼤规模应⽤中，设备端的 HBM 容量已不⾜。主机 DRAM 通过增加⼀层缓存扩展了 HBM 之外的容量，但在单节点总量、内存带宽和⽹络带宽⽅⾯也⾯临限制。于是，NVMe 存储被引⼊⽤于进⼀步的 KV 缓存卸载。

英伟达在 1 ⽉份的 CES 上，于推理内存层级结构中引⼊了⼀个“全新”的中间存储层 “G3.5 层”。G3.5 层 NVMe 介于 G3 层 DRAM 和 G4 层共享存储（同样是 NVMe，或 SATA/SAS SSD，或 HDD）之间。该技术此前被称为 ICMS（推理上下⽂内存存储），现品牌更名为 CMX 平台，这本质上只是将通过 Bluefield ⽹卡连接到计算服务器的存储服务器进⾏了重新包装。与传统 NVMe 架构唯⼀的区别在于，将 Connect-X ⽹卡更换为了 Bluefield ⽹卡。

STX

为了扩⼤ CMX 的应⽤范围，英伟达还推出了 STX。STX 是⼀种参考机架架构，采⽤英伟达基于 BF-4 的存储解决⽅案，⽤以补充 Vera 计算机架。该参考架构明确规定了特定集群所需的驱动器、Vera CPU、BF-4 DPU、CX-9 NIC 以及 Spectrum-X 交换机的具体数量。

与 VR NVL72 中由⼀颗 Grace CPU 和单个 CX-9 NIC 组成的 BF-4 不同，STX 参考设计中的 BF-4 包含⼀颗 Vera CPU、两个 CX-9 NIC 和两个 SOCAMM 模块。每个 STX 机箱包含两个 BF-4 单元，总计两颗 Vera CPU、四个 CX-9 NIC 和四个 SOCAMM 模块。对于整个 STX 机架，它共有 16 个机箱，这意味着拥有 32 颗 Vera CPU、64 个 CX-9 NIC 和 64 个 SOCAMM。

STX 的发布展⽰了英伟达⼀贯的实⼒，他们列出了所有⽀持 STX 的主流存储⼚商，包括 AIC、Cloudian、DDN、Dell Technologies、Everpure、Hitachi Vantara、 HPE、IBM、MinIO、NetApp、Nutanix、Supermicro、Quanta Cloud Technology (QCT)、VAST Data 和 WEKA。

综上所述，BlueField-4、CMX 和 STX 代表了英伟达在存储层标准化集群设计⽅⾯的更⼴泛努⼒。英伟达已经占领了计算层和⽹络层，并正随着时间的推移积极向存储、软件及基础设施运营层迈进。

Feynman NVL1152 网络拓扑结构

为了利⽤铜缆互连实现翻倍的扩展带宽，英伟达必须实现单向 448Gbit/s 的单通道带宽（并采⽤同步双向 SerDes，使每个物理通道同时承载 448G 的接收和 448G 的发送）。然⽽，这是⼀项极具挑战性的任务，因为他们⾸先必须证明 448Gb/s PAM4 SerDes 在⼤规模量产中的可⾏性，然后还要通过实现回声消除来达成双向带宽，这本⾝就极其困难。我们认为英伟达⽬前仅倾向于采⽤单向 448G ⽅案。

Feynman 可能会采⽤机架内光互连技术，即交换机板卡通过光纤连接器与中板进⾏盲插，并使⽤细光纤束代替⻜线电缆（flyover cables）将光纤连接器连接到 NVLink 8 交换机，但我们认为这种可能性极低。

对于机架间互连，我们探讨了两种不同的拓扑结构。第⼀种是类似于 Oberon 形态的两层 CLOS ⽹络，但每个 GPU 和 NVLink 交换机的带宽都翻了⼀倍。

第⼆种是采⽤可重构的 Dragonfly 拓扑结构，利⽤ OCS 交换机连接 8 个机架。该拓扑结构所需的 OCS 端⼝数量⽬前尚不确定。

GTC 2026 Supply Chain Implications GTC 2026 对供应链的影响

在此，我们将讨论在 GTC 的⼀系列发布之后，我们所观察到的供应链内容发⽣的重⼤变化。

LP30 工艺中的 AlphaWave 112G Serdes

读者可能会感到惊讶，⾼通在 Groq LPU 3 芯⽚中拥有 IP！更具体地说，是⾼通去年收购的 AlphaWave 为 Groq 的 C2C 提供了 112G SerDes。AlphaWave 被选为三星代⼯⼚（Samsung Foundry）唯⼀拥有⾼速 SerDes 的 IP 供应商。正是 AlphaWave 的 SerDes 曾导致 Groq LPU 2 出现问题。LP35 将继续使⽤ Alphawave，但当 LP40 转回台积电（TSMC）时，英伟达⾃然会使⽤其⾃有的 NVLink SerDes IP。

LPX PCB

接下来，我们提到 LPX 计算托盘需要规格极⾼的 PCB。我们估计每个计算托盘主板 PCB 的平均售价（ASP）将达到 7000 美元。其供应商为胜宏科技（Victory Giant）和沪⼠电⼦（WUS）。当然，计算托盘中还有其他⼏个 PCB 模块，但它们不需要如此⾼的规格。英伟达延续了类似于 Vera Rubin 计算托盘的“⽆电缆”设计理念，这需要⼤量的板对板连接器，这也引出了下⼀个主要的受益者。

电缆与连接器：安费诺（Amphenol）持续受益

对于 LPX，安费诺将成为背板所有连接器的受益者。每个 LPX 节点需要 16 个⽤于背板的 80DP Paladin 连接器。此外，连接托盘内各种模块也需要板对板连接器：包括 LPU 主板与主机 CPU 模块，以及位于 CPU 模块下⽅的 OSFP/QSFP 模块、前端 NIC 模块和管理模块之间的连接。安费诺还将供应电缆背板，每机架包含 8,160 个 DP。

NVL288 系统

对于我们上⽂讨论的 Vera Rubin Ultra NVL288 系统，我们可以称之为 Kyber 的电缆背板回归。如果 Rubin Ultra 以这种形态部署——每颗 Rubin Ultra GPU 将拥有 14.4Tbit/s 的单向扩展带宽（scale-up bandwidth），则需要 144 对（DPs）电缆来连接到 NVSwitch。144 对电缆乘以 288 颗 GPU，意味着连接这个更⼤规模的域总共需要 41,472 对电缆。这是⼀个庞⼤的电缆数量，因此这更多是此处可能使⽤的电缆含量的上限。如果存在超分（oversubscription），或者机架间连接是通过交换机完成的，则可能需要较少的电缆对数。

鸿腾精密加入盛会

背板电缆盒和 Paladin 连接器的需求如此强劲，以⾄于安费诺（Amphenol）的产能已⽆法满⾜供应。安费诺现已完成向鸿腾精密（FIT）授予 VR NVL72 背板电缆盒以及 Paladin HD 连接器的⽣产许可，后者现在可以制造这些组件。此事筹划已久，现终于尘埃落定。安费诺将从鸿腾精密销售这些授权组件中获取授权费。

Kyber Voronoi —— 鸿腾精密的又一次胜利？

Kyber 中板将采⽤多个 8×19 DP 连接器，⽤于与机架前部的计算托盘以及机架后部的交换机⼑⽚进⾏接⼝连接。

对于 Kyber，英伟达⽬前在 IP ⽅⾯占据主导地位，并设计了⼀种名为 Voronoi 的专有连接器规范，因此将不再使⽤安费诺（Amphenol）的 Paladin 连接器。⽬前有三家供应商在竞标该项⽬：鸿腾精密（FIT）、莫仕（Molex）和安费诺。鸿腾精密在这些连接器市场中似乎处于领先地位，但据报道，安费诺也在与鸿腾精密紧密合作⽣产这些连接器。Voronoi 的设计和实施仍处于变动之中，但鸿腾精密和安费诺都需要根据英伟达授权的规范⼤幅提升产能。

中板、交换机托盘和计算托盘均采⽤⺟头连接器，这将需要使⽤带弹簧的公头部件来保护引脚并连接两侧。这些连接器的密度最终将远⾼于安费诺的 Paladin 连接器。

板载光学器件（Mid-board Optics）——英伟达对可插拔模块的宣战

有趣的是，在 GTC 2026 展出的 Kyber 机架缺少⽤于向外扩展（scale-out）联⽹的 OSFP 笼⼦。相反，我们只看到每个计算托盘引出的 4 个 MPO 接⼝。这种设计实际上将除 DSP 以外的关键可插拔收发器组件（驱动器、TIA 等）移到了板载光学模块（MBOM）上，随后通过平⾯⽹格阵列（LGA）插槽连接到 PCB。两个 CX-9 共享⼀个 MBOM，然后通过短光纤连接到 MPO ⾯板。该 MBOM 提供两个 MPO 接⼝，每个接⼝速率为 2x800G，总连接带宽达 1.6T。

使⽤ MBOM 将⽆法使⽤任何形式的可插拔收发器或 AEC，超⼤规模云⼚商⾃然对这⼀想法表⽰“绝对不⾏”，并继续推动使⽤ OSFP 笼⼦，以便能够继续使⽤可插拔组件。

需要指出的是，Kyber 设计的许多⽅⾯仍处于变动之中，在 Kyber 机架实际部署之前，可能还会发⽣多次设计变更。毕竟，从四机箱设计改为两个计算托盘机箱加⼀个交换机⼑⽚组，这本⾝已经是⼀个巨⼤的变化。

温馨提示：内容源于第三方以及公开平台，仅供用户参考，恕本平台对内容合法性、真实性、准确性不承担责任。如有异议/反馈可与平台客服联系处理（微信：_LYSD_）。