登录路演时代
忘记密码
忘记密码
忘记密码
欢迎注册路演时代
已有账号?马上登陆
GTC大会回顾(二) :Attention FFN 解耦、CPO路线图等内容
发布来源: 路演时代 时间: 2026-03-26 11:02:01 0

接上篇


在采⽤ AFD(⾃动前向分发)的情况下,从 GPU LPU Token 路由可能成为瓶 颈,尤其是在严格的延迟限制下。Token 路由流程包含两个操作:分发(dispatch和合并(combine)。在分发步骤中,我们通过全对全(All-to-All)集合通信操作将 每个 Token 路由到其前 k 个专家。在专家完成计算后,我们执⾏合并步骤,通过反向 全对全集合通信将输出发送回源位置,从⽽继续下⼀层的计算。

为了隐藏分发(dispatch)和合并(combine)带来的通信延迟,我们采⽤了乒乓流 ⽔线并⾏技术。除了像标准流⽔线并⾏那样将批次拆分为微批次并进⾏计算流⽔线化 之外,分发到 LPU token 还会被合并回源 GPU,因此它们在 GPU LPU 之间像 乒乓球⼀样来回传输。


Speculative Decoding 投机采样 (Speculative Decoding) 

对于上下⽂⻓度为 N token 的解码步骤,在正向传播过程中增加 k 个额外 token (即对 k 个新 token 进⾏热预填充),当 k << N 时,延迟的增加微乎其微。利⽤这⼀ 特性,投机采样(Speculative Decoding)使⽤⼩型草稿模型或 MTP 层来预测 k 个新 token,由于⼩型模型每步解码的延迟较低,从⽽节省了时间。为了验证这些草稿 token,主模型仅需对这 k 个新 token 进⾏⼀次热预填充,其延迟成本⼤致相当于单次 解码步骤。根据草稿模型或 MTP 的准确度,投机采样通常能将每步解码产⽣的输出 token 提升 1.5 2 倍。凭借其低延迟特性,LPU 可以进⼀步扩⼤延迟节省空间并提 ⾼吞吐量。

对于 LPU ⽽⾔,部署草稿模型(draft model)或 MTP 层与应⽤ AFD 有很⼤不同。 FFN 是⽆状态的,⽽草稿模型和 MTP 层则需要动态加载 KV 缓存。每个 FFN ⼤约为 数百兆字节,⽽草稿模型和 MTP 层则占⽤数⼗千兆字节。为了⽀持这种内存消耗, LPU 可以通过 LPX 计算托盘上的 Fabric 扩展逻辑 FPGA 访问⾼达 256 GB DDR5 内存。

LPX 机架系统

让我们来看看 LPX 机架系统,其中包含⼀些有趣的细节。Nvidia 展⽰了⼀个包含 32 个 1U LPU 计算托盘和 2 个 Spectrum-X 交换机的 LPX 机架。Nvidia 在 GTC 上展⽰ 的这个 32 托盘 1U 版本,与 Groq 被收购前的原始服务器设计⾮常接近。我们认为, 随着 Nvidia 实施相关改进,这⼀服务器配置并⾮将于第三季度出货的版本。在此,我 们将详细说明我们所了解的实际量产版本。这些内容已在 Accelerator 模型中进⾏了 详细阐述。

LPX计算托盘

每个 LPX 计算托盘或节点拥有 16 个 LPU,配备 2 个 Altera FPGA、1 个 Intel Granite Rapids 主机 CPU 和 1 个 BlueField-4 前端模块。与其他 Nvidia 系统⼀样, 超⼤规模云服务商客⼾可以且将会选择使⽤⾃有的前端⽹卡,⽽不是为 Nvidia 的 BlueField 付费。

LPU 模块在 PCB 上采⽤背靠背(” belly-to-belly)⽅式安装,即 8 LP30 模块位于 PCB 顶层,另外 8 LP30 模块位于底层。LPU 引出的所有连接均通过 PCB ⾛线实 现,鉴于节点内连接采⽤了密集的全互连⽹格(” all-to-all mesh),这需要极⾼规格的 PCB 来⽀持布线。采⽤背靠背安装⽅式是为了缩短 X 轴和 Y 轴⽅向上的 PCB ⾛线⻓ 度。

该系统的⼀个有趣之处在于 FPGA 发挥的重要作⽤。英伟达将这些 FPGA 称为织⽹ 扩展逻辑(” Fabric Expansion Logic),其⽤途⼴泛。⾸先,它们充当⽹卡(NIC),将 LPU C2C 协议转换为以太⽹协议,以便连接到基于 Spectrum-X 的以太⽹扩展织 ⽹。LPU 正是通过这种扩展织⽹与解码系统中的 GPU 进⾏连接。

其次,LPU 还会通过 FPGA 连接到主机 CPU,由 FPGA C2C 协议转换为 PCIe 议并接⼊ CPU

第三,FPGA 连接到背板以与节点内的其他 FPGA 通信,我们认为这是为了帮助管理 所有 LPU 的控制流和时序。此外,每个 FPGA 还带来了⾼达 256GB 的额外系统 DRAM。如果⽤⼾希望整个解码过程都由 LPX 处理,那么这部分内存池可⽤作 KVCache

在前板上,有 8 个⽤于跨机架 C2C 连接的 OSFP 笼⼦,另外还有 2 个笼⼦(可能是 QSFP-DD)连接到 Spectrum 交换机,⽤于在解耦解码系统中连接 LPU GPU。我 们将在描述⽹络架构时分享更多相关细节。

LPU ⽹络可分为纵向扩展(scale-up)的“C2C”⽹络,以及通过 Spectrum-X NVIDIA GPU 交互的横向扩展(scale-out)⽹络。⾸先,我们来讨论纵向扩展⽹络, 它可以分为三个部分:节点内、节点间/机架内、以及机架间。对于机架内的 C2C 接,NVIDIA 宣布每个机架的总纵向扩展带宽为 640TB/s,其计算⽅式为:256 LPU x 90 条通道 x 112Gbps/8 x 2 个⽅向 = 645TB/s。请注意,NVIDIA 使⽤的是 112G 的总线路速率,⽽⾮ 100G 的有效数据速率。

托盘内拓扑

在每个托盘或节点内,所有 16 LPU 都以全互连⽹格(all-to-all mesh)的形式相互 连接。每个 LPU 模块通过 4x100G C2C 带宽连接到节点内的其他 15 LPU。请 注意,这⾥的“C2C”NVLink ⽆关,⽽是 Groq ⾃有的纵向扩展(scaleup)织⽹。 这些连接全部通过 PCB ⾛线实现,因此需要极⾼规格的 PCB 来⽀持这种布线密度。 这就是采⽤背靠背(” belly-to-belly)布局的原因:它缩短了所有 LPU 之间的“X”“Y”轴距离,转⽽让布线在“Z”轴维度延伸。

LPU 还拥有 1 100G 链路连接到 1 FPGA,每个 FPGA 8 LPU 相连。2 FPGA 各有 8 PCIe Gen 5 通道连接到 CPU。由于 LPU 本⾝没有直接连接的 PCIe PHY,因此 LPU 需要通过 FPGA 才能与 CPU 进⾏交互。

节点间/机架内

每个 LPU 都连接到服务器中其他 15 个节点各⼀个 LPU。这些节点间链路均为 2x100G,因此每个 LPU 引出 15x2x100G 的节点间链路。这些节点间链路通过铜缆背 板连接。此外,每个 FPGA 还以每条链路 25G 50G 的速率连接到其他每个节点中 的⼀个 FPGA,即 15x25G/50G。这也通过背板传输。这意味着每个节点拥有 16 x 15 x 2 条⽤于节点间 C2C 的通道,以及 2 x 15 条⽤于节点间 FPGA 的通道,总计 510 条通 道或 1020 个差分对(⽤于接收 Rx 和发送 Tx)。因此,背板共有 16 x 1020/2 = 8,160 差分对——我们除以 2 是因为每个设备的发送 Tx 通道对应另⼀个设备的接收 Rx 道。

机架间

最后是机架间的 C2C 连接。每个 LPU 拥有 4 100G 通道,通往 OSFP 笼⼦,⽤于 4 个机架连接 LPU。这种机架间扩展有多种配置可选。⼀种⽅案是每个 LPU 4x100G 通道通向⼀个 OSFP 笼⼦,每个 OSFP 笼⼦引出 2 LPU 800G C2C 宽。然⽽,为了获得更⼤的扇出,⾸选配置似乎是将 LPU 的每条 100G 通道分别通向 4 个独⽴的笼⼦,每个笼⼦引出 8 LPU 800G C2C 带宽。在机架联⽹⽅式上,它 似乎采⽤了菊花链配置,每个 Node0 与另外两个 Node 0 相连。这些都可以在 100G AEC 的传输距离内实现,如有必要也可以使⽤光模块。


NVIDIA 的 CPO 路线图

NVIDIA 2026 GTC 主旨演讲中披露了其 CPO 路线图,⻩仁勋在次⽇举⾏的⾦ 融分析师问答会议上对此进⾏了补充说明。尽管许多⼈曾寄希望于 CPO 能被⽤于 Rubin Ultra Kyber 机架内的扩展(scale-up),但 NVIDIA 的重点转⽽放在利⽤ CPO 来实现更⼤规模(world size)的计算系统。

Rubin 世代,英伟达将提供采⽤ Oberon NVL72 架构的 Rubin GPU,并配备全铜 缆扩展⽹络。对于 Rubin Ultra,正如我们所预期的,在 Oberon Kyber 机架架构中 将仅提供铜缆扩展选项。Rubin Ultra 还将提供更⼤规模的世界级系统,该系统将 8 包含 72 Rubin Ultra GPU Oberon 机架连接在⼀起,形成被称为 NVL576 的系 统。CPO(共封装光学)扩展技术将⽤于构建这种更⼤规模的系统,在机架之间实现 两层全互连⽹络,⽽机架内部的扩展仍将保持基于铜缆。

当进⼊费曼(Feynman)架构世代,CPO 的应⽤将通过另⼀种超⼤规模机架 NVL1152 进⼀步扩展,该机架由 8 Kyber 机架组合⽽成。虽然英伟达官⽅技术博客 在概述机架配置路线图时表⽰,“NVIDIA Kyber 将利⽤类似的直接光学互连进⾏机架 间扩展,从⽽升级为⼤规模全互连的 NVL1152 超级计算机,但⻩仁勋在⼀次财务分 析师问答会议上确实提到,费曼架构中的 NVL1152 将采⽤ CPO”⽅案。⽬前关于 机架内扩展是继续使⽤铜缆,还是由 CPO 取代铜缆,仍存在⼀些分歧。

英伟达的策略⼀直是尽可能使⽤铜缆,⽽在必要时才使⽤光模块。Feynman(费曼) 世代的 NVL1152 架构也将遵循这⼀原则。⽬前可以明确的是,NVL1152 将采⽤共封 装光学(CPO)技术来实现机架间的连接,但从 GPU NVLink 交换机的连接⽬前 仍定案为(POR)使⽤铜缆。英伟达⽆法将电⼝单通道速率从双向 224Gbit/s 再次翻 倍⾄单向 448Gbit/s,这意味着带宽表现并不会那么令⼈惊艳。

虽然 448G ⾼速 SerDes 与使⽤封装内光引擎的芯粒间连接相⽐,在岸线密度、传输距 离和功耗⽅⾯⾯临巨⼤挑战,但 Feynman 在制造难度、成本和可靠性⽅⾯的要求,使 其必须采⽤铜缆连接⾄交换机。

话虽如此,NVL1152 SKU 距离发布还有数年时间——⽽且路线图极有可能发⽣变 化。⽬前,我们的基准预测是机架内部使⽤铜缆,机架之间使⽤ CPO(共封装光 学),但这随时可能改变。


⽬前,我们对 NVIDIA CPO 路线图的最佳预测如下:

Rubin

NVL72 – Oberon 全铜互连扩展


Rubin Ultra

NVL72 – Oberon 全铜互连扩展

NVL144 – Kyber 机架全铜线 Scale-up ⽅案

NVL288 – Kyber 机架全铜线 Scale-up ⽅案,通过铜线将 2 个机架连接在⼀起

NVL576 – 8x Oberon 机架,机架内采⽤铜线 Scale-up,机架间交换机采⽤ CPO 技术,构成两层全互连拓扑。该⽅案产量较低,仅⽤于测试⽬的


Feynman

NVL72 – Oberon 机架全铜缆

NVL144 – Kyber 机架全铜缆

NVL1152 – 8xKyber 机架机架内采⽤铜缆连接,机架间交换机采⽤ CPO 技术


Oberon 和 Kyber 更新,引入更大的世界规模,更 多网络更新

Nvidia 提供了备受期待的 Kyber 机架形态更新,这是继 Oberon GTC 2025 ⾸次作 为原型亮相后的最新成员。作为原型,该机架架构⼀直在不断演进,我们注意到了⼀ 些变化。⾸先,每个计算⼑⽚的密度有所增加,各包含 4 Rubin Ultra GPU 2 Vera CPU。机架共有 2 个插槽箱(canister),每个包含 18 个计算⼑⽚,总计 36 个计 算⼑⽚,单机架可容纳 144 GPU。⽽最初的 Kyber 设计中,每个计算⼑⽚仅配备 2 GPU 2 Vera CPU,并由 4 个插槽箱组成,每个插槽箱包含 18 个计算⼑⽚。

以下细节基于 Rubin Kyber 原型,但 Rubin Ultra 将会重新设计。

GTC 2025 原型机相⽐,每个交换机⼑⽚的⾼度也增加了⼀倍,每个交换机⼑⽚包 6 NVLink 7 交换机,每个机架包含 12 个交换机⼑⽚,这使得每个 Kyber 机架总 共拥有 72 NVLink 7 交换机。GPU 通过 2 PCB 中板(或每个机箱 1 个中板)与 交换机⼑⽚实现全对全连接。

对于 Rubin Ultra NVL144 Kyber,正如我们多次向客⼾强调的那样,尽管有其他分析 师传⾔ Kyber 将引⼊ Scale-up CPO(共封装光学),但实际上并不会采⽤。不过,⽤ NVLink 的光学组件即将问世,并将逐步分阶段引⼊。Scale-up CPO 将⾸次应⽤ Rubin Ultra NVL 576 系统,⽤于连接 8 Oberon 规格机架,形成⼀个双层全互 连⽹络。但在机架内部,Scale-up ⽹络仍将使⽤铜缆背板。这⽬前仍处于⼩批量/测试 阶段。

回到 Kyber 机架,每个 Rubin Ultra 逻辑 GPU 提供 14.4Tbit/s 的单向 Scale-up 宽,通过每个 GPU 上的⼀个 80DP 连接器(使⽤ 72 DP × 200Gbit/s 双向通道 = 14.4Tbit/s)连接到中板。要将所有 144 GPU 连接成全互连⽹络,将需要 72 NVLink 7.0 交换芯⽚,每颗芯⽚的聚合单向带宽为 28.8Tbit/s

在下⽅的 Kyber 交换机⼑⽚(Switch Blade)图⽚中,我们可以看到有 2 块独⽴的 PCB,每块板载有 3 个交换机。该交换机⼑⽚应配有 6 152DP 连接器,其中 3 个连 接器服务于每块中板。图⽚展⽰的是使⽤低密度连接器的原型⼑⽚,这就是为什么图 中显⽰有 12 个连接器,⽽不是我们预期在量产版本中看到的 6 个。

每个 28.8T NVLink 交换机拥有 144 200G 通道(同步双向),这意味着每个交换机 24 200G 通道连接到每个连接器。由于涉及的距离对于 PCB ⾛线来说太⻓,因 此使⽤铜缆架空线(flyover cables)将每个交换机连接到中板。这也是为什么交换机 距离中板较远的原因,以便为架空线的布线提供空间。

每个 NVLink 交换机芯⽚通过⻜线电缆连接到交换机⼑⽚边缘的连接器(使⽤ 144 差分对 x 200 Gbit/s 双向通道 = 28.8Tbit/s),这些连接器插⼊中板。英伟达正在研究使 ⽤共封装铜缆(Co-packaged Copper)以进⼀步降低损耗,以防 NPC ⽅案⽆法奏 效。据我们所知,英伟达正告知供应链转向全⾯的共封装铜缆⽅案。

尽管英伟达在 GTC 2026 上未正式讨论,但供应链内部已经探讨过 NVL288 的概念。 这将涉及将两个 NVL144 Kyber 机架相邻放置,并使⽤机架间铜缆背板连接这两个机 架。⼀种可能性是所有 288 GPU 实现全互连,但这将需要⽐当前 NVLink 7 交换机 更⾼基数(Radix)的交换机,因为⽬前的交换机最⾼仅提供 144 200G 端⼝。

如果部署 Rubin Ultra NVL288,每颗 Rubin Ultra GPU 将拥有 14.4Tbit/s 的单向扩展 带宽,需要 144 个差分对(DP)的线缆来连接 NVLink 7 交换机。每颗 GPU 72 个差 分对乘以 288 GPU,意味着连接这个更⼤的计算域总共需要额外增加 20,736 个差 分对。这涉及⼤量的线缆,因此这是线缆使⽤量的上限。

28.8T NVLink 交换机的基数(Radix)限制了每台交换机在兼顾跨机架连接的同时所 能连接的 GPU 数量。要么必须使⽤更⾼基数的交换机,要么在这种架构中必须接受 ⼀定程度的超配,并可能采⽤类似 Dragonfly 的⽹络拓扑结构。这也将减少对铜缆数 据管道(DPs)的需求量。

供应链中的所有现有证据都表明 NVSwitch 7 的带宽与 NVSwitch 6 相同,但坦率地 说,这似乎有点不合逻辑。我们认为 NVSwitch 7 的带宽和基数(radix)实际上是 NVSwitch 6 的两倍,这样就可以实现全对全(all-to-all)通信,从系统架构的⻆度来 看,这才是最合理的。

Rubin Ultra NVL576

为了将单机扩展规模推向 144 GPU 以上并跨越多个机架,光学器件变得必不可 少,因为我们正接近铜缆所能达到的最⼤计算密度极限。Rubin Ultra NVL576 已列⼊ 路线图,它由 8 个较低密度的 Oberon 机架组成。

机架间的连接将需要使⽤光模块,尽管严格来说⽬前尚未确认是采⽤可插拔光模块还 是共封装光学(CPO),但 CPO 看起来可能性更⼤。⽬前的 Blackwell NVL576 原型 “Polyphe”使⽤的是可插拔光模块。

我们之前展⽰过 GB200 NVL576 的概念设计,它使⽤可插拔光模块来互连第⼆层 NVLink 交换机。可插拔模块的使⽤导致物料清单(BOM)成本⼤幅增加,使得该系 统从全对全交换的总拥有成本(TCO)⻆度来看变得难以维系。然⽽,Rubin Ultra NVL576 有可能在 Feynman NVL 1,152 问世之前进⾏⼩批量测试,届时我们将看到 scale-up CPO 的实际放量增⻓。


温馨提示:内容源于第三方以及公开平台,仅供用户参考,恕本平台对内容合法性、真实性、准确性不承担责任。如有异议/反馈可与平台客服联系处理(微信:_LYSD_)。