路演时代

西部郑宏达再次强调今年要重视国产超节点

1、推理算力需求与核心技术特征

训练与推理算力需求差异：本次交流围绕超节点相关产业逻辑展开，首先进入算力需求维度的分析。AI大模型的训练与推理阶段对算力的要求存在显著差异：训练侧核心需求为规模与稳定性，需要搭建万卡至十万卡规模的稳定集群，在大模型训练过程中尽可能减少宕机次数，保障训练流程稳定运行。推理侧的核心需求为低延迟，结合当前用户使用龙芯、豆包、Deepseek等AI产品的实际场景，简单提问后通常需要等待较长时间才能得到完整回复，当前主流AI应用的推理延迟普遍达2分钟左右，低延迟优化是推理算力升级的核心方向。

高速光互联技术特征：为匹配推理侧低延迟的核心需求，推理算力呈现三大核心技术特征，第一类为高速光互联技术。不管是采用CPU、OCS还是其他新兴光通信技术，高速光互联的核心作用都是加快数据传输速度，从数据流转环节压降延迟，适配推理场景的低延时要求。

算力池化技术特征：第二类核心特征为算力池化，其核心架构是将计算单元与存储单元分别做池化处理，实现算力与存储资源的灵活调取。传统跨服务器数据读取路径需要先访问目标服务器的计算单元，再跳转至对应存储单元读取数据，整体路径冗长。实现算力、存储池化后，一台服务器的计算单元可直接读取跨服务器存储单元，大幅缩短数据访问路径，有效降低运行延迟。

推理芯片技术路径：第三类核心特征为新兴推理芯片，当前英伟达、华为等头部芯片厂商均在布局专用推理芯片，主要包含PD分离与LPU两类技术路径。PD分离理念由英伟达2025年下半年提出，核心是将推理过程拆分为Prefill与Decode两个阶段：Prefill阶段为用户输入问题后，大模型将prompt内容存储为KV Cache矩阵，该阶段无需高内存带宽支持；Decode阶段为大模型逐token输出回答的环节，需要高带宽高速内存支持。拆分两个阶段可减少HBM的使用量，既降低硬件成本又提升运行速度。华为昇腾950是全球首款PD分离推理芯片，其950PR、950DT系列目前已经实现出货，而英伟达对应的PD分离芯片Robin CPX预计2026年四季度才能出货，华为落地进度显著领先。另一类技术路径LPU是在算力卡上搭载200-300兆SRAM，核心作用是缩短推理首token的输出时间，该类芯片无法替换Robin、Blackwell等通用算力卡，后续token输出仍需依赖HBM，与通用算力卡为分工协作而非替代关系。

2、超节点的定义与应用价值

超节点核心定义与布局：超节点是适配大模型深度推理需求的重要产品形态，使用超节点开展大模型深度推理具备显著的操作便利性。从硬件构成来看，超节点可通俗理解为由几十张甚至上百张算力卡组成的小集群，谷歌推出的64卡Keeper产品本身就是典型的超节点落地案例。当前全球多家主流科技厂商均在推进超节点相关业务布局，英伟达、阿里、谷歌、华为均在研发自有超节点产品。2026年是超节点大规模普及推广的关键年份，核心驱动因素在于超节点能够高度适配大模型深度推理的操作需求，尽管不使用超节点也可正常开展推理运算，但超节点的应用能够大幅提升相关操作的便捷程度。

超节点适配MOE架构优势：超节点的核心应用优势与MOE（混合专家模型）架构的特性高度适配。MOE架构由数百个小模型共同组成，大模型在开展深度推理时不会激活全量参数，仅会激活部分参数对应的小模型，当前主流大模型的激活参数规模普遍远低于总参数：其中MiniMax 2.5的激活参数仅为10B，小米MiMoV2大模型总参数达1万亿，激活参数仅为430亿。超节点可将MOE架构中的不同expert分别部署在不同的节点或服务器中，推理过程中仅需要激活对应expert所在的节点或服务器即可，不同expert之间读取彼此的存储和计算资源也十分便捷。使用超节点开展大模型深度推理不仅操作更便捷，还能实现更低的运算成本与更优的运行效果，随着大模型推理需求的持续提升，超节点的应用规模将持续扩大。超节点本质是满足推理算力需求三大核心特征（高速光互联、算力池化、推理芯片）融合落地的核心表现形式。

3、国产超节点落地元年逻辑

国产超节点落地催化因素：当前大模型推理需求持续提升，token消耗量不断增长且已位居全球前列，字节CDS 2.0出现严重排队现象，显现出明确的算力缺口，同时各类国产算力产品持续迭代推出，但此前国产算力相关标的股价并未随需求上行出现上涨。这一现象的核心诱因是2025年老一代国产芯片性能不足，包括寒武纪580、590，华为910B、910C在内的产品仅支持FP16数据格式，不支持2025年1月Deepseek推出后成为大模型主流的FP8数据格式，大模型深度推理效果较差，无法与持续增长的推理需求适配。随着新一代国产算力芯片集中落地，2026年成为国产超节点落地元年。目前已推出及待推出的新一代产品包括华为950pr、寒武纪690、海光深算4号等，这类芯片均支持FP8甚至FP4数据格式，同时适配超节点架构，算力性能较上一代明显提升，可满足大模型深度推理需求，相关产品的落地节奏与token消耗量整体呈正比趋势（剔除优化因素影响下基本成正比），因此近期国产算力相关标的股价开始出现上涨。2026年国产超节点落地将呈现“上半年测试、下半年放量”的节奏，上半年主要完成产品测试验证工作，下半年落地规模与推进速度将明显提升。

4、国产算力相关标的与投资机会

华为产业链相关标的：华为950系列是目前推出最早的新一代国产AI芯片，分为950PR与950DT两款，功能定位差异明确：950PR针对prefill场景设计，是全球首款PD分离的AI推理芯片，仅支持推理功能，可用于超级节点搭建，目前已量产出货；950DT可兼顾训练与推理场景，预计2026年四季度推出。2026年950PR市场预期出货量为50万颗，部分观点预期更为乐观。华为超节点产业链核心受益环节包括两类：一是连接器环节，市场份额主要由华丰科技、易华股份、航天电器三家瓜分；二是液冷板环节，核心标的包括川环等，相关标的业绩弹性较好。

寒武纪与海光相关标的：寒武纪、海光均在布局自有超节点产品，可通过超节点形式向客户交付，服务覆盖字节、腾讯、阿里等头部互联网厂商。2026年两家均将推出新一代国产算力芯片，分别为寒武纪690、海光深算4号，两款产品性能较2025年之前的老款芯片有大幅提升，可更好满足大模型算力需求。

盛科通信相关标的：盛科通信的交换机芯片是超节点架构的核心组成部件，是阿里云超节点产品的核心配套供应商。阿里云自研AI推理芯片为PPU，2025年推出的PPU采用N+1工艺，2026年迭代为N+2工艺，2026年PPU出货量预期不低于35万颗，2027年出货量预期约70万颗。根据配套规则，每4颗PPU需要搭配1颗盛科通信的交换机芯片，单颗交换机芯片价值约10-20万元，可基于PPU出货预测直接测算盛科通信的业绩增长空间与估值弹性。

标的估值与投资展望：当前市场对国产算力标的采用差异化估值逻辑：华为产业链、盛科通信类标的，主要通过测算下游核心芯片出货量，按配套比例折算对应环节产品需求，进一步测算利润规模后估算股价空间；寒武纪、海光已实现收入与利润，市场主要基于其自身收入利润预测给予PE估值。2026年是国产超节点落地的关键年份，新一代国产芯片均支持超节点架构，可满足大模型深度推理的低延迟核心需求，超节点作为大模型深度推理的主要落地形式，已被英伟达、华为、阿里、谷歌等厂商重点布局，国产算力板块具备明确投资机会，若有相关疑问可与研究团队交流。

温馨提示：内容源于第三方以及公开平台，仅供用户参考，恕本平台对内容合法性、真实性、准确性不承担责任。如有异议/反馈可与平台客服联系处理（微信：_LYSD_）。