登录路演时代
忘记密码
忘记密码
忘记密码
欢迎注册路演时代
已有账号?马上登陆
西部郑宏达 再次强调今年要重视国产超节点
发布来源: 路演时代 时间: 2026-04-14 14:32:05 0

1、推理算力需求与核心技术特征

训练与推理算力需求差异:本次交流围绕超节点相关产业逻辑展开,首先进入算力需求维度的分析。AI大模型的训练与推理阶段对算力的要求存在显著差异:训练侧核心需求为规模与稳定性,需要搭建万卡至十万卡规模的稳定集群,在大模型训练过程中尽可能减少宕机次数,保障训练流程稳定运行。推理侧的核心需求为低延迟,结合当前用户使用龙芯、豆包、Deepseek等AI产品的实际场景,简单提问后通常需要等待较长时间才能得到完整回复,当前主流AI应用的推理延迟普遍达2分钟左右,低延迟优化是推理算力升级的核心方向。

高速光互联技术特征:为匹配推理侧低延迟的核心需求,推理算力呈现三大核心技术特征,第一类为高速光互联技术。不管是采用CPU、OCS还是其他新兴光通信技术,高速光互联的核心作用都是加快数据传输速度,从数据流转环节压降延迟,适配推理场景的低延时要求。

算力池化技术特征:第二类核心特征为算力池化,其核心架构是将计算单元与存储单元分别做池化处理,实现算力与存储资源的灵活调取。传统跨服务器数据读取路径需要先访问目标服务器的计算单元,再跳转至对应存储单元读取数据,整体路径冗长。实现算力、存储池化后,一台服务器的计算单元可直接读取跨服务器存储单元,大幅缩短数据访问路径,有效降低运行延迟。

推理芯片技术路径:第三类核心特征为新兴推理芯片,当前英伟达、华为等头部芯片厂商均在布局专用推理芯片,主要包含PD分离与LPU两类技术路径。PD分离理念由英伟达2025年下半年提出,核心是将推理过程拆分为Prefill与Decode两个阶段:Prefill阶段为用户输入问题后,大模型将prompt内容存储为KV Cache矩阵,该阶段无需高内存带宽支持;Decode阶段为大模型逐token输出回答的环节,需要高带宽高速内存支持。拆分两个阶段可减少HBM的使用量,既降低硬件成本又提升运行速度。华为昇腾950是全球首款PD分离推理芯片,其950PR、950DT系列目前已经实现出货,而英伟达对应的PD分离芯片Robin CPX预计2026年四季度才能出货,华为落地进度显著领先。另一类技术路径LPU是在算力卡上搭载200-300兆SRAM,核心作用是缩短推理首token的输出时间,该类芯片无法替换Robin、Blackwell等通用算力卡,后续token输出仍需依赖HBM,与通用算力卡为分工协作而非替代关系。


2、超节点的定义与应用价值

超节点核心定义与布局:超节点是适配大模型深度推理需求的重要产品形态,使用超节点开展大模型深度推理具备显著的操作便利性。从硬件构成来看,超节点可通俗理解为由几十张甚至上百张算力卡组成的小集群,谷歌推出的64卡Keeper产品本身就是典型的超节点落地案例。当前全球多家主流科技厂商均在推进超节点相关业务布局,英伟达、阿里、谷歌、华为均在研发自有超节点产品。2026年是超节点大规模普及推广的关键年份,核心驱动因素在于超节点能够高度适配大模型深度推理的操作需求,尽管不使用超节点也可正常开展推理运算,但超节点的应用能够大幅提升相关操作的便捷程度。

超节点适配MOE架构优势:超节点的核心应用优势与MOE(混合专家模型)架构的特性高度适配。MOE架构由数百个小模型共同组成,大模型在开展深度推理时不会激活全量参数,仅会激活部分参数对应的小模型,当前主流大模型的激活参数规模普遍远低于总参数:其中MiniMax 2.5的激活参数仅为10B,小米MiMoV2大模型总参数达1万亿,激活参数仅为430亿。超节点可将MOE架构中的不同expert分别部署在不同的节点或服务器中,推理过程中仅需要激活对应expert所在的节点或服务器即可,不同expert之间读取彼此的存储和计算资源也十分便捷。使用超节点开展大模型深度推理不仅操作更便捷,还能实现更低的运算成本与更优的运行效果,随着大模型推理需求的持续提升,超节点的应用规模将持续扩大。超节点本质是满足推理算力需求三大核心特征(高速光互联、算力池化、推理芯片)融合落地的核心表现形式。


3、国产超节点落地元年逻辑

国产超节点落地催化因素:当前大模型推理需求持续提升,token消耗量不断增长且已位居全球前列,字节CDS 2.0出现严重排队现象,显现出明确的算力缺口,同时各类国产算力产品持续迭代推出,但此前国产算力相关标的股价并未随需求上行出现上涨。这一现象的核心诱因是2025年老一代国产芯片性能不足,包括寒武纪580、590,华为910B、910C在内的产品仅支持FP16数据格式,不支持2025年1月Deepseek推出后成为大模型主流的FP8数据格式,大模型深度推理效果较差,无法与持续增长的推理需求适配。随着新一代国产算力芯片集中落地,2026年成为国产超节点落地元年。目前已推出及待推出的新一代产品包括华为950pr、寒武纪690、海光深算4号等,这类芯片均支持FP8甚至FP4数据格式,同时适配超节点架构,算力性能较上一代明显提升,可满足大模型深度推理需求,相关产品的落地节奏与token消耗量整体呈正比趋势(剔除优化因素影响下基本成正比),因此近期国产算力相关标的股价开始出现上涨。2026年国产超节点落地将呈现“上半年测试、下半年放量”的节奏,上半年主要完成产品测试验证工作,下半年落地规模与推进速度将明显提升


4、国产算力相关标的与投资机会

华为产业链相关标的:华为950系列是目前推出最早的新一代国产AI芯片,分为950PR与950DT两款,功能定位差异明确:950PR针对prefill场景设计,是全球首款PD分离的AI推理芯片,仅支持推理功能,可用于超级节点搭建,目前已量产出货;950DT可兼顾训练与推理场景,预计2026年四季度推出。2026年950PR市场预期出货量为50万颗,部分观点预期更为乐观。华为超节点产业链核心受益环节包括两类:一是连接器环节,市场份额主要由华丰科技、易华股份、航天电器三家瓜分;二是液冷板环节,核心标的包括川环等,相关标的业绩弹性较好。

寒武纪与海光相关标的:寒武纪、海光均在布局自有超节点产品,可通过超节点形式向客户交付,服务覆盖字节、腾讯、阿里等头部互联网厂商。2026年两家均将推出新一代国产算力芯片,分别为寒武纪690、海光深算4号,两款产品性能较2025年之前的老款芯片有大幅提升,可更好满足大模型算力需求。

盛科通信相关标的:盛科通信的交换机芯片是超节点架构的核心组成部件,是阿里云超节点产品的核心配套供应商。阿里云自研AI推理芯片为PPU,2025年推出的PPU采用N+1工艺,2026年迭代为N+2工艺2026年PPU出货量预期不低于35万颗,2027年出货量预期约70万颗。根据配套规则,4颗PPU需要搭配1颗盛科通信的交换机芯片,单颗交换机芯片价值约10-20万元,可基于PPU出货预测直接测算盛科通信的业绩增长空间与估值弹性。

标的估值与投资展望:当前市场对国产算力标的采用差异化估值逻辑:华为产业链、盛科通信类标的,主要通过测算下游核心芯片出货量,按配套比例折算对应环节产品需求,进一步测算利润规模后估算股价空间;寒武纪、海光已实现收入与利润,市场主要基于其自身收入利润预测给予PE估值。2026年是国产超节点落地的关键年份,新一代国产芯片均支持超节点架构,可满足大模型深度推理的低延迟核心需求,超节点作为大模型深度推理的主要落地形式,已被英伟达、华为、阿里、谷歌等厂商重点布局,国产算力板块具备明确投资机会,若有相关疑问可与研究团队交流。

 温馨提示:内容源于第三方以及公开平台,仅供用户参考,恕本平台对内容合法性、真实性、准确性不承担责任。如有异议/反馈可与平台客服联系处理(微信:_LYSD_)。