路演时代

NVIDIA Feynman调研

要点

1. Feynman 封装设计进展，与 Rubin Ultra 对比

2. Feynman 推出后 CPX 定位及发展预期

3. 其他大厂 3D SRAM 规划，NV GPU 与 ASIC 竞争预期

1、NVIDIA Feynman 在封装设计上的进展，当前处于什么阶段，关键时间节点是什么时候？Rubin Ultra 封装技术？

目前仍处于非常早期的方案论证阶段。封装方案与 3DIC 的设计流程基本统一推进，已参与相关工作，但由于尚未提供 EDA 支持，现阶段还看不到最终定案的产品级封装方案。Feynman 的封装相关验证最快预计在今年 (2026 年) 年底形成第一版 test chip，用于测试验证；进一步走向产品级 package 仍有明显距离，更多细节预计需到中后期才会逐步明确。此外针对 Rubin Ultra，还是使用 CoWoS 封装技术，从现阶段对 Feynman 一代的观察，尚未看到 Ultra 版本的规划，但在封装方案层面已看到两 die 方案。

CoPoS 目前有几个问题：一是 I/O 密度问题，CoPoS 的架构使压力下沉到更下层材料体系，对接触材料密度提出更高要求，而目前尚未看到针对高密度 I/O 引出在设计、制造、材料等方面形成确定性且可纳入产品规格的一整套成熟配方；二是机械应力、翘曲与可靠性问题。随着尺寸增大，interposer 在加工与使用阶段均可能发生形变；同时由于热管理与散热梯度带来的梯度机械应力变化，在更大 reticle size 倍数下会更突出。受此影响，即便在先进产能规划存在的情况下，也未看到 NVIDIA 以非常激进的方式快速消耗台积电规划的多倍 reticle size 能力，原因在于成本上升很快且呈非线性，同时上述应力与可靠性问题仍需大量仿真分析与样片设计验证后才能逐步解决。

2、TPU 在封装上与 NVIDIA GPU 的差异是什么？

TPU 的设计思路与 NVIDIA GPU 不完全一致。TPU 相对更小，die size 更小，且其热消耗特性压力明显低于 GPU，功耗转化为热能所带来的挑战相对更轻。GPU 的挑战更高，主要体现在热负载更重、复杂度更高，尤其在 I/O 密度方面，同时还叠加服务器机架场景下的额外系统级约束与需求。因此，即便 TPU 场景下采用某些封装路径是可能的 (CoPoS)，也不代表该技术路径可以直接平移到 NVIDIA GPU 上。

3、Rubin、Rubin Ultra 每片 CoWoS 大致可切片数？

从当前观察看，Rubin 到 Ultra 在单片 wafer 对应的 die 数量上没有看到太大变化。NVIDIA 在 die size 与 CoWoS 对应关系上已形成相对稳定的数值比例；从良率角度，台积电需承担其承诺的良率基线。与此同时，在单 die reticle size 的极限方面，NVIDIA 在现阶段基本已逼近极限，因此从 Rubin 这一代甚至后续演进，在该部分预计不会出现显著变化。未来可能仅有少量优化空间，更多体现为在 CoWoS 成本端做优化。并且从 Feynman 一代的宏观规格描述看，die size 控制层面存在 “可能回退一点” 的迹象，即相比此前水平可能微幅降低；这可能与 3D SRAM 面积配比及相关设计回调有关，回调幅度预计较小，但确有可能，客观上将使 CoWoS 端压力相对缓和，使 per wafer 的 die 数量与良率表现总体维持近似水平。引入 I/O die 的总体效果是提高 compute 的有效晶体管密度，同时压缩 CoWoS 在 reticle size 上的空间余量。通常若采用 I/O die，CoWoS 整体面积的增长大约在 25%–30%，接近 30% 的水平。此时压力不在 compute die 本身的切片逻辑，而在更大的 CoWoS interposer 尺寸，以及 I/O die 集成相关问题。以面积变化进行近似倒算，interposer 面积增大约 30% 意味着单位 wafer 可切出的 die 将对应降低，幅度接近 20%–30%，属于相对线性的关系。该路径也可理解为将 die 成本的一部分 offload 到 I/O die，并通过相对更便宜的工艺实现 I/O die，从而在维持总成本基本不变的前提下进一步提升算力与性能。

4、Rubin Ultra 在 reticle size 利用率上的倍率大致是多少？

Rubin Ultra 目前看到对 reticle size 的利用率约在 4.5 倍左右。其面积增长的主要来源不在外围 I/O 部分，而在内部 4 片 compute die 合封带来的占用面积增加，因此 compute die 所占面积增量系数更高。

Feynman 方面，从现有规格尚未看到 Ultra 版本规划；当前路线图中明确看到的是两片方案，但 4 片 Ultra 合封可能因 3D SRAM 合封对良率的影响而存在顾虑。理论上 4 片合封在概率意义下会进一步拉低良率，因此现阶段未在路线图上看到对应动作；Ultra 更可能被放到后期再考虑。

5、Feynman 在 HBM 配置、HBM 代际与总容量方面，目前能确认的信息有哪些？

目前看到 Feynman 第一版验证方案在 HBM 配置上与现有 Rubin 几乎一致，但 HBM 暂时维持与 Rubin 相同配置。HBM 侧初代方案预计采用 HBM4，后期可能采用 HBM4E。总 memory size 目标为超过 200GB，需要今年 (2026 年) 下半年通过样片验证后才能确认容量上限区间。当前能确认的是：正推进为 NVIDIA 设计 custom HBM 方案，预计可带来 1.3 倍–1.4 倍的 I/O 密度提升 (对应带宽提升)，容量提升接近 10%。

6、围绕 NVIDIA 推理算力体系，CPX 在整体架构中的定位是什么，未来规划可能如何演进？

CPX 更像是一款生命周期相对有限的产品，主要服务于推理中的 prefill 阶段计算需求。但当前 prefill 的性能需求仍在快速演进，尤其是在复杂推理任务中，存在以持续高上下文、高 token 输入为主的应用形态，例如软件工程类场景、信息检索与分析系统等，往往通过 multi-agent 不断汇入更多 token，使 token 输入量持续处于高位甚至逐步上升。在这类场景下，prefill 侧压力非常大，现有基于传统 GPU 产品衍生的 prefill 结构能否有效支撑仍有不确定性。

同时，prefill 与 decode 的芯片配比是 CPX 方案的核心约束之一。现有介质形态更接近固定配比，例如 CPX 放置 144 颗后，Robin 用于 decode 的数量可能按 1:2、1:4 等比例搭配，但该比例在不同场景下并不稳定：部分场景对 prefill 压力更高，部分场景 (如音视频生成) 则对 decode 压力更大。因此，一旦将 prefill 与 decode 分离，其芯片数量配比很可能需要随应用场景或不同用户推理模型结构动态变化。CPX 的结构并不天然适配这种可扩展、可动态调整的需求，若在机架系统层面通过多种机型配比来满足需求，将显著抬升系统成本。

Feynman 结构的亮点在于其具备软件可定义的数据流图能力，计算模式可通过软件进行宏观重定义。该能力与通过软件定义芯片内部处理器单元计算流程、计算同步等机制相关，属于其核心技术之一。基于此，Feynman 芯片可能通过对 3D SRAM 页面结构的重新切分，实现不同计算形态：若进行垂直小块切分，可让不同 PE 单元各司其职，形成更高并行度的处理模式，SRAM size 被切分为小块后，可提供上千个甚至更多潜在并发处理线程能力，对应更偏 prefill 的结构；若将 SRAM 整合并用作更大的 system level cache，则更偏向 decode 过程。由此，Feynman 一代很可能在同一颗芯片上，通过软件重定义同时覆盖 prefill 与 decode 等推理计算场景。

这种路径的直接结果是，未来系统形态可能更 “纯粹”，即集群中仅部署一种 Feynman 芯片，并在推理过程中将任务负载分离结构 (例如 PD 分离) 通过软件重定义映射到相同芯片上，芯片角色仅在不同 role 之间切换，从而显著提升系统弹性，使一套集群能够适配多类推理场景以及不同任务负载的周期性变化。在这个意义上，CPX 的角色可以被 Feynman 替代，CPX 存在的必要性将显著下降，长期可能逐步退出市场。

7、关于可能推出 LPX (将 LPU 做成 decode 芯片) 的传闻，是否具备可行性，主要限制在哪里？

从概念上看，将 LPU 做成 decode 芯片的 LPX 并非完全不可能，但当前 LPU 路线与 CUDA 体系距离较远，属于两套不同的软件栈，开发与移植方式截然不同。若要形成 LPX 产品，大概率需要对软件架构做较大规模重构，并增强现有 LPU 的可编程性。这类工作更符合 Feynman 一代要解决的问题。是否有必要在 Feynman 到来之前先做一个相对简单的 “LPU 版本” 以接入 CUDA 体系，内部并没有很强倾向，整体判断为 “未必值得”；提前做预览版存在可能性，但仍存疑。

8、之前市场传闻 CPX 可能从 GDDR 切换到 HBM，这一变化是否会发生？

目前判断 CPX 切换 HBM 的必要性不强。原因在于 prefill 的计算特点对 memory 带宽与容量的要求相对较低，使用 GDDR 有多重优势：其一，CPX 沿用显卡结构，经过高度验证；其二，GDDR 本身是 NVIDIA 供应链中的重要组成部分，成本较低；其三，若 AI 计算产品线中保留一条能够继续使用 GDDR 的分支，有助于摊平整体 GDDR 成本、提高采购量并压低采购单价。从原理上看，HBM 相较 GDDR 的核心优势主要在带宽，而容量提升并未对 CPX 形成明显收益，因此缺乏强必要性。

需要同时强调的是，推理计算的分离方式仍在演进，例如存在以 attention 为重点分立阶段的 AF 分离方案，在某些计算模式下可能会对存储带宽与容量提出一定要求。但截至目前，这并未体现为强需求，因此 CPX 大概率仍将维持现状，短期内未看到发生重大变化的可能性。

9、除 NVIDIA 外，哪些公司或地区有机会推进 3D SRAM 相关路线，大厂在该方向可能的规划？

3D SRAM 被认为是一种前景较好的设计方法。从设计与制造要素看，基础条件已基本具备：设计本身并不复杂，难点更多在于面向可制造性的设计，并且与晶圆厂能力高度相关。由于 3D SRAM 属于逻辑工艺路径，而逻辑工艺长期以来对系统 memory 带宽与容量强需求的增长缺少直接有效的解决方式，3D SRAM 相当于为台积电、三星、Intel 等提供了 “另辟蹊径” 的手段，用于有效增加系统带宽、提升系统总容量与计算效能。从技术难度看并不大，更偏时间与需求驱动问题。

因此，对台积电与三星而言，只要有用户需求驱动，实际较容易实现并快速形成产品细分并落地。整体而言，3D SRAM 可能成为撬动现有 memory 市场版图的一种新型供给。中国地区方面，中芯国际与华为被认为具备推进同类工作的可能性。近期相关讨论较多，了解到华为内部也在评估 3D SRAM 的可能性；华为目前具备准 7 纳米与准 5 纳米两种工艺基础，具备进一步特化并优化 SRAM 密度的空间。

海外方面，三星已在 4 纳米推进相关工作，并可能在三星 3 纳米上继续推进。其初代 3 纳米工艺目前也在研究面向特定场景的特化方向，例如 SRAM 制造；并且其 3 纳米的水平被认为接近台积电 4 纳米，处于 SRAM 密度极限与成本相对可控的区间。整体判断，该方向可能在未来一年之内形成设计可行性，但最终仍需结合先进 3D 集成技术的成熟度来评估，核心制约将集中在 TSV 与 hybrid bonding 的演进成熟度，其对良率与成本的影响是最关键因素。

3D SRAM 的核心技术要点在于与 foundry 进行高度紧密的协同，产品形态更接近 “按工艺能力量身定制” 的定制品，而非一开始就能形成标准化 IP。能力建设的重点应集中在 SRAM 结构设计、密度提升、功耗降低，以及在可制造性与可靠性方面形成自有 know-how；但上述环节与 foundry 深度绑定，原因在于 SRAM 的设计流程在很大程度上由 foundry 以 bit cell 单元为基础向外提供:bit cell 通常是固定单元，上层容量由该单元堆叠形成；而 bit cell 在很多情况下需要协助 foundry 完成设计，设计完成后会沉淀为 foundry 自有并对外发布的基础，再提供给其他客户使用。bit cell 设计属于纯模拟电路结构，门槛较高，往往还需要 foundry 提供部分私有技术信息或技术秘密。

10、2026 年海外 CSP 在 AI 芯片自研的总体进展如何，“转向 TPU” 的传闻主要对应哪些客户与动因，Meta 的路线与落地节奏？

“转向 TPU” 的讨论与 Meta 存在一定关联。当前可能使用 TPU 的主要包括三类：一是模型服务的垂直提供商，例如 Anthropic；二是 CSP 自身业务体系内的使用，例如 Google，Meta 也存在可能性；三是部分中小客户，将特定模型业务架设在 TPU 结构上作为选项。

Meta 自 2025 年至今内部处于较高不确定性状态，涵盖模型方向、芯片方向与系统服务方向均较混乱。针对下一代 AI ASIC 产品仍在推进合作，目前方案仍以博通为主力方向，整体更偏向博通体系；但按当前演进节奏，装机可能性大概率在 2027 年下半年，甚至到 2028 年，时间跨度较长，至少未来一年半到接近两年处于 “没有合适可用自研新供给” 的窗口期。短期为填补算力缺口，Meta 存在采用 TPU 的可能性；Meta 与亚马逊关系较弱，选择 Amazon 方案的概率不高，而 Google 将 TPU 打包为相对中性的、NVIDIA 之外的 option，以独立团队 / 业务 / 产品形态对外销售，这使 TPU 成为可选 “救场” 方案。但 Meta 现有垂直业务缺乏亮点，基座模型训练与推理侧已显落后，推理端也无明显优势，因此其 TPU 用量规模仍存疑。

从客户意义与确定性看，TPU 真正更有意义的优质客户仍主要是 Anthropic，该客户在市场卡位上具备潜在超越 OpenAI 甚至 xAI 的能力，因此对 TPU 是第一位的核心支撑用户。与此同时，Trainium 3 和 4 也在积极演进，Trainium 3 预计在 2026 年会大幅放量，可能分流 Anthropic 部分订单，并吸引部分潜在 TPU 客户。整体上，并不认为 TPU 会在 “准商业系统” 层面达到很高放量水平，原因是 TPU 当前易用性一般，v8 可能在软件生态方面出现较明显增强与优化；因此 TPU 更多被当作解决 “有与无” 的短期救场工具。

长期看，ASIC 本身技术壁垒并不高，半导体工艺、供应链与体系结构知识并非高度私有化；真正更私有化、构成护城河的是 CUDA 生态以及 NVLink 链路与机架系统等，目前仍主要掌握在 NVIDIA 手中。但 NVIDIA 短期难以把成本做得足够低，仍有赖于 Feynman 一代演进。现阶段各家打法分化：NVIDIA 在 Feynman 到来之前更倾向通过小幅演进、变化以及第三方合作产品支撑现有空间。NVIDIA 也清楚要继续赢下 CSP 存在难度：一旦 CSP 自有推理系统上线，出于成本与功耗约束，其对 NVIDIA 系统需求量将现实降低。因此 NVIDIA 更关注中小客户与中小企业客户，而非极大型模型供应商；与 OpenAI 的合作更偏战略绑定，但无法解决其现有产品路线图的短期矛盾。短期目标更偏向满足 CSP 面向中小客户服务所需要的规模化集中推理系统需求；在该市场中，TPU 与 Trainium 的优势仍较明显。

11、客户在比较 NVIDIA GPU 体系与 TPU/ASIC 时，是否存在可横向对比的客观指标 (如单位 token 成本)，其核心决策依据是什么？

决策首先取决于客户推理场景的演进状态：若推理场景相对确定，例如 web coding，或信息情报的分析检索与分析等较固化的推理模式，则推理过程与模型结构优化可在确定前提下进一步深度优化，在此情况下由专用推理设备支撑往往能实现更低 token cost。

NVIDIA 体系的优势在于灵活性与可重构性：当业务仍在发展、模型能力与结构仍在迭代、难以固定关键参数时，采用 NVIDIA 系统反而可能实现更低的综合成本，其灵活性本身构成成本优势。一旦场景与参数逐步固化，使用更固定的 ASIC 推理成本通常更低。长期方向可能是模型算法、基础设施与垂直应用场景高度客制化，形成相对固定的绑定关系，类似早年 “通用 CPU 服务器” 时代各家 CSP 围绕自身业务特征做成本、功耗、占地面积等多维优化并规模化扩张的路径。

推理自 2025 年至 2026 年已出现可可靠落地的场景，但仍处于持续优化阶段，尚未进入 “只剩规模放量” 的纯复制阶段。因此不同系统之间的 token cost 对比，各家测算方法差异较大，更应从长期演进需求与场景固化程度判断。Anthropic 已在部分方向实现一定固化，因此在特定 web coding 场景的成本与吞吐上具备明显优势，是其采用 TPU 与 Trainium 的重要原因；但在更复杂的情报分析检索等复杂推理系统中，仍在依赖 NVIDIA 计算资源支撑，因为优化空间与迭代次数尚看不到阶段性 “稳定不变” 的状态。总体判断依然利好 ASIC，核心在于 “谁更快抢到早期客户”: 推理一旦规模化与产品化，硬件架构一旦被采纳，通常不会轻易切换，除非出现明显结构性成本优化。当前更像是 CSP 在拼速度，而 NVIDIA 在速度端难以竞争时更倾向拼未来与技术创新。

12、OpenAI 与博通官宣的 ASIC 路线当前进展，落地节奏偏慢的原因及其架构层面需要关注的点是什么？

获得的信息显示，OpenAI 内部对该项目并不满意，核心原因在于架构定义时间偏早：在 2025 年已推进，部分架构设定可追溯至 2024 年；在当前窗口下 “每个月都有新东西”，因此该 ASIC 更接近早期入门版形态，类似 Trainium 2 当时 “做的时候觉得很好、回来后很快暴露问题” 的状态。较确定的判断是该版本可能不会上量，更可能进入持续迭代；但迭代将带来新的时间成本。

与此同时，OpenAI 正与 ARM 紧密合作，该体系目前已有一代与 1.5 代，实际上可视同两代；后续可能在 1.5 代上与 ARM 方案实现更深融合。ARM 的高性能 CPU 被认为是面向 OpenAI 场景定制的服务器级 CPU，相关层面可能在 1.5 代形成一定出货。OpenAI 当前策略高度多元化，并未完全依赖内部自研来解决问题，同时与 AMD、NVIDIA 均在推进多元合作，本质上是用时间与资金对冲风险。

13、OpenAI 自研 ASIC 与 TPU v7 暴露的问题是否同类，OpenAI 这款 ASIC 在规格定义上的具体短板是什么？

OpenAI 这款 ASIC 更偏 “认知与经验不足” 导致的规格定义不够优化：其一，不支持 PD 分离；其二，对最近半年多、约 8 个月内出现的一些新型算子的支持不理想，可能需要借助 ARM CPU 能力对部分算子进行重构；其三，对存储带宽相关规格设定存在不匹配。综合看，该版本中长期仍需继续迭代。若要在未来竞争中获胜，关键支柱包括基座模型、硬件基础设施与垂直应用场景。

OpenAI 在模型与应用场景侧问题不大，但基础设施侧缺乏长期自主演进路线图；软银在其中承担明确协调作用，使长期规划更偏向由 ARM 出手推动，形成 “由 ARM 去替代 NVIDIA 做事情” 的策略取向 (帮助 OpenAI 解决硬件问题)。TPU v7 的核心问题在于可编程性不足：首先同样不支持 PD 分离；其次缺乏较好的可编程性，而可编程性本质上决定了系统业务重构能力。v8 相对 v7 的核心改进，首先是实现了 prefill 与 decode 的分离，其次是显著增强模型迁移与部署的易用性，以解决 v7 在模型结构适配的关键约束。v7 体系下，模型需要适配 v7 的结构才能部署，适配过程会带来推理效能下降，并对部分特定推理场景形成限制。v8 内部存在多个版本，包括博通版本，以及与 MediaTek 合作的版本；整体方向可能构建高低搭配体系，并在 prefill 与 decode 分离的基础上，进一步大面积采用自研 CPU 形成新的系统结构。再往后代际不再沿用 “v9” 的叫法，技术路线更偏前沿创新；同时可能不再延续 “全让博通做” 的模式，更多工作将收归到 Google 团队内部完成。

14、微软自研推理芯片的推进现状，未来可能采取怎样的节奏？

微软整体上对自研推理芯片的推进意愿趋弱，微软认为推理硬件迭代速度快，本身属于不稳定的产品类型；从其可掌握的硬件资源与业务场景来看，更倾向于在应用端获取红利，尤其在与 OpenAI 深度绑定背景下，营收的提升并不完全取决于硬件基础设施能力，而更多受益于既有生态优势与 AI 融合后的商业化效果。Copilot 已成为现金流很高、较强势的业务。微软对底层 infrastructure 并不执着于 ASIC 还是 GPU，只要能交付企业级用户可用的产品即可；其客户结构更偏企业级、margin 较高，因此更倾向于多元化选择。与此同时，微软芯片设计团队能力相对较弱，且近年来缺乏对外收购强团队的动作，因此短期难以成为该方向的重要竞争参与者。整体策略更像保持长期演进路线，在吸收新需求与新技术后，待产业与方案接近相对稳定阶段，再部署一套系统性方案。

15、AMD 在推理产品与订单获取方面的现状？

AMD 策略可理解为 margin 较低、刻意以较低价格销售、性能接近 NVIDIA 的一类产品。AMD 近两年策略更偏向通过签大额企业级订单实现生存与规模化导入，小客户与中小客户难以成为其突破口。AMD 与 Meta、OpenAI 等合作，更多属于政治合作属性强于技术合作。市场层面很少能听到 AMD 对专用推理机型的技术演进路线公开讨论，虽然内部存在规划但并未公开。

AMD 当前更关注订单规模数量级，以此作为稳定股价的重要基础。至于是否引入 ASIC 路线或进行类似 NVIDIA 的原始性创新，内部据说仍有较大分歧；团队状态呈现一定矛盾与相对混乱，面向推理的明确计划仍不清晰。

16、国内 AI 芯片设计与供应链目前呈现哪些主线格局？

国内大体呈现三条线。第一条是华为：拥有自己的工艺线、自己的 Foundry 与产能，整体路线相对封闭，类似 Intel 式的纵向整合操作；第二条是名单上被禁的客户：总体性能与质量一般，且产能是突出问题；不过中芯国际今年 (2026 年) 将加产能，可能缓解部分压力或维持现有产品的产量爬升；第三条更明确：几乎所有新的 AI 芯片项目转向三星 4 纳米流片。在中美博弈进入战略相持、相关限制执行不够精细或重心不在该方向的背景下，三星加大对中国客户拓展力度，并承诺 HBM 供货等配套。

今年核心项目多数对标的保底性能为达到 H100 或 H200 水平，并在系统级别接近 Blackwell 能力。实现方式并非单卡能力对齐，而是通过增加节点数来实现系统级逼近。整体来看，代际差异并未快速收敛，反而呈现越拉越远的状态。国家对 H200 引入增加了前置审批，且审批非常严格，当前未见明显放开动向，因此对国内 CSP 形成 “逼着用国产 GPU 或 ASIC” 的现实约束。对应供给侧主要依靠三部分：其一是三星项目带来的供给；其二是中芯国际下半年扩产形成的新产能；其三是华为自有产能。初步测算，这三条线合计提供的算力基数，能够支撑当前模型演进需求，尤其推理需求可支撑。

训练侧，几大 CSP 与模型厂商采用 “海外租赁” 策略，将对 Blackwell 等高性能需求，甚至将来对 Robin 的需求，转化为海外订单，通过在海外建数据中心，或通过财团融资、代持等多种方式实现，区域包括东南亚，以及迪拜、沙特等地。由此，训练侧可能形成 “数据在国内、计算在国外” 的结构。在该框架下，没必要在国内额外采购大量 NV 的芯片，可以在海外完成相关算力布局。

17、中美 AI 应用场景差异如何影响国内推理芯片的性能需求与放量节奏？

中国业务场景与北美不同，web coding 在中国尚未形成压倒性强需求，节奏相比更慢，约落后将近半年到 8 个月以上。国内更偏向互联网集中场景，即对互联网公司现有业务集合改造与增效，聚焦在线购物、出行、广告、视频等量大面广且现金流较高的方向。北美整体更偏 to B 或 to G，而国内更明确偏 to C，核心商业化特征是 “AI 的羊毛出在每一个 consumer 身上”。在此背景下，国内推理业务放量更偏线性增长，缺少 to B 生产力规模驱动带来的集中式爆发；同时国内对快速引入 “AI 取代人” 更为谨慎。上述因素共同导致国产推理芯片压力下降，对推理单芯片算力密度要求不那么高，更倾向用较便宜的电力支撑庞大规模，以成本方式解决问题。

所以三星 4 在可用性上 “能用且能解决问题”，再往后使用何种工艺取决于国产光刻机演进能力，以及三星是否愿意开放更先进工艺；但更先进的工艺目前被美国锁死，短期看不到可行路径。

18、阿里与字节在自研芯片进展、工艺选择与部署节奏上目前处于什么阶段？

阿里 PPU 年内有望开始快速搭建系统并进入爬坡。字节第一代推理方案目前以台积电为主，采用 PD 分离方案；其中一部分使用三星工艺，一部分使用台积电工艺。字节对台积电依赖在中国 AI 高性能计算客户中较为特殊；其当前推理基础据说更多依赖海外算力，火山平台不少请求导向海外计算后再完成结算等流程。

字节自研上量预计偏晚，第一代能上多少量仍不确定，原因之一是内部在进行重整，研发架构调整后可能更专注于结合核心模型能力与特定用户场景需求开展定制化开发。

而腾讯基本没有明显动作，对自研推理芯片态度偏冷淡，当前策略更偏向把生态做好，算力以租赁为主而非自购。CSP 层面目前相对明确仍在推进自研的主要是百度，百度新一代昆仑芯已完成，工艺为三星 4nm，预计 2026 年 3–4 月进入回片与测试窗口；年内有机会上量，但市场反馈其上量基数可能不会很大，主要与其用户规模相对较小、整体业务热度有限有关。

19、在 CSP 不普遍推进自研芯片的情况下，国内 AI 芯片公司在 CSP 侧的主要机会点与竞争要素是什么？

CSP 更倾向评估并采用国产初创 GPU/AI 芯片公司的产品。在该类公司中，寒武纪与海光被认为处于相对头部位置，核心优势不在于绝对性能，而在于软件生态移植与兼容性较好，使得现有业务从英伟达平台迁移的难度相对更低、部署更快。由于国内业务常围绕 618、双 11、春节档等营销节点进行波段式快速上线，兼容性与快速部署能力成为首要诉求，因此在性能相近时，软件生态与迁移效率成为 CSP 更看重的关键指标。

第二梯队中，天数智芯与燧原的新一代产品兼容性较上一代有明显改善，但客户积累仍处于持续爬坡阶段。纯 GPU 路线如沐曦与摩尔线程在上市融资后推进新项目，亦瞄准三星 4nm，但普遍尚未流片，目标时间点指向 2027 年，方向是构建高度近似英伟达系统结构的集群，并以训推一体为主，而非主打 PD 分离。由于其系统结构更接近对英伟达、AMD 等架构的复制，整体呈现 “训练优先” 的产品取向，思路与部分更偏推理专用化的路径不同。除上述公司外，其余厂商大多在 2026 年完成新产品迭代后进入继续拓客阶段，客户主要集中于几家 CSP 及中小企业的训推一体应用场景。

20、2026 年 DeepSeek 新版的潜在影响，以及 “推理一体机” 这一中国特有形态对国产芯片的意义是什么？

2026 年若 DeepSeek 新版发布后，在端侧推理或服务器端 (工作站级) 推理、以及中等规模参数量推理上实现较好的能力更新，可能进一步促进训推一体，尤其是推理一体机的需求增长。中国市场存在一种较特殊的产品形态 “推理一体机”，大致面向支撑 70B 左右模型量，在医疗、法务、政务等垂直领域提供推理与应用支撑，形态上更接近 “把卡装进一台机器即可实现” 的部署方式，并非真正的大型 AI 集群；该类机型在海外市场 (例如美国) 基本不存在。该需求为国产 AI 芯片公司提供了重要生存空间：在总体规模难以做大、绝对算力不占优的情况下，聚焦 70B-100B 以内模型的推理，并结合特定场景进行训练微调、蒸馏优化，具备可行的落地路径。

从 2025 年至今，国内推理相关竞标依然较为活跃，市场反馈为 “每周都有十几个” 竞标项目中标，集中在中小型 AI 公司推理相关项目。这类业务更多面向 to 小 B 或 to 小 G: 小型企业客户，以及小型政府主导的垂直场景；该结构在美国市场基本不存在，属于中国市场特有的需求形态。整体上，各家厂商已逐步找到各自的发展路径。

半导体工艺迟滞对宏观层面存在影响，但就中国当前阶段而言，该影响被认为并不显著，不会形成明显的算力缺口或场景需求缺口，更常见的策略是 “以规模换质量”，以及通过国情差异化的产品与部署方式解决问题。

21、天数智芯当前主要客户是谁？

天数智芯当前主要客户以地方政府为主，尤其是政府主导的数据中心建设项目。由于海光、寒武纪、燧原、天数智芯在性能上大体处于同一档位，竞争焦点更多落在软件生态以及集群构建能力。

国内集群构建出现的新亮点是通过以太网实现 scale up 的模式更为明确：交换机可以外采博通等产品，未来也可能获得思科等厂商支持，在物理层与数据链路层实现标准化；传输层则由各家自定义协议为主，且各家协议形态相近，偏向内存语义与控制信令，因此没有必要采用 NVLink 等方案。包括阿里、字节等在内的多方均有自定义方案，寒武纪、海光、燧原、天数智芯等也定义了各自的传输层协议。通过 “外采交换机 + 算力有限的芯片产品” 的组合，仍可实现千卡级别集群系统，更多依赖 “以量换算力”，并在一定程度上以更高能耗完成补齐。随着硬件路径逐步闭环，核心竞争进一步集中到软件生态能力与客户模型迁移效率。

国内与海外思路存在差异。国内只有少数头部 CSP (如阿里、字节) 更倾向将推理做成专用设备。除上述少数大 CSP 之外，其余 AI 芯片公司当前普遍不敢做纯推理设备，更多选择训推一体，甚至训练优先。其关键原因在于：若要做推理专用设备，需要能够匹配 CSP 及较大客户的推理需求，但这部分需求当前更多由大客户自研自建来满足，因而对第三方 AI 芯片方案的采用概率较低；相应地，第三方厂商只能以训推一体或训练为主，去承接国产模型迭代中的算力缺口与算力替代市场，这一点与美国市场差异较大。

22、国内 AI 芯片项目在 IP 采购、EDA 与设计服务上，第三方设计服务公司 (如芯原、灿芯、翱捷) 处于怎样的分工结构？

从设计服务公司的 “交付项目” 能力来看，芯原被认为处于第一梯队，团队与积累更深。灿芯与翱捷整体处于相近水平，更多偏向 “小东西” 的经验积累，尤其翱捷长期以消费类、移动通信类芯片为主，大芯片经验相对有限；在大芯片项目中，若缺乏对 CoS、产业链供应链的把控能力及试错经验，可能转化为项目风险。当前客户主要采用几种方式推进：一类是直接找芯原协作；另一类由于在三星流片，会将部分设计工作交由三星生态的设计服务体系协助完成，三星相关设计服务能力不仅在韩国本土，也覆盖亚太区域 (包括越南、东南亚等) 并配套部分 R&D 团队，实际会通过外围厂商形成协作链条。

核心 AI 芯片设计通常以前端、后端自研为主，即便与芯原合作关系较好的客户，在核心 AI 芯片上也可能完全自己完成，并不依赖芯原完成核心设计。更常见的分工是：设计大体自研；IP 与 EDA 通过海外路径采购；流片与供应链的总包协调由更有能力的渠道方 (如芯原) 或通过三星体系解决；同时在 CoWoS 产业链、HBM 等环节，也会通过三星相关渠道进行对接。

23、在英特尔与 AMD 供给相对有限、CPU 需求可能上行的背景下，国内 CSP 若希望降本并更好适配自有模型，采取 “购买 IP + 自研 CPU” 的路线能否走通？国内 CPU 路线分化与中期格局？

CPU 在 AI 计算体系中的战略地位正在快速抬升，原因在于 AI 整体计算过程对 CPU 提出更高要求，CPU 从传统的 “配角” 走向前台：在新型算子构建与适配中，若不以 GPU 为核心平台，部分新型算子可能无法直接支持，需要 CPU 参与计算，或在封装、算子打包与编译阶段承担优化工作。当前 CPU 的典型演进方向是多核化叠加多线程化。

国内 CPU 路径大体分为两类：其一为 ARM 路线，即高性能 ARM CPU。除华为内部演进相对顺利外，其他商业公司或初创公司整体处于较为艰难的生存状态，核心在于 ARM CPU 在国内缺乏清晰的商业闭环：服务器市场对 ARM CPU 的偏好较低，主流仍更倾向采用英特尔与 AMD 产品。其二为 RISC-V 路线，尤其是高性能 RISC-V CPU，在特定场景下的潜在增长趋势高于国内 ARM 方向，主要因为 “自主可控” 属性更强且架构更灵活。

在 CSP 侧的紧迫性判断上，整体并不急于全面自研 CPU，主要基于对供应风险的判断：普遍认为英特尔与 AMD 的 CPU “永远不会被禁”，因此即便推理系统对 CPU 需求显著增强，也可通过正常渠道采购。即便在地缘政治情形较为恶化的情况下，CPU 受到直接冲击的概率也相对较低；同时 CPU 采购存在多种迂回渠道，包括通过香港、东南亚等市场以及国内大型囤货渠道在海外扫货后回运，短期内可获得供给。

结合上述判断，国内 CSP 的主力产能体系长期依赖英特尔与 AMD 路线图几乎是确定性的；作为自主研发的补充路径，高性能 RISC-V 的趋势将强于 ARM。中长期看，ARM 在国内的市场环境将更为艰难，原因之一是 ARM 正在向更 “直接下场” 的方向演进：不仅提供 IP，也开始提供 CPU 芯片产品与系统方案，甚至参与设计服务。未来若 CSP 确有 ARM CPU 需求，更可能直接与 ARM 谈判定制或采用其现成高性能产品，这进一步挤压国内 ARM CPU 厂商在技术实力、规格定义与话语权上的生存空间。所以综合判断的格局是：Intel x86 仍为主流；ARM 可能以 “第三方成品 CPU 供应商” 的方式进入并销售成品，形成类似英特尔与 AMD 之外的另一极；国内 RISC-V 在缝隙中结合特定场景成长。