一、CPU 在 AI 时代回归 C 位的核心逻辑及行业动态

CPU 在 AI 时代回归核心地位的核心逻辑在于计算负载的结构性变化。传统 AI 计算以 GPU 为主导，但 AI Agent 的普及推动交互任务激增，涉及查询、调度、编排及互联互通等环节，这些任务主要依赖 CPU 执行，导致其在端到端延迟中占比高达 80%-90%。2025 年以来，智能体应用（如 “小龙虾”“爱马仕” 等）的爆发进一步暴露 CPU 需求缺口，叠加产能限制，推动 CPU 价格上涨。行业动态方面，云端虚拟机（VPS）对骁龙 X Elite 等产品的需求催生额外 CPU 需求，ARM 推出 AGI 定位的 Igini CPU，英伟达发布 Vera 架构并独立计价，其与 Grace 在内存操作、架构设计上存在显著差异，反映行业对 AI 场景的深度适配。

二、AI CPU 的架构设计特征及与传统 CPU 的差异

AI CPU 在架构设计上与传统 CPU 存在多维度差异，核心目标是适配智能体任务编排、跨集群交互及高并发多租户场景：内存与带宽需求：需支持更大内存容量及带宽，以应对跨服务器 / 机柜的高频数据交互，例如英伟达通过 NVLink 实现 CPU 间高带宽互联，而传统 CPU 依赖 PCIe 或有限的双路互联。IO 与互联能力：强调 CPU 间及 CPU 与 GPU 的低延迟互联，例如英伟达 Vera 架构在内存操作和硬件设计上与 Grace 形成差异化，以提升 AI 任务效率。安全与隔离特性：针对云端虚拟机场景，需强化安全隔离与多租户管理，传统 CPU 在该领域优化不足。负载适配：传统 CPU 聚焦通用计算，AI CPU 则需适配智能体的动态任务调度、工具调用及 API 交互，例如谷歌、Meta 等企业定制 CPU 时优先考虑 AI 负载特性。

三、英伟达与 AMD 在 Chiplet 应用上的差异及设计思路

两者在 Chiplet 使用上的差异源于技术背景与应用场景定位：英伟达：无 x86 历史负担，Chiplet 设计聚焦 AI 场景，将计算单元与 IO / 控制单元分离，核数相对有限（未如 AMD 达 256 核），但通过 “空间多线程”（Spatial Multithreading）及 NVLink 互联提升效率，核心目标是辅助 AI 计算而非通用服务器。AMD：从传统 x86 架构演进，Chiplet 设计以堆叠计算核心为主，通过增加 Chiplet 数量提升核数（如 256 核），需兼顾通用服务器市场，依赖 PCIe 互联，在 AI 场景下 IO 效率弱于英伟达。台积电等产业链厂商推动更大面积、多层堆叠的 Chiplet 技术，AMD 受限于历史架构更依赖该路径，而英伟达凭借架构灵活性可减少对核数堆叠的依赖。

四、AI CPU 的配比关系及增量需求判断

当前 AI 集群中 CPU 与 GPU 的配比并非固定，超大规模企业更关注 “冗余配置” 而非最优配比：配比趋势：AMD 等厂商提出向 1:1 甚至更高配比演进，核心逻辑是 AI 任务中 CPU 负载占比提升，但实际执行中受产能限制（GPU 单价更高、产能更优先），企业倾向 “有多少抢多少”，而非严格按配比规划。增量来源：除传统 “域内 CPU”（如 4U8 卡机中的双路 CPU）外，“域外 CPU”（智能体编排、跨集群调度）需求显著增长，云端虚拟机对骁龙 X Elite 的支持进一步打开增量空间。风险提示：简单追求配比可能忽视实际瓶颈（如内存带宽、IO 能力），国内非 NVLink 架构的超节点（如华为）尚未量产，CPU 仍以服务 GPU 为主，独立 CPU 机柜规模化应用需网络拓扑突破。

五、AMD 与英特尔的 CPU 产品迭代及发展方向

AMD：2024 年服务器 CPU 市占率已超英特尔，产品优势在于 Chiplet 技术带来的核数提升，与 MI 系列 GPU、网卡形成协同，但 GPU 性能较弱（训练场景仍以英伟达为主），依赖 Meta 等客户的 “股权换订单” 策略。2026 年产能已售罄，若向 CPU 倾斜产能可提升出货，但 PCIe 互联在 AI 场景下效率弱于英伟达 NVLink。英特尔：CPU 业务关注度较低，核心竞争力在于封装与代工产能，其 FAB 工厂良率自 2025 年陈立武接手后逐步改善，2026 年 Q1 财报显示良率提升，封装技术（如 Foveros）若突破，有望缓解行业产能瓶颈，重新定义其价值。

六、国产 CPU 的溢出需求及 AI Agent 场景适用性

国产 CPU 在 AI 时代存在明确的溢出需求，且具备 AI Agent 场景适配潜力：溢出需求：英特尔、AMD 产能紧张背景下，国产 CPU（如 x86 架构产品）作为通用处理器可补充 60% 以上效能，贴合国内安全需求，先进制程突破进一步提升供给能力。AI Agent 适用性：国产 CPU 作为通用处理器，可支撑智能体任务编排、工具调用等基础功能，虽效能不及 AMD，但增量价值显著；国内 ARM 架构产品需进一步优化生态以提升竞争力。

七、ARM CPU 市场份额提升的路径及生态发展

ARM CPU 市场份额提升将通过 “并行路径” 实现：场景并行：一方面服务 GPU（如英伟达 Grace），另一方面拓展泛 AI 计算任务（如谷歌、亚马逊定制 ARM CPU），无需严格区分通用与专用场景，可针对特定任务（如编排、数据搬运）定制独立 CPU。生态分化：大厂商（如英伟达、谷歌）定制化 CPU、AI 芯片及网络芯片，推动生态分化；ARM 自身芯片聚焦通用场景，与厂商定制产品形成互补，共同推动生态演进。

八、不同厂商 CPU 核心数发展方向的差异及原因

核心数策略差异源于产品定位与技术背景：AMD：受 x86 架构历史影响，通过堆叠 Chiplet 提升核数（如 256 核），核心逻辑是利用封装技术快速扩产，兼顾通用服务器市场。英伟达：Vera 系列核数未显著增加，因早期定义（2024‑2025 年）时 AI Agent 趋势尚不明确，当前通过 “空间多线程” 优化效率，未来随 AI 需求清晰或逐步扩展核数。ARM：聚焦内存优化（如大内存减少 HBM 需求），核数策略灵活，可根据场景（如端侧、云端）动态调整。

九、AGI 时代对内存需求的带动及发展趋势

AGI 推动内存需求从容量、带宽到协议的全方位升级：容量与带宽：AI CPU 需支持更大内存容量及带宽，英伟达 Vera 相比 Grace 显著提升内存性能，内存模组形态亦发生变化；谷歌、ARM 等厂商均在内存优化上加大投入。产业链带动：内存接口芯片、高速协议需求增长，相关硬件厂商（如内存控制器、连接器企业）将直接受益。

十、CPU 集成 NPU 等计算单元的应用意义及效率分析

CPU 集成 NPU 的核心意义在于优化与 GPU 的交互效率，而非部署小模型：交互优化：GPU 向 FP8/FP4 演进，CPU 需集成向量处理单元以减少数据格式转换延迟，提升跨芯片数据搬运效率。效率争议：云端部署小模型并非最优选择，芯片面积有限时，NPU 集成会挤占 CPU 核心资源，降低整体效率；端侧场景或有应用价值，但云端更应通过软件优化而非硬件集成实现。

Q&A

Q1: 围绕 AI CPU 及 ARM 定位的 AGI CPU，各家厂商在整体架构、设计及性能上有哪些通用规律？与传统通用 CPU 有何差异？AI CPU 的演进方向如何？

A1:AI CPU 的演进源于计算负载的变化，传统 AI 以 GPU 为主，而 AGENT 交互需求使计算任务分解为生成、查询、调度、编排等多步骤，其中 80%-90% 的延迟由 CPU 造成，推动 CPU 需求提升。与传统通用 CPU 相比，AI CPU 在内存容量、带宽、CPU 间 IO 能力及互联技术上有显著差异：需支持跨集群任务编排、智能体执行及工具调用，因此对内存容量和带宽要求极高；传统服务器 CPU 多为两路或四路，而 AI 场景下需在单机柜部署大量 CPU，故 CPU 间互联带宽至关重要，如英伟达采用 NVLink 替代传统 PCIe。此外，还需满足安全隔离、高并发及多租户需求，例如云端虚拟机兼容骁龙 X Elite 的场景。通用规律方面，厂商均尝试将 CPU 与 AI 深度绑定，从产品定义倒推芯片设计，如 ARM 定位 AGI CPU，英伟达 Vera 架构在内存操作、架构更新及硬件设计上与 Grace 有显著区别。

Q2: 英伟达与 AMD 在 chiplet 使用方式上存在差异，其原因是设计思路不同还是技术背景差异？

A2: 英伟达与 AMD 在 chiplet 使用上的差异源于技术背景及设计思路的不同。AMD 早期即采用 chiplet 技术，历史上倾向于通过堆叠更多 chiplet 增加计算核心，如将大量计算核心通过 chiplet 连接，这与其需兼顾通用服务器市场的产品定位相关，需在通用计算领域通过核数提升竞争力。而英伟达无 x86 历史负担，其 CPU 设计完全围绕 AI 需求，虽采用 chiplet（将计算部分与 IO、控制部分分离），但更注重架构创新，如推出空间多线程技术，使用 NVLink 实现高互联带宽，并优先保障内存带宽，而非单纯追求核数，例如 Vera 架构核数未大幅增加，但内存带宽显著提升。此外，英伟达 CPU 专注服务 AI 生态，无需兼顾通用服务器场景，故设计更聚焦 AI 交互与任务协同。

Q3: 从配比关系看，未来 CPU 需求提升是否主要来自 AI 头节点等类别？此类 CPU 单价是否会有较高的 ASP 增长？

A3: 未来 CPU 与 GPU 的配比可能持续提升，AMD 等厂商目标往 1:1 甚至更高比例发展，此趋势具有合理性。但简单追求固定配比可能将问题简单化，超大规模公司在 AI 爆发背景下，更关注瓶颈突破而非固定配比，尤其在产能不足时，抢货优先级高于配比优化，例如 2023 年后大厂不再强调 CPU 利用率，转而追求算力冗余以保持竞争优势。关于 ASP 增长，虽 AI 头节点等场景可能推动 CPU 单价上升，但需结合实际需求与产能情况，当前 GPU 因单价更高仍占据更多产能，CPU 的增量更多源于任务复杂度提升（如智能体编排、跨集群交互）带来的需求扩展，而非单纯单价增长。

Q4: 对 AMD、英特尔等厂商的 CPU 产品迭代及综合发展方向有何判断？例如 AMD 的 CPU 与 MI 系列 GPU 协同优化的竞争优势，英特尔在代工及封装工艺上的潜在优势。

A4:AMD 在服务器 CPU 市场份额已超过 Intel（自 2024 年起），其 CPU、GPU 及网卡产品布局全面，但 GPU 在训练场景竞争力较弱，用户倾向优先选择英伟达。CPU 与 GPU 协同方面，AMD 依赖 PCIe 互联，弱于英伟达的 NVLink，导致 AI 场景下效率差距明显；不过其通过股权换订单（如与 Meta 合作）及产能倾斜（台积电产能优先供给 CPU），出货能力较强。英特尔 CPU 业务关注度较低，华尔街更关注其产能与封装工艺，尤其 FAB 工厂良率逐步提升，若封装技术突破（与普联差异小于预期），可能缓解行业产能压力，提升其作为 “重新活过来的公司” 的价值。

Q5: 国产 CPU 公司能否承接英特尔和 AMD 的溢出需求？其产品是否适用于 AI agent 相关场景？

A5: 国产 CPU 在承接英特尔和 AMD 溢出需求方面具备潜力，尤其国内 x86 CPU 厂商，既有外部产能支持，也有国产先进制程突破，是通用算力的有效补充。从 AI agent 场景适用性看，国产 CPU 作为通用处理器，即使效能仅达 AMD 的 60%，仍能满足任务编排、查询调度等基础需求，且贴合国内安全需求；相比之下，国内 ARM 架构 CPU 在生态兼容性上需进一步提升。因此，投资者认为其适用于 AI agent 场景的思路具有合理性，但需客观看待效能差距，增量价值是核心考量。

Q6: 通用计算时代 x86 生态优势显著，在八卡机中 CPU 任务场景简单（为 GPU 服务），ARM 未来市场份额提升是否先从 AI 服务器内部开始，再逐步扩展至更多场景并提升生态兼容性？

A6:ARM 市场份额提升可并行推进，无需局限于 “先 AI 服务器内部、再扩展场景” 的路径。英伟达的演进体现了这一点：Grace 架构初期为 GPU 服务，而 Vera 架构已扩展至泛 AI 计算任务，同时支持 GPU 协同与独立智能体编排。谷歌、亚马逊等厂商基于 ARM 设计的 CPU，既服务自身 AI 芯片，也覆盖泛 AI 计算需求。此外，AI 发展速度与创新需求允许 CPU 针对特定应用场景定制（如专门负责编排、执行或数据搬运），通过系统解耦提升整体效率，而非追求绝对通用，这使得 ARM 可在多个场景同步突破，推动生态共同演化。

Q7: AMD 和 ARM 倾向于增加核心数，而英伟达 Grace 和 Vera 系列核心数变化不大，是否因厂商对 CPU 定位不同导致核心数等迭代指标方向差异？

A7: 核心数迭代方向差异源于厂商定位与技术背景。AMD 因历史原因（早期即采用 chiplet），通过堆叠更多 chiplet 增加核心数，此策略与其兼顾通用服务器市场的产品定义相关，核心数提升主要依赖封装工艺，在产能允许时可持续推进。英伟达则无 x86 历史负担，其 CPU 定位从 “服务 GPU”（Grace）向 “配合 AI 计算 / 智能体”（Vera）过渡，Vera 作为中间形态，更注重架构创新（如空间多线程）、内存带宽及互联技术（NVLink），而非单纯核数增加；且 Vera 的定义可追溯至 1‑2 年前，当时 AGENT 发展路径尚不明确，未来随需求清晰可能扩展核数。

Q8: ARM 尝试通过大内存将数据 offload 至内存以减少 HBM 需求并保持性能，AGI 时代对内存的需求是否会持续增长？

A8:AGI 时代对内存的需求将持续增长，容量与带宽要求会越来越高。英伟达 Vera 与 Grace 的核心差异之一即内存提升，包括容量、带宽及模组形态变化；谷歌、ARM 等厂商也在内存优化上持续投入，例如通过大内存减少 HBM 依赖的尝试，本质上是内存需求增长的体现。内存需求增长将带动内存接口芯片、速度及新协议的需求，相关产业链具备明确增长逻辑。

Q9: 未来 CPU 可能集成更多 NPU 或向量矩阵计算单元以支持小参数模型推理，此类芯片在端侧或特定场景的应用前景如何？

A9:CPU 集成向量处理单元的核心目的是优化与 GPU 的交互，而非部署小参数模型推理。GPU 逐步向 FP8/FP4 精度演进，CPU 需具备向量处理能力以高效转化数据，避免成为交互瓶颈。从产品定义角度，云端部署小模型推理不具备合理性：芯片面积有限，同等面积下 GPU 效率远高于 CPU；系统复杂度增加将推高成本，且软件即可实现小模型部署，无需硬件集成。端侧场景或有特殊需求，但云端集成小模型推理单元属于非专业设计，不符合效率与成本最优原则。

温馨提示：内容源于第三方以及公开平台，仅供用户参考，恕本平台对内容合法性、真实性、准确性不承担责任。如有异议/反馈可与平台客服联系处理（微信：_LYSD_）。