登录路演时代
忘记密码
忘记密码
忘记密码
欢迎注册路演时代
已有账号?马上登陆
CPU纪要(五)
发布来源: 路演时代 时间: 2026-05-18 14:47:26 0

CPU纪要(五)


一、CPU 在 AI 时代回归 C 位的核心逻辑及行业动态

CPU 在 AI 时代回归核心地位的核心逻辑在于计算负载的结构性变化。传统 AI 计算以 GPU 为主导,但 AI Agent 的普及推动交互任务激增,涉及查询、调度、编排及互联互通等环节,这些任务主要依赖 CPU 执行,导致其在端到端延迟中占比高达 80%-90%。2025 年以来,智能体应用(如 “小龙虾”“爱马仕” 等)的爆发进一步暴露 CPU 需求缺口,叠加产能限制,推动 CPU 价格上涨。行业动态方面,云端虚拟机(VPS)对骁龙 X Elite 等产品的需求催生额外 CPU 需求,ARM 推出 AGI 定位的 Igini CPU,英伟达发布 Vera 架构并独立计价,其与 Grace 在内存操作、架构设计上存在显著差异,反映行业对 AI 场景的深度适配。


二、AI CPU 的架构设计特征及与传统 CPU 的差异

AI CPU 在架构设计上与传统 CPU 存在多维度差异,核心目标是适配智能体任务编排、跨集群交互及高并发多租户场景:内存与带宽需求:需支持更大内存容量及带宽,以应对跨服务器 / 机柜的高频数据交互,例如英伟达通过 NVLink 实现 CPU 间高带宽互联,而传统 CPU 依赖 PCIe 或有限的双路互联。IO 与互联能力:强调 CPU 间及 CPU 与 GPU 的低延迟互联,例如英伟达 Vera 架构在内存操作和硬件设计上与 Grace 形成差异化,以提升 AI 任务效率。安全与隔离特性:针对云端虚拟机场景,需强化安全隔离与多租户管理,传统 CPU 在该领域优化不足。负载适配:传统 CPU 聚焦通用计算,AI CPU 则需适配智能体的动态任务调度、工具调用及 API 交互,例如谷歌、Meta 等企业定制 CPU 时优先考虑 AI 负载特性。


三、英伟达与 AMD 在 Chiplet 应用上的差异及设计思路

两者在 Chiplet 使用上的差异源于技术背景与应用场景定位:英伟达:无 x86 历史负担,Chiplet 设计聚焦 AI 场景,将计算单元与 IO / 控制单元分离,核数相对有限(未如 AMD 达 256 核),但通过 “空间多线程”(Spatial Multithreading)及 NVLink 互联提升效率,核心目标是辅助 AI 计算而非通用服务器。AMD:从传统 x86 架构演进,Chiplet 设计以堆叠计算核心为主,通过增加 Chiplet 数量提升核数(如 256 核),需兼顾通用服务器市场,依赖 PCIe 互联,在 AI 场景下 IO 效率弱于英伟达。台积电等产业链厂商推动更大面积、多层堆叠的 Chiplet 技术,AMD 受限于历史架构更依赖该路径,而英伟达凭借架构灵活性可减少对核数堆叠的依赖。


四、AI CPU 的配比关系及增量需求判断

当前 AI 集群中 CPU 与 GPU 的配比并非固定,超大规模企业更关注 “冗余配置” 而非最优配比:配比趋势:AMD 等厂商提出向 1:1 甚至更高配比演进,核心逻辑是 AI 任务中 CPU 负载占比提升,但实际执行中受产能限制(GPU 单价更高、产能更优先),企业倾向 “有多少抢多少”,而非严格按配比规划。增量来源:除传统 “域内 CPU”(如 4U8 卡机中的双路 CPU)外,“域外 CPU”(智能体编排、跨集群调度)需求显著增长,云端虚拟机对骁龙 X Elite 的支持进一步打开增量空间。风险提示:简单追求配比可能忽视实际瓶颈(如内存带宽、IO 能力),国内非 NVLink 架构的超节点(如华为)尚未量产,CPU 仍以服务 GPU 为主,独立 CPU 机柜规模化应用需网络拓扑突破。


五、AMD 与英特尔的 CPU 产品迭代及发展方向

AMD:2024 年服务器 CPU 市占率已超英特尔,产品优势在于 Chiplet 技术带来的核数提升,与 MI 系列 GPU、网卡形成协同,但 GPU 性能较弱(训练场景仍以英伟达为主),依赖 Meta 等客户的 “股权换订单” 策略。2026 年产能已售罄,若向 CPU 倾斜产能可提升出货,但 PCIe 互联在 AI 场景下效率弱于英伟达 NVLink。英特尔:CPU 业务关注度较低,核心竞争力在于封装与代工产能,其 FAB 工厂良率自 2025 年陈立武接手后逐步改善,2026 年 Q1 财报显示良率提升,封装技术(如 Foveros)若突破,有望缓解行业产能瓶颈,重新定义其价值。


六、国产 CPU 的溢出需求及 AI Agent 场景适用性

国产 CPU 在 AI 时代存在明确的溢出需求,且具备 AI Agent 场景适配潜力:溢出需求:英特尔、AMD 产能紧张背景下,国产 CPU(如 x86 架构产品)作为通用处理器可补充 60% 以上效能,贴合国内安全需求,先进制程突破进一步提升供给能力。AI Agent 适用性:国产 CPU 作为通用处理器,可支撑智能体任务编排、工具调用等基础功能,虽效能不及 AMD,但增量价值显著;国内 ARM 架构产品需进一步优化生态以提升竞争力。


七、ARM CPU 市场份额提升的路径及生态发展

ARM CPU 市场份额提升将通过 “并行路径” 实现:场景并行:一方面服务 GPU(如英伟达 Grace),另一方面拓展泛 AI 计算任务(如谷歌、亚马逊定制 ARM CPU),无需严格区分通用与专用场景,可针对特定任务(如编排、数据搬运)定制独立 CPU。生态分化:大厂商(如英伟达、谷歌)定制化 CPU、AI 芯片及网络芯片,推动生态分化;ARM 自身芯片聚焦通用场景,与厂商定制产品形成互补,共同推动生态演进。

八、不同厂商 CPU 核心数发展方向的差异及原因

核心数策略差异源于产品定位与技术背景:AMD:受 x86 架构历史影响,通过堆叠 Chiplet 提升核数(如 256 核),核心逻辑是利用封装技术快速扩产,兼顾通用服务器市场。英伟达:Vera 系列核数未显著增加,因早期定义(2024‑2025 年)时 AI Agent 趋势尚不明确,当前通过 “空间多线程” 优化效率,未来随 AI 需求清晰或逐步扩展核数。ARM:聚焦内存优化(如大内存减少 HBM 需求),核数策略灵活,可根据场景(如端侧、云端)动态调整。


九、AGI 时代对内存需求的带动及发展趋势

AGI 推动内存需求从容量、带宽到协议的全方位升级:容量与带宽:AI CPU 需支持更大内存容量及带宽,英伟达 Vera 相比 Grace 显著提升内存性能,内存模组形态亦发生变化;谷歌、ARM 等厂商均在内存优化上加大投入。产业链带动:内存接口芯片、高速协议需求增长,相关硬件厂商(如内存控制器、连接器企业)将直接受益。


十、CPU 集成 NPU 等计算单元的应用意义及效率分析

CPU 集成 NPU 的核心意义在于优化与 GPU 的交互效率,而非部署小模型:交互优化:GPU 向 FP8/FP4 演进,CPU 需集成向量处理单元以减少数据格式转换延迟,提升跨芯片数据搬运效率。效率争议:云端部署小模型并非最优选择,芯片面积有限时,NPU 集成会挤占 CPU 核心资源,降低整体效率;端侧场景或有应用价值,但云端更应通过软件优化而非硬件集成实现。


Q&A

Q1: 围绕 AI CPU 及 ARM 定位的 AGI CPU,各家厂商在整体架构、设计及性能上有哪些通用规律?与传统通用 CPU 有何差异?AI CPU 的演进方向如何?

A1:AI CPU 的演进源于计算负载的变化,传统 AI 以 GPU 为主,而 AGENT 交互需求使计算任务分解为生成、查询、调度、编排等多步骤,其中 80%-90% 的延迟由 CPU 造成,推动 CPU 需求提升。与传统通用 CPU 相比,AI CPU 在内存容量、带宽、CPU 间 IO 能力及互联技术上有显著差异:需支持跨集群任务编排、智能体执行及工具调用,因此对内存容量和带宽要求极高;传统服务器 CPU 多为两路或四路,而 AI 场景下需在单机柜部署大量 CPU,故 CPU 间互联带宽至关重要,如英伟达采用 NVLink 替代传统 PCIe。此外,还需满足安全隔离、高并发及多租户需求,例如云端虚拟机兼容骁龙 X Elite 的场景。通用规律方面,厂商均尝试将 CPU 与 AI 深度绑定,从产品定义倒推芯片设计,如 ARM 定位 AGI CPU,英伟达 Vera 架构在内存操作、架构更新及硬件设计上与 Grace 有显著区别。


Q2: 英伟达与 AMD 在 chiplet 使用方式上存在差异,其原因是设计思路不同还是技术背景差异?

A2: 英伟达与 AMD 在 chiplet 使用上的差异源于技术背景及设计思路的不同。AMD 早期即采用 chiplet 技术,历史上倾向于通过堆叠更多 chiplet 增加计算核心,如将大量计算核心通过 chiplet 连接,这与其需兼顾通用服务器市场的产品定位相关,需在通用计算领域通过核数提升竞争力。而英伟达无 x86 历史负担,其 CPU 设计完全围绕 AI 需求,虽采用 chiplet(将计算部分与 IO、控制部分分离),但更注重架构创新,如推出空间多线程技术,使用 NVLink 实现高互联带宽,并优先保障内存带宽,而非单纯追求核数,例如 Vera 架构核数未大幅增加,但内存带宽显著提升。此外,英伟达 CPU 专注服务 AI 生态,无需兼顾通用服务器场景,故设计更聚焦 AI 交互与任务协同。


Q3: 从配比关系看,未来 CPU 需求提升是否主要来自 AI 头节点等类别?此类 CPU 单价是否会有较高的 ASP 增长?

A3: 未来 CPU 与 GPU 的配比可能持续提升,AMD 等厂商目标往 1:1 甚至更高比例发展,此趋势具有合理性。但简单追求固定配比可能将问题简单化,超大规模公司在 AI 爆发背景下,更关注瓶颈突破而非固定配比,尤其在产能不足时,抢货优先级高于配比优化,例如 2023 年后大厂不再强调 CPU 利用率,转而追求算力冗余以保持竞争优势。关于 ASP 增长,虽 AI 头节点等场景可能推动 CPU 单价上升,但需结合实际需求与产能情况,当前 GPU 因单价更高仍占据更多产能,CPU 的增量更多源于任务复杂度提升(如智能体编排、跨集群交互)带来的需求扩展,而非单纯单价增长。


Q4: 对 AMD、英特尔等厂商的 CPU 产品迭代及综合发展方向有何判断?例如 AMD 的 CPU 与 MI 系列 GPU 协同优化的竞争优势,英特尔在代工及封装工艺上的潜在优势。

A4:AMD 在服务器 CPU 市场份额已超过 Intel(自 2024 年起),其 CPU、GPU 及网卡产品布局全面,但 GPU 在训练场景竞争力较弱,用户倾向优先选择英伟达。CPU 与 GPU 协同方面,AMD 依赖 PCIe 互联,弱于英伟达的 NVLink,导致 AI 场景下效率差距明显;不过其通过股权换订单(如与 Meta 合作)及产能倾斜(台积电产能优先供给 CPU),出货能力较强。英特尔 CPU 业务关注度较低,华尔街更关注其产能与封装工艺,尤其 FAB 工厂良率逐步提升,若封装技术突破(与普联差异小于预期),可能缓解行业产能压力,提升其作为 “重新活过来的公司” 的价值。


Q5: 国产 CPU 公司能否承接英特尔和 AMD 的溢出需求?其产品是否适用于 AI agent 相关场景?

A5: 国产 CPU 在承接英特尔和 AMD 溢出需求方面具备潜力,尤其国内 x86 CPU 厂商,既有外部产能支持,也有国产先进制程突破,是通用算力的有效补充。从 AI agent 场景适用性看,国产 CPU 作为通用处理器,即使效能仅达 AMD 的 60%,仍能满足任务编排、查询调度等基础需求,且贴合国内安全需求;相比之下,国内 ARM 架构 CPU 在生态兼容性上需进一步提升。因此,投资者认为其适用于 AI agent 场景的思路具有合理性,但需客观看待效能差距,增量价值是核心考量。


Q6: 通用计算时代 x86 生态优势显著,在八卡机中 CPU 任务场景简单(为 GPU 服务),ARM 未来市场份额提升是否先从 AI 服务器内部开始,再逐步扩展至更多场景并提升生态兼容性?

A6:ARM 市场份额提升可并行推进,无需局限于 “先 AI 服务器内部、再扩展场景” 的路径。英伟达的演进体现了这一点:Grace 架构初期为 GPU 服务,而 Vera 架构已扩展至泛 AI 计算任务,同时支持 GPU 协同与独立智能体编排。谷歌、亚马逊等厂商基于 ARM 设计的 CPU,既服务自身 AI 芯片,也覆盖泛 AI 计算需求。此外,AI 发展速度与创新需求允许 CPU 针对特定应用场景定制(如专门负责编排、执行或数据搬运),通过系统解耦提升整体效率,而非追求绝对通用,这使得 ARM 可在多个场景同步突破,推动生态共同演化。


Q7: AMD 和 ARM 倾向于增加核心数,而英伟达 Grace 和 Vera 系列核心数变化不大,是否因厂商对 CPU 定位不同导致核心数等迭代指标方向差异?

A7: 核心数迭代方向差异源于厂商定位与技术背景。AMD 因历史原因(早期即采用 chiplet),通过堆叠更多 chiplet 增加核心数,此策略与其兼顾通用服务器市场的产品定义相关,核心数提升主要依赖封装工艺,在产能允许时可持续推进。英伟达则无 x86 历史负担,其 CPU 定位从 “服务 GPU”(Grace)向 “配合 AI 计算 / 智能体”(Vera)过渡,Vera 作为中间形态,更注重架构创新(如空间多线程)、内存带宽及互联技术(NVLink),而非单纯核数增加;且 Vera 的定义可追溯至 1‑2 年前,当时 AGENT 发展路径尚不明确,未来随需求清晰可能扩展核数。


Q8: ARM 尝试通过大内存将数据 offload 至内存以减少 HBM 需求并保持性能,AGI 时代对内存的需求是否会持续增长?

A8:AGI 时代对内存的需求将持续增长,容量与带宽要求会越来越高。英伟达 Vera 与 Grace 的核心差异之一即内存提升,包括容量、带宽及模组形态变化;谷歌、ARM 等厂商也在内存优化上持续投入,例如通过大内存减少 HBM 依赖的尝试,本质上是内存需求增长的体现。内存需求增长将带动内存接口芯片、速度及新协议的需求,相关产业链具备明确增长逻辑。


Q9: 未来 CPU 可能集成更多 NPU 或向量矩阵计算单元以支持小参数模型推理,此类芯片在端侧或特定场景的应用前景如何?

A9:CPU 集成向量处理单元的核心目的是优化与 GPU 的交互,而非部署小参数模型推理。GPU 逐步向 FP8/FP4 精度演进,CPU 需具备向量处理能力以高效转化数据,避免成为交互瓶颈。从产品定义角度,云端部署小模型推理不具备合理性:芯片面积有限,同等面积下 GPU 效率远高于 CPU;系统复杂度增加将推高成本,且软件即可实现小模型部署,无需硬件集成。端侧场景或有特殊需求,但云端集成小模型推理单元属于非专业设计,不符合效率与成本最优原则。


温馨提示:内容源于第三方以及公开平台,仅供用户参考,恕本平台对内容合法性、真实性、准确性不承担责任。如有异议/反馈可与平台客服联系处理(微信:_LYSD_)。