登录路演时代
忘记密码
忘记密码
忘记密码
欢迎注册路演时代
已有账号?马上登陆
英伟达GTC深度解析——LPX/LPU技术架构与推理经济学新范式
发布来源: 路演时代 时间: 2026-03-30 14:03:59 0

LPX的解决方案、推理任务的解耦——AttentionGPUFFNLPX去做,以及LPX可能会是单独的机柜的形式。这种方案具体是怎么实现的?怎么解决GPULPU之间的通信问题?

 

LPX这个方案,从目前英伟达的沟通和反馈来看,并不是一个长期固定的产品,而是一个临时性的解决方案。LPX的核心原理实际上源自GroqLPU技术,主要包括三项核心技术:

 

第一,静态编译推理的计算图。通过预先编译和规划,将推理过程中的动态条件分支、存储和访存等操作优化为可预测的执行流程,把计算图完整映射到硬件结构上,按照预定义的时间线执行。这样做的好处是极大提升吞吐量,但灵活性较低,难以应对突发情况,尤其是硬件通信带来的延迟和失同步问题。

 

第二,芯片结构上的特殊设计。包括专用处理器单元、特殊片上通讯结构和大容量片上缓存,以满足同步映射和有序执行的需求。

 

第三,软件重定义技术。通过高级编译手段预先定义芯片中各处理单元和存储器的职能,比如推理的PrefillDecode等。一旦这些职能预设完成,执行过程的加速比非常高。

 

最重要的是所谓粗粒度可重构加速器,需要大量片上存储或近存计算才能实现。英伟达收购Groq的核心价值就在于这种粗粒度可重构技术和团队能力,而不是简单地将LPU做成产品推向市场。其核心思想是为Rubin这一代架构的演进,解决软件和硬件进化速度不同步的问题。

 

相关的学术文章也指出,推理算法和范式每隔半年到八个月就会有新的变化,而硬件落地周期较长,导致硬件无法及时匹配最新算法。这也是英伟达一直没有推出专门面向推理的机型的原因。相比之下,CSP可以根据自身业务场景做专用加速器,因为业务需求明确且不需要长期演进。英伟达需要覆盖更广泛的应用场景,因此难以用一种结构包打天下。

 

Rubin架构通过引入可重构技术,实现芯片职能的灵活切换,满足不同推理场景的需求。GPU的可编程性带来灵活性,但效能有限,因此急需新型结构,通过软件重新定义芯片的专用职能,实现短期或临时场景下的高效推理。LPX结构可以专注于某一职能,解决硬件和软件发展不同步的问题。Groq技术本质上是粗粒度动态加速器,业界还有SambaNovaCerebrasTenstorrentRebellion AI等公司也在做类似的可重构方案。

 

LPX本来是Groq的下一代产品,在三星4纳米工艺上开发,片上缓存容量和通讯带宽都有提升,但仍属于机械、刻板的同构加速器阵列,需要模型映射才能发挥作用。其天然局限性使其更适合做FFN阶段的计算,而在AttentionPrefill阶段效能不如GPU。因此,英伟达是根据收购技术的现有能力反向推演系统结构,用Rubin解决Prefill,代替之前的CPXPrefill是算力和内存密集型,LPX只能解决算力密集,内存容量受限。Rubin带有HBM,适合做Attention计算,因为AttentionMemory Bound的过程。

 

FFN是大规模矩阵乘加的过程,如果模型权重、参数和KV cache都能够放在本地的话,尤其是模型权重,那么在做乘加矩阵计算时,可以不去读取外部的HBM存储器,在片上的存储器就可以完成模型的矩阵乘加。这样做的速度是极快的,效率是极高的,所以很适合做FFN。因此英伟达是利用LPU的当前特点,推出了一种机架的组织架构。

 

这里面还有一些问题,比如Rubin机柜和LPX之间的通信,它是通过112G的以太网这种方式进行通信,带宽是有限的。这个通信过程延迟高,有不确定性,而且跟不上计算和存储的速度。解决方案是用多线程切换隐藏延迟来解决通讯带宽不够的问题。

 

LPU后面还会有一个版本支持NVFP4这种量化格式。现在Nvidia的计算技术中,采用的新的量化精度的4位浮点,这是英伟达自己定义的一种特殊的4位浮点的格式。也就是说如果把模型权重参数重新量化成NV的这种4位浮点格式的话,计算效能会比较高,计算量可以有效降低的同时精度基本没有什么损失。所以为了支持NVFP4LPU才有一个改版,预计在今年下半年会出。

 

本质上来讲,LPU是一个小步快跑的东西,它不断地有改版,后面甚至还会有一些改进通讯端口瓶颈的技术。所以严格意义来讲,LPXNV演进的阶梯,而不是阶段性的终点,因为这些结构都是倒推出来的,是为了解决现有专用推理机型的缺失问题。而英伟达的野心并不是集中在这种阶段性的成果上,其目的是要把LPU技术真正与下一代费曼的GPU技术融合在一起,用单芯片去解决不同任务的切换和定义,再通过片上大容量SRAM的集成,用3D堆叠的方式去获得更高的片上存储器的容量和带宽。这是英伟达的宏观思想。

 

28年这些关于费曼的idea现在还在探索、验证之中,方向有了,但是具体实施的路径可能有好多种。所以这次英伟达并没有讲述特别多关于费曼结构的特点,而是通过对LPU的细节披露,给大家揭示了一些东西出来。

 

跨机柜通讯解决方案

 

关于解决通讯带宽的问题,有提到多线程切换隐藏延迟,这里可以展开讲讲吗?

 

在服务器系统中承载推理任务时,推理任务本质上是并发多线程的,比如有1000个用户就有1000个推理线程在机器上运行。当Prefill阶段完成后,数据会交给Decode阶段处理,这两个阶段通常都是由Rubin完成的。在系统架构上,PrefillDecode分别位于机架的上下两层,各占机架的一半。PrefillDecode之间的数据传输主要是KV Cache的生成和循环读写,最好是在同一个存储域内完成,因此它们通过NVLink互联,将所有RubinHBM内存统一为一个大内存区域。这样Prefill完成后可以直接交给Decode中的Attention计算,整个过程在机柜内完成,带宽很高且自洽,比分离式架构更优。

 

以往的方案是Prefill完成后数据传输到专门的Decode芯片,属于片间传播,甚至有方案是PrefillDecode分别在不同机柜,通过以太网传输,带宽瓶颈明显。现在英伟达将这个瓶颈在柜内消除,PrefillDecode之间的交集就是KV Cache存储区域或实体,也是一种逻辑上的上下文。机柜内传输带宽高,基本没有问题,但仍存在一些挑战。

 

Attention计算完成后,需要进行FFN(前馈网络)的传播,与权重做矩阵乘加,之后还要回到Attention阶段,形成FFNAttention之间循环往复的过程。实际上,他们依然在同一个存储空间内进行计算,只是这个存储空间不是Cache,而是权重参数。权重参数通过大规模硬件映射被分布到几百个LPX上,因此整体上是一个集体式的计算过程,所有LPX协同完成操作。

 

Attention计算完成后,数据需要传递到FFN阶段,此时传输速度变慢,因为它们之间通过跨机柜的112G链路连接,而现有链路方案无法满足需求。英伟达的SmartNIC(如CX系列)无法支持,因为不兼容,因此采用了两块Altera FPGA作为通信角色。Altera FPGA在通信能力上表现较好,通过这种方式实现了与NVLink通信算子相关的必要硬件逻辑,使LPX能够融入扩展的通信算子库或计算算子库。这就是他们的实现方式,但通信带宽依然有限。

 

面对带宽限制,他们采用了多线程切换的方式。数据传输过程中,可以切换到其他线程先行计算,等数据传输完成后再切回继续处理。这样形成了一个流水线结构,在LPX内部,Attention计算采用掩蔽的交替模式:AB面切换,A面计算时B面缓冲,反之亦然。LPX计算过程中,内部存在掩蔽交替结构。

 

多线程切换本身存在时间开销,但可以利用切换的空档进行数据传输。一次只能计算一个任务,其余任务可以在此期间传输数据,无论是下行还是回传,都是流水线式的互相遮掩过程。理论上,这种系统在推理初期效能不高,受限于通信带宽,但随着推理线程增多,互相掩蔽能力增强,带宽延迟被隐藏。在固定时间内,Token的生成速度依然很快。虽然存在延迟,但通过掩蔽和切换,数据传输延迟被隐藏。

 

不同推理任务间断不切换,当前看到的Token生成,实际上是前序计算任务通过切换间隔完成的数据传输。整个过程是交替工作的。简单来说,就是多线程切换、隐藏延迟,主要隐藏的是从Rubin机柜到LPX机位传输时的存储和通信延迟。这种方式基本解决了可用性问题,但带宽瓶颈依然突出,稍有不慎就会出现空泡问题,即掩蔽不充分导致长时间等待。

 

为了解决上述问题,需要采用静态图预编译技术。即将大量计算任务预先编译好,完全错开通信时间,使两个机柜的通信互不冲突,从而基本消除延迟。这是预编译的优势,通过排程优化任务顺序。但这也带来挑战,推理场景必须对任务负载有精确定义和宏观把控。

 

因此,英伟达此次引入了一种类似操作系统的机制,严格意义上称为推理底层操作系统,名为DynamoDynamo本质上是预编译排程器,能够缓存动态推理需求,进行静态转化和排布,映射到系统上,再通过同样机制返回结果。可以理解为一个大管家,同时管理大量任务。Dynamo的引入使系统运行更加高效,未来有望持续应用。Agentic AI本身就是多线程、长上下文的任务,因此分支预测和多条件跳转等能力成为基本要求。

 

Dynamo运行的基座是CPU,需要英伟达自有的Grace CPU承载Dynamo的计算,这类计算主要涉及分支预测、条件转移和多线程排布,而非科学计算。系统的瓶颈和承载点已明确,已知的延迟和开销可以通过通信与计算时间差进行掩蔽。整体来看,这套系统设计精妙,效能很高,尽管存在一些遗憾和缺陷。

 

如果未来推出NVFP4版本,权重计算能够实现更高精度,执行效能还会进一步提升。在这种情况下,这类机型有可能成为长期存在的产品。但目前来看,市场仍在观望阶段,还没有大规模采购,更多是技术展示。至于未来是否会发展到更细粒度的PAF分离,还需观察行业趋势。谷歌、亚马逊等也在进行类似的预演。

 

推理经济学新范式

 

这套方案更适合AgenticAI这种多线程推理任务。随着线程数量增加,带宽掩蔽效果越好,LPU带来的Token生成速度增益会超过系统通信延迟的负面影响,对吗?

 

这里有一个更深层的理解,称为推理经济学。当前DRAMAgenticAI推理需求激增变得稀缺且昂贵。英伟达在发布会中隐含的观点是,通过推理硬件结构的演进,缓解对内存容量无休止的需求。这就是推理经济学的核心:通过技术迭代(如Feymann一代的3DSRAM技术),将SRAM从计算芯片片上提取并多层堆叠,类似HBM,实现更高容量。

 

这样可以将SRAM容量提升到8GB~10GB,远期甚至16GB。对于存储键值或专家模型权重参数来说,这种容量非常有意义,甚至可以存储MoE中某个专家的权重和当前KVCache,而且全部在片内完成,无需访问片外HBM。片上存储的访存延迟极低,达到纳秒级,带宽超过10TB/s,比HBM高一个数量级。这样可以用本地高速带宽快速完成计算。

 

以往在GPU时代,无论训练还是推理,约三分之一甚至更多时间消耗在数据传输延迟上。现在将存储搬到片上,实现近存计算,存储延迟大幅降低,内存和算力利用率显著提升。利用率提升后,存储容量无需无限扩展。

 

这可以用餐馆的比喻来说明:如果餐馆有10张桌子,一次只能接待10位客人,每小时翻台一次。如果提高翻台率,一小时可接待20位客人。以往若想接待20人,只能扩建到20张桌子。通过提高翻台率,容量需求下降,从而抑制了内存涨价带来的成本压力。

 

因此,片上存储和预编译等技术,正是为了解决推理经济学问题,使系统更经济,减少对大容量内存的依赖。片上SRAM由逻辑工艺制造,产能远高于DRAM,工艺更简单,避免了对DRAM的过度依赖。这是非常重要的思路。在推理经济学的支撑下,英伟达的演进路线也更加清晰,目标是提升内存利用率。Groq技术是这一方向的开端,未来Intel等厂商也会采用类似思路去解决问题。

 

LPX容量与专家路由瓶颈

 

目前LPX机柜展示的方案为256LPU,总SRAM容量128GB。对于IT以上大模型参数,这样的容量能否满足模型权重的存储需求?

 

确实,容量有限。片上单颗为500MB256颗合计128GB SRAM。从存储专家权重角度看,这个容量是足够的,可以存储一定数量的专家权重。当前推理计算采用稀疏计算,实际同时激活的都是专家权重,因此128GB对于部分专家权重来说绰绰有余。

 

但系统规划方式不同,容量利用也不同。比如256LPX可以分为两个资源分别使用,也可以整合为一个资源。整合后可存储更多专家权重,分开则可支持两个batch size1的计算,但专家权重数量减少,可能只能存一个或两个专家权重。这取决于静态编译的目标和推理任务的特点。

 

不同推理场景下,模型激活方式和专家路由策略各异。Vibe coding和信息检索等是典型的Multi- Agent场景,生产力办公类也是Multi- Agent,而音视频生成则对单一权重依赖更强,且具有循环性和长期性。Agent数量越多,激活专家种类越多。batch size较低时,容量利用较好;batch size增加时,专家权重容量需调整。

 

因此,128GB本质上是不够的。以现在为Feymann做的技术评估为例,3D SRAM单片可集成8~10GB on- chip SRAM。如果是Feymann200的话,实际上接近20GBFeymann这一代单tray现在变成了4个计算节点,密度非常高。如果是576机型,每个卡都有20GB容量,所以on- chip SRAM容量非常高,甚至可以直接承载1T参数级的全模型。

 

现在已经出现了像Kimik2这样参数量极大的稀疏计算模型,理论上LPX容量可以承载非常大的模型推理,但会遇到专家路由瓶颈。专家路由需要不断预取和加载对应专家到LPX阵列,因为容量有限,实际参数量远大于LPX机柜容量,专家路由成为瓶颈。

 

因此未来一个趋势是专家路由分离,把Expert Router做成独立计算结构,这可能用就可以CPU实现,形成PrefillAttention、专家路由、FFN四段式分离。这种分离体现了计算模式的持续演进。

 

因此现在LPX系统仍有瓶颈,短板反而更突出。LPX有场景限制,尤其在多专家系统切换时,受限于外部有限带宽(如112GB),在专家切换或加载阶段存在潜在拥塞风险。虽然可以预测和预取,但除非batch size1才能做完全静态图,否则线程间切换时难以充分预取,导致性能损失。极端情况下,专家路由加载瓶颈可能使效能不如纯GPU运行。

 

LPU部署形态分析

 

英伟达不会将LPU作为单独机柜的形式进行交付,而是在Rubin机柜内有LPU板子,LPU板子代替原来的CPX方案。因为Rubin机柜相比GB200性能提升主要在训练场景,对推理场景提升不大。对于云厂商吸引力有限,尤其AMD也在做机架方案且HBM容量更大。如何看待这种观点?

 

LPU技术确实可以做Prefill,推出时就是全功能推理,可以通过软件重新定义数据流实现高度并行计算模式。如果权重全部映射到单芯片上,就能整体做大参数量的层矩阵层,典型的FFN模式。理论上可以这么做,但PrefillDecode之间的连接是HBM,也就是HBM Cache。用它做FFN时,通讯瓶颈如何解决?

 

一个办法是给LPUNVLink通讯能力,合并到NVLink通讯域,这样可以获得单向1.8T的高带宽,接近HBM。但又引出新问题:英伟达机柜受NVLink电传输特性限制,传输距离短。NVLink优先速度和拓扑能力,放弃传输距离。576机型其实是用Ultra方式,在单个CoWoS内做4片台封实现,理论上不是576,本质还是144,而144722实现。这意味着Rubin机柜非常拥塞,如果再加入LPU并放到NVLink域,Rubin数量就要减少,高性能PrefillDecode节点变少,LPU会侵占有限的NVLink超节点数量,这很麻烦。

 

不同推理场景对PrefillDecode需求不同,比如VibeCoding场景循环迭代,对Prefill压力极大;视频生成Prefill压力小,Decode压力大,更吃存储。PrefillDecode配比不是固定的,随推理场景变化,Attention节奏和压力也在变。

 

如果把LPU放到机架里,无论是独立Tray还是与Rubin临近放在一个Tray上,都会引入配比问题。配比一定是固定的,可能做到Tray里调整相对灵活,比如NVL72的一个Rack里有18RubinTray18LPX Tray,数量可调整。不管怎么搭配,最终数量需要调整。

 

这种调整说起来容易,但英伟达机架系统虽声称开放,实际上不支持动态抽拉刀片调整数量,Tray一定按比例固定,只能为固定推理场景打造特殊配比的Rack系统,比如Rubin1/3LPX2/3,按Anthropic需求计算精确配比,做Anthropic专用机型,这完全可能,英伟达现在就在和Anthropic推广这种概念。

 

把它放到Tray里而不是两个机柜,可以很好解决跨机柜传输通讯瓶颈,因为都用NVLink解决。但需要技术演进,把LPX带入NVLink域。不仅是NVFP4支持问题,更重要是结构通讯算子如何映射。现在通过FPGA解决部分通讯算子映射,但并不是通讯部分,还是柜间通讯部分,需要重新定义桥片或用FPGA实现桥片,解决与NVLink对接问题,但FPGA无法实现满速NVLink,需要特殊NVLink Switch,一端接NVLink交换机,另一端适配LPU专有结构,这很复杂,长期性是否好也是问题。

 

但这种路线确实是一个选项。英伟达也表示这是他们考虑的选项,但并不是最优。真正好的选项是未来Feynman那一代,不再区分Rubin还是LPU,不再区分PrefillDecodeAttention等,整个机架系统整齐划一都是Feynman,通过软件定义配比和通讯结构拓扑,谁做Prefill、谁做Decode、谁做Attention、谁做专家路由、谁做FFN等,全部软件可定义,实现业界长期追求的动态可重构、软件重定义系统结构的计算范式。这是Feynman一代的目标。

 

他说的方案其实是介于RubinFeynman之间的中间结构,提供一定灵活性,但这种灵活性需要通过换Tray实现,在Tray里调整配比。这已经很近似了。27GTC上可能会发布LPX进阶版,因为英伟达会做很多方案,动态发展中看哪个适合落地或发布,发布后未必做成产品。CPX就是短命方案,现在已不提。所以即使发布了,最终也要看用户需求。

 

对于CSP来说,他们非常现实,北美大厂以盈利为唯一目的,甚至不太关心模型演进。有些大厂已经开始躺平,模型上直接套壳Kimi或中国模型。微软典型做法是偷偷用开源模型做优化和支撑补充。对他们来说只要能跑好,不关心是否原创。满足他们是有空间的,微软、Meta在硬件基础设施上做得不好,自己做好也很难,所以可能是英伟达客户。Google、亚马逊有能力引进硬件,也会抄英伟达Idea。本质上这件事他说得对,大厂难伺候。但是要做好需要英伟达做专用定制机型,但专用定制机型涉及NVLink域支持、扩展更好原生适配等复杂问题,这些都是英伟达的负担和成本。是否值得要看需求,有些大厂或独立模型厂商如AnthropicOpenAI等如果愿意用定制版机架,也是生意,也许会有一定量,但是现在还不好说。

 

3DSRAM与定制化HBM技术解析

 

Feynman Roadmap展示中提到3D堆叠定制化HBM,具体如何理解堆叠HBM和堆叠SRAM?

 

Feynman那张图的技术特点包含两个核心:一是3D堆叠技术,二是定制化开发的HBM技术。可以更细致理解为3D堆叠指SRAM堆叠,定制HBM指定制IO Base Die,这是两个不同产品特征和方向,不冲突。

 

3DSRAM是把SRAM叠起来,通过TSV技术实现,和HBM类似。在与底下计算DieFeynman Die)键合时,为解决高通讯密度带宽问题,采用Hybrid bonding技术。这有技术依赖性,3DSRAM堆叠难度很大。SRAM容量天然不倾向高密度,因为晶体管结构本质为逻辑而非SRAM而生。

 

很多论文指出,若用逻辑工艺做SRAM,理论上应采用深沟槽技术(Deep Trench),晶体管很高很深、很窄很瘦,容量就高,密度大。还有特征尺寸的问题,在特征尺寸上,SRAM5纳米或4纳米阶段难再缩小,因为有读取放大、敏感放大单元,这些单元难以做小。

 

在半导体工艺演进上,SRAM在特征尺寸缩小上未占便宜,5纳米是临时deadline,容量密度无法再提高。要再提高需在晶体管结构上做创新。此时的挑战在于5纳米上做SRAM是较安全方案,但容量摸索过程可能会很漫长。SRAM编好后是固定Die size,拼出来形成固定尺寸,也就是Feynman这一代计算Die要适配上面SRAM Die总面积,是反向适配。因为SRAM不太灵活,虽然它可以有一定灵活性,但需互相适应,这是漫长摸索过程。容量做好、业务保证,最终才能做成,这是探索方向。

 

3D SRAMstacking部分。MemoryHBM部分指IO Base Die定制HBMCustom HBM),HBM堆叠后底层IO Die由海力士等厂商做,与主芯片(计算芯片)互联。这里有优化空间,IO Base Die若用先进半导体工艺生产,可容纳晶体管和很多逻辑单元,有些需要存储紧密关联的计算单元或步骤,可以做近存计算甚至存内计算,因为它们叠在一起。

 

可以基本上将其认定为存内计算,或者称为近存计算会更科学和准确一些。如果存内计算单元放在IO Base Die上,比如Attention算子,它本质上是高密度存取DRAM。如果将其部署在Base Die上,有些算子可以提前完成计算,然后直接将结果传递出去,这样计算效能会大幅提升。因此,定制HBM自去年(2025年)开始成为非常重要且主流的设计思路,尤其是HBM4E时代,定制HBM已成为标配方案。

 

海力士最近有一个非常有意思的消息,他们准备采购大量EUV设备。为什么要用EUVDRAM目前只有十几纳米的工艺,用浸没式DUV完全可以胜任,甚至干法DUV也能做到,比如cx采用干法DUV实现了1718纳米。如果采用湿法EUV,可以达到1112纳米的极限。但实际上DRAM并不需要EUV,因为它的工艺与光刻的关联度没有逻辑芯片那么高,更多是与刻蚀相关。

 

因此,海力士采购大量EUV设备其实是出于前瞻性的需求。IO Base Die未来可能会成为新型载体,承担部分计算甚至通讯功能。它可以一端连接主机芯片,另一端直接与外部进行高速SerDes通讯,顶部则是HBM的堆叠。这样IO Base Die就成为通讯的中转蓄水池,同时也是近存计算单元。这也是海力士采购EUV的原因,为了将来能够提供更加定制化、高精度、更小特征尺寸的IO Base Die方案。

 

理论上,定制HBM一定是非常重要的放大器,能够极大提升计算效能。如果配合得当,可以将通讯、HBM存取和高速系统级片上SRAM的读取,通过IO Base Die形成桥梁,从而大幅提升计算效能。因此,3D SRAM和定制HBM这两个概念并不冲突,反而高度配合。这也是费曼引进的核心重点。很多人误解为是在讲HBM堆叠进一步加高等,这其实不是这个意思。

 

英伟达这次也推出了Vera CPURack,如何评价英伟达Vera CPU的竞争力?

 

CPU现在越来越重要,原因首先是针对Agentic AI,本身采用多线程沙箱式计算模式,非常依赖CPU,尤其涉及大量分支预测和条件跳转。其次,在核心AI计算过程中,尤其是在推理阶段,会有很多类似分支和条件的操作,比如专家路由就是典型的分支逻辑结构。这类计算如果交给GPU处理并不具备优势,反而CPU更适合。因此,将CPU嵌入专家路由阶段,与其他计算部件形成良好的耦合,是一个重要课题。

 

CPUGPU之间的互联如果仍采用PCIe,目前英伟达的NVLink C2C连接Vera CPU的总线,本质上也是PCIe传输层协议,只是物理层采用GRS,是英伟达自有的类似NVLink的技术。这种传输方式目前存在瓶颈,CPUGPU之间的通信链路也是瓶颈,只是还未被明确指出。可以预见,未来CPUGPU之间,可能会采用更高速的类似NVLink的链路,甚至进一步提升或更换GRS,采用其他技术解决。例如PCIe第八代单向速度为256GB/s per Lane,双向则为512GB/s

 

因此CPU的存在意义越来越重要,其特点是多核化和多线程化,因为需要同时承载大量线程任务,比如专家路由判定、预编译技术、将计算图变成静态图等,这些编译任务都需要CPU完成,因为编译过程涉及大量复杂分支预测。CPU还承担人机界面载体、智能载体、任务分发、云端任务调度等功能,这些都需要依赖CPU

 

因此,未来CPU的重要性与GPU或其他AI推理专用硬件相比,几乎是平分秋色。推理硬件解决计算问题,CPU则负责人机交互、计算过程调度和任务分配等复杂问题,各司其职。CPU本来就擅长这些任务,而专用硬件则擅长科学计算,两者并不冲突。CPU的前景非常广阔。

 

现在英特尔在意识到这一点后,推出了最新的至强6,采用超多核设计,实际可支持超过1000个线程,极大提升任务调度能力。这就是CPU的重要性。虽然目前还无法完全看到CPU的全部价值,但实际上它非常重要。现有CPU价格上涨也是因为其价值已经被看到。


温馨提示:内容源于第三方以及公开平台,仅供用户参考,恕本平台对内容合法性、真实性、准确性不承担责任。如有异议/反馈可与平台客服联系处理(微信:_LYSD_)。