路演时代

英伟达GTC深度解析——LPX/LPU技术架构与推理经济学新范式

LPX的解决方案、推理任务的解耦——Attention给GPU，FFN给LPX去做，以及LPX可能会是单独的机柜的形式。这种方案具体是怎么实现的？怎么解决GPU和LPU之间的通信问题？

LPX这个方案，从目前英伟达的沟通和反馈来看，并不是一个长期固定的产品，而是一个临时性的解决方案。LPX的核心原理实际上源自Groq的LPU技术，主要包括三项核心技术：

第一，静态编译推理的计算图。通过预先编译和规划，将推理过程中的动态条件分支、存储和访存等操作优化为可预测的执行流程，把计算图完整映射到硬件结构上，按照预定义的时间线执行。这样做的好处是极大提升吞吐量，但灵活性较低，难以应对突发情况，尤其是硬件通信带来的延迟和失同步问题。

第二，芯片结构上的特殊设计。包括专用处理器单元、特殊片上通讯结构和大容量片上缓存，以满足同步映射和有序执行的需求。

第三，软件重定义技术。通过高级编译手段预先定义芯片中各处理单元和存储器的职能，比如推理的Prefill或Decode等。一旦这些职能预设完成，执行过程的加速比非常高。

最重要的是所谓粗粒度可重构加速器，需要大量片上存储或近存计算才能实现。英伟达收购Groq的核心价值就在于这种粗粒度可重构技术和团队能力，而不是简单地将LPU做成产品推向市场。其核心思想是为Rubin这一代架构的演进，解决软件和硬件进化速度不同步的问题。

相关的学术文章也指出，推理算法和范式每隔半年到八个月就会有新的变化，而硬件落地周期较长，导致硬件无法及时匹配最新算法。这也是英伟达一直没有推出专门面向推理的机型的原因。相比之下，CSP可以根据自身业务场景做专用加速器，因为业务需求明确且不需要长期演进。英伟达需要覆盖更广泛的应用场景，因此难以用一种结构包打天下。

Rubin架构通过引入可重构技术，实现芯片职能的灵活切换，满足不同推理场景的需求。GPU的可编程性带来灵活性，但效能有限，因此急需新型结构，通过软件重新定义芯片的专用职能，实现短期或临时场景下的高效推理。LPX结构可以专注于某一职能，解决硬件和软件发展不同步的问题。Groq技术本质上是粗粒度动态加速器，业界还有SambaNova、Cerebras、Tenstorrent、Rebellion AI等公司也在做类似的可重构方案。

LPX本来是Groq的下一代产品，在三星4纳米工艺上开发，片上缓存容量和通讯带宽都有提升，但仍属于机械、刻板的同构加速器阵列，需要模型映射才能发挥作用。其天然局限性使其更适合做FFN阶段的计算，而在Attention和Prefill阶段效能不如GPU。因此，英伟达是根据收购技术的现有能力反向推演系统结构，用Rubin解决Prefill，代替之前的CPX。Prefill是算力和内存密集型，LPX只能解决算力密集，内存容量受限。Rubin带有HBM，适合做Attention计算，因为Attention是Memory Bound的过程。

FFN是大规模矩阵乘加的过程，如果模型权重、参数和KV cache都能够放在本地的话，尤其是模型权重，那么在做乘加矩阵计算时，可以不去读取外部的HBM存储器，在片上的存储器就可以完成模型的矩阵乘加。这样做的速度是极快的，效率是极高的，所以很适合做FFN。因此英伟达是利用LPU的当前特点，推出了一种机架的组织架构。

这里面还有一些问题，比如Rubin机柜和LPX之间的通信，它是通过112G的以太网这种方式进行通信，带宽是有限的。这个通信过程延迟高，有不确定性，而且跟不上计算和存储的速度。解决方案是用多线程切换隐藏延迟来解决通讯带宽不够的问题。

LPU后面还会有一个版本支持NVFP4这种量化格式。现在Nvidia的计算技术中，采用的新的量化精度的4位浮点，这是英伟达自己定义的一种特殊的4位浮点的格式。也就是说如果把模型权重参数重新量化成NV的这种4位浮点格式的话，计算效能会比较高，计算量可以有效降低的同时精度基本没有什么损失。所以为了支持NVFP4，LPU才有一个改版，预计在今年下半年会出。

本质上来讲，LPU是一个小步快跑的东西，它不断地有改版，后面甚至还会有一些改进通讯端口瓶颈的技术。所以严格意义来讲，LPX是NV演进的阶梯，而不是阶段性的终点，因为这些结构都是倒推出来的，是为了解决现有专用推理机型的缺失问题。而英伟达的野心并不是集中在这种阶段性的成果上，其目的是要把LPU技术真正与下一代费曼的GPU技术融合在一起，用单芯片去解决不同任务的切换和定义，再通过片上大容量SRAM的集成，用3D堆叠的方式去获得更高的片上存储器的容量和带宽。这是英伟达的宏观思想。

28年这些关于费曼的idea现在还在探索、验证之中，方向有了，但是具体实施的路径可能有好多种。所以这次英伟达并没有讲述特别多关于费曼结构的特点，而是通过对LPU的细节披露，给大家揭示了一些东西出来。

跨机柜通讯解决方案

关于解决通讯带宽的问题，有提到多线程切换隐藏延迟，这里可以展开讲讲吗？

在服务器系统中承载推理任务时，推理任务本质上是并发多线程的，比如有1000个用户就有1000个推理线程在机器上运行。当Prefill阶段完成后，数据会交给Decode阶段处理，这两个阶段通常都是由Rubin完成的。在系统架构上，Prefill和Decode分别位于机架的上下两层，各占机架的一半。Prefill和Decode之间的数据传输主要是KV Cache的生成和循环读写，最好是在同一个存储域内完成，因此它们通过NVLink互联，将所有Rubin的HBM内存统一为一个大内存区域。这样Prefill完成后可以直接交给Decode中的Attention计算，整个过程在机柜内完成，带宽很高且自洽，比分离式架构更优。

以往的方案是Prefill完成后数据传输到专门的Decode芯片，属于片间传播，甚至有方案是Prefill和Decode分别在不同机柜，通过以太网传输，带宽瓶颈明显。现在英伟达将这个瓶颈在柜内消除，Prefill和Decode之间的交集就是KV Cache存储区域或实体，也是一种逻辑上的上下文。机柜内传输带宽高，基本没有问题，但仍存在一些挑战。

Attention计算完成后，需要进行FFN（前馈网络）的传播，与权重做矩阵乘加，之后还要回到Attention阶段，形成FFN和Attention之间循环往复的过程。实际上，他们依然在同一个存储空间内进行计算，只是这个存储空间不是Cache，而是权重参数。权重参数通过大规模硬件映射被分布到几百个LPX上，因此整体上是一个集体式的计算过程，所有LPX协同完成操作。

Attention计算完成后，数据需要传递到FFN阶段，此时传输速度变慢，因为它们之间通过跨机柜的112G链路连接，而现有链路方案无法满足需求。英伟达的SmartNIC（如CX系列）无法支持，因为不兼容，因此采用了两块Altera FPGA作为通信角色。Altera FPGA在通信能力上表现较好，通过这种方式实现了与NVLink通信算子相关的必要硬件逻辑，使LPX能够融入扩展的通信算子库或计算算子库。这就是他们的实现方式，但通信带宽依然有限。

面对带宽限制，他们采用了多线程切换的方式。数据传输过程中，可以切换到其他线程先行计算，等数据传输完成后再切回继续处理。这样形成了一个流水线结构，在LPX内部，Attention计算采用掩蔽的交替模式：AB面切换，A面计算时B面缓冲，反之亦然。LPX计算过程中，内部存在掩蔽交替结构。

多线程切换本身存在时间开销，但可以利用切换的空档进行数据传输。一次只能计算一个任务，其余任务可以在此期间传输数据，无论是下行还是回传，都是流水线式的互相遮掩过程。理论上，这种系统在推理初期效能不高，受限于通信带宽，但随着推理线程增多，互相掩蔽能力增强，带宽延迟被隐藏。在固定时间内，Token的生成速度依然很快。虽然存在延迟，但通过掩蔽和切换，数据传输延迟被隐藏。

不同推理任务间断不切换，当前看到的Token生成，实际上是前序计算任务通过切换间隔完成的数据传输。整个过程是交替工作的。简单来说，就是多线程切换、隐藏延迟，主要隐藏的是从Rubin机柜到LPX机位传输时的存储和通信延迟。这种方式基本解决了可用性问题，但带宽瓶颈依然突出，稍有不慎就会出现“空泡”问题，即掩蔽不充分导致长时间等待。

为了解决上述问题，需要采用静态图预编译技术。即将大量计算任务预先编译好，完全错开通信时间，使两个机柜的通信互不冲突，从而基本消除延迟。这是预编译的优势，通过排程优化任务顺序。但这也带来挑战，推理场景必须对任务负载有精确定义和宏观把控。

因此，英伟达此次引入了一种类似操作系统的机制，严格意义上称为推理底层操作系统，名为Dynamo。Dynamo本质上是预编译排程器，能够缓存动态推理需求，进行静态转化和排布，映射到系统上，再通过同样机制返回结果。可以理解为一个“大管家”，同时管理大量任务。Dynamo的引入使系统运行更加高效，未来有望持续应用。Agentic AI本身就是多线程、长上下文的任务，因此分支预测和多条件跳转等能力成为基本要求。

Dynamo运行的基座是CPU，需要英伟达自有的Grace CPU承载Dynamo的计算，这类计算主要涉及分支预测、条件转移和多线程排布，而非科学计算。系统的瓶颈和承载点已明确，已知的延迟和开销可以通过通信与计算时间差进行掩蔽。整体来看，这套系统设计精妙，效能很高，尽管存在一些遗憾和缺陷。

如果未来推出NVFP4版本，权重计算能够实现更高精度，执行效能还会进一步提升。在这种情况下，这类机型有可能成为长期存在的产品。但目前来看，市场仍在观望阶段，还没有大规模采购，更多是技术展示。至于未来是否会发展到更细粒度的PAF分离，还需观察行业趋势。谷歌、亚马逊等也在进行类似的预演。

推理经济学新范式

这套方案更适合AgenticAI这种多线程推理任务。随着线程数量增加，带宽掩蔽效果越好，LPU带来的Token生成速度增益会超过系统通信延迟的负面影响，对吗？

这里有一个更深层的理解，称为推理经济学。当前DRAM因AgenticAI推理需求激增变得稀缺且昂贵。英伟达在发布会中隐含的观点是，通过推理硬件结构的演进，缓解对内存容量无休止的需求。这就是推理经济学的核心：通过技术迭代（如Feymann一代的3DSRAM技术），将SRAM从计算芯片片上提取并多层堆叠，类似HBM，实现更高容量。

这样可以将SRAM容量提升到8GB~10GB，远期甚至16GB。对于存储键值或专家模型权重参数来说，这种容量非常有意义，甚至可以存储MoE中某个专家的权重和当前KVCache，而且全部在片内完成，无需访问片外HBM。片上存储的访存延迟极低，达到纳秒级，带宽超过10TB/s，比HBM高一个数量级。这样可以用本地高速带宽快速完成计算。

以往在GPU时代，无论训练还是推理，约三分之一甚至更多时间消耗在数据传输延迟上。现在将存储搬到片上，实现近存计算，存储延迟大幅降低，内存和算力利用率显著提升。利用率提升后，存储容量无需无限扩展。

这可以用餐馆的比喻来说明：如果餐馆有10张桌子，一次只能接待10位客人，每小时翻台一次。如果提高翻台率，一小时可接待20位客人。以往若想接待20人，只能扩建到20张桌子。通过提高翻台率，容量需求下降，从而抑制了内存涨价带来的成本压力。

因此，片上存储和预编译等技术，正是为了解决推理经济学问题，使系统更经济，减少对大容量内存的依赖。片上SRAM由逻辑工艺制造，产能远高于DRAM，工艺更简单，避免了对DRAM的过度依赖。这是非常重要的思路。在推理经济学的支撑下，英伟达的演进路线也更加清晰，目标是提升内存利用率。Groq技术是这一方向的开端，未来Intel等厂商也会采用类似思路去解决问题。

LPX容量与专家路由瓶颈

目前LPX机柜展示的方案为256颗LPU，总SRAM容量128GB。对于IT以上大模型参数，这样的容量能否满足模型权重的存储需求？

确实，容量有限。片上单颗为500MB，256颗合计128GB SRAM。从存储专家权重角度看，这个容量是足够的，可以存储一定数量的专家权重。当前推理计算采用稀疏计算，实际同时激活的都是专家权重，因此128GB对于部分专家权重来说绰绰有余。

但系统规划方式不同，容量利用也不同。比如256个LPX可以分为两个资源分别使用，也可以整合为一个资源。整合后可存储更多专家权重，分开则可支持两个batch size为1的计算，但专家权重数量减少，可能只能存一个或两个专家权重。这取决于静态编译的目标和推理任务的特点。

不同推理场景下，模型激活方式和专家路由策略各异。Vibe coding和信息检索等是典型的Multi- Agent场景，生产力办公类也是Multi- Agent，而音视频生成则对单一权重依赖更强，且具有循环性和长期性。Agent数量越多，激活专家种类越多。batch size较低时，容量利用较好；batch size增加时，专家权重容量需调整。

因此，128GB本质上是不够的。以现在为Feymann做的技术评估为例，3D SRAM单片可集成8~10GB on- chip SRAM。如果是Feymann的200的话，实际上接近20GB。Feymann这一代单tray现在变成了4个计算节点，密度非常高。如果是576机型，每个卡都有20GB容量，所以on- chip SRAM容量非常高，甚至可以直接承载1T参数级的全模型。

现在已经出现了像Kimi的k2这样参数量极大的稀疏计算模型，理论上LPX容量可以承载非常大的模型推理，但会遇到专家路由瓶颈。专家路由需要不断预取和加载对应专家到LPX阵列，因为容量有限，实际参数量远大于LPX机柜容量，专家路由成为瓶颈。

因此未来一个趋势是专家路由分离，把Expert Router做成独立计算结构，这可能用就可以CPU实现，形成Prefill、Attention、专家路由、FFN四段式分离。这种分离体现了计算模式的持续演进。

因此现在LPX系统仍有瓶颈，短板反而更突出。LPX有场景限制，尤其在多专家系统切换时，受限于外部有限带宽（如112GB），在专家切换或加载阶段存在潜在拥塞风险。虽然可以预测和预取，但除非batch size为1才能做完全静态图，否则线程间切换时难以充分预取，导致性能损失。极端情况下，专家路由加载瓶颈可能使效能不如纯GPU运行。

LPU部署形态分析

英伟达不会将LPU作为单独机柜的形式进行交付，而是在Rubin机柜内有LPU板子，LPU板子代替原来的CPX方案。因为Rubin机柜相比GB200性能提升主要在训练场景，对推理场景提升不大。对于云厂商吸引力有限，尤其AMD也在做机架方案且HBM容量更大。如何看待这种观点？

LPU技术确实可以做Prefill，推出时就是全功能推理，可以通过软件重新定义数据流实现高度并行计算模式。如果权重全部映射到单芯片上，就能整体做大参数量的层矩阵层，典型的FFN模式。理论上可以这么做，但Prefill和Decode之间的连接是HBM，也就是HBM Cache。用它做FFN时，通讯瓶颈如何解决？

一个办法是给LPU加NVLink通讯能力，合并到NVLink通讯域，这样可以获得单向1.8T的高带宽，接近HBM。但又引出新问题：英伟达机柜受NVLink电传输特性限制，传输距离短。NVLink优先速度和拓扑能力，放弃传输距离。576机型其实是用Ultra方式，在单个CoWoS内做4片台封实现，理论上不是576，本质还是144，而144是72乘2实现。这意味着Rubin机柜非常拥塞，如果再加入LPU并放到NVLink域，Rubin数量就要减少，高性能Prefill和Decode节点变少，LPU会侵占有限的NVLink超节点数量，这很麻烦。

不同推理场景对Prefill和Decode需求不同，比如VibeCoding场景循环迭代，对Prefill压力极大；视频生成Prefill压力小，Decode压力大，更吃存储。Prefill和Decode配比不是固定的，随推理场景变化，Attention节奏和压力也在变。

如果把LPU放到机架里，无论是独立Tray还是与Rubin临近放在一个Tray上，都会引入配比问题。配比一定是固定的，可能做到Tray里调整相对灵活，比如NVL72的一个Rack里有18个RubinTray，18个LPX Tray，数量可调整。不管怎么搭配，最终数量需要调整。

这种调整说起来容易，但英伟达机架系统虽声称开放，实际上不支持动态抽拉刀片调整数量，Tray一定按比例固定，只能为固定推理场景打造特殊配比的Rack系统，比如Rubin占1/3，LPX占2/3，按Anthropic需求计算精确配比，做Anthropic专用机型，这完全可能，英伟达现在就在和Anthropic推广这种概念。

把它放到Tray里而不是两个机柜，可以很好解决跨机柜传输通讯瓶颈，因为都用NVLink解决。但需要技术演进，把LPX带入NVLink域。不仅是NVFP4支持问题，更重要是结构通讯算子如何映射。现在通过FPGA解决部分通讯算子映射，但并不是通讯部分，还是柜间通讯部分，需要重新定义桥片或用FPGA实现桥片，解决与NVLink对接问题，但FPGA无法实现满速NVLink，需要特殊NVLink Switch，一端接NVLink交换机，另一端适配LPU专有结构，这很复杂，长期性是否好也是问题。

但这种路线确实是一个选项。英伟达也表示这是他们考虑的选项，但并不是最优。真正好的选项是未来Feynman那一代，不再区分Rubin还是LPU，不再区分Prefill、Decode、Attention等，整个机架系统整齐划一都是Feynman，通过软件定义配比和通讯结构拓扑，谁做Prefill、谁做Decode、谁做Attention、谁做专家路由、谁做FFN等，全部软件可定义，实现业界长期追求的动态可重构、软件重定义系统结构的计算范式。这是Feynman一代的目标。

他说的方案其实是介于Rubin和Feynman之间的中间结构，提供一定灵活性，但这种灵活性需要通过换Tray实现，在Tray里调整配比。这已经很近似了。27年GTC上可能会发布LPX进阶版，因为英伟达会做很多方案，动态发展中看哪个适合落地或发布，发布后未必做成产品。CPX就是短命方案，现在已不提。所以即使发布了，最终也要看用户需求。

对于CSP来说，他们非常现实，北美大厂以盈利为唯一目的，甚至不太关心模型演进。有些大厂已经开始躺平，模型上直接套壳Kimi或中国模型。微软典型做法是偷偷用开源模型做优化和支撑补充。对他们来说只要能跑好，不关心是否原创。满足他们是有空间的，微软、Meta在硬件基础设施上做得不好，自己做好也很难，所以可能是英伟达客户。Google、亚马逊有能力引进硬件，也会抄英伟达Idea。本质上这件事他说得对，大厂难伺候。但是要做好需要英伟达做专用定制机型，但专用定制机型涉及NVLink域支持、扩展更好原生适配等复杂问题，这些都是英伟达的负担和成本。是否值得要看需求，有些大厂或独立模型厂商如Anthropic、OpenAI等如果愿意用定制版机架，也是生意，也许会有一定量，但是现在还不好说。

3DSRAM与定制化HBM技术解析

Feynman Roadmap展示中提到3D堆叠定制化HBM，具体如何理解堆叠HBM和堆叠SRAM?

Feynman那张图的技术特点包含两个核心：一是3D堆叠技术，二是定制化开发的HBM技术。可以更细致理解为3D堆叠指SRAM堆叠，定制HBM指定制IO Base Die，这是两个不同产品特征和方向，不冲突。

3DSRAM是把SRAM叠起来，通过TSV技术实现，和HBM类似。在与底下计算Die（Feynman Die）键合时，为解决高通讯密度带宽问题，采用Hybrid bonding技术。这有技术依赖性，3DSRAM堆叠难度很大。SRAM容量天然不倾向高密度，因为晶体管结构本质为逻辑而非SRAM而生。

很多论文指出，若用逻辑工艺做SRAM，理论上应采用深沟槽技术（Deep Trench），晶体管很高很深、很窄很瘦，容量就高，密度大。还有特征尺寸的问题，在特征尺寸上，SRAM到5纳米或4纳米阶段难再缩小，因为有读取放大、敏感放大单元，这些单元难以做小。

在半导体工艺演进上，SRAM在特征尺寸缩小上未占便宜，5纳米是临时deadline，容量密度无法再提高。要再提高需在晶体管结构上做创新。此时的挑战在于5纳米上做SRAM是较安全方案，但容量摸索过程可能会很漫长。SRAM编好后是固定Die size，拼出来形成固定尺寸，也就是Feynman这一代计算Die要适配上面SRAM Die总面积，是反向适配。因为SRAM不太灵活，虽然它可以有一定灵活性，但需互相适应，这是漫长摸索过程。容量做好、业务保证，最终才能做成，这是探索方向。

3D SRAM是stacking部分。Memory的HBM部分指IO Base Die定制HBM（Custom HBM），HBM堆叠后底层IO Die由海力士等厂商做，与主芯片（计算芯片）互联。这里有优化空间，IO Base Die若用先进半导体工艺生产，可容纳晶体管和很多逻辑单元，有些需要存储紧密关联的计算单元或步骤，可以做近存计算甚至存内计算，因为它们叠在一起。

可以基本上将其认定为存内计算，或者称为近存计算会更科学和准确一些。如果存内计算单元放在IO Base Die上，比如Attention算子，它本质上是高密度存取DRAM。如果将其部署在Base Die上，有些算子可以提前完成计算，然后直接将结果传递出去，这样计算效能会大幅提升。因此，定制HBM自去年（2025年）开始成为非常重要且主流的设计思路，尤其是HBM4E时代，定制HBM已成为标配方案。

海力士最近有一个非常有意思的消息，他们准备采购大量EUV设备。为什么要用EUV？DRAM目前只有十几纳米的工艺，用浸没式DUV完全可以胜任，甚至干法DUV也能做到，比如cx采用干法DUV实现了17、18纳米。如果采用湿法EUV，可以达到11、12纳米的极限。但实际上DRAM并不需要EUV，因为它的工艺与光刻的关联度没有逻辑芯片那么高，更多是与刻蚀相关。

因此，海力士采购大量EUV设备其实是出于前瞻性的需求。IO Base Die未来可能会成为新型载体，承担部分计算甚至通讯功能。它可以一端连接主机芯片，另一端直接与外部进行高速SerDes通讯，顶部则是HBM的堆叠。这样IO Base Die就成为通讯的中转蓄水池，同时也是近存计算单元。这也是海力士采购EUV的原因，为了将来能够提供更加定制化、高精度、更小特征尺寸的IO Base Die方案。

理论上，定制HBM一定是非常重要的放大器，能够极大提升计算效能。如果配合得当，可以将通讯、HBM存取和高速系统级片上SRAM的读取，通过IO Base Die形成桥梁，从而大幅提升计算效能。因此，3D SRAM和定制HBM这两个概念并不冲突，反而高度配合。这也是费曼引进的核心重点。很多人误解为是在讲HBM堆叠进一步加高等，这其实不是这个意思。

英伟达这次也推出了Vera CPU的Rack，如何评价英伟达Vera CPU的竞争力？

CPU现在越来越重要，原因首先是针对Agentic AI，本身采用多线程沙箱式计算模式，非常依赖CPU，尤其涉及大量分支预测和条件跳转。其次，在核心AI计算过程中，尤其是在推理阶段，会有很多类似分支和条件的操作，比如专家路由就是典型的分支逻辑结构。这类计算如果交给GPU处理并不具备优势，反而CPU更适合。因此，将CPU嵌入专家路由阶段，与其他计算部件形成良好的耦合，是一个重要课题。

CPU与GPU之间的互联如果仍采用PCIe，目前英伟达的NVLink C2C连接Vera CPU的总线，本质上也是PCIe传输层协议，只是物理层采用GRS，是英伟达自有的类似NVLink的技术。这种传输方式目前存在瓶颈，CPU和GPU之间的通信链路也是瓶颈，只是还未被明确指出。可以预见，未来CPU与GPU之间，可能会采用更高速的类似NVLink的链路，甚至进一步提升或更换GRS，采用其他技术解决。例如PCIe第八代单向速度为256GB/s per Lane，双向则为512GB/s。

因此CPU的存在意义越来越重要，其特点是多核化和多线程化，因为需要同时承载大量线程任务，比如专家路由判定、预编译技术、将计算图变成静态图等，这些编译任务都需要CPU完成，因为编译过程涉及大量复杂分支预测。CPU还承担人机界面载体、智能载体、任务分发、云端任务调度等功能，这些都需要依赖CPU。

因此，未来CPU的重要性与GPU或其他AI推理专用硬件相比，几乎是平分秋色。推理硬件解决计算问题，CPU则负责人机交互、计算过程调度和任务分配等复杂问题，各司其职。CPU本来就擅长这些任务，而专用硬件则擅长科学计算，两者并不冲突。CPU的前景非常广阔。

现在英特尔在意识到这一点后，推出了最新的至强6，采用超多核设计，实际可支持超过1000个线程，极大提升任务调度能力。这就是CPU的重要性。虽然目前还无法完全看到CPU的全部价值，但实际上它非常重要。现有CPU价格上涨也是因为其价值已经被看到。

温馨提示：内容源于第三方以及公开平台，仅供用户参考，恕本平台对内容合法性、真实性、准确性不承担责任。如有异议/反馈可与平台客服联系处理（微信：_LYSD_）。