登录路演时代
忘记密码
忘记密码
忘记密码
欢迎注册路演时代
已有账号?马上登陆
​ISsCC 2026 综述: NVIDIA 与博通 CPO, HBM4 与 LPDDR6、台积电 Active LSI、逻辑基 SRAM、UCIe-S 等
发布来源: 路演时代 时间: 2026-04-16 11:07:16 0

ISsCC 2026 综述: NVIDIA 与博通 CPO, HBM4 与 LPDDR6、台积电 Active LSI、逻辑基 SRAM、UCIe-S 等


每年有三场主要的半导体会议: IEDM、VLSI 以及最后的 ISsCC。  

在过去的几年里, 我们已经详细报道了前两场。  

今天, 随着我们对 ISsCC 2026 的综述, 我们终于完成了这一“三位一体”的报道。


与 IEDM 和 VLSI 相比, ISsCC 更加侧重于集成和电路。  

几乎每篇论文都附带某种形式的电路图, 以及明确的测量结果和数据。


在往年,ISSCC 的研究成果在行业影响力方面表现参差不齐。  

但今年有所不同,大量的论文和演讲都与市场趋势直接相关。  

涵盖的主题从 HBM4、LPDDR6、GDDR7 和 NAND 的最新进展,  

到共封装光学(CPO)、先进的片间(die-to-die)接口,  

以及来自 MediaTek、AMD、Nvidia 和 Microsoft 等公司的先进处理器。


在此次综述中,我们将涵盖存储器、光网络、高速电学互连以及处理器等主要类别。


Memory 存储器


在今年的 ISSCC 上,引起我们关注的一个关键主题是存储器,  

包括三星 HBM4、三星和 SK Hynix 的 LPDDR6,以及 SK Hynix 的 GDDR7。  

除了 DRAM 之外,基于逻辑的 SRAM 和 MRAM 也引起了我们的兴趣。


---


Samsung HBM4 - Paper 15.6


三星 HBM4 - 论文 15.6


三星是三大存储器厂商中唯一一家提交关于 HBM4 技术论文的公司。  

在 ISSCC 之前,我们在 Accelerator&HBM 模型中就已指出,  

三星在 HBM4 代际上较其 HBM3E 有了巨大改进。  

ISSCC 上展示的数据证实了我们的分析,三星展示了同类最佳的性能——  

我们在几个月前的模型更新说明中也详细阐述了这一进展。


在 ISSCC 上展示的技术细节,结合我们收集到的行业传闻,  

清楚地表明三星的 HBM4 与同行相比具有竞争力。  

值得注意的是,它可以在保持低于 1V 电压的同时,满足 Rubin 所需的引脚速度。  

虽然三星在可靠性和稳定性方面仍落后于 SK 海力士,  

但该公司在缩小技术差距方面取得了实质性进展,  

并可能挑战 SK 海力士在 HBM 领域的霸主地位。  

他们基于 1c 工艺的 HBM4 搭配 SF4 逻辑基础底片(logic base die),  

似乎在引脚速度上表现出更强的性能。


三星 HBM3E 与 HBM4 规格对比。来源:三星,ISSCC 2026


三星 HBM4 芯片照片及横截面图。来源:三星,ISSCC 2026


三星展示了一个 36 GB、12 层堆叠的 HBM4 样品,  

具有 2048 个 IO 引脚和 3.3 TB/s 的带宽,  

采用第六代 10 纳米级(1c)DRAM 核心颗粒与 SF4 逻辑基础底片制造而成。


从 HBM3E 到 HBM4 最明显的架构变化是  

核心 DRAM 堆栈 (core dies) 与基础底座 (base die) 之间的工艺技术分离。  

HBM4 仅在核心堆栈上使用 DRAM 工艺节点,  

而基础底座则采用先进的逻辑工艺节点制造,  

这与以往几代 HBM 在两者上使用相同工艺的做法不同。


随着 AI 工作负载对 HBM 提出更高的带宽和更大数据速率的需求,  

关键的架构挑战也随之而来。  

通过将基础底座迁移至 SF4 逻辑工艺,三星实现了更高的运行速度和更低的功耗。  

其工作电压 (VDDQ) 从 HBM3E 的 1.1V 下降了 32%,  

在 HBM4 中降至 0.75V。  

与基于 DRAM 工艺制造的基础底座相比,  

基于逻辑工艺的基础底座提供了更高的晶体管密度、更小的器件尺寸,  

并且由于晶体管更小以及可用的金属层堆栈更多,其面积效率也更高。  

这有助于三星的 HBM4 达到并显著超越 JEDEC 的 HBM4 标准,  

我们将在本节末尾对此进行详细解释。


三星 HBM4 自适应体偏置控制与工艺偏差。来源:Samsung,ISSCC 2026


结合自适应体偏置(ABB)控制(该技术可减轻堆叠核心芯片间的工艺偏差),  

翻倍的 TSV 数量进一步提升了时序裕量。  

三星的论文称,ABB 与 4 倍的 TSV 数量共同作用,  

使其 HBM4 能够实现高达每引脚 13 Gb/s 的运行速度。


SF4 基础底片(base die)和 1c DRAM 核心底片带来的性能提升也伴随着权衡。  

三星选择 SF4 作为逻辑基础底片,其成本高于竞争对手的方案,  

尽管 Samsung Foundry 可以为其内部基础底片的使用提供折扣。  

SK Hynix 的 HBM4 基础底片采用了 TSMC 的 N12 逻辑工艺,  

而 Micron 则依赖其内部的 CMOS 基础底片技术,  

即便考虑到垂直整合的成本优势,  

这两者的成本都低于接近领先节点的 SF4 节点。


1c 前端制造工艺在整个 2025 年对三星来说都极具挑战,  

特别是考虑到该公司跳过了 1b 节点,  

直接从基于 1a 的 HBM3E 跨越到 1c 世代。  

去年 1c 节点的前端良率仅为 50% 左右,尽管随着时间的推移正在逐步改善。  

较低的良率对其 HBM4 的利润率构成了风险。


从历史上看,三星 HBM 的利润率一直低于其顶级竞争对手 SK 海力士,  

我们在内存模型中对所有供应商的这一动态进行了全面建模。  

我们详细列出了各供应商在不同节点下的 HBM、DDR 和 LPDDR 的  

晶圆出货量、良率、密度、销售成本(COGS)等数据。


三星的策略似乎是激进地在基础底片(base die)上采用更先进的工艺节点,  

以实现卓越的性能并超越竞争对手,  

尤其是在 NVIDIA 等主要客户对 HBM 的要求持续提高的情况下。


HBM 另一个需要解决的关键问题是 tCCDR,  

即在不同堆栈 ID(SID)之间发出连续读取(READ)命令所需的最小间隔。  

对于严重依赖多通道并行内存访问的 AI 工作负载,  

tCCDR 直接影响可实现的内存吞吐量。


在堆叠 DRAM 架构中,多个核心裸片(core dies)垂直集成在基础裸片(base die)之上。  

由于核心裸片与基础裸片之间的工艺偏差、TSV 传播差异以及局部通道变化等因素,  

这自然会在整个堆叠层中引入微小的延迟差异。


堆叠高度的增加以及通道数从 16 个增加到 32 个,进一步加剧了这一挑战。  

随着通道数和堆叠高度的增加,芯片之间的差异不断累积,  

导致跨通道和跨芯片的时序失配增大,  

从而影响了可实现的 tCCDR 和 HBM 的整体性能。


三星 HBM4 每通道 TSV RDQS 自动校准方案。来源:Samsung, ISSCC 2026


为了解决这一问题,三星推出了一种  

“每通道 TSV RDQS 定时自动校准方案”。  

系统在通电后,会利用一个镜像真实信号路径定时行为的副本 RDQS 路径,  

来测量各通道间的延迟变化。  

时间数字转换器 (TDC) 会对定时差异进行量化,  

随后通过每个通道的延迟补偿电路 (DCDL) 进行补偿。


这种校准同时考虑了堆叠核心芯片之间的全局延迟变化以及每个通道的局部变化,  

从而实现了整个堆栈的时序对齐。  

通过补偿这些失配,三星在保持所需的 tCCDR 约束的同时,  

显著提高了有效时序裕量并提升了可实现的最高数据速率。  

仅这一方案就将数据速率从 7.8Gb/s 提升到了 9.4Gb/s。


一些精通内存技术的读者可能会问:  

哪里有足够的芯片面积来容纳大幅增加的 TSV 数量?  

这正是 1c 节点变得至关重要的原因。  

与之前的 1a 节点相比,1c 进一步缩小了 DRAM 单元面积,  

从而释放了芯片空间,可用于集成 HBM4 所需的大量 TSV。


三星 HBM4 PMBIST 与 HBM3E MBIST 对比。来源:三星,ISSCC 2026


逻辑基础底层的另一项关键创新是三星的  

可编程内存内置自检(PMBIST)架构。  

PMBIST 允许基础底层生成完全可编程的内存测试模式,  

同时支持完整的 JEDEC 行和列命令集,  

这意味着测试引擎可以发出与真实系统相同的命令,  

并能在任何时钟沿以全接口速度执行。  

在实际应用中,这使得工程师能够复制复杂的真实世界内存访问模式,  

并在真实的运行条件下对 HBM 接口进行压力测试,  

而这对于传统的固定模式测试引擎来说是难以实现的。


这种方法代表了与 HBM3E 的显著不同。  

如前所述,HBM3E 的基础底层是采用 DRAM 工艺制造的,  

这给 MBIST(内存内置自检)引擎带来了严格的功耗和面积限制;  

考虑到 DRAM 相对于逻辑工艺在功耗和面积上的天然劣势,  

测试仅限于一小部分预定义的模式。  

通过将基础底层迁移到三星晶圆代工厂的 SF4 逻辑工艺,  

三星实现了一个完全可编程的测试框架,  

能够运行复杂的测试算法和灵活的访问序列。


这使得 HBM 的调试更加稳健,并能更好地学习如何提高良率。  

工程师可以创建针对性的压力模式,以验证 tCCDR 和 tCCDS 等关键时序参数,  

在制造早期识别极端情况下的故障,  

并加速晶圆级封装(CoW)和系统级封装(SiP)测试期间的特性分析。  

简而言之,随着 HBM 堆栈变得日益复杂且运行速度不断提高,  

PMBIST 提高了测试覆盖率、调试效率,并最终提升了生产良率。


三星 HBM4 Shmoo 图。来源:三星,ISSCC 2026


三星也展示了强劲的引脚速度结果——  

其 HBM4 在低于 1V 的核心电压(VDDC)下能够达到 11Gb/s,  

在更高电压下则可达 13Gb/s。  

尽管三星的同行拥有更好的可靠性和稳定性,  

但我们尚未看到它们展示出相当的性能。


三星的实现方案显著超越了官方 JEDEC HBM4 标准(JESD270-4)的基准规范,  

该标准规定的最大引脚数据速率为 6.4 Gb/s,带宽约为 2 TB/s。  

三星展示了超过 JEDEC 标准两倍的引脚速度,  

达到每引脚 13 Gb/s,并提供 3.3 TB/s 的带宽。  

即使在 VDDC/VDDQ 分别为 1.05V 和 0.75V 的情况下,  

该器件仍能维持 11.8 Gb/s 的数据速率。


三星和 SK 海力士都展示了其 LPDDR6 芯片。  

我们将先讨论三星的芯片,稍后再转向 SK 海力士。


LPDDR5X 与 LPDDR6 对比。来源:Samsung,ISSCC 2026


 Samsung LPDDR6 - Paper 15.8


三星展示了其 LPDDR6 架构,并详细介绍了所采用的节能技术。


LPDDR6 子通道与 Bank 结构。来源:Samsung,ISSCC 2026


LPDDR6 采用了每颗芯片(die)2 个子通道的架构,每个子通道包含 16 个 bank。  

它还具有两种模式:正常模式和效率模式。  

在效率模式下,次级子通道会断电,由主子通道控制所有 32 个 bank。  

然而,访问次级子通道中的数据会产生延迟惩罚。


双子通道架构也意味着外围电路(如指令解码器、串行化和控制电路)的数量增加了一倍。  

从三星和 SK 海力士提供的芯片照片来看,  

这一代价约占芯片总面积的 5%,  

从而导致每片晶圆的总位(bits)数有所减少。


LPDDR6 信号传输方案选择。来源:Samsung,ISSCC 2026


与使用 PAM3 信号传输的 GDDR7 不同,LPDDR6 将继续使用 NRZ。  

然而,它并未使用标准的 NRZ,因为其眼图将没有足够的余量。  

它采用了宽位 NRZ(wide NRZ),  

每个子通道拥有 12 个数据(DQ)引脚,且每次操作的突发长度为 24。


LPDDR6 元数据和每个突发传输的 DBI 位分配。来源:Samsung,ISSCC 2026


对于那些正在计算的人来说,12×24 等于 288,并不是 2 的幂。  

剩余的 32 位被分为两种用途:  

16 位用于 ECC 等元数据,另外 16 位用于数据总线倒置(DBI)。


DBI 是一种节能和信号完整性机制。  

在发送突发传输(burst)之前,控制器会检查与上一次突发相比,  

是否有一半以上的位会切换状态。  

如果是,控制器将翻转所有位并设置 DBI 标志,  

以便接收端知道需要再次翻转它们来获取实际数据。  

这限制了同时切换输出的最大数量不超过总线宽度的一半,  

从而降低了功耗和电源噪声。


要计算有效带宽,你必须像这样考虑这些元数据和 DBI 位:  

带宽 = 数据速率 × 宽度 (24 b) × 数据 (32 b) / 数据包 (36 b)。


对于 12.8 Gb/s,你可以获得 34.1 GB/s;  

对于 14.4 Gb/s,你可以获得 38.4 GB/s。


Samsung LPDDR6 高频电源域优化。来源:Samsung,ISSC 2026


LPDDR6 具有两个恒定功率域,分别是 0.875V 的 VDD2C 和 1.0V 的 VDD2D。  

通过精心选择外围逻辑所使用的功率域,  

读取功耗降低了 27%,写入功耗降低了 22%。


三星 LPDDR6 在低数据速率下的 I/O 功率切换。来源:三星,ISSCC 2026


三星 LPDDR6 附加低功耗 DQ/CA 路径。来源:Samsung,ISSCC 2026


LPDDR 主要在 3.2 Gb/s 及以下的低数据速率空闲状态下使用。  

三星通过谨慎使用电压域,重点致力于降低这些低数据速率下的功耗,  

从而减少了待机以及读/写功耗。


LPDDR6 RDL 时序和布局优势。来源:Samsung,ISSCC 2026


通过使用重布线层(RDL),三星可以将相关电路在物理位置上放置得更近。  

这缩短了关键延迟路径,并降低了它们对电压和温度变化的敏感度。  

在 LPDDR6 的高频环境下,更严苛的时序控制和更小的偏差波动至关重要。


Samsung LPDDR6 规格与芯片照片。来源:Samsung,ISSCC 2026


Samsung LPDDR6 Shmoo Plot。来源:Samsung, ISSCC 2026


三星的 LPDDR6 在 0.97V 电压下数据传输速率可达 12.8Gb/s,  

在 1.025V 下最高可达 14.4Gb/s。  

每个 16 Gb 晶粒的面积为 44.5mm²,  

在某种未知的 10 纳米级工艺上实现了 0.360Gb/mm² 的密度。  

这显著低于 1b 工艺上 LPDDR5X 的 0.447Gb/mm² 密度,  

仅略高于 1a 工艺上 LPDDR5X 的 0.341Gb/mm² 密度。  

虽然双子通道架构带来的面积惩罚是原因之一,但 LPDDR6 似乎还存在其他问题。  

从描述的内存密度来看,我们认为这款 LPDDR6 原型芯片是采用其 1b 工艺制造的。


 Samsung SF2 LPDDR6 PHY - Paper 37.3


 三星 SF2 LPDDR6 PHY - 论文 37.3


Samsung LPDDR6 PHY 测试芯片规格及显微照片。来源:Samsung,ISSCC


Samsung 还展示了与 LPDDR6 连接的逻辑芯片接口 PHY。  

这些 PHY 采用其全新的 SF2 工艺制造,支持高达 14.4Gb/s 的速率。  

该 PHY 占用 2.32 毫米的岸线长度和 0.695 平方毫米的面积,  

带宽密度分别为 16.6Gb/s/mm 和 55.3Gb/s/mm²。


Samsung LPDDR6 PHY 效率模式功耗降低。来源:Samsung,ISSCC 2026


这些 PHY 还支持 LPDDR6 芯片实现的效率模式,  

可将读取功耗降低 39%,写入功耗降低 29%。  


PHY 可以通过对非活动次级子通道的高速时钟路径进行门控来增强效率模式。  

通过时钟门控,读写的功耗降低幅度接近 50%,待机功耗降低了 41%。


SK Hynix 1c LPDDR6 - Paper 15.7


SK Hynix 1c LPDDR6 - 论文 15.7


SK Hynix LPDDR6 规格与显微照片。来源:SK Hynix,ISSCC 2026


SK 海力士展示了其首批 1c DRAM 产品,包括 LPDDR6 和 GDDR7 封装。  

其 LPDDR6 的数据传输速率高达 14.4 Gb/s,  

比最快的 LPDDR5X 快 35%,且功耗更低。


虽然 SK 海力士并未说明 LPDDR6 芯片的面积或密度,  

但根据其 GDDR7 的相对密度增幅,我们估计其位密度将达到 0.59Gb/mm²。


SK Hynix LPDDR6 Shmoo Plot。来源: SK Hynix, ISSCC 2026


在他们的 shmoo plot 中,SK Hynix 展示了其在 1.025V 电压下可以达到 14.4 Gb/s 的数据速率,与 Samsung 持平。  

然而,在 0.95V 时,SK Hynix 仅能达到 10.9 Gb/s,  

而 Samsung 在 0.97V 时即可达到 12.8 Gb/s。  

这表明,与 Samsung 相比,SK Hynix 在较低的引脚速度下功耗效率可能较差,  

必须在更高的电压下运行以维持可靠性。


SK Hynix LPDDR6 效率模式架构。来源:SK Hynix,ISSCC 2026


SK Hynix LPDDR6 效率模式节能效果。来源:SK Hynix,ISSCC 2026


与三星的 LPDDR6 类似,SK 海力士的 LPDDR6 也具备两种模式:正常模式和效率模式。  

效率模式在单个子通道上的运行速率为 12.8Gb/s,  

与正常模式相比,其待机电流和运行电流分别降低了 12.7% 和 18.9%。


 SK Hynix 1c GDDR7 - Paper 15.9


SK 海力士 1c GDDR7 - 论文 15.9


SK Hynix 1c GDDR7 规格与芯片照片。来源:SK Hynix, ISSCC 2026


虽然 LPDDR6 是采用新内存技术的代际飞跃,  

但 SK 海力士基于 1c 工艺的 GDDR7 表现出了更大的进步,  

在 1.2V/1.2V 电压下频率高达 48 Gb/s。  

即使在仅为 1.05V/0.9V 的电压下,其速率也能达到 30.3 Gb/s,  

高于 RTX 5080 中搭载的 30 Gb/s 内存。


三星 1z GDDR7 Shmoo Plot 与芯片显微照。来源:三星,ISSCC 2024


三星 1b GDDR7 规格与芯片照片。来源:三星,ISSCC 2025


其实现的位密度为 0.412Gb/mm²,  

相比之下,三星 1b 工艺的位密度为 0.309Gb/mm²,  

而三星较旧的 1z 工艺则为 0.192Gb/mm²。


各厂商 LPDDR5X 与 GDDR7 密度对比。来源:SemiAnalysis


GDDR7 的位密度低于 LPDDR5X,通常约为后者的 70%。  

虽然它具有更高的数据传输速率,但这是以功耗和面积为代价的。


GDDR7 的较低密度是由于为了实现高访问速度而显著增加了外围区域面积所致。  

因此,实际的存储阵列在芯片面积中所占的比例较小。  

GDDR7 中使用的 PAM3 和 QDR(每个时钟周期 4 个符号)信号传输需要这种更复杂的逻辑控制电路。


GDDR7 主要用于游戏 GPU 应用,  

与 HBM 相比,它能以更低的成本和容量提供高内存带宽。  

NVIDIA 曾宣布在 2025 年推出配备 128GB GDDR7 的 Rubin CPX 大上下文 AI 处理器,  

但随着 NVIDIA 转向专注于推出其 Groq LPX 解决方案,  

这一计划几乎已从 2026 年的路线图中消失。


我们在针对不同节点的 HBM、DDR 和 LPDDR 的内存模型中,  

详细列出了晶圆产量、良率、密度、销售成本(COGS)等数据。


---


## Samsung 4F2 COP DRAM - Paper 15.10


三星 4F2 COP DRAM - 论文 15.10


我们已经广泛探讨了持续扩展 DRAM 所面临的挑战。


内存墙:DRAM 的过去、现在与未来


在 VLSI 2025 大会上,SK Hynix 详细介绍了其 4F² Peri-Under-Cell (PUC) DRAM。  

在 ISSCC 上,三星披露了其 4F² Cell-on-Peripheral (COP) DRAM 的具体实现。  

PUC 和 COP 是同一种架构的不同名称。


4F² VCT DRAM 单元架构。来源:Samsung,ISSCC 2026


4F² 单元的架构与 SK 海力士 (SK Hynix) 相同,  

采用垂直通道晶体管 (VCT),且电容器位于漏极上方。


三星展示的垂直架构与 SK 海力士所使用的架构基本相同,  

即通过混合键合将存储单元晶圆堆叠在周边电路晶圆之上。  

通过这种架构,存储单元晶圆可以采用 DRAM 工艺节点,  

而周边电路则可以使用更先进的逻辑工艺节点。


DRAM 与 NAND 的 COP 架构比较。来源:Samsung,ISSCC 2026


三星指出,用于 COP 的混合键合技术已经应用于 NAND。  

对于其他 NAND 制造商来说确实如此,  

但 Samsung 尚未将用于 NAND 的混合键合技术投入大规模量产,  

且距离实现这一目标仍有数年之遥。


此外,DRAM 的晶圆间连接数量比 NAND 高出一个数量级,并且需要更紧密的间距。  

为了减少晶圆间互连的数量,Samsung 采用了两种创新的方法。


COP 偶数/奇数列选择 MUX 优化。来源: Samsung, ISSCC 2026


首先,他们将子字线驱动器(SWD)从每个单元块 128 个重新组织为 16 组,每组 8 个。  

这使 SWD 所需的信号数量减少了 75%。


接下来,他们将列选择拆分为偶数和奇数路径。  

这虽然需要两倍的复用器(MUX),  

但将每个数据引脚的列选择线(CSL)数量减半至 32 条。


COP 核心电路布局位于单元阵列下方。来源:Samsung,ISSCC 2026


通过混合键合技术,核心电路(即位线感测放大器(BLSA)和分段字线驱动器(SWD))  

可以放置在存储单元阵列下方。  

其目标是使核心电路占据与单元阵列相同的面积,从而提高整体密度。


COP 核心电路布局选项。来源:Samsung,ISSCC 2026


三星采用了“三明治”结构,  

这使他们能够最大限度地提高核心电路的面积效率,  

并减少不处于任何单元下方的边缘区域面积。


COP 三明治结构面积效率。来源:Samsung,ISSCC 2026


核心电路所占用的面积从 17.0% 大幅降至仅 2.7%,  

这一显著改进直接转化为整体芯片尺寸的缩小。


在传统 DRAM 中,增加每条位线的单元数量会导致芯片面积大幅增加;  

而对于 VCT DRAM,由于核心电路全部位于单元下方,  

这种增加几乎可以忽略不计。


Samsung 4F2 COP DRAM 摘要与芯片照片。来源:Samsung,ISSCC 2026


三星并未提供该芯片的任何密度数据,  

仅表示这是一款采用 10nm DRAM 工艺的 16Gb 芯片。


三星指出,VCT DRAM 受到浮体效应的影响,  

导致漏电流增加并缩短了数据保持时间。  

减轻这一效应仍然是采用 4F² 架构所面临的关键挑战。


尽管面临这些挑战,我们仍预计 4F² 混合键合 DRAM 将在 2030 年代后期到来,  

最早可能出现在 1d 之后的下一代产品中。  

我们的内存模型详细追踪了每个节点的发布时间和产能爬坡情况。  

当前的内存定价格局在很大程度上激励了具有更高位密度的全新节点的引入和产能提升,  

以提高每个晶圆厂的位产出。  

另一方面,在许多应用场景中,内存的性能价格比(performance/$)比容量更受青睐。


---


## SanDisk/Kioxia BiCS10 NAND - Paper 15.1


## SanDisk/Kioxia BiCS10 NAND - 论文 15.1


SanDisk 和 Kioxia 展示了其 BiCS10 NAND,  

具有 332 层和 3 层堆叠结构。  

这是目前已报道的最高 NAND 位密度,达到 37.6Gb/mm²,  

取代了之前的冠军——SK 海力士的 321L V9。


尽管采用了类似的 6-plane、3-deck 架构以及相近的层数,  

SK Hynix 仍处于落后地位,其位密度低了 30%。  

在 QLC 配置下,BiCS10 的位密度为 37.6Gb/mm²,  

而 SK Hynix 的 V9 位密度仅为 28.8Gb/mm²。  

而在 TLC 配置下,两者的密度分别为 29 和 21Gb/mm²,  

这是 SK Hynix 处于追赶地位的又一例证。


1x6 配置的接地焊盘较少,面积减少了 2.1%。  

然而,接地焊盘和垂直电源轨数量的减少限制了配电网络。


通过采用 CBA(电路键合阵列)架构,  

SanDisk 和 Kioxia 能够定制 CMOS 晶圆工艺。  

通过并行增加另一层顶层金属层,  

他们构建了更强大的电源网络,并克服了配电方面的限制。


多芯片 NAND 空闲功耗惩罚与芯片门控解决方案。  

来源:SanDisk/Kioxia, ISSCC 2026


堆叠更多晶圆对于提高存储密度至关重要。  

然而,在多晶圆架构中,  

未选中晶圆的待机电流正趋近于选中晶圆的工作电流。  

SanDisk 实施了一种门控系统,  

可完全关闭未选中晶圆的数据通路,  

从而将待机电流降低了两个数量级。


---


## MediaTek xBIT Logic-based Bitcell - Paper 15.2


MediaTek xBIT 基于逻辑的比特单元 - 论文 15.2


跨节点 SRAM HC 位单元密度与基于逻辑的 MBFF 对比。  

来源:MediaTek, ISsCC 2026


SRAM 缩放已经陷入停滞。  

尽管从 N5 到 N2 逻辑区域面积减少了 40%,  

但 8 晶体管高电流 SRAM 位单元的面积仅减少了 18%。  

6 晶体管高电流 (6T-HC) 位单元的情况甚至更糟,仅减少了 2%。  

辅助电路的缩放程度虽然更高,但天下没有免费的午餐。


众所周知,N3E 的高密度比特单元(bitcell)相比 N3B 有所退步,  

回落到了 N5 的密度水平。  

在本文中,联发科(MediaTek)对高电流比特单元进行了说明。  

N3E 的高电流比特单元面积比 N5 增加了 1-2%。  

其密度从约 39.0 Mib/mm² 下降至约 38.5 Mib/mm²。  

请注意,这些数据并未计入辅助电路的开销。


遵循逻辑规则的 8T 位单元 NMOS/PMOS 布局挑战。  

来源:联发科 (MediaTek), ISSCC 2026


MediaTek 10T xBIT 平衡位元单元电路设计。  

来源:MediaTek,ISSCC 2026


在现代逻辑节点中,  

6T 位单元拥有 4 个 NMOS 和 2 个 PMOS 晶体管,  

而 8T 位单元则分别拥有 6 个和 2 个。  

NMOS 和 PMOS 晶体管数量的不等需要专门的规则,并导致布局效率降低。  

联发科(MediaTek)的新型位单元是一种名为 xBIT 的 10 晶体管单元,  

具有 4 个 NMOS 和 6 个 PMOS 晶体管,或反之亦然。  

这两种变体位单元可以共同排列成一个包含 20 个晶体管的矩形块,  

用于存储 2 个比特。


xBIT 与代工厂 8T 密度及功耗对比。来源:MediaTek,ISSCC 2026


与 PDK 的标准 8T 位单元相比,xBIT 的密度提高了 22% 至 63%,  

其中在较低字线宽度下增益最为显著。  

功耗也得到了极大改善,  

平均读/写功耗降低了 30% 以上,  

在 0.5V 下漏电降低了 29%。  

在 0.9V 时,其性能与 8T 位单元相似;  

而在 0.5V 时,尽管比 8T 位单元慢 16%,  

但其速度足以不成为处理器的瓶颈,  

且电压范围足够大,可支持电压频率调节。


xBIT Shmoo Plot。来源: MediaTek, ISSCC 2026


MediaTek 还展示了 xBIT 单元的 shmoo plot 图,  

其频率从 0.35V 下的 100MHz 一直提升到 0.95V 下的 4GHz。


我们将在接下来的时事通讯文章中深入探讨 SRAM 及其缩放因子。


---


## TSMC N16 MRAM - Paper 15.4


台积电 N16 MRAM - 论文 15.4


台积电在 N16 节点上展示了更新后的 STT-MRAM,  

这是基于其在 ISSCC 2023 上发表的早期成果。  

台积电将 MRAM 定位为嵌入式非易失性存储器(eNVM),  

用于汽车、工业和边缘应用,  

这些领域不需要最先进的工艺技术,而是更看重可靠性。


TSMC N16 MRAM 设计特性与芯片布局图。来源:TSMC,ISSCC 2026


该 MRAM 具备双端口访问功能,因此可以同时进行读取和写入操作——  

这对于汽车领域的无线下载(OTA)更新至关重要,  

因为系统在写入固件时不能停止读取。


台积电 N16 MRAM 在 -40°C 和 150°C 下的 Shmoo 图。  

来源:台积电,ISSCC 2026


它具有跨模块的交织读取功能,并配有独立时钟,  

在 200MHz 频率下将吞吐量提升至 51.2Gb/s。  

在硅片上,该 84Mb 宏单元在 0.8V 电压下,  

于 -40°C 至 150°C 范围内实现了 7.5ns 的读取访问时间。


台积电 N16 MRAM 模块化宏架构。来源:台积电,ISSCC 2026


该架构采用模块化设计——  

可配置为 16 Mb、8 Mb 和 2 Mb 模块,  

并可组合成 8 Mb 到 128 Mb 的宏单元。  

通过将大型 16 Mb 模块与少量较小的 2 Mb 和 8 Mb 模块相结合,  

可以根据任何设计的需求对容量进行微调。  

例如,5 个 16 Mb 模块和 2 个 2 Mb 模块即可组成一个 84 Mb 的宏单元。


TSMC N16 MRAM 耐久性与可靠性。来源:TSMC,ISSCC 2026


如前所述,可靠性是嵌入式 MRAM 的生死线。  

在 -40°C 下经过 100 万次耐久性循环后,  

硬错误率仍远低于 0.01 ppm,完全处于 ECC 纠错范围之内。  

在 150°C 下,典型读取电压下的读取干扰低于 10^{-22} ppm,  

实际上可以忽略不计。  

这款 168 Mb 测试芯片通过了回流焊测试,  

并支持在 150°C 下保持 20 年的数据留存,  

满足了严苛的汽车级要求。


台积电 N16 MRAM 规格与先前工作的对比。来源:台积电,ISSCC 2026


与同一 N16 节点上的旧款 MRAM 相比,  

位单元尺寸缩小了 25%,从 0.033μm² 降至 0.0249μm²,  

在同等容量下,宏密度提升至 16.0Mb/mm²。  

同等容量下的读取速度从 6 ns 降至 5.5 ns,  

并且双端口访问和交织读取是全新的功能。


虽然三星代工厂今年也发表了关于 8LPP eMRAM 的研究成果,  

但台积电的方案显然更具前景。  

它精准对标了所需特性,性能表现优异,且采用了成本更低的 N16 节点。


---


光信号格式的选择将影响共封装光学(CPO)纵向扩展(scale-up)方案的上市时间表。  

Nvidia 目前正在提高 COUPE 光引擎的产量,  

该引擎支持单通道 200G PAM4,用于近期的横向扩展(scale-out)交换网络。


Nvidia DWDM 架构概览。来源:Nvidia,ISSCC 2026


但在 ISSCC 上,Nvidia 提议每波长使用 32 Gb/s,  

并利用 DWDM 技术复用 8 个波长。  

第 9 个波长用于半速率时钟转发——即 16 Gb/s。


时钟转发意味着可以通过移除时钟数据恢复(CDR)电路及其他电路,  

使 SerDes 变得更加简单,  

从而提高能效和芯片边际利用率(shoreline efficiency)。


3 月初,就在 OFC 2026 举办前夕,  

光计算互连多源协议(OCI MSA)宣布成立。  

该协议将专注于 200 Gb/s 的双向链路,  

其发送和接收端均由 4 个 50G NRZ 波长组成,  

并可在同一根光纤中实现双向传输。  

刚才是不是有人提到了 OCS?


有趣的是,OCI MSA 并没有利用额外的波长进行时钟转发,  

看来将所有波长保留用于实际数据传输才是首要任务。


NVIDIA 发布的大多数关于纵向扩展(scale-up)CPO 的研究都集中在 DWDM 上,  

尽管当今的 CPO 光引擎主要围绕 200G PAM4 DR 光学器件展开,  

而后者对于横向扩展(scale-out)网络更具意义。  

围绕 DWDM 纵向扩展光学器件的 OCI MSA 解决了这一明显的矛盾,  

因为现在很明确,NVIDIA 和其他公司将围绕 DWDM 进行纵向扩展,  

并围绕 DR 光学器件进行横向扩展。


OCI MSA 还展示了不同的实现方式:  

板载光学器件 (OBO)、通过 ASIC 封装基板集成的 CPO 版本,  

以及将光学引擎直接集成在插槽上的版本。  

中间图 (b) 所示的实现方式将是未来几年用于纵向扩展和横向扩展 CPO 最常用的一种,  

但它仍需要某种形式的串行链路来穿过 ASIC 基板,  

并且在两侧仍需要某种形式的 SerDes。  

例如,UCIe-S 可以作为此类传输的协议。


光引擎集成级别(OBO、基板级 CPO、中介层级 CPO)。来源:OCI MSA


实现 CPO 的“最终大关”将是光引擎能够集成到中介层本身,  

并使用如上图 (c) 所示的并行化芯片到芯片(D2D)连接方式与 ASIC 相连。  

这将显著提高岸线带宽密度,实现更高的基数(radix)并提升能效。  

因此,这种实现方式能以其他方案无法企及的方式释放 CPO 的优势,  

但要实现这一目标仍需数年时间,  

且需要先进封装技术的进一步改进。


---


## Marvell Coherent-Lite Transceiver - Paper 23.2


## Marvell Coherent-Lite 收发器 - 论文 23.2


直接检测 vs. 轻量级相干 (Coherent-Lite) vs. 相干光收发器对比。  

来源:Marvell, ISSCC 2026


Marvell 展示了一款用于轻量级相干应用的 800G 收发器。  

传统收发器的传输距离有限,通常小于 10 公里。  

相干收发器支持更远的传输距离,  

但其结构复杂、功耗更高且价格昂贵。  

Marvell 的轻量级相干收发器在功耗、成本和传输范围之间找到了平衡点,  

非常适合链路跨度最多为几十公里的超大型数据中心园区。


Coherent 与 Coherent-Lite 光波段对比。来源:Marvell,ISSCC 2026


相干光收发器主要利用 C 波段波长,因为其衰减较低。  

然而,使用相干传输的长途链路通常具有极高的色散,  

需要大量的 DSP 处理。  

对于建筑间距仅为几十公里的数据中心园区而言,  

传统相干光学器件的远距离传输能力往往显得大材小用。


Coherent-Lite 收发器则使用 O 波段波长,  

其在数据中心园区的相对短距离内几乎为零色散。  

这使得


Marvell Coherent-Lite 收发器架构。来源:Marvell,ISSCC 2026


Coherent-lite 收发器是一种基于 DSP 的可插拔模块,  

由两个 400G 通道组成。  

每个 400G 通道运行双极化 QAM,  

并由 X 和 Y 两个并行调制流组成。


Marvell Coherent-Lite 实测链路性能。来源:Marvell,ISSCC 2026


此次演示的关键在于展示了针对园区应用优化的其他扩展信道带宽的方法。


高阶调制结合 X 轴和 Y 轴的双偏振技术,实现了 400G 的信道带宽。  

如上所示,每个信道有 8 位,总共 32 个星座点。  

这 8 位乘以 62.5 GBd 的信号速率,等于约 400G 的总带宽。


这种调制方案在行业内并非完全新鲜,  

但现在正被引入数据中心园区环境,用于那些较短距离的链路。


Marvell Coherent-Lite 与早期相干收发器的性能对比。  

来源:Marvell, ISSCC 2026


Marvell 的方案显著降低了功耗,  

在不含硅光子器件的情况下仅为 3.72pJ/b,  

仅为其他全功能相干收发器的一半。  

他们的测量是在 40 公里的光纤长度上进行的,延迟小于 300ns。


---


## Broadcom 6.4T Optical Engine - Paper 23.4


Broadcom 6.4T 光学引擎 - 论文 23.4


Broadcom Tomahawk 5 51.2T CPO 光学引擎显微照片及封装。  

来源: Broadcom, ISSCC 2026


博通展示了其 6.4T MZM 光学引擎 (OE) 的进展,  

该引擎由 64 通道、采用 PAM4 调制技术的约 100G 通道组成。  

这些光学引擎在 Tomahawk 5 51.2T CPO 系统中进行了测试。  

一个 CPO 封装包含八个 6.4T OE,  

每个 OE 均包含一个 PIC 和一个 EIC,并采用台积电的 N7 工艺制造。


Broadcom Tomahawk 5 CPO 光学引擎封装。来源:Broadcom,Hot Chips 2024


虽然 Nvidia 使用 COUPE,  

但 Broadcom 在此 OE(光引擎)上采用了扇出型晶圆级封装(Fan-Out Wafer-Level Packaging)方法。  

Broadcom 未来将转向 COUPE,  

但像此 OE 这样的旧代产品仍在使用其他供应链合作伙伴。  

以下是他们演示中取得的令人振奋的结果:


---


## High-Speed Electrical Interconnects


## 高速电气互连


随着多芯片设计成为常态,芯片间互连已成为关键瓶颈。  

各大代工厂和芯片设计公司展示了在有机基板和先进封装上提升带宽密度与能效的方法。


---


## Intel UCIe-S - Paper 8.1


## Intel UCIe-S - 论文 8.1


Intel UCIe-S 芯粒间互连链路照片及概述。来源:Intel,ISSCC 2026


Intel 展示了其兼容 UCIe-S 的芯片间(D2D)接口。  

该接口在 UCIe-S 协议下通过 16 个通道可实现高达 48 Gb/s/lane 的速率,  

而在自定义协议下可达 56 Gb/s/lane。  

它可以在标准有机封装上运行,传输距离最远可达 30mm。  

有趣的是,该接口是采用 Intel 的 22nm 工艺制造的。


Intel UCIe-S 与其他芯片间 (Die-to-Die) 链路对比。来源: Intel, ISSCC 2026


在 VLSI 2025 大会上,Cadence 展示了其在 N3E 工艺上自研的 UCIe-S 片间互连技术。  

尽管存在工艺节点上的劣势,  

英特尔的互连技术在数据速率、通道长度和岸线带宽方面仍成功超越了 Cadence,  

仅在能效比方面略逊一筹。


Intel Diamond Rapids 多芯片架构概览。来源: HEPiX, 经由 @InstLatX64


Intel 展示的这种互连技术很可能是其 Diamond Rapids Xeon CPU 所采用方案的原型。  

与这款 22nm 测试芯片相比,  

基于 Intel 3 工艺设计的效率应该会大幅提升,  

并有望取代 Granite Rapids 上使用的 EMIB 等先进封装方案。  

正如我们在关于数据中心 CPU 格局的文章中所介绍的,  

Diamond Rapids 由两个 IMH 芯片和四个 CBB 芯片组成。  

考虑到每个 CBB 芯片与两个 IMH 芯片之间存在较长的走线,  

我们认为这种链路是在标准封装基板上连接芯片的可行方案,  

从而消除了对 EMIB 的需求。


---


## TSMC Active LSI - Paper 8.2


## TSMC Active LSI - 论文 8.2


TSMC 被动与主动 LSI 对比。来源: TSMC, ISSCC 2026


台积电的先进封装部门展示了其主动式局部硅互连 (aLSI) 解决方案。  

与标准的 CoWoS-L 或 EMIB 相比,  

aLSI 提高了信号完整性,  

并降低了顶部芯片上 PHY 和 SerDes 的复杂性。


TSMC Active LSI 片间互连 (Die-to-Die Link) 概览。来源: TSMC, ISSCC 2026


台积电展示的设备采用了 32Gb/s 的类 UCIe 收发器。  

由于 aLSI 提高了信号完整性,收发器的面积得以减小,  

凸点间距(bump pitch)也从 45μm 缩小至 38.8μm。  

更紧密的间距与向曼哈顿网格(Manhattan grid)布局的转变相结合,  

使他们能够将 PHY 深度从 1043μm 缩减至 850μm,  

从而节省出空间,供设计人员重新分配给计算、内存或 IO,或用于缩小芯片尺寸。  

该收发器仅为类 UCIe 而非真正的 UCIe,  

因为 UCIe 强制要求使用六边形凸点图,而非此处使用的曼哈顿网格。


随着设计人员为下一代 AI 加速器竭力挖掘每一寸芯片空间,  

向 aLSI 的转变已是大势所趋。


aLSI 的“有源”部分源于将桥接芯片(bridge die)中的无源长距离金属通道  

替换为由有源晶体管构成的边沿触发收发器(ETT)电路,  

从而在更长距离内保持信号完整性。  

这也降低了顶层芯片收发端口的信号驱动要求。  

aLSI 内部的 ETT 电路仅增加 0.07pJ/b 的额外能耗,  

最大限度地减少了在堆叠芯片中添加有源电路带来的散热问题。  

通过将信号调理电路移至桥接芯片,  

顶层芯片 TX/RX 上的 PHY 面积可以通过使用更小的预驱动器和时钟缓冲器得以减小,  

并消除了接收端对信号放大的需求。


ETT 集成了驱动器、交流耦合电容 (Cac)、具有正负反馈的放大器以及输出级。  

信号通过 Cac 时会在信号转换边缘产生峰值,  

随后被双回路放大器捕获,因此得名“边缘触发”。  

该放大器利用正负反馈回路来稳定电压水平。  

在此设计中,针对 1.7mm 的通道长度,Cac 设置为 180ff,  

芯片 A 上的电阻为 2kΩ,芯片 B 上的电阻为 3kΩ。


台积电 CoWoS-L 集成 eDTC 电源交付技术。来源:台积电


这些 aLSI 桥接芯片还可以在前端集成嵌入式深沟槽电容器 (eDTC),  

以改善对 PHY 和 D2D 控制器的供电。  

aLSI 与 eDTC 的结合不仅不会因为中间隔着桥接芯片而损害供电网络,  

反而改善了沿 D2D 接口的电源和信号布线。


64 个发送(TX)和 64 个接收(RX)数据通道仅需 388 微米的岸线长度,  

总面积仅为 0.330 平方毫米。  

信号布线仅需顶部的 2 层金属层,其余金属层可用于前端电路。


TSMC Active LSI 在 KGD 和 KGP 阶段


台积电解释了如何对 Active LSI 进行多阶段测试。  

首先是已知合格芯片(KGD)阶段,仅对 LSI 进行芯片验证。  

接着是已知合格堆栈(KGS)阶段,通过 LSI 连接 SoC 以验证堆栈功能。  

最后是已知合格封装(KGP)阶段,  

对完整组件进行全面验证,以确保其功能、性能和可靠性。


他们在 KGD 和 KGP 阶段展示了 shmoo 图,  

两者均显示互连在 0.75V 时达到 32 Gb/s,在 0.95V 时达到 38.4 Gb/s。


TSMC Active LSI 芯片照片及功耗分析。来源:TSMC,ISSCC 2026


该封装展示了两个 SoC 晶圆和两个 IO 晶圆。  

有趣的是,该测试载体似乎与 AMD MI450 GPU 的设计相匹配,  

具有 2 个相互连接的基础晶圆、12 个 HBM4 堆栈以及 2 个带有 Active LSI 的 IO 晶圆。  

并非每个单独的 HBM4 堆栈都拥有自己的 Active LSI,  

而是由两个 HBM4 堆栈共享一个。


至于功耗,在 0.75V 下总量仅为 0.36pJ/b,  

其中 Active LSI 中的 ETT 仅消耗 0.07pJ/b。  

以下是与其他 D2D 解决方案的对比。


TSMC Active LSI 与其他芯片间互连技术的对比。来源:TSMC,ISSCC 2026


---


## Microsoft D2D Interconnect - Paper 8.3


Microsoft D2D 互连 - 论文 8.3


Microsoft D2D 测试芯片布局与布线。来源:Microsoft,ISSCC 2026


Microsoft 还详细介绍了他们的芯片到芯片(D2D)互连技术。  

其测试载体包含两个芯片和两对用于互连的 D2D 节点。  

此外,还包含了一个完整的供电网络和布线模型,  

用以模拟时钟门控和串扰。


Microsoft D2D 互连芯片照片。来源:Microsoft, ISSCC 2026


其测试芯片上的互连占据了 532μm 的岸线长度(shoreline),  

深度为 1350μm。  

该测试载体采用台积电(TSMC)的 N3P 工艺节点制造,  

互连在两种数据速率下进行了测试:  

0.65V 电压下为 20Gb/s,以及 0.75V 电压下为 24Gb/s。


Microsoft D2D 功耗细分。来源:Microsoft,ISSCC 2026


微软报告了两个功耗数据,  

一个是包含模拟和数字系统的总功耗,  

另一个是仅包含模拟部分的功耗。  

后者是大多数芯片到芯片(die-to-die)互连技术所报告的数据。  

在 24Gb/s 速率下,系统功耗为 0.33pJ/b,模拟功耗为 0.226pJ/b;  

而在 20Gb/s 速率下,系统功耗为 0.25pJ/b,模拟功耗为 0.17pJ/b。  

空闲状态下的功耗为 0.05pJ/b。


Microsoft D2D 与其他芯片间互连技术的对比。来源:Microsoft,ISSCC 2026


微软还将他们的互连技术与台积电在其 Active LSI 研究中所引用的同一项先前研究进行了对比。


正如我们在前一篇文章中所解释的,  

微软的 Cobalt 200 CPU 采用了通过定制高带宽互连连接的两个计算小芯片。  

我们认为,本次演讲详细介绍了该互连技术。


从小型移动 CPU 到大型 AI 加速器,  

ISSCC 首次展示了来自联发科(MediaTek)、英特尔(Intel)、AMD、Rebellions 和微软(Microsoft)的架构拆解。  

其中许多甚至包含了芯片显微照片(die shots)。


---


## MediaTek Dimensity 9500 - Paper 10.2


联发科天玑 9500 - 论文 10.2


每年,联发科都会展示其旗舰级移动 CPU 的不同侧面。  

今年也不例外,今年移动 CPU 演讲的重点在于性能提升和散热管理。


MediaTek Dimensity 9500 C1 Ultra Core Process Optimization。  

来源:MediaTek, ISSCC 2026


台积电为 N3E 和 N3P 工艺提供了两种不同的接触栅极间距(CGP)选项:48nm 和 54nm。  

在大多数芯片中,通常采用更窄的 48nm CGP,  

因为它能带来更小的单元尺寸和更大的芯片缩减。  

然而,由于关键尺寸更小,它也面临着漏电、布线和制造方面的挑战。


联发科在其天玑 9500 的 C1 Ultra 高性能核心上使用了较大的 54nm CGP,  

以提高能效。  

这使他们能够以更低的热损失实现更高的性能,  

在等效漏电下性能提升 4.6%,  

或在等效性能下功耗降低 3%。


联发科论文的其余部分重点讨论了  

通过利用未使用的老化预算和减少热超调来实现动态性能优化。  

总计,他们能够将加速频率从 4.21 GHz 提升至 4.4 GHz。  

如果你对这些优化感兴趣,我们建议查阅该论文:  

《10.2 A Dynamic Performance Augmentation in a 3nm-Plus Mobile CPU》。


---


## Intel 18A-on-Intel 3 Hybrid Bonding - Paper 10.6


Intel 18A-on-Intel 3 混合键合 - 论文 10.6


Intel M3DProc 18A 和 Intel 3 芯片平面图。来源:Intel,ISSCC 2026


Intel 披露了其首款混合键合芯片 M3DProc。  

它由一个 Intel 3 底层晶圆和一个 18A 顶层晶圆组成。  

每个晶圆分别包含 56 个网格分片、核心和 DNN 加速器分片。  

这两个晶圆通过 Foveros Direct 技术进行键合,  

混合键合间距为 9μm。


Intel M3DProc 3D Mesh 架构。来源:Intel,ISSCC 2026


网格单元排列成 14×4×2 的 3D 网格,  

SRAM 在两个芯片之间共享。


Intel M3DProc 2D vs. 3D Throughput and Energy Efficiency。  

来源:Intel, ISSCC 2026


Intel 发现,3D Mesh 结构将延迟降低并使吞吐量提升了近 40%。  

他们还测试了数据传输的能效,  

其中 2D 方案是在底层芯片的 56 个 Mesh 磁贴内进行,  

而 3D 方案则是跨越两个芯片的 28 个相邻 Mesh 磁贴。  

结果显示,混合键合互连(HBI)对效率的影响微乎其微。


每个单元(tile)拥有 552 个焊盘,  

其中略少于一半用于数据传输,略少于四分之一用于供电。


在封装方面,M3DProc 与 Clearwater Forest (CWF) 类似。  

CWF 拥有 Intel 3 底层基片(base dies),  

通过 9μm 的 Foveros Direct 技术连接到 18A 计算核心(compute dies)。


M3DProc 实现了 875GB/s 的 3D 带宽,  

而每个 CWF 计算核心仅达到 210GB/s。  

该芯片的 3D NoC 具有显著更高的带宽密度。  

CWF 使用 Foveros Direct 将 CPU 核心集群的 L2 缓存与底层 L3 缓存分离,  

每个顶部芯片包含 6 个集群,每个集群带宽为 35GB/s,  

总计每个顶部芯片为 210GB/s。  

M3DProc 的 875GB/s 3D 带宽则是通过 56 个垂直单元连接聚合而成的,  

即在极小的面积内每个连接实现了 15.6GB/s 的带宽。


---


## AMD MI355X - Paper 2.1


AMD MI355X - 论文 2.1


AMD 详细阐述了他们如何在保持总面积基本不变且计算单元(CU)数量大致相似的情况下,  

将每个 CU 的矩阵吞吐量翻倍。  

首先,当然是从 N5 工艺转向了 N3P;这提供了主要的晶体管密度提升。  

N3P 额外提供的两个金属层改善了布线,从而提高了单元利用率。  

AMD 像之前在 N5 上所做的那样,设计了自有的标准单元,  

以针对其高性能计算(HPC)用例优化该节点。


他们还采用了更密集的布局算法,  

类似于 EPYC Bergamo CPU 中使用的 Zen 4c 核心  

比 EPYC Genoa CPU 中使用的 Zen 4 核心要小得多。


在处理 FP16、FP8、MXFP4 等多种不同数据格式的相同计算时,有两种主要方法。  

第一种是使用共享硬件,即每种格式都经过相同的电路。  

然而,由于针对每种格式的优化极少,这会带来功耗成本。  

第二种选择是让每种数据格式使用完全不同的电路集进行计算。  

但是,这会占用大量额外空间。  

当然,最佳方法介于两者之间。  

这种优化正是 AMD 关注的一个重要焦点。


作为具有改良晶体管的下一代节点,N3P 本身就提供了性能提升。  

尽管如此,AMD 在工艺节点改进之前,就已经实现了同等功耗下 5% 的频率提升。  

他们还设计了多种具有不同功耗和性能特性的触发器(flip-flop)变体,  

并根据使用情况和架构需求部署在芯片的不同区域。


AMD MI355X IOD 合并能效。来源:AMD,ISSCC 2026


MI300X 配备了 4 个 IO Die。MI355X 将其削减为两个。  

通过这样做,AMD 节省了 Die 间互连的面积。  

更大的单体 Die 改善了延迟,并减少了 SerDes 和转换。  

此外,通过增加互连宽度,HBM 的效率也得到了提升。  

节省下来的功耗可以重新分配给计算 Die,以提高性能。


AMD MI355X IOD 互连功耗优化。来源:AMD,ISSCC 2026


作为一个拥有众多布线选项的大型芯片,  

AMD 必须在优化芯片上任意两个区域之间的线路和互连方面投入大量工作。  

通过对线路进行定制化工程设计,  

AMD 成功将互连功耗降低了约 20%。


---


## Rebellions Rebel100 - Paper 2.2


## Rebellions Rebel100 - 论文 2.2


Rebellions 是一家致力于 AI 加速器的韩国初创公司。  

在 ISSCC 上,他们首次公布了其新型加速器 Rebel100 的架构细节。  

与通常在台积电(TSMC)制造的其他加速器不同,  

Rebellions 选择了三星代工厂(Samsung Foundry)的 SF4X 节点。  

由于英伟达、AMD、博通等公司占据了台积电的大部分产能,  

这一选择为他们提供了更大的灵活性。


Hot Chips 2025 上的 Rebellions Rebel-Quad(现更名为 Rebel100)摘要。  

来源:Rebellions 通过 ServeTheHome


在 Hot Chips 2025 大会上,Rebellions 展示了运行 Llama 3.3 70B 的芯片。  

其规格在 Hot Chips 与 ISSCC 之间保持一致。  

值得注意的是一个关键点是采用了三星的 I-CubeS 中介层技术。  

虽然 Hot Chips 的幻灯片中提到了使用 TSMC 的 CoWoS-S,  

但我们已澄清这是幻灯片上的错误,该芯片一直采用的是 I-CubeS。


我们最近提到,CoWoS-S 的产能限制已有所缓解。  

尽管如此,三星可能提供了大幅折扣,  

将其 I-CubeS 先进封装与其前道工艺捆绑销售——  

从而使这家初创公司免于寻找和验证独立的先进封装供应商。  

三星也可能将 HBM 的供应与使用 I-CubeS 挂钩。


I-CubeS 尚未在任何领先的 AI 加速器中得到采用,  

这可能是三星试图打入该市场的尝试。  

目前 I-CubeS 仅有 5 家确认的用户:  

eSilicon、Baidu、Nvidia、Rebellions 和 Preferred Networks。


首先是 eSilicon 在三星 14LPP 工艺上生产的带有 HBM2 的网络 ASIC。  

百度昆仑 1 代加速器与之类似,  

采用三星 14LPP 工艺和 2 个 HBM2 堆栈。  

2023 年当 CoWoS-S 产能非常紧张时,  

Nvidia 将少量 H200 生产外包给了 I-CubeS。  

此外还有 Rebel100,  

最后是 Preferred Networks 计划在 SF2 工艺上推出的加速器。


Rebellions 声称该设计在封装级是可重构的,  

可以添加额外的 IO 或内存小芯片,以便与以太网集成进行扩展。  

这就是剩余的 UCIe-A 接口将发挥作用的地方。


Rebellions 表示,IO 小芯片将于 2026 年第一季度流片。  

目前尚未提供内存小芯片的时间表。


他们还在每个 HBM3E 堆栈旁边集成了硅电容器,  

以提高 HBM3E 和关键控制模块的电源质量。


---


## Microsoft Maia 200 - Paper 17.4


## Microsoft Maia 200 - 论文 17.4


微软详细介绍了其 Maia 200 AI 加速器。  

这篇论文与其说是研究论文,不如说是一份白皮书,  

仅包含一张图片和一份与 Maia 100 对比的规格表。  

考虑到 Maia 200 的许多宣称(如 flops/mm² 和 flops/w)都令人怀疑,  

这倒也合情合理。


虽然 Maia 100 是在 GPT 时代之前设计的,  

但 Maia 200 则是针对当前的模型时代,特别是推理需求而设计的。  

今年早些时候,Maia 200 节点已在 Azure 上正式向公众开放。


Microsoft Maia 200 规格摘要。来源:Microsoft,ISSCC 2026


Maia 200 是光刻掩模尺寸单体设计的最后坚守者。  

所有配备 HBM 的主流训练和推理加速器都已转向多芯片设计,  

每个封装包含 2 个、4 个甚至 8 个计算裸片。  

该裸片的每一平方毫米都针对单一目的进行了极致优化。  

与 Nvidia 或 AMD 的 GPU 不同,它没有用于媒体或向量操作的遗留硬件。  

微软在台积电的 N3P 工艺上将光刻掩模尺寸单体方案推向了极限,  

集成了超过 10 PFLOPs 的 FP4 算力、6 个 HBM3E 堆栈  

以及 28 条 400 Gb/s 全双工 D2D 链路。


Microsoft Maia 200 封装截面图。来源:Microsoft,ISSCC 2026


在封装层面,Maia 200 非常标准,效仿了 H100。  

它采用 CoWoS-S 中介层,包含 1 颗主芯片和 6 堆栈 HBM3E。


Microsoft Maia 200 芯片平面图。来源: Microsoft, ISSCC 2026


芯片的长边各覆盖有 3 个 HBM3E PHY,  

而短边则各包含 28 条 400Gb/s D2D 链路中的 14 条。  

中心区域配有 272 MB 的 SRAM,  

其中包括 80 MB 的 TSRAM (L1) 和 192 MB 的 CSRAM (L2)。


 Samsung SF2 Temperature Sensor - Paper 21.5


Samsung SF2 温度传感器 - 论文 21.5


传统温度传感器的权衡。来源:Samsung,ISSCC 2026


三星 SF2 基于金属电阻的温度传感器权衡。来源:三星,ISSCC 2026


三星在 SF2 工艺上展示了一款紧凑型温度传感器,  

采用 BEOL 金属电阻取代了传统的双极结型晶体管 (BJT) 方案。  

这或许不像下一代内存或处理器那样引人注目,  

但对于确保芯片正常运行至关重要。


这种金属电阻器的方块电阻比同等布线金属高出 518 倍,  

在实现相同电阻值的情况下,所需面积仅为后者的约 1%。  

由于它位于上层金属层,因此为下方的任何电路留出了充足的空间,  

并消除了 FEOL(前段工艺)的面积开销。  

尽管其分辨率较低,但这些优势足以弥补这一不足。


Standard cell compatible layout for seamless integration.


该传感器采用全堆叠电容-电阻-电路结构,总面积仅为 625μm²。  

作为一种经过表征的 PDK 元件,其行为由代工厂建模并经过验证。  

它更适合必须严格控制工艺偏差的大规模生产。  

即使在单个芯片上,也可能在热点附近使用数千个此类传感器。


如前所述,金属电阻具有较低的电阻温度系数(TCR),  

仅为布线金属的 0.2 倍,这限制了传感分辨率。  

三星通过增加基准电阻来弥补这一缺陷。  

然而,随着 RC 时间常数的增大,这会减慢传感时间。  

为了解决这个问题,三星采用了一种时间偏移压缩技术:  

通过低电阻(0.1R)快充路径对 RC 滤波器进行快速充电,  

随后电路切换至全电阻模式,以处理波形中对温度敏感的部分。


对于时间数字转换(TDC),  

他们用紧凑的基于环形振荡器(RO)的 TDC 取代了先前工作中使用的庞大线性延迟发生器,  

将延迟发生器面积缩减了 99.1%。  

该 RO 还兼作系统时钟,通过相位交织计数防止非单调性。


Samsung SF2 温度传感器与先前工作的对比表。来源:Samsung,ISSCC 2026


这款新型温度传感器的精度品质因数(FoM)为 0.017 nJ·%²,  

较之前在 Samsung 5LPE、TSMC N3E 和 Intel 4 上的研究成果(JSSC 2025)有所提升。  

此前的温度传感器只能在面积或速度其中之一进行优化。  

N3E 上的传感器面积很小,仅为 900μm²,但耗时达 1 ms;  

而 Samsung 5LPE 上的传感器速度很快,仅需 12 μs,  

但面积巨大,达到了 6356μm²。


温馨提示:内容源于第三方以及公开平台,仅供用户参考,恕本平台对内容合法性、真实性、准确性不承担责任。如有异议/反馈可与平台客服联系处理(微信:_LYSD_)。