存算一体纪要
一、存算一体芯片的优势及国内外发展状况
存算一体芯片通过将存储与计算单元集成于同一芯片,解决传统 GPU 架构中 “计算与存储分离” 导致的高成本、高功耗问题,其核心优势包括:
成本与功耗优化:相较于通用 GPU,存算一体芯片未来降价空间可达 50% 以上,功耗可从主流 GPU 的 800 瓦降至 100 瓦以下。
推理速度提升:以美国 Groq 为代表的 SRAM 基存算一体芯片,推理速度可达 GPU 的 5-10 倍,满足对响应速度敏感的场景需求(如 C 端用户交互、行业智能体实时处理)。
国内外发展状况:
美国:以 Groq 为核心玩家,其基于 SRAM 介质的芯片已被英伟达收购,计划整合进 CUDA 生态以弥补 GPU 推理速度短板;英伟达同时布局光互联、光计算等技术,未来或通过先进制程(如 7nm)提升存储密度和算力。
国内:处于技术萌芽阶段,基于 SRAM 和 MRAM 的初创企业(如梁军牵头的公司、北大系团队)开始获得融资,代工厂华虹、中芯国际具备成熟制程代工能力;预计 2027 年前后实现行业客户 POC 验证交付,与美国技术落地时间差不超过半年。
二、存算一体芯片商业化难点及国内外效率对比
商业化核心瓶颈:
存储容量限制:SRAM 和 MRAM 单颗芯片存储容量仅数百兆,部署 70B 参数模型需多芯片拼接,硬件成本较 GPU 高 10-15 倍。
软件生态适配:存算一体芯片需适配 CUDA 或 CANN 等主流生态,算子和框架迁移工作量大,早期 Groq 因生态不兼容导致开发难度极高。
芯片互联技术:初创企业难以自研片间互联协议,需依赖外部合作,而传统硅基芯片与存算一体芯片的通信协议、IP 接口差异显著。
国内外效率对比:
国内优势:在行业智能体落地(如金融、生物医药、智慧城市)速度上领先美国,且硬件架构(如华为超节点)通过绕开 CPU 优化通信链路,可能实现架构领先。
美国优势:依托英伟达 CUDA 生态和 Mellanox 高速网卡,在成熟网络方案(如 400G/800G 私有协议)和先进制程复用(如 2nm)上仍具优势。
供应链差异:存算一体芯片对先进制程依赖低(7nm 已足够),国内成熟制程良率与海外差距较小,供应链风险可控。
三、国内存算一体芯片参与企业及技术路线差异
主要参与企业:
初创企业:梁军(前寒武纪 CTO)牵头的公司(SRAM 路线)、杭州某兆易创新投资的初创公司(存算一体方向)、北大物理系背景的两家团队(未披露具体介质)。
代工厂:华虹、中芯国际具备存算一体芯片代工能力,可支持成熟制程流片。
技术路线差异:
存储介质选择:国内企业主要探索 SRAM 和 MRAM 路线,尚未涉及 DRAM(因物理特性限制,可行性低)。
与传统架构的区别:华为 NPU、寒武纪 ASIC 等传统芯片依赖高带宽显存,计算与存储分离,无法实现存算一体;而存算一体需在存储介质(如 SRAM、MRAM)上直接集成计算单元。
四、存算一体芯片对国内 AI 领域弯道超车的可能性
存算一体芯片为国内 AI 领域提供差异化竞争路径,核心逻辑为:
避开先进制程依赖:通过成熟制程(7nm 及以上)、低功耗设计,满足中小用户推理需求,降低对台积电 2nm 等先进制程的依赖。
行业智能体场景切入:国内在金融、医疗等行业智能体落地速度领先美国,存算一体芯片可针对性适配千问、DeepSeek 等主流模型,实现 “专用芯片 + 行业智能体” 的性价比优势。
技术路线并行发展:国内在 MRAM 研发上与美国同步,未来或通过 SRAM(速度优先)与 MRAM(成本优先)路线并存,覆盖不同场景需求。
局限性:在依赖先进制程的大模型训练芯片领域,国内仍与英伟达存在差距,需通过超节点架构(如华为昇腾)等方案弥补。
五、存算一体芯片存储介质选择及技术路线展望
存储介质优先级排序:
SRAM:已商用(如 Groq),推理速度快但容量低(数百兆),部署成本高。
MRAM:未来核心方向,具备非易失性(断电数据不丢失)、长寿命(理论无损坏)、抗辐照(适用于太空场景)等特性,预计 2027 年基于先进制程(7nm 及以下)的产品将流片。
RRAM:科研阶段,物理特性优于 DRAM,或成为长期备选。
DRAM:因写入速度慢、依赖高带宽显存,可行性低。
技术路线趋势:
先进制程与封装:通过 7nm 及以下制程提升单芯片存储密度,或采用 3D 封装堆叠存储单元。
多介质集成:英伟达可能将 SRAM、MRAM 与 GPU 封装为一体(如费曼架构),实现 “训推一体 + 极速推理”;国内或探索 SRAM+MRAM 混合封装方案。
六、国内芯片互联(scale up)技术发展水平
国内在芯片互联领域呈现 “前沿技术领先、成熟方案追赶” 的特点:
光互联 / 光交换:上海拓璞已实现光互联项目落地(如上海某芯片公司集群),而英伟达同类技术尚未商用。
传统高速网卡:基于 RoCE 协议的国产网卡(200G/400G)速度落后于英伟达 Mellanox(400G/800G 私有协议),800G 产品因成本高未大规模应用。
架构创新:华为超节点通过绕开 CPU 优化 GPU 间通信链路,架构设计优于传统方案;光电共封技术与英伟达时间差约半年。
七、ASIC 芯片需求旺盛的领域及前景
需求旺盛领域:
行业智能体场景:交通(委办局智能调度)、能源(石油 / 石化勘探)、教育(智能教学)、生物医药(分子模拟)等需基于通用大模型部署行业模型的场景。
驱动因素:2024 年下半年 DeepSeek、千问等可用模型出现后,ASIC 芯片只需适配单一模型即可满足行业需求,成本优势显著(如华为昇腾、寒武纪一体机)。
前景展望:
市场格局:模型厂商将被少数大厂垄断,但 ASIC 芯片因硬件属性(用户可感知、护城河深),有望涌现更多 “小而美” 的行业专用芯片公司。
出海潜力:中国模型、算力及智能体出海或推动 ASIC 芯片在海外市场竞争,进一步打开增长空间。
温馨提示:内容源于第三方以及公开平台,仅供用户参考,恕本平台对内容合法性、真实性、准确性不承担责任。如有异议/反馈可与平台客服联系处理(微信:_LYSD_)。