本文核心要点包括:
1. 火山引擎AI推理发展近况,日均Tokens调用量增长趋势
2. 国产卡如寒武纪590、昇腾910C以及NV卡在推理用应用情况
3. 东南亚数据中心核心使用方式
以下为专家观点:
1. 2026年以来,火山引擎在AI产品(如豆包、SeeDance、龙虾等)侧的发展似乎很快,能否具体阐述一下推理端需求的增长情况,例如日均tokens消耗量和推理算力的拉动效应,以及这是否超出了预期?
2026年至今,模型推理侧的规模化进度确实快于预期。以日均token消耗量为例,2025年12月时日均大约为50万亿token,而近期已增长至约日均90万亿至100万亿token。
需求增长的归因主要有三点:首先,核心驱动力并非来自个人开发者或独立个体用户,个人用户对token定价无感,使用量有限且分散,火山更多是将其作为市场宣导和案例展示。真正的增长来自于企业端(to B)的订阅服务和用量提升。其次,新模型的更新,例如SeeDance2.0模型发布后热度增加,也显著拉高了整体用量。最后,这种超预期的增长导致了算力资源紧张,例如即梦中SeeDance2.0模型目前仍需排队五六个小时,线上资源基本被打满,后续需要逐步补充资源。
2. 目前SeeDance2.0模型主要使用哪些类型的芯片进行推理?其中寒武纪590的具体应用情况?
SeeDance2.0模型的推理芯片主要分为几类:第一类是消费级显卡,如5090,用于处理一些小参数规格的模型。第二类是用于视频生成的A800和H800。第三类是H20。此外,还有部分国产芯片,包括寒武纪的590和一些昇腾系列芯片,但后者用量较少,寒武纪590的应用相对更多一些,主要作为一种补充资源,大部分推理任务仍以NVIDIA的芯片为主。
目前来看,寒武纪芯片在推理任务上的性价比是可以接受的,火山正在进行相关的扩充和接入。
3. 以A800为基准,寒武纪590以及后续的690在文本或视频推理任务上的性能差异大约是多少?其性能是否还有优化空间?
如果以A800作为锚定基准,寒武纪590的性能大约比A800弱15%至20%。590与H200则无法直接比较,差距更大,这主要是由于算子框架和资源成本等结构性差异造成的。
寒武纪590目前确实还有很多可优化的空间。此前火山主要是在文本、图像、语音等几代模型版本上与寒武纪进行适配,而在视频生成这类新的组件上,深度的适配工作做得相对较少。因此,当前还处于适配的初期阶段,未来有机会通过进一步的补充性工作来提升其性能表现。
4. 鉴于SeeDance2.0模型带来的推理需求快速增长和当前算力排队的情况,后续计划通过哪些方式来解决推理算力的缺口问题?
解决SeeDance2.0模型推理算力缺口的主要方式是采购各种硬件(扫货),字节跳动的原则是不租用水货卡或来源不明的芯片。在此前提下,火山会通过多种渠道补充算力:首先,加大对国产芯片的采购和应用,只要是合理的方案,火山都会考虑接入,例如天数、海光、昆仑等公司的产品,这些厂商近期也扩大了产能;其次,火山会考虑在国内租用如阿里、腾讯等公司提供的合规算力资源,作为关键的补充项进行前置介入。
此外,火山也在探索通过海外资源进行补充的可能性,例如利用东南亚等地区的数据中心。具体操作上,可以在业务合规的前提下,将一些离线资源通过在线调度的方式来处理国内的推理任务,即计算资源在海外,但为国内业务输出结果。不过,这需要解决数据出境的合规性问题。最后,火山也在观察国内H200的扩容情况,看其能否提供更多的资源。
5. 使用东南亚等海外数据中心来补充国内推理算力,是否会面临数据出境的合规问题?这种模式是否可持续?
是的,目前来看确实会面临数据出境的问题。根据规定,面向国内公众提供的服务必须在国内备案,不能直接使用海外资源。但如果资源本身不直接面向公众,只是作为底座算力提供支持,操作上存在一定的空间。
从全球供应链的角度看,真正的瓶颈可能不在于芯片本身,三星和台积电的供给问题不大。关键的卡点可能在于DRAM、HBM、SSD等关键模组。火山已经储备了不少模组,并与三星、海力士以及南方的一些厂商渠道保持密切沟通,会单独进行这部分资源的扩充。
6. 目前AI算力资源(如HBM、SSD等)的短缺是否对业务构成瓶颈,以及通过海外数据中心(尤其是东南亚)满足国内推理需求的潜力?
当前阶段,海力士的HBM等资源的供应不足确实构成了一个问题,导致部分AI加速卡在库房积压。这种资源短缺是全球性的,不仅影响国内,也影响东南亚。
如果尝试通过海外资源(比如东南亚数据中心)来满足国内的推理需求,预计最多只能弥补约10%至15%的缺口。并且,这种操作处于一个灰色地带,因为合规性要求在国内提供服务的资源也应在境内。完全依赖海外资源存在较大风险,因此,满足国内推理需求的主体策略仍然是确定无疑地依靠国内的AI加速卡。
7. 当前国内AI加速卡的采购策略是怎样的,除了英伟达的产品外,国产卡的供应商优先级是如何排序的?
目前在国内市场,策略上仍然是在积极地获取算力资源,包括采购和租赁英伟达的AI加速卡,尽力争取更多订单。
在国产卡的采购方面,存在明确的优先级排序。寒武纪的优先级最高,其次是昇腾。同时,也会将天数智芯、海光等公司作为关键的补充资源。
8. 字节跳动与华为昇腾之间是否存在特定的合作模式,以及近期市场传闻的400亿订单的具体情况是怎样的?
字节跳动与华为昇腾正在洽谈整体资源合作。由于华为自身不再进行模型训练,而华为后续的智能座舱、手机以及各类组件产品中,凡是使用字节跳动模型进行推理的,华为会为其提供顶层算力支持。这形成了一种互补关系:华为在字节跳动模型上的使用量,将影响字节跳动向华为采购昇腾产品的订单规模。
关于400亿的订单,其执行周期预计为两年左右,并非一年内完成。
9. 将寒武纪列为国产卡最高优先级的原因是什么,其下一代产品MLU690的进展如何,以及寒武纪与字节跳动的合作关系是否稳固?
寒武纪之所以优先级最高,是因为之前在其思源590产品上投入了大量资源进行适配,适配效果在国产卡中是最好的,这使得其下一代产品在软件层面具备一定的通用性,可以减少人力资源的消耗。同时,寒武纪的产品本身性能表现良好,芯片能力也不错。
从合作关系来看,寒武纪依然将字节跳动视为最核心的客户通道,合作意愿很高且正在正常推进。尽管寒武纪也在与腾讯、京东等进行适配,但从大规模采购量来看,字节跳动仍然是其最主要的供给方,这一核心大客户的地位是双方的共识。
10. 如何看待寒武纪MLU690与昇腾后续产品(如950PR)的竞争力,以及字节跳动自研芯片项目将对国产卡采购格局产生何种影响?
昇腾在字节跳动供应链中的竞争力主要体现在其算力供给的确定性较高,愿意提供更优惠的价格和更好的资源支持。昇腾910C的超级节点在国内具有一定优势,但海光的产品性能也与之相当。昇腾的主要优势在于其掌握了绝大多数的国产芯片产能和订单。因此,昇腾在字节跳动的采购优先级中可以排到第二,甚至争取第一。
然而,字节跳动自身的自研芯片项目将对采购格局产生显著影响,这将挤占一部分对外部供应商的采购订单和预算。此外,昇腾的供应也存在一定风险,其资源排产和交付周期可能会受到限制。
11. 选择三星作为自研芯片的代工方是基于何种考量,其供应链的可靠性如何评估?
选择三星是经过审慎评估的。在2025年7月左右,字节公司曾与政府相关部门讨论过三星作为供应链伙伴的可靠性问题,得到的反馈是积极的。政府方面也清楚,短期内完全指望国内的量产芯片来满足大规模、高性能的供给是不现实的。目前,三星已成为国内多家芯片设计公司的重要流片通道,包括沐曦的C100、天数智芯、海光以及字节跳动,甚至部分车载芯片(如蔚来、理想)也在三星流片。基于当前的预估判断,三星在现阶段被认为是值得信赖的合作伙伴,能够提供一个稳定可靠的供给和交付通道。
温馨提示:内容源于第三方以及公开平台,仅供用户参考,恕本平台对内容合法性、真实性、准确性不承担责任。如有异议/反馈可与平台客服联系处理(微信:_LYSD_)。