路演时代

SeeDance2.0调用量、抖音推理算力及CPU需求展望

调研主题：SeeDance2.0 视频生成 Tokens 调用量估计、2026 年抖音推理算力扩充规划、CPU 等需求变化

调研领域：半导体

调研时间：2026 年 02 月 25 日 14:31:19

核心要点

SeeDance2.0 推理算力需求估计
抖音推理算力扩充规划
CPU 等需求预期

以下为专家观点，仅供参考，不构成任何投资建议。

1、视频生成过程中，生成一个 15 秒的视频大概需要消耗多少 token？

假设视频分辨率为 1080p，视频生成是通过将图像划分为 patch 来实现的。每个 patch 可以是 3×3 或 5×5 的像素块。如果采用 3×3 的 patch，每帧图像大约需要 120 个 token。考虑到一秒钟的视频通常包含 30 帧图像，那么 15 秒的视频总共需要 54000 个 token。

2、如果生成一个 60 秒的视频，需要多少 token？

按照前述条件，即 1080p 分辨率和 3×3 的 patch，每帧图像约需 120 个 token。一分钟视频包含 60 秒，每秒 30 帧，因此 60 秒的视频大约需要 21 万个 token。

3、使用 H100 显卡进行推理时，其处理能力如何？一天可以处理多少分钟的视频？

目前主要使用 H100 显卡进行推理，并且多采用分布式场景。现在线上资源较少，大约有 1500 张卡用于推理。具体每张 H100 显卡一天能处理多少分钟视频，可以通过其计算能力来推算，但具体数据需参考公开资料。例如，假设一张 H100 显卡在单机 4 卡组配置下，可以在 70 秒内生成一个 15 秒的视频，那么根据需求量可以进一步计算所需显卡数量。

4、假如每天有 1 亿用户，每人生成一个 15 秒长的视频，这样的需求量需要多少张 H100 显卡？

抖音目前每日投稿用户数大约 5000 万，总投稿量级接近 1 亿。如果这些投稿全部由 AI 生成视频，则每天请求量为 1 亿次。假设单机 4 卡组配置下，一台机器可在 70 秒内完成一个 15 秒视频的生成，根据这个逻辑，可以计算出满足该需求所需的总显卡数量。例如，如果要满足每日 1 亿次请求，则需要相应增加硬件资源以确保处理能力达到要求。

5、抖音在推理端的算力投入情况如何？未来是否有扩展计划？

目前，抖音在推理端已经投入了大约十几万张算力卡。如果按照现有速度扩大七八倍，到 2026 年底，推理算力可能需要达到百万张。目前主要是文本处理占比最高，大约占 70%。多模态处理的占比还很少，但未来会有所增加。

6、如果要支持 1 亿个视频生成，需要多少服务器和算力卡？是否会进行冗余配置？

按照计算，如果要支持 1 亿个视频生成，大约需要 32 万张 H100 算力卡，相当于 8 万台服务器。实际配置中通常会留出冗余空间，一般情况下冗余比例为 40% 左右。因此，实际可能需要配备 10 至 12 万台服务器。

7、在使用 GPU 过程中，对 CPU 有什么需求变化吗？

使用 GPU 时，对 CPU 的需求也会同比增长。这是因为服务器中的 CPU 与调用算力是正相关的。因此，在增加 GPU 数量时，也需要相应增加 CPU 资源。

8、目前抖音在算力方面是否存在短缺问题？

目前来看，并没有出现较大的短缺问题。今年 (2026 年) 的商业采购规模非常大。与英伟达、寒武纪、华为等供应商的订单也都正常进行中。

温馨提示：内容源于第三方以及公开平台，仅供用户参考，恕本平台对内容合法性、真实性、准确性不承担责任。如有异议/反馈可与平台客服联系处理（微信：_LYSD_）。