调研主题:SeeDance2.0 视频生成 Tokens 调用量估计、2026 年抖音推理算力扩充规划、CPU 等需求变化
调研领域:半导体
调研时间:2026 年 02 月 25 日 14:31:19
核心要点
SeeDance2.0 推理算力需求估计
抖音推理算力扩充规划
CPU 等需求预期
以下为专家观点,仅供参考,不构成任何投资建议。
1、视频生成过程中,生成一个 15 秒的视频大概需要消耗多少 token?
假设视频分辨率为 1080p,视频生成是通过将图像划分为 patch 来实现的。每个 patch 可以是 3×3 或 5×5 的像素块。如果采用 3×3 的 patch,每帧图像大约需要 120 个 token。考虑到一秒钟的视频通常包含 30 帧图像,那么 15 秒的视频总共需要 54000 个 token。
2、如果生成一个 60 秒的视频,需要多少 token?
按照前述条件,即 1080p 分辨率和 3×3 的 patch,每帧图像约需 120 个 token。一分钟视频包含 60 秒,每秒 30 帧,因此 60 秒的视频大约需要 21 万个 token。
3、使用 H100 显卡进行推理时,其处理能力如何?一天可以处理多少分钟的视频?
目前主要使用 H100 显卡进行推理,并且多采用分布式场景。现在线上资源较少,大约有 1500 张卡用于推理。具体每张 H100 显卡一天能处理多少分钟视频,可以通过其计算能力来推算,但具体数据需参考公开资料。例如,假设一张 H100 显卡在单机 4 卡组配置下,可以在 70 秒内生成一个 15 秒的视频,那么根据需求量可以进一步计算所需显卡数量。
4、假如每天有 1 亿用户,每人生成一个 15 秒长的视频,这样的需求量需要多少张 H100 显卡?
抖音目前每日投稿用户数大约 5000 万,总投稿量级接近 1 亿。如果这些投稿全部由 AI 生成视频,则每天请求量为 1 亿次。假设单机 4 卡组配置下,一台机器可在 70 秒内完成一个 15 秒视频的生成,根据这个逻辑,可以计算出满足该需求所需的总显卡数量。例如,如果要满足每日 1 亿次请求,则需要相应增加硬件资源以确保处理能力达到要求。
5、抖音在推理端的算力投入情况如何?未来是否有扩展计划?
目前,抖音在推理端已经投入了大约十几万张算力卡。如果按照现有速度扩大七八倍,到 2026 年底,推理算力可能需要达到百万张。目前主要是文本处理占比最高,大约占 70%。多模态处理的占比还很少,但未来会有所增加。
6、如果要支持 1 亿个视频生成,需要多少服务器和算力卡?是否会进行冗余配置?
按照计算,如果要支持 1 亿个视频生成,大约需要 32 万张 H100 算力卡,相当于 8 万台服务器。实际配置中通常会留出冗余空间,一般情况下冗余比例为 40% 左右。因此,实际可能需要配备 10 至 12 万台服务器。
7、在使用 GPU 过程中,对 CPU 有什么需求变化吗?
使用 GPU 时,对 CPU 的需求也会同比增长。这是因为服务器中的 CPU 与调用算力是正相关的。因此,在增加 GPU 数量时,也需要相应增加 CPU 资源。
8、目前抖音在算力方面是否存在短缺问题?
目前来看,并没有出现较大的短缺问题。今年 (2026 年) 的商业采购规模非常大。与英伟达、寒武纪、华为等供应商的订单也都正常进行中。
温馨提示:内容源于第三方以及公开平台,仅供用户参考,恕本平台对内容合法性、真实性、准确性不承担责任。如有异议/反馈可与平台客服联系处理(微信:_LYSD_)。