太惊艳!Seedance 1.0 发布,字节跳动让 AI 视频生成有了新高度

在 6 月 11 日至 12 日于北京举办的《2025 火山引擎 FORCE 原动力大会・春》上,字节跳动 Seed 团队正式公布了新一代视频生成基础模型 Seedance 1.0 及其技术报告。这一成果堪称 AI 视频生成领域的重大突破。Seedance 1.0 在多镜头叙事、运动生成效果、风格创作及推理速度等方面表现卓越,为内容创作开拓了全新局面 。

目前,Seedance 1.0 视频生成基础模型已在即梦 AI 及字节跳动即梦 AI 海外版 Dreamina ai 上线。不过小编要吐槽一下,使用成本可不低。生成一段 5 秒的视频,需耗费 50 积分;若想生成 10 秒的视频,则得花掉 100 积分。

地址:Dreamina ai:字节跳动即梦AI海外版

地址:即梦AI:字节跳动AI视频绘画工具

一、核心能力全面跃升,树立视频生成新典范

(1)原生多镜头叙事,缔造电影级视觉体验

Seedance 1.0 拥有强大的原生多镜头叙事功能,可生成 10 秒内包含 2 - 3 个镜头切换的视频,自然实现远、中、近景转换,显著增强视频叙事的层次感与感染力。

以 “女孩弹钢琴,多镜头切换,电影质感” 指令为例,模型如同专业导演,精准产出多镜头无缝衔接的视频。先以全景呈现钢琴与演奏场景,让观众如临其境;再切换至中景,聚焦女孩灵动的手部动作,展现指尖在琴键上的跃动;最后特写女孩专注神情,细腻传递情感,打造出极具电影质感的叙事效果。

又如输入 “多个镜头。一名侦探进入一间光线昏暗的房间。他检查桌上的线索,手里拿起桌上的某个物品。镜头转向他正在思索” 的指令,模型也能出色响应。凭借镜头间的精妙切换,成功塑造出紧张悬疑的氛围,让观众仿若置身案发现场,跟随侦探一同抽丝剥茧、探寻真相。

(2)运动生成效果突破,动态画面丝滑逼真

与过往模型相比,Seedance 1.0 在画面与主体动态表现上实现重大突破。其对主体动作的捕捉精准入微,结构稳定性大幅提升,细节刻画更为细腻,生成画面的崩坏率显著下降。

以 “滑雪者在滑雪,他转弯时扬起大片雪雾,沿着山坡逐渐加速,镜头平稳地移动着” 的指令为例,模型不仅精准勾勒出滑雪者的运动轨迹,还生动呈现雪雾飞扬的动态瞬间,镜头平移流畅自然,生成画面如同实景拍摄般真实丝滑。

当指令为 “一位身着黑色露背礼服的模特优雅地走在鲜艳的红色 T 台上。光线展现出面料的流动感。观众席间的目光追随模特,最后灯光渐暗” 时,Seedance 1.0 同样表现惊艳。它精准还原模特优雅步态,细腻刻画礼服面料的飘逸质感,巧妙呈现光线明暗变化,将观众席间的聚焦感也生动传递,全方位彰显出在动态生成领域的超强实力。

(3)多元风格随心创作,激发无限创意潜能

Seedance 1.0 能精准解析指令,产出写实、动漫、影视、广告等风格多样的高品质视频。其画面质感逼真、美学表现力强,为创作者搭建起广阔的创意舞台。无论是还原现实场景、带观众沉浸真实世界的写实风格;还是充满奇思妙想、构建二次元奇幻空间的动漫风格;亦或是凭借强烈视觉张力吸引目光的影视、广告风格,该模型均能轻松驾驭,全方位满足多样化创作需求。

(4)极速推理与低成本双优,赋能高效创作

依托精巧的模型架构设计与极致推理优化,Seedance 1.0 实现 40 秒级高速推理,显著压缩创作成本。经实测,基于 L20 测试环境,生成 5 秒 1080p 分辨率视频仅需 41.4 秒。这一速度优势助力创作者快速将灵感转化为视频作品,突破时间限制,让创意落地更高效。

二、权威榜单大放异彩,综合实力稳居榜首

在第三方专业评测榜单 Artificial Analysis 中,Seedance 1.0 展现出碾压式优势,于文生视频和图生视频两大关键任务上一骑绝尘,荣登榜首之位。

在文生视频赛道,Seedance 1.0 的 Arena ELO 评分高达 1314 ,远超谷歌 Veo 3 Preview(1252)、Veo2(1131),快手 Kling 2.0(1114)、Kling 1.5 (Pro)(1053)以及 OpenAI 的 Sora(1053)等一众强劲对手。而在图生视频领域,Seedance 1.0 同样势不可挡,Arena ELO 分数达到 1365 ,将谷歌 Veo 3 Preview(1240)、快手 Kling 2.0(1194)等竞争对手远远甩在身后,其实力得到了权威榜单的有力验证 。


为确保评估模型性能的全面性与客观性,团队联合影视导演、行业专家共同构建综合基准,并制定涵盖主体生成、动作稳定性、镜头切换与表达、美感、指令遵循等多维度的评估标准。

测试结果表明,Seedance 1.0 在动态图像生成各维度均展现卓越综合实力,尤其在动作生成、指令遵循等核心能力上位居行业前沿。同时,该模型在推理速度与用户好评度方面同样表现亮眼,收获广泛赞誉。

三、技术创新引领突破,多维度优化模型效能

数据处理:打造多元数据集,提升数据应用价值

在数据构建环节,Seedance 1.0 团队着重进行视频多源采集与描述信息提取,打造出类型丰富、风格多样、来源广泛的大规模视频数据集。团队全面采集视频时长、分辨率、主题、场景、艺术风格、镜头运动等关键信息,助力模型充分挖掘不同场景、风格、主题、镜头画面及尺寸下的主体轮廓与动作特征。

为进一步提升数据利用率,团队引入自动镜头边界检测技术,通过分析帧间差异精准分割视频片段;基于启发式规则与物体检测技术,自适应裁剪视频帧以保留主体内容,并实施精细化数据筛选。这一系列举措既扩充了数据规模,又增强了数据多样性,为模型训练提供了优质且充足的数据支撑。

下图为 Seedance 1.0 文生视频任务综合评测:

下图是Seedance 1.0图生视频任务综合评测:

为解决实际训练中精准描述数据匮乏的难题,团队专项训练 “精准描述模型”,用以生成视频描述作为训练数据。该模型采用动静态特征融合的密集描述架构,动态层面精细捕捉视频动作演变与镜头运动轨迹,静态层面深入剖析单帧画面中的核心主体与场景要素。

凭借这一架构,显著增强了模型对动态、静态信息的理解能力,使其能精准响应各类用户指令,胜任复杂内容生成任务,确保输出视频高度贴合用户预期。

预训练框架:一体化高效设计,赋能多任务协同

Seedance 1.0 通过精巧设计高效模型结构,融合多模态交织的位置编码,并运用多任务统一建模策略,实现多镜头视频创作的流畅支持。作为单一模型,它可同时兼顾文生视频、图生视频等多元任务,展现强大的泛化能力与灵活适应性。

下图展示了 Seedance 1.0 的数据处理全流程:

在预训练框架层面,Seedance 1.0 创新采用解耦的空间与时间层设计。空间层聚焦单帧内的注意力聚合,时间层专注跨帧注意力计算,大幅提升训练与推理效率。同时,引入多镜头多模态旋转位置编码(MM-RoPE),支持视觉与文本 token 交错,强化模型多镜头生成与多模态理解能力。统一任务框架借助二元掩码指示控制条件,实现任务间相互学习,降低使用门槛,增强通用性与灵活性。

后训练优化:复合奖励驱动,雕琢画面品质

后训练阶段,团队依托高质量精调数据集,构建由基础、运动、美学三类奖励模型组成的复合奖励系统。基础奖励模型确保图文对齐与结构稳定,运动奖励模型消除视频伪影、增强动作表现力,美学奖励模型赋予影视级质感。通过 RLHF 训练最大化多模型奖励值,结合视频定制化反馈学习,协同提升模型在运动、结构、画质等多维度表现。

推理加速:算法与底层协同,实现极速响应

为实现极致推理速度,Seedance 1.0 采取算法与底层协同优化策略。算法端,引入分段轨迹一致性、分数匹配及对抗蒸馏机制,搭配轻量级 VAE 解码器,在减少推理步数的同时保障画质;底层推理通过算子融合、量化稀疏、并行计算等系统级改造,构建高效推理路径,实现端到端性能与内存的平衡,确保模型快速稳定运行。

开放生态,展望未来

目前,Seedance 1.0 技术报告已全面公开,并通过即梦、豆包及火山引擎 API 开放使用。用户可访问项目主页(https://seed.bytedance.com/seedance)查阅报告、体验功能。

团队未来规划明确:模型优化上,探索更高效架构与加速方案,打造低成本、高速度、强效果的实时交互模型;智能化发展方面,拓展世界知识理解,融合多模态信息,赋予模型音频处理能力;同时研究数据、模型规模与奖励机制的 Scaling 效应,推动视频生成技术持续突破。Seedance 1.0 的问世,不仅为创作者提供利器,更为 AI 视频生成领域开辟了新的发展路径。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值