出品|网易科技《态度》栏目
作者|汉雨棣
编辑|丁广胜
2026年2月,随着字节跳动旗下即梦AI(Jimeng AI)正式全量上线新一代视频生成模型Seedance 2.0,国内AI视频赛道再次迎来了“地震级”的更新。
如果说去年的Sora和PixelDance开启了AI视频的“默片时代”,那么Seedance 2.0的发布,标志着行业正式跨入了“有声电影”的纪元。
作为字节跳动在多模态领域的最新成果,Seedance 2.0凭借其独创的音画同步生成技术,迅速在中文互联网引发了一场关于“AI创作奇点”的舆论热潮。
测评博主们对Seedance的测评主要集中在这几点:
1、复杂的运镜指令
2、音画同步生成
3、动作一致性。
国内权威视频制作博主“影视飓风”在实测后指出,不同于以往AI模型只能生成单一视角的固定镜头,Seedance 2.0能够理解复杂的运镜指令。在测试中,模型成功执行了从特写拉至全景、环绕拍摄等高难度动作,且在镜头运动过程中,主体人物与背景的物理一致性保持得相当出色。这种“指哪打哪”的操控感,被评价为打破了AI视频“随机抽卡”的魔咒,让创作者从单纯的“提示词输入者”晋升为拥有调度权的“导演”。

图为蜜雪冰城大战外企咖啡店,图源 @影视飓风
有评论称,该模型在生成视频时可同步生成匹配的音效和配乐,并支持角色口型同步和情绪匹配。
也有评论表示,Seedance 2.0最具颠覆性的突破,在于其攻克了AI视频生成领域长期存在的“动作一致性”难题,实现了对复杂连续动作指令的精准跟随。
从行业竞争的维度来看,Seedance 2.0的发布也被资本市场视为一个重要的信号。开源证券在最新的研报中将其称为AI影视的“奇点时刻”。与此同时,《每日经济新闻》等媒体的实测数据显示,在同等2K画质下,Seedance 2.0的生成速度相比快手可灵(Kling)等竞品提升了约30%。
东方证券分析师认为Seedance 2.0降低了专业视频制作的门槛,让普通用户也能像操作仪表盘一样控制光影、声音和动作,这将极大推动B端广告与C端个人创作市场的双重扩容。
网易科技实测:
首先,我们先进行了一段广告宣传片级别的画面测试,我们选取了一个 玩梗幽默 + 视觉反差风格的小片。以下为提示词:
镜头1:灵魂拷问
画面:快速推进特写,镜头怼脸拍男生(参考图2),他正对着电脑一脸认真,背景是全粉办公室。
音效:“咻” 的一声快速推进音效,配合键盘敲击声骤停。
旁白(女声,犀利调侃):
“Eassy,说吧,你想找个什么样的女朋友?”
镜头2:极限二选一
画面:
先切到左侧粉裙女生(参考图3),镜头定格,弹出文字标签:「事事随你」,配软萌 BGM。
再切到右侧黑西装女生(参考图3),镜头定格,弹出文字标签:「很有主见」,BGM 瞬间切换成酷飒电子音。
镜头拉远,男生从画面上方 “啪嗒” 落下,坐在两人中间(参考图4),双手一摊,一脸 “我是谁我在哪” 的迷茫,开始疯狂挠头。
可以看出,人物的情感和整体基调把握准确,展示得很鲜明。且不同场景之间可以做到丝滑的衔接,AI感并不明显。
随后,我们对于声音和画面的衔接进行了测试。我设置了一个王家卫风格的电影场景,主要验证多景别切换下,雨声环境音的连续性和空间感变化,并且测试在嘈杂雨声背景下,人物低语对白的清晰度与口型(侧脸)同步。
以下是我的提示词:
画面描述 :王家卫电影风格,极强的复古胶片颗粒感,高饱和度,色彩以昏黄、墨绿和深红为主。夜晚湿漉漉的香港老弄堂,霓虹灯牌在积水中拉出长长的倒影。
镜头序列:
【全景 】:镜头静止。一条悠长、狭窄且空无一人的雨巷,大雨如注。一个渺小的身影(女主)撑着透明伞缓缓走入画面深处。
【跟拍中景】:镜头跟随女主背影移动。她身穿华丽的墨绿色花卉旗袍,腰肢摇曳。重点展示透明雨伞上疯狂跳动的雨珠,以及周围环境的湿润感。
【特写】:镜头聚焦在她穿着精致高跟鞋的双脚上。一只脚踏入积水坑,溅起的水花在慢动作中炸开,映照着霓虹光影。
【中近景】:她在一家昏暗的云吞面摊前停下脚步,身体微微侧转,露出精致忧郁的侧脸。雨水顺着伞沿滴落。
声音/音频描述:
整体环境音: 持续不断的、密集的暴雨声(哗啦啦),带有明显的空间包裹感。对话在【中近景·侧脸】镜头时:一个低沉、富有磁性的男性声音从画面外(右侧暗处)传来,声音不大,夹杂在雨声中:“还不想回去?”
女主微微低头,嘴唇轻启,发出极轻柔、略带叹息的女声(粤语):“不知道去哪。”
我们可以看出,Seedance2.0对于雨声的处理基本实现了仿真效果,雨声环境音在深巷中呈现出远声,在近处呈现出打在雨伞上的“实体声音”。高跟鞋敲击地面、激起雨水的音效也完成了模仿。
在最后的场景中,人物低语对白的清晰度与口型(侧脸)同步。王家卫导演鲜明的风格化与“氛围感”,在画面中得到了呈现。
但是也可以看到,这场戏的不同景别之间转换依然不够丝滑,从女主背影过渡到高跟鞋特写的转场,仍然赶超没有人类导演引以为傲的「运镜」能力。
最后,我们用一段指令,直接实现了对于叙事小说级别的测试。我用即梦模拟了一段《史密斯夫妇》的原剧本。以下是我的提示词:
镜号01:
画面描述: 电影质感,低照度烛光晚餐。一张精致的红木餐桌,桌上摆着银质餐具和高脚杯。一位穿着白色衬衫的男士(类似布拉德·皮特侧影),正拿着餐刀切牛排。他的手肘看似不经意地向外一拐,重重地撞向桌边一瓶开封的红酒瓶。酒瓶失去平衡,开始倾斜坠落。
声音描述 : 极度安静的房间底噪。刀叉切割瓷盘的刺耳“滋滋”声。突然一声沉闷的撞击声(手肘碰到玻璃瓶),紧接着是瓶底摩擦桌面的“格拉”声,声音突然中断(瓶子离桌)。
镜号02:
画面描述: 极具张力的特写镜头。红酒瓶在半空中翻转下落,深红色的酒液在瓶颈处激荡,差点洒出。突然,一只纤细但有力的女性手臂(穿着黑色晚礼服)从画面右侧极速伸入,带着强烈的动态模糊。在瓶子落地前的最后一毫秒,她的手稳稳抓住了瓶身。
声音描述: 仿佛时间静止的低频“嗡——”声。红酒在瓶子里激荡的液体声。紧接着是一声极快的、锐利的破风声“嗖!”,与手伸出的动作完全同步。
镜号03:
景别: 双人过肩镜头
画面描述: 镜头恢复正常速度。女士面无表情,眼神冷酷,动作轻柔地将红酒瓶重新放回桌面上。她抬眼看了一下对面,整理了一下头发。对面的男士手里拿着叉子停在半空,表情从惊讶转为玩味的微笑。
声音描述: 厚重的玻璃瓶底触碰实木桌面的“咚”一声闷响,非常有质感。片刻沉默后,男士用低沉、富有磁性的声音说:“Nice catch.”。
但在这场戏中,最大的问题是在特写镜头中,女士抓酒的手臂出现了两次,这是AI 目前还没有进化掉的BUG,也是最明显的纰漏。
此外,酒作为液体的流向正常,没有出现“反重力”等违背物理学常识的情况;女主抓酒时的风声也非常还原。
尽管每秒的镜头都可以还原剧本,但整体而言,这种“质感”并不能与原片相比。
在传统模式下,一个简单的“雨夜”镜头需要灯光布景、摄影调度、现场收音以及后期的拟音(Foley)合成,成本高昂且周期漫长。而 Seedance 2.0凭借“音画一体”的生成能力,将这一复杂的工业协作链条压缩为一次简单的“提示词交互”。这意味着,影视制作的边际成本正在趋近于零。
对于行业而言,这种冲击是结构性的:初级概念设计、分镜绘制以及基础音效师的生存空间将被大幅挤压;而创作的门槛被彻底倒置——未来的核心竞争力将不再是操作摄影机或调音台的技术壁垒,而是“审美决策力”与“叙事想象力”。
然而,在一片赞誉声中,我们也必须客观审视Seedance 2.0当前存在的局限性。经过我们的测评,画面仍然会出现一些闪回、重复等低级错误,也有部分用户反馈,在极少数情况下,生成的背景音中会出现与画面无关的杂音或模糊人声,这种“幻觉”现象虽然出现频率不高,但也提醒我们在商业交付时必须进行严格的人工审核。
同时,由于音画同步计算对算力要求极高,目前普通用户在高峰期生成视频往往面临较长的排队时间,且积分消耗是旧版模型的两倍以上,这对于高频使用的企业用户来说,是一笔需要考量的成本账。
