网易首页 > 网易号 > 正文 申请入驻

AI视频不再串戏:免训练精准控制多段动作,SwitchCraft一招破解

0
分享至



近年来,随着 Sora、Seedance 等文本到视频(T2V)扩散模型的飞速发展,AI 视频生成在视觉保真度与动态表现上已取得突破性进展。特别是近期备受瞩目的 Seedance 2.0,展现出了极其强大的多镜头叙事与复杂分镜控制能力。 仅需一段文本提示,生成模型即可合成具备高度物理规律与电影级质感的视频片段。

然而,当我们审视当前的开源视频扩散模型时,一个严峻的技术瓶颈依然存在:在卓越的单场景生成效果背后,它们大多针对 “单事件” 生成进行优化,难以驾驭包含多个连续动作或复杂场景切换的时序叙事。 面对包含明确时序递进的复杂指令时,开源模型的指令依从性往往面临巨大挑战。

当模型处理 “多事件” 的提示词时,由于缺乏显式的帧级时间约束,往往会表现出显著的性能衰退。具体而言,模型极易产生语义特征纠缠,导致多个动作在时空维度发生违背物理常识的重叠与坍缩;亦或是出现事件遗漏,完全忽略提示词中的部分关键动作,从而彻底破坏预期的叙事逻辑。



图注:在无时序控制的基线模型中,多个动作特征在时空维度发生严重坍缩,而采用了 SwitchCraft 框架后,系统成功实现了细粒度的对齐,人物动作演进清晰分明,指令依从性得到了显著提升。

为突破这一多事件视频生成的技术壁垒,西湖大学 AGI 实验室的研究团队提出了一种全新的免训练多事件视频生成框架SwitchCraft。该框架创新性地引入了底层注意力控制机制,在不更新任何基础大模型参数的前提下,实现了对视频注意力的精准时序引导。它不仅确保了复杂动作的按序生成,同时维持了极高的视觉保真度与主体一致性。

目前,该研究成果已成功入选计算机视觉顶级会议CVPR 2026。项目代码与演示主页均已开源。



第一作者为在西湖大学 AGI 实验室访问的大三本科生徐千寻,指导老师为西湖大学 AGI 实验室助理教授张驰。



  • 论文标题:SwitchCraft: Training-Free Multi-Event Video Generation with Attention Controls
  • 论文链接:https://arxiv.org/abs/2602.23956
  • 项目地址:https://switchcraft-project.github.io
  • Github:https://github.com/Westlake-AGI-Lab/SwitchCraft

技术痛点:多事件视频生成的底层困境

要理解 SwitchCraft 的学术贡献,首先需要剖析现有视频扩散模型在处理 “多事件” 任务时的底层缺陷。

在当前的视频生成架构(如基于 Diffusion Transformer 的扩散模型)中,文本提示词的特征通常通过交叉注意力机制(Cross-Attention)在整个时间轴上被均匀分布与注入。模型缺乏一种内在机制来建立 “特定时间段” 与 “特定文本事件” 之间的强映射关系。这导致不同时间维度的语义特征在全局帧中发生严重的特征泄漏,最终呈现出动作的异常叠加或属性的错误融合。

此前,业界尝试的替代方案通常是 “分段生成与拼接”,即强行将长文本拆分为多个独立子事件,分别生成视频后再进行组合。然而,这种自回归或基于拼接的方法会引发致命的主体特征退化:在场景或动作切换时,视频极易出现生硬的跳切,核心主体的外观特征及背景环境往往无法在转场前后保持时空一致性。

如何不拆分生成、不破坏时序连贯性的前提下,引导模型精准响应复杂的时间线索?这正是 SwitchCraft 致力于解决的核心挑战。

方法概述:精准注意力时序控制



SwitchCraft 的核心创新在于:通过直接干预底层模型的注意力响应模式,实现隐帧级别的语义解耦。

作为一个免训练框架,SwitchCraft 具备极高的泛化性与实用性。它无需消耗高昂的计算资源对现有的视频大模型进行重新训练或微调,即可作为即插即用的模块集成至现有流水线中。该框架主要由两大核心组件构成:

贡献一:事件对齐的查询引导 (Event-Aligned Query Steering, EAQS)

在主流的视频扩散模型中,视觉生成高度依赖于交叉注意力机制:即通过隐帧提取的视觉查询向量(Visual Queries)去匹配文本提示词的键特征(Textual Keys)。EAQS 模块直接介入这一底层计算过程,以实现时序上的语义隔离。

  • 时序绑定与事件划分: EAQS 首先接收全局文本提示,每个独立事件对应的锚点(Anchor Tokens),以及用户设定的事件时间边界。EAQS 会根据用户设定的时间跨度,将视频帧划分为不同的事件区间。对于任意一个具体的生成帧(例如:第 0~2 秒),系统会自动将当前应当发生的动作(如 “走路”)定义为激活事件(Active Event),而将该时间段外发生的动作(如 2~4 秒的 “转身”、4~5 秒的 “招手”)定义为非激活事件(Inactive Events)。
  • 查询向量的精准偏移: 在特定时间段隐帧序列的去噪过程中,EAQS 会在特征维度上对模型的视觉查询向量施加定向的偏移(Steering)。其核心逻辑非常明确:在当前帧,强制视觉查询向量向 “激活事件” 的特征靠近(增强注意力),同时主动将其从所有 “非激活事件” 的特征处推开(抑制注意力)。
  • 解耦效果: 通过这种严格按时间窗口触发的 “一拉一推” 机制,EAQS 从根本上阻断了特征纠缠与跨时序的语义泄漏,确保未发生的动作绝不会提前 “抢戏”。

贡献二:自适应强度平衡求解器 (Auto-Balance Strength Solver, ABSS)

在扩散模型中,对交叉注意力图施加过度的外部干预,易破坏模型预训练所建立的原始特征分布,从而导致生成的画面出现伪影、结构扭曲或视觉质量急剧下降。此外,由于不同提示词的语义复杂度与动作生成难度存在显著差异,固定的超参数无法泛化至多样化的生成任务中。

为解决这一鲁棒性问题,自动得到最优的 “推”“拉” 强度,研究团队设计了具备闭环调节机制的 ABSS 模块:

  • 主导方向提取与缺口(Margin Deficit)量化: 在每一个去噪步中,ABSS 首先利用奇异值分解(SVD)提取出 “目标事件” 与各 “干扰事件” 在潜空间中的主导方向,并分别计算当前视觉查询向量在这些方向上的对齐得分 ;基于此,系统会精准锁定得分最高的 “最强干扰事件”,通过计算其得分超越目标事件的部分,严格量化出当前亟需弥补的 “边距缺口” 。
  • 动态求解最优强度: 基于评估结果,ABSS 会自适应地求解出当前帧与当前去噪步下的最优干预强度。该机制通过精确的数学约束,确保施加的注意力引导既能精准驱动动作发生,又不会过度偏离基础模型原本的视觉特征分布。
  • 实现动态最优平衡: 这一自适应调节机制彻底消除了繁琐的手动调参痛点。它从算法层面保证了 SwitchCraft 能够在 “最大化多事件时序对齐度” 与 “严格维持基础模型高视觉保真度” 之间,取得动态的最优平衡。

实验亮点:高一致性的多事件连贯叙事

得益于上述两大核心机制的协同作用,SwitchCraft 在多事件视频生成任务中展现出了卓越的控制性能:



提示词:一个男人抬起一只手臂,然后抓了抓头,然后向前跑去



提示词:一个人在走路,然后跑步,然后起跳。



提示词:一辆越野车驶过沙丘,然后穿过森林小径,然后在雪地小路上行驶。



提示词:一个学生笔直地坐在书桌前打开笔记本电脑,然后开始打字,然后向后靠并伸展双臂。

此外,SwitchCraft 在场景切换上还展现出了一项独特的优势:创意遮挡转场(Creative Occluding Transitions)。不同于现有基线模型在转场时极易产生的残影或主体突变,该框架能够巧妙利用环境遮挡关系生成创意的无缝运镜。它不仅实现了前后异构场景的平滑融合,更在全过程中完美锁定了核心主体的身份特征一致性。



对比多种现有的视频生成与时序控制基线方法(如 MEVG、DiTCtrl、LongLive 等),SwitchCraft 在多事件文本对齐度、视觉保真度与运动平滑度等方面均表现突出,综合客观评测指标稳居领先水平 。



此外,团队在消融实验中发现,SwitchCraft 的各项核心机制缺一不可。在 EAQS 模块中,若打破 “推拉” 协同(仅保留单向的 “增强” 或 “抑制”),生成的视频将面临动作遗漏或跨时序特征泄漏;而在 ABSS 模块中,若放弃自适应机制(采用固定的注意力干预强度或移除 SVD 主导方向提取),则会导致画面视觉保真度出现断崖式下跌,文本对齐准确率也会显著降低。这充分证明了 “一推一拉” 的时序注意力调度与 “动态自适应求解” 必须相辅相成,二者的完美配合正是模型能够在 “高保真视觉质量” 与 “精准多事件控制” 之间取得动态最优平衡的关键所在。

结语

SwitchCraft 展示了复杂视频生成的新思路:无需微调的精准时序注意力控制。我们期待这一即插即用的框架在长篇视频叙事、动态分镜等领域落地,并与开源社区共同探索更多可能。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
GDP差距缩至最小!第一强省,即将易主?

GDP差距缩至最小!第一强省,即将易主?

城市财经
2026-04-27 11:53:01
老人为什么还会有婚外情?65岁大爷:诱惑力太大,根本控制不住

老人为什么还会有婚外情?65岁大爷:诱惑力太大,根本控制不住

烙任情感
2026-04-26 12:59:21
“我们都离婚了,凭什么我孩子不能上岸?”政审员一句话,让家长瞬间哑口无言…

“我们都离婚了,凭什么我孩子不能上岸?”政审员一句话,让家长瞬间哑口无言…

爱下厨的阿椅
2026-04-27 13:13:08
600053,一字跌停!

600053,一字跌停!

中国基金报
2026-04-27 11:33:38
“夜店神器”夜光渔网袜在网上火了 太性感了

“夜店神器”夜光渔网袜在网上火了 太性感了

3DM游戏
2026-04-24 06:40:07
逝者 | 《我在故宫修文物》导演叶君:“笨小孩”与他的孤独宇宙

逝者 | 《我在故宫修文物》导演叶君:“笨小孩”与他的孤独宇宙

新京报
2026-04-27 07:53:16
陆毅50岁体重飙至176斤,血压偏高嘴唇发紫入院

陆毅50岁体重飙至176斤,血压偏高嘴唇发紫入院

日不西沉
2026-04-26 23:00:12
1800公里超远程“点穴”!俄罗斯五大炼油厂起火,化工厂酸管炸裂

1800公里超远程“点穴”!俄罗斯五大炼油厂起火,化工厂酸管炸裂

呼呼历史论
2026-04-27 13:10:58
余承东在发布会被质疑耍大牌,张雪力挺!

余承东在发布会被质疑耍大牌,张雪力挺!

鞭牛士
2026-04-26 16:40:15
狗头萝莉又惹争议!洛丽塔品牌找她穿同款,网友:fjl穿的谁敢买

狗头萝莉又惹争议!洛丽塔品牌找她穿同款,网友:fjl穿的谁敢买

电竞瓜皮
2026-04-25 23:23:25
真相大白!那台拉缸的张雪820RR返厂,经拆解后本人公布故障原因

真相大白!那台拉缸的张雪820RR返厂,经拆解后本人公布故障原因

一盅情怀
2026-04-26 15:32:03
我主刀26年被革职,院长却指名要我手术,我:不好意思昨天刚被开

我主刀26年被革职,院长却指名要我手术,我:不好意思昨天刚被开

卡西莫多的故事
2025-10-22 10:33:11
蒋经国三子早逝均未过五十四,临终方知,家族厄运源于旧照

蒋经国三子早逝均未过五十四,临终方知,家族厄运源于旧照

唠叨说历史
2026-03-27 16:40:32
高岗自杀后,彭德怀、林彪的表现令人感慨

高岗自杀后,彭德怀、林彪的表现令人感慨

深度报
2026-04-25 22:55:42
希望国家别再给老年人上涨养老金!专家给出了两大理由,靠谱吗?

希望国家别再给老年人上涨养老金!专家给出了两大理由,靠谱吗?

巢客HOME
2026-04-27 10:10:03
特斯拉两款新品突然上架!这次我真买得起

特斯拉两款新品突然上架!这次我真买得起

XCiOS俱乐部
2026-04-26 14:34:25
杰拉德:永远不会再信任蓝军高层,他们先说支持主帅又解雇他

杰拉德:永远不会再信任蓝军高层,他们先说支持主帅又解雇他

懂球帝
2026-04-27 10:09:06
曝一印度博主放狠话:我们会取代你们所有人,娶中国女人繁衍后代

曝一印度博主放狠话:我们会取代你们所有人,娶中国女人繁衍后代

谈史论天地
2026-04-26 12:58:37
白酒立大功?研究发现:经常喝白酒的糖尿病人,会有6个坏处!

白酒立大功?研究发现:经常喝白酒的糖尿病人,会有6个坏处!

岐黄传人孙大夫
2026-04-27 13:18:20
泽连斯基宣布欧盟900亿欧元贷款首笔资金将用于国防生产

泽连斯基宣布欧盟900亿欧元贷款首笔资金将用于国防生产

新京报
2026-04-26 20:33:10
2026-04-27 14:28:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12866文章数 142636关注度
往期回顾 全部

科技要闻

打1折!DeepSeek输入缓存降价

头条要闻

白宫枪手路径首披露:房卡放行 在隔间组枪直冲宴会厅

头条要闻

白宫枪手路径首披露:房卡放行 在隔间组枪直冲宴会厅

体育要闻

最抽象的天才,正在改变瓜迪奥拉

娱乐要闻

《奔跑吧14》刚播就把一手好牌打稀烂

财经要闻

DeepSeek融资、字节加码 AI开始真烧钱了

汽车要闻

在不确定中寻找确定性:大众汽车的中国解法

态度原创

房产
艺术
本地
手机
教育

房产要闻

新一轮教育大爆发来了!海口,开始疯狂建学校!

艺术要闻

你绝对想不到,摄影能让她成为女神!

本地新闻

云游中国|逛世界风筝都 留学生探秘中国传统文化

手机要闻

消息称某厂四曲面+视觉无边框ID评估中,预计为OPPO新机

教育要闻

新传考研名词解释打卡:幽灵劳动

无障碍浏览 进入关怀版