网易首页 > 网易号 > 正文 申请入驻

百度研究院重磅发布SAMA:让AI视频编辑告别"两难困境"的新突破

0
分享至


这项由百度公司联合清华大学、香港城市大学和浙江大学的研究团队共同完成的研究发表于2026年3月,研究编号为arXiv:2603.19228v1,为AI视频编辑领域带来了一项重要突破。

视频编辑就像修复一幅会动的画作,既要保证画面内容符合要求,又要确保动作看起来自然流畅。然而,现有的AI视频编辑工具总是面临一个让人头疼的问题:要么能够准确按照指令修改视频内容,但动作看起来僵硬不自然;要么能保持流畅的动作,但修改效果却偏离了用户的期望。这就好比一个裁缝,要么能按图纸完美裁剪但缝制时破坏了布料的质感,要么能保持布料质感但剪裁走样。

研究团队深入分析这个问题后发现,问题的根源在于现有方法把语义修改(也就是按指令改变画面内容)和动作保持(维持视频的流畅性)混在一起处理。这就像让一个人同时用左手写字、右手画画一样,很难两边都做好。

为了解决这个难题,研究团队开发了一个名为SAMA的新框架。SAMA的核心思想是把视频编辑任务分解成两个相对独立的部分:语义锚定(Semantic Anchoring)和运动对齐(Motion Alignment)。这就像把复杂的多任务工作分配给两个专业工人,每个人专心做好自己擅长的事情。

语义锚定的工作原理类似于在关键帧上打下"标记点"。当你想要修改视频中的某个物体时,系统会在几个关键帧上预先标注出这个物体应该变成什么样子,就像给画家提供几个重要的参考图一样。这样做的好处是,系统可以更准确地理解用户的修改意图,确保整个视频的修改效果保持一致。

运动对齐则专门负责保持视频的自然流畅性。研究团队设计了三种特殊的训练任务来教会AI系统理解视频中的运动规律。第一种叫做立方体修复,就像给系统一个被挖掉一块的魔方,让它学会如何填补缺失的部分。第二种是速度调节,通过让系统练习将快进的视频恢复到正常速度,来掌握时间流逝的规律。第三种是管道重排,把视频切成小块后打乱顺序,然后让系统学会重新排列,这样它就能理解视频中不同部分之间的时空关系。

SAMA采用了两个阶段的训练策略。第一阶段叫做分解预训练,系统在这个阶段学会了语义理解和运动控制这两项基本技能,就像先让学生分别练好书法和绘画的基本功。令人惊喜的是,仅仅通过这个阶段的训练,系统就已经具备了相当不错的零样本视频编辑能力,也就是说即使没有看过具体的编辑示例,它也能完成一些基础的编辑任务。第二阶段是监督微调,使用成对的编辑数据进一步提升系统的表现,就像让学生在掌握基本功后开始临摹大师作品来精进技艺。

为了验证SAMA的效果,研究团队在多个权威测试平台上进行了全面评估。测试结果显示,SAMA在开源模型中达到了最佳性能,甚至可以与商业化的顶级产品如Kling-Omni和Runway相媲美。在具体的测试任务中,SAMA在物体添加、替换、移除和风格转换等各种编辑类型上都表现出色。

更重要的是,SAMA解决了传统方法过度依赖外部辅助信息的问题。以往的系统往往需要额外的视觉语言模型特征或者深度图、骨骼图等结构信息来辅助编辑,这就像做菜时需要很多复杂的调料和工具。而SAMA通过内在的分解学习机制,让AI系统自己掌握了语义理解和运动控制的能力,就像培养出了一个既懂食材又会火候的全能厨师。

在实际应用效果上,SAMA展现出了显著的优势。当用户要求给视频中的人物添加帽子时,SAMA不仅能准确地添加帽子,还能确保帽子在人物运动过程中保持正确的位置和角度。当需要移除视频中的某个物体时,SAMA能够自然地填补被移除物体留下的空白区域,让整个场景看起来浑然一体。在风格转换方面,SAMA可以将现实视频转换为水彩画风格,同时完美保持原有的运动轨迹和时序关系。

研究团队还进行了详细的消融实验来验证各个组件的作用。实验结果显示,语义锚定机制能够显著提高指令跟随的准确性,同时加速模型训练的收敛。运动对齐机制则在保持视频时间一致性方面发挥了关键作用,特别是在处理快速运动和复杂相机动作的场景中表现突出。

技术细节方面,SAMA基于视频扩散变换器框架,采用流匹配训练范式。系统使用类型嵌入来区分不同类型的标记,包括源视频标记、目标视频标记和语义标记。在语义锚定中,系统使用SigLIP图像编码器来提取语义特征,然后通过池化操作生成紧凑的语义标记。在运动对齐的预文本任务中,立方体修复使用30%的掩蔽比例,速度扰动应用2倍的时间加速,管道重排将视频分割为2×2×2的时空管道并随机打乱。

数据处理方面,研究团队使用了多个大规模数据集进行训练。预训练阶段使用了NHR-Edit、GPT-Image-Edit、X2Edit等图像编辑数据集,以及Koala-36M、MotionBench等文本到视频数据集。微调阶段则使用了Ditto-1M、OpenVE-3M、ReCo-Data等专门的视频编辑数据集。所有数据都经过了基于视觉语言模型的质量筛选,确保训练数据的高质量。

评估结果显示,SAMA在VIE-Bench测试中的各项指标都达到了业界领先水平。在指令跟随、内容保持和视觉质量三个维度上,SAMA分别获得了8.711、9.340和9.259的高分,全面超越了现有的开源方法。在OpenVE-Bench和ReCo-Bench测试中,SAMA同样表现出色,在多个子任务上都取得了最佳成绩。

零样本编辑能力测试更是令人印象深刻。即使没有使用任何视频编辑训练数据,仅凭分解预训练阶段学到的知识,SAMA就能完成各种复杂的编辑任务。这证明了分解学习思路的有效性,也为未来的研究指明了方向。

值得一提的是,SAMA的设计理念体现了对视频编辑本质的深刻理解。视频编辑的核心挑战在于平衡语义准确性和时间一致性,而SAMA通过分解学习的方式巧妙地化解了这一矛盾。这种思路不仅在技术上具有创新性,在工程实现上也更加优雅和高效。

从产业应用的角度来看,SAMA为视频编辑工具的发展提供了新的技术路径。传统的视频编辑需要大量的人工干预和专业技能,而基于SAMA的AI视频编辑工具可以让普通用户通过简单的文本描述就能完成复杂的编辑任务。这将大大降低视频制作的门槛,为内容创作者提供更强大的工具。

研究团队表示,未来将继续完善SAMA框架,特别是在长视频编辑、快速运动场景处理和语义标记增强等方面。同时,他们计划开源相关代码、模型和数据集,为学术界和产业界的进一步研究提供支持。

说到底,SAMA的成功在于它找到了一种更加自然和有效的方式来处理视频编辑这一复杂任务。通过将问题分解为相对独立的子任务,然后让AI系统分别掌握相应的技能,SAMA避免了传统方法中的相互干扰问题。这种分而治之的策略不仅提高了编辑质量,也提升了系统的泛化能力和鲁棒性。对于普通用户而言,这意味着他们可以期待更加智能、准确和易用的AI视频编辑工具,让创意表达变得更加简单和直接。

Q&A

Q1:SAMA是什么?

A:SAMA是由百度公司联合多所大学开发的AI视频编辑框架,它的核心创新是将视频编辑分解为语义锚定和运动对齐两个独立部分来处理,从而解决了传统方法中语义修改和动作保持相互冲突的问题。

Q2:SAMA比现有视频编辑工具好在哪里?

A:SAMA最大的优势是能够在准确执行编辑指令的同时保持视频的自然流畅性,避免了传统工具要么指令执行不准确、要么动作不自然的问题,在多项权威测试中达到开源模型最佳水平,甚至可与商业化顶级产品媲美。

Q3:普通用户能使用SAMA进行视频编辑吗?

A:目前SAMA还处于研究阶段,研究团队计划开源相关代码和模型,未来可能会被集成到各种视频编辑应用中,让普通用户通过简单的文字描述就能完成复杂的视频编辑任务,大大降低视频制作门槛。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
国际乒联亲宣!64岁蔡振华再破天花板,让刘国梁和乒坛“沉默”了

国际乒联亲宣!64岁蔡振华再破天花板,让刘国梁和乒坛“沉默”了

以茶带书
2026-05-05 17:10:10
曹云金与神秘女子车内亲昵被拍,还在路边草丛小便,边解手边吐痰

曹云金与神秘女子车内亲昵被拍,还在路边草丛小便,边解手边吐痰

娱慧
2026-05-07 18:19:18
16岁女生玩秋千坠亡后续:多视角曝光,死因非没绑紧,细节披露

16岁女生玩秋千坠亡后续:多视角曝光,死因非没绑紧,细节披露

李晚书
2026-05-06 13:21:59
最新:莫斯科遭受大规模空袭!红场阅兵首次拉起防护网

最新:莫斯科遭受大规模空袭!红场阅兵首次拉起防护网

项鹏飞
2026-05-04 17:29:10
梁文锋赌对了!自断一臂适配国产芯片后,终于拿到国家级定价权!

梁文锋赌对了!自断一臂适配国产芯片后,终于拿到国家级定价权!

丁懰惊悚影视解说
2026-05-07 10:44:39
曝国际足联要价不是20亿而是40亿!央视最多只给5.5亿 差距悬殊

曝国际足联要价不是20亿而是40亿!央视最多只给5.5亿 差距悬殊

念洲
2026-05-06 23:06:44
130万皇马球迷请愿离队!姆巴佩心碎发声:等我走了你们才会后悔

130万皇马球迷请愿离队!姆巴佩心碎发声:等我走了你们才会后悔

体育闲话说
2026-05-07 08:05:06
樊振东又火了?德甲队友看他训练受益匪浅 爆冷大胖关键找到了?

樊振东又火了?德甲队友看他训练受益匪浅 爆冷大胖关键找到了?

颜小白的篮球梦
2026-05-07 14:58:11
特朗普等不及访华了?提前9天,美国财政部摊牌:打算借款6710亿

特朗普等不及访华了?提前9天,美国财政部摊牌:打算借款6710亿

观星赏月
2026-05-07 20:49:12
美油布油双双下挫5% 美油跌破每桶90美元

美油布油双双下挫5% 美油跌破每桶90美元

财联社
2026-05-07 20:58:06
离开国家队后,她帮意大利实现八连冠,如今31岁绯闻不断仍是单身

离开国家队后,她帮意大利实现八连冠,如今31岁绯闻不断仍是单身

林轻吟
2026-04-28 14:25:49
重庆洪崖洞景区奶芙店私自增加所售奶芙制品重量,官方通报

重庆洪崖洞景区奶芙店私自增加所售奶芙制品重量,官方通报

界面新闻
2026-05-07 15:36:33
股市:又一个“庞大帝国”出现了!

股市:又一个“庞大帝国”出现了!

新浪财经
2026-05-07 19:42:59
从不被看好到季后赛大腿!36岁老奈特的剑未尝不利

从不被看好到季后赛大腿!36岁老奈特的剑未尝不利

小鞄搞笑解说
2026-05-06 20:06:05
甲亢哥华为手机意外坠海!炸出史上最神广告

甲亢哥华为手机意外坠海!炸出史上最神广告

4A广告文案
2026-05-06 14:15:48
三星独家供货!iPhone 20首发极窄四曲面屏:直屏退场

三星独家供货!iPhone 20首发极窄四曲面屏:直屏退场

快科技
2026-05-05 21:03:35
穆帅和皇马谈判5大条件曝光:皇马或解雇队内现任意大利体能教练

穆帅和皇马谈判5大条件曝光:皇马或解雇队内现任意大利体能教练

福酱的小时光
2026-05-07 17:38:57
中国“捡钱”时代可能要来了:若手中只有10万,试试死啃这两条线

中国“捡钱”时代可能要来了:若手中只有10万,试试死啃这两条线

世界圈
2026-04-20 13:02:44
零缓冲,全国一刀切!从6月1日起,车主自己去车管所“横着走”!

零缓冲,全国一刀切!从6月1日起,车主自己去车管所“横着走”!

夜深爱杂谈
2026-05-05 10:14:28
2026折叠屏手机价格:苹果入局前夕,一些折叠机已下调到2000元档

2026折叠屏手机价格:苹果入局前夕,一些折叠机已下调到2000元档

柳先说
2026-05-07 21:51:03
2026-05-07 22:51:02
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
8262文章数 563关注度
往期回顾 全部

科技要闻

月之暗面完成20亿美元融资,估值突破200亿

头条要闻

"三亚4只皮皮虾1035元"当事人:市监局称价格没问题

头条要闻

"三亚4只皮皮虾1035元"当事人:市监局称价格没问题

体育要闻

巴黎再进欧冠决赛,最尴尬的情况还是发生了

娱乐要闻

Lisa主持!宁艺卓观看脱衣秀风波升级

财经要闻

庞氏骗局 白酒寄售平台长城易趣"爆雷"

汽车要闻

雷克萨斯全新纯电三排SUV 全新TZ全球首发

态度原创

教育
游戏
本地
手机
公开课

教育要闻

高考倒计时30天,华南理工学长学姐送上祝福,还有冲刺秘笈!

IGN今年第一个10分神作!新游被爆赞 成长叙事新标杆

本地新闻

用青花瓷的方式,打开西溪湿地

手机要闻

一加Nord CE6手机印度发布:骁龙7s Gen 4处理器、8000mAh电池

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版