网易首页 > 网易号 > 正文 申请入驻

超越Runway!Adobe发布新神器:P视频比P图还简单

0
分享至


新智元报道

编辑:LRST

【新智元导读】全新AI工具EditVerse将图片和视频编辑整合到一个框架中,让你像P图一样轻松P视频。通过统一的通用视觉语言和上下文学习能力,EditVerse解决了传统视频编辑复杂、数据稀缺的问题,还能实现罕见的「涌现能力」。在效果上,它甚至超越了商业工具Runway,预示着一个创作新纪元的到来。

你是否曾有过这样的经历:

用Hunyuan- Image、nano-banana等各类AI软件修图已经得心应手,但面对视频编辑,却需要打开有着复杂时间线和特效面板的视频剪辑软件(PR/FCPX),瞬间感觉「我不会了」。

图片编辑和视频编辑,仿佛是两个次元的技能树。

但如果,有一个工具,能让你像P图一样P视频呢?

今天,这个颠覆性的工具来了!

由香港中文大学、Adobe Research、约翰霍普金斯大学的研究员们联合推出的EditVerse,是一个划时代的AI模型,彻底打破了图片和视频创作之间的壁垒,用一个统一的框架,实现了对图像和视频的自由编辑与生成


论文链接:https://arxiv.org/abs/2509.20360

项目主页:http://editverse.s3-website-us-east-1.amazonaws.com/

测试代码:https://github.com/adobe-research/EditVerse

完整结果:http://editverse.s3-website-us-east-1.amazonaws.com/comparison.html

无论是生成音乐音符特效,还是给跳舞的人物加上一对闪亮的翅膀,你只需要输入一句话,EditVerse就能帮你实现。

EditVerse视频编辑能力展示

「数据孤岛」

视频编辑为何如此之难?

长期以来,AI视频编辑的发展远远落后于图片编辑。究其原因,主要有两大「天堑」:

  1. 架构的「隔阂」:传统的AI模型,要么是专为图片设计的,要么是专为视频设计的。想让一个图片编辑模型去处理视频,或者反之,都极其困难,需要复杂的魔改和适配 。这导致了工具的碎片化。

  2. 数据的「饥荒」:高质量的、带有「编辑指令-编辑后」配对的视频数据集极其稀少 。相比于数以亿计的图像编辑数据,视频领域的「养料」严重不足,这极大地限制了AI的学习和进化。

这些难题,使得过去的AI视频编辑工具要么功能单一,要么效果不尽人意,始终无法像图片编辑那样灵活和强大。

EditVerse的「破壁」之道

EditVerse的革命性,在于它用一套全新的「世界观」和方法论,同时解决了架构和数据的双重难题。

核心思想一:创造一种「通用视觉语言」


EditVerse交错文本与视觉模式的示例。EditVerse 能够处理任意分辨率、时长和顺序位置的图像与视频输入和输出。

EditVerse做的第一件事,就是教会AI用同一种方式去「阅读」世界上所有的视觉信息。它创新地将文本、图片、视频全部转换成一种统一的、一维的「数据流」(Token序列)。这就像是发明了一种「世界语」,让原本说着不同方言(图片编码 vs 视频编码)的AI,现在可以用同一种语言进行交流和思考。

核心思想二:强大的「上下文学习能力」


EditVerse 模型结构。研究人员设计了一个统一的图像和视频编辑与生成框架,将文本与视觉输入处理为统一的序列。图中右侧展示了位置信息编码设计(RoPE位置编码)。该框架利用全自注意力机制,以促进强大的上下文学习能力,并实现跨模态的高效知识迁移。

有了「通用语言」后,EditVerse采用了一个基于全自注意力机制(Full Self-attention)的强大Transformer架构 。通过将所有信息流在序列维度拼接在一起,EditVerse模型可以直接通过attention的上下文学习能力将不同图片、视频和文字中的信息关联起来。

你可以把它想象成一位「上下文学习大师」,它能一口气读完包含指令、原始画面的整段「数据流」,并精准理解其中每个部分之间的关联。

比如「把【视频1】左边女人的裙子变成【图2】中的裙子」 ,全注意力机制能准确地将文本指令、视频中的特定人物和图片中的服装关联起来。

同时,这种设计使得EditVerse能够灵活处理任意分辨率、任意时长的输入,真正做到了「随心所欲」 。

核心思想三:搭建一座「知识迁移的桥梁」

这正是EditVerse最巧妙的地方。因为它使用一套统一的框架同时处理图片和视频,所以它能将在海量的图片编辑数据中学到的知识(比如什么是「火焰特效」、「水彩画风格」)无缝迁移并应用到视频编辑任务中

这座「知识桥梁」极大地缓解了视频数据稀少的问题,让模型能够举一反三,展现出惊人的创造力和泛化能力。

训练数据与首个多分辨率视频编辑评测基准

光有聪明的「大脑」(模型架构)还不够,还需要海量的「知识」(训练数据)和公平的「考官」(评测基准)。

面对视频编辑数据稀缺的困境,EditVerse团队首先建立了一条可扩展的数据生产线

他们利用各种先进的专用AI模型,先自动生成海量的视频编辑样本(例如物体移除、风格转换等),然后通过一个视觉语言模型(VLM)进行打分和筛选,最终精选出23.2万个高质量的视频编辑样本用于训练 。

这批视频编辑数据,与600万图像编辑样本、390万视频生成样本、190万图像生成样本等海量数据混合在一起,共同训练EditVerse,从而使模型拥有更好的知识迁移理解能力。

此外,为了科学、公正地评估模型的能力,团队还推出了业界首个针对指令式视频编辑的综合性评测基准——EditVerseBench。这个评测基准包含了100个不同分辨率的视频,覆盖了多达20种不同的编辑任务,从简单的物体添加,到复杂的风格变换,确保能全面地检验每个模型的真实水平 。


EditVerseBench示例。EditVerseBench包含200组编辑样本,均匀分布在20个编辑类别中,视频涵盖横向和纵向两种方向。

能力展示

当想象力没有边界

EditVerse不仅统一了工作流,其编辑效果更是达到了业界顶尖水准,在人工评估(Human Evaluation)上更是超过了商业模型Runway Aleph。

下面通过一些真实的案例,感受它的强大。

EditVerse与过往方法的完整效果对比

为了进行大规模、客观的自动化评测,团队从多个角度进行了对于各个模型的评测

  • 视频质量 (Video Quality): 使用与人类审美高度相关的PickScore进行评分 。

  • 文本对齐 (Text Alignment): 分别在单帧和整个视频层面,计算编辑结果与文字指令的语义匹配度 。

  • 时间一致性 (Temporal Consistency): 通过计算相邻帧之间的特征相似度,来判断视频是否流畅、无闪烁 。

  • 视觉语言模型(VLM)GPT-4o评分(VLM Evaluation):它会从指令遵循度、编辑质量、背景一致性等多个角度为生成结果打分。

在EditVerseBench基准测试上,EditVerse与现有主流方法进行了对比,结果显示其全面领先于所有开源模型 。更值得注意的是,在最符合人类偏好的VLM评分上,EditVerse超越了闭源商业模型Runway Aleph


在EditVerseBench上的定量比较。对于开源研究模型,研究人员比较了两种无需训练的方法(TokenFlow和STDF)、一种首帧传播方法(Señorita-2M),以及一种基于指令的视频编辑方法(InsV2V)。最佳结果以粗体标出。还提供了一个商业模型Runway Aleph的结果。尽管由于基础模型的差异,EditVerse在生成质量上略逊于Runway Aleph,但EditVerse在编辑忠实度上(通过基于视觉语言模型的编辑质量评估)超越了它,与人类评估结果更加一致。

在编辑领域,用户的真实偏好最有说服力。在真人评测环节中,评测者在不知道模型来源的情况下,对不同模型生成的视频进行投票。

结果再次印证了EditVerse的优势:它不仅对开源模型取得了压倒性的胜利(例如对InsV2V的胜率高达96.9%),面对商业模型Runway Aleph,也有51.7%的用户认为EditVerse的效果更好


人类评估结果

EditVerse的「涌现能力」从何而来?

在测试过程中,研究人员发现了一个令人兴奋的现象:EditVerse经常能完成一些它从未在视频数据中学过的任务。

比如,指令是「把乌龟变成水晶材质」或「给天空加上延时摄影效果」,尽管它的视频训练集中并没有这类「材质变换」或「特效添加」的专项数据,但模型依然能出色地完成。

这种「无师自通」的能力,就是AI领域备受关注的「涌现能力」(Emergent Ability)

这背后的秘密,正是前文提到的那座「知识迁移的桥梁」在发挥关键作用。

想象一下,EditVerse就像一位学徒,阅读了600万本关于「静态绘画」的顶级教材(图片编辑数据),却只看了28.8万份关于「动态影像」的简报(视频编辑数据) 。

然而,他从海量绘画教材中学到了关于光影、构图、材质、风格的深刻原理。当他处理动态影像时,他能将这些底层艺术原理灵活运用,从而「领悟」出视频中如何表现「水晶质感」或「天气变化」,即便简报里从未提过。

为了验证这一猜想,团队进行了一项关键的消融实验:他们拿走那600万本「绘画教材」(即移除图片编辑数据),只用视频数据来训练模型。

结果不出所料,新模型的视频编辑能力发生了断崖式的下跌

另外,团队还发现,如果将视频生成训练数据移除,模型效果同样会下降,这说明了模型是从图片编辑+视频生成两者各取其长,涌现出了视频编辑的能力。


关于训练数据的消融研究。


训练数据消融实验的可视化结果。图像数据起到了关键作用。

这项实验无可辩驳地证明了:正是从海量、多样化的图像数据中汲取的深层知识,赋予了EditVerse在视频领域举一反三、触类旁通的「涌现能力」

它甚至能创造出比其训练数据质量更高的作品,因为它不是在死记硬背,而是在真正地理解和创造 。


将EditVerse的生成结果与真实数据进行比较。结果显示,EditVerse能够通过从图像和视频生成数据中提取知识,生成质量超越真实数据。

一个创作新纪元的开启

EditVerse的出现,其意义远不止于一个强大的工具,它预示着一个全新的内容创作范式的到来,从分离到统一,从繁琐到简洁。

EditVerse正在做的,是将专业级的视觉编辑能力,真正地普及给每一个有创意的人。

作者简介


鞠璇,香港中文大学计算机科学与工程博士生,研究方向为图像视频生成、理解生成统一模型等,曾在Meta、可灵、Adobe、腾讯、IDEA、商汤等多个公司实习。

参考资料:

https://arxiv.org/abs/2509.20360

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
今天最后一天!浙江天气即将上演反转,气温跌破20℃……

今天最后一天!浙江天气即将上演反转,气温跌破20℃……

FM93浙江交通之声
2025-11-02 06:05:10
韩华海洋宣布停止进口中国大白菜,反制中国制裁措施

韩华海洋宣布停止进口中国大白菜,反制中国制裁措施

我不叫阿哏
2025-11-02 12:57:14
74年毛主席指示释放全部战犯,看过名单后告周恩来:请他们吃顿饭

74年毛主席指示释放全部战犯,看过名单后告周恩来:请他们吃顿饭

南书房
2025-10-03 23:07:06
闺蜜让我当心男友,我婚前把房子卖了,婚后第3天婆婆露出真面目

闺蜜让我当心男友,我婚前把房子卖了,婚后第3天婆婆露出真面目

农村情感故事
2025-10-12 18:26:37
老年人行房最晚到多大年龄?或许很多人想错了!

老年人行房最晚到多大年龄?或许很多人想错了!

深度报
2025-09-11 23:05:16
1场6-3后,斯诺克第5席32强诞生!白雨露创纪录,周跃龙丢赛点!

1场6-3后,斯诺克第5席32强诞生!白雨露创纪录,周跃龙丢赛点!

刘姚尧的文字城堡
2025-11-02 13:04:08
美专家:抗美援朝若让粟裕代替彭德怀领兵,输的更惨!仅凭三点

美专家:抗美援朝若让粟裕代替彭德怀领兵,输的更惨!仅凭三点

南书房
2025-10-26 14:22:44
短剧尺度突破!原配丈夫孕检信息泄露,特殊职业引关注

短剧尺度突破!原配丈夫孕检信息泄露,特殊职业引关注

观察者海风
2025-11-02 14:54:23
黄晓明,在“油”和“去油”之间找到演员之路

黄晓明,在“油”和“去油”之间找到演员之路

后浪电影
2025-11-02 10:08:36
我为什么不想写太子集团的陈志?

我为什么不想写太子集团的陈志?

伢伢复盘
2025-11-02 09:06:28
“辞职看世界”的女老师,10年后成这样:黯然回乡,老公已分开

“辞职看世界”的女老师,10年后成这样:黯然回乡,老公已分开

热风追逐者
2025-10-24 01:15:03
台湾名嘴赖岳谦说,十年前当大陆提出2025年规划时

台湾名嘴赖岳谦说,十年前当大陆提出2025年规划时

老友科普
2025-11-02 14:24:11
江苏省规模较大的二十家医院

江苏省规模较大的二十家医院

王二哥老搞笑
2025-11-02 12:15:14
早上送孩子上学困难?网友:妈求你了,请天假吧

早上送孩子上学困难?网友:妈求你了,请天假吧

夜深爱杂谈
2025-11-01 22:59:47
黄平:我到过印度的贫民窟,那是中国人无法想象的第三世界

黄平:我到过印度的贫民窟,那是中国人无法想象的第三世界

扶苏聊历史
2025-10-31 17:34:04
莫齐抛弃华裔未婚妻,高攀英国公主,岳父没了爵位之后家里一团糟

莫齐抛弃华裔未婚妻,高攀英国公主,岳父没了爵位之后家里一团糟

户外小阿隋
2025-11-02 07:49:56
全红婵放弃全运单人角逐系顶层决策,并不仅仅是保护身体那么简单

全红婵放弃全运单人角逐系顶层决策,并不仅仅是保护身体那么简单

杨华评论
2025-11-01 19:30:01
大反转!冷空气即将抵达广东!最低温降至13℃!东莞天气……

大反转!冷空气即将抵达广东!最低温降至13℃!东莞天气……

东莞好生活
2025-11-02 09:28:49
杨瀚森发展联盟好刷数据?杨毅:人家拿球能给你么,姥姥!

杨瀚森发展联盟好刷数据?杨毅:人家拿球能给你么,姥姥!

老曁科普
2025-11-02 14:52:24
著名音乐人屠颖发生意外不幸离世,作品《情书》《味道》《过火》家喻户晓

著名音乐人屠颖发生意外不幸离世,作品《情书》《味道》《过火》家喻户晓

鲁中晨报
2025-11-01 19:03:04
2025-11-02 15:43:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13767文章数 66236关注度
往期回顾 全部

科技要闻

10月零跑突破7万辆,小鹏、蔚来超4万辆

头条要闻

"最快女护士"张水华获得"复出"后首个全马冠军

头条要闻

"最快女护士"张水华获得"复出"后首个全马冠军

体育要闻

这个日本人,凭啥值3.25亿美元?

娱乐要闻

离世的他曾是刘德华张学友御用班底

财经要闻

段永平捐了1500万元茅台股票!本人回应

汽车要闻

神龙汽车推出“发动机终身质保”政策

态度原创

教育
亲子
家居
时尚
公开课

教育要闻

全国青少年信息奥赛常州考点,江苏优秀学子在此集聚,祝他们好运

亲子要闻

什么是“泪失禁”?00后孩子跟父母完全是2个物种!

家居要闻

吸睛艺术 富有传奇色彩

推广|| 每天都在穿!这件外套,轻松搞定秋冬所有搭配

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版