网易首页 > 网易号 > 正文 申请入驻

视频生成Prompt何须仅是文字!字节&港中文发布Video-As-Prompt

0
分享至



本工作由第一作者在字节跳动智创北美团队实习期间完成。第一作者卞宇轩目前为香港中文大学计算机科学与工程系博士二年级学生,研究方向为可控视频生成,师从徐强教授,并曾在字节跳动、腾讯等公司实习。个人主页:https://yxbian23.github.io/

视频创作中,你是否曾希望复刻变成 Labubu 的特效,重现吉卜力风格化,跳出短视频平台爆火的同款舞蹈,或模仿复杂有趣的希区柯克运镜?

在现在的 AI 视频生成中,这些依赖抽象语义控制的创作,因缺乏统一的条件表征,实现起来往往异常困难。

最基础和直接的想法是针对每一种抽象语义单独训练 LoRA 或针对某一类语义条件设计专门的模型架构完成针对性的特征提取和可控生成。

然而,语义条件可能无穷无尽,一个条件训练一个模型会导致实际使用非常复杂,计算消耗非常庞大,且面对未曾训练的其他语义条件,模型没有任何泛化性能;针对某一类语义设计模型架构一定程度上在单独子集解决了这个问题(例如:相机控制,风格迁移),但面对着不同语义类别,仍需要不断切换模型,其任务专一的设计也无法完成不同语义类别的统一建模,阻碍了统一模型和模型规模化的进展。

为了解决这一痛点,香港中文大学与字节跳动团队联合提出了一种全新的语义可控的视频生成框架 Video-As-Prompt。它引入了一种「视频参考」的新范式,用户只需提供一段参考视频和对应的语义描述共同作为 prompt,模型就能直接「克隆」指定语义并应用于新内容,从根本上实现了抽象语义下可控视频生成范式的统一。

该工作的训练、推理代码和目前最大的高质量多语义数据集均已开源。该工作所提出的数据集规模宏大,包含超过 100K 视频,覆盖超过 100 个不同的高质量语义条件。



  • 论文标题:Video-As-Prompt: Unified Semantic Control for Video Generation
  • 项目主页:https://bytedance.github.io/Video-As-Prompt/
  • 论文:https://arxiv.org/pdf/2510.20888
  • Demo:https://www.youtube.com/watch?v=S3zpLIMOU4c
  • 模型:https://huggingface.co/collections/ByteDance/video-as-prompt
  • 数据集:https://huggingface.co/datasets/BianYx/VAP-Data
  • 代码:https://github.com/bytedance/Video-As-Prompt

Video-As-Prompt 能力展示

Video-As-Prompt 支持四大类复杂语义的克隆和迁移:复杂概念、艺术风格、指定动作和相机运镜,基于其强大的克隆能力,Video-As-Prompt 衍生出诸多应用:

  • 用包含不同语义的不同参考视频驱动同一张图片:



  • 用包含相同语义的不同参考视频驱动同一张图片:



  • 用同一个参考视频驱动不同图片:



  • 结合文本实现语义编辑:



更多的 demo 效果请参考项目主页。

Video-As-Prompt 算法解读

实现一个统一的语义可控视频生成模型的关键就在于:

  • 如何构建统一的语义条件表征
  • 如何在语义条件表征和生成视频之间建立有效的语义信息映射
  • 如何找到可扩展的架构以实现高效训练

Video-As-Prompt 通过让具有指定语义的参考视频充当生成上下文 prompt,实现了抽象语义条件下的统一可控视频生成。

  • 语义条件表征

提出使用参考视频作为统一的抽象语义条件表征,无需针对不同语义进行分类和设计针对编码模型,大大提升了模型架构的通用性、可拓展性,同时降低了用户使用的难度。

  • 语义信息映射

将参考视频当作「视频 prompt」,从 in-context generation 的角度完成统一的语义映射。

  • 可扩展的架构

直接训练视频生成基模通常会导致在数据有限的情况下发生灾难性遗忘。为了稳定训练,研究者采用 Mixture-of-Transformers(MoTs):一个冻结的视频扩散 Transformer(DiT)加上一个从主干初始化的可 trainable 并行专家 Transformer 联合建模。



具体来说,专家处理参考视频代表的语义条件 tokens,而冻结的 DiT 处理待生成的视频 tokens。每个 DiT 都保留各自的 Q、K、V 投影、前馈层和归一化层;在每一层连接两部分的 Q/K/V,并运行全注意力机制,以实现双向信息融合和上下文控制。

Video-As-Prompt 实验结果

为了支持统一的语义控制视频生成,研究者构建并发布了VAP-Data 用于促进相关研究大规模训练,和对应的 Benchmark 用于公平评测,这是目前开源用于语义可控视频生成的最大数据集,其中包含超过 100 个语义条件下的 100K 个精选配对视频样本。



研究人员主要和两类方法进行了比较:

  • 统一的结构化控制视频生成:VACE 的三个变体(分别采取原始参考视频,参考视频的深度、光流作为控制条件)
  • 离散的语义控制视频生成:原始的视频 DiT 基座,视频 DiT 基座 + 针对每种语义单独训练 LoRA,Kling/Vidu 等商业 API

总体而言,Video-As-Prompt 的性能在整体视频质量、文本一致性、语义一致性(Gemini-2.5-Pro 判别)和人工偏好上都与闭源模型 Kling/Vidu 相当并优于其他开源基线,并且是首个针对所有语义条件统一控制且可扩展和推广的模型。

并且,通过将所有语义条件视为统一的视频提示,Video-As-Prompt 支持多种语义控制的生成任务。此外,当给定一个不属于训练数据的语义参考时,从参考视频建模范式中学习到的上下文生成能力使 Video-As-Prompt 能够执行由新语义参考引导的零样本生成,这超越了之前所有的方法,并为未来的统一可控生成提供了新的可能。



左边为训练时完全不曾见过的相关语义参考视频,右边为 zero-shot 推理结果

总结

Video-As-Prompt 是一个统一的、语义控制的视频生成框架,它提出参考视频克隆生成的生成范式,将参考视频视为 video prompt,并通过 Mixture-of-Transformers 实现即插即用的上下文控制,提供了可扩展的语义控制和零样本泛化能力。其统一的参考视频建模(「Video-As-Prompt」)框架,验证了基于参考视频的可控生成这一思路的巨大潜力。

同时,开源的大规模视频参考生成数据集也将为社区的相关研究提供强有力的数据支持,有望推动 AIGC 视频创作进入一个生成更可控、语义更丰富的新阶段。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
满屏荷尔蒙!网飞这一脱,又赢麻了

满屏荷尔蒙!网飞这一脱,又赢麻了

来看美剧
2025-11-17 21:10:16
真是狂妄到家!高市早苗将琉球问题摆上桌面,老美暗示要参战?

真是狂妄到家!高市早苗将琉球问题摆上桌面,老美暗示要参战?

锐器
2025-11-18 23:45:43
西安百姓怒了:市监局沦为方红卫权力余毒重灾区!

西安百姓怒了:市监局沦为方红卫权力余毒重灾区!

老萧杂说
2025-11-18 20:00:31
人社部:技能等级挂钩薪资

人社部:技能等级挂钩薪资

每日经济新闻
2025-11-18 13:23:13
上位靠睡、赶走原配!刚拿金鸡奖影后的宋佳,私生活传闻有多离谱

上位靠睡、赶走原配!刚拿金鸡奖影后的宋佳,私生活传闻有多离谱

萧鑟科普解说
2025-11-18 10:02:39
换车,就是一个巨大的消费陷阱。

换车,就是一个巨大的消费陷阱。

爱吃糖的猫cat
2025-11-16 18:14:27
里子面子都没了!邹市明赔光两亿后,冉莹颖亲手撕碎他最后的体面

里子面子都没了!邹市明赔光两亿后,冉莹颖亲手撕碎他最后的体面

赶鸭子上架
2025-11-14 15:48:42
彻底无缘世界杯的五大强队!非洲雄鹰和雄狮都出局!匈牙利无缘!

彻底无缘世界杯的五大强队!非洲雄鹰和雄狮都出局!匈牙利无缘!

林子说事
2025-11-18 07:56:32
以色列部长威胁:如联合国承认巴勒斯坦国,将暗杀巴权力机构领导

以色列部长威胁:如联合国承认巴勒斯坦国,将暗杀巴权力机构领导

桂系007
2025-11-18 23:42:45
全运会乒乓:山东女团3-2进决赛!陈梦先输后赢,约战孙颖莎争冠

全运会乒乓:山东女团3-2进决赛!陈梦先输后赢,约战孙颖莎争冠

全言作品
2025-11-18 22:21:50
继三上悠亚后相泽南宣布引退!为粉丝硬撑4年爆哭8min泪洒台湾!

继三上悠亚后相泽南宣布引退!为粉丝硬撑4年爆哭8min泪洒台湾!

素然追光
2025-11-19 00:24:10
全运游泳收官!诞生5大赢家,2人失意,2人成未来希望,一项没落

全运游泳收官!诞生5大赢家,2人失意,2人成未来希望,一项没落

篮球圈里的那些事
2025-11-17 21:01:57
世界杯历史射手榜:梅西13球 姆巴佩12球 谁能打破克洛泽16球纪录

世界杯历史射手榜:梅西13球 姆巴佩12球 谁能打破克洛泽16球纪录

智道足球
2025-11-18 19:50:32
为什么在传统中国,“人类独立”精神似乎是不存在的?

为什么在传统中国,“人类独立”精神似乎是不存在的?

尚曦读史
2025-11-12 10:43:22
又一国产车“倒下”了,10月份仅卖了1辆,是国人不识货吗?

又一国产车“倒下”了,10月份仅卖了1辆,是国人不识货吗?

诗意世界
2025-11-16 20:00:36
西部排名又变了:掘金爆冷输球,火箭剑指第2,快船掉到第12

西部排名又变了:掘金爆冷输球,火箭剑指第2,快船掉到第12

篮球大视野
2025-11-18 15:09:56
又轰下36+18+13!抱歉罗伯特森:你要从历史第一变历史第二了

又轰下36+18+13!抱歉罗伯特森:你要从历史第一变历史第二了

篮球大视野
2025-11-18 15:32:31
约基奇空砍36+18+13掘金不敌公牛结束7连胜,吉迪21+14+6

约基奇空砍36+18+13掘金不敌公牛结束7连胜,吉迪21+14+6

湖人崛起
2025-11-18 12:26:07
0-0险平!中国队无缘冠军,最大水货揪出,熊猫杯最终排名如下

0-0险平!中国队无缘冠军,最大水货揪出,熊猫杯最终排名如下

大秦壁虎白话体育
2025-11-18 21:53:48
王思聪成功和懒懒分手,回国的懒懒被曝变卖奢侈品,网友吐槽太贵

王思聪成功和懒懒分手,回国的懒懒被曝变卖奢侈品,网友吐槽太贵

娱乐团长
2025-11-16 15:45:42
2025-11-19 01:08:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11747文章数 142507关注度
往期回顾 全部

科技要闻

谷歌CEO警告:若AI泡沫破裂,没公司能幸免

头条要闻

孟加拉国前总理哈西娜被判死刑 中方回应

头条要闻

孟加拉国前总理哈西娜被判死刑 中方回应

体育要闻

结束最后一次对决,陈梦和朱雨玲笑着相拥

娱乐要闻

宋佳夺影后动了谁的奶酪

财经要闻

中美机器人爆发了一场论战

汽车要闻

硬核配置旗舰气场 岚图泰山售37.99万起

态度原创

数码
艺术
手机
家居
公开课

数码要闻

苹果实现制造突破:Apple Watch全面采用3D打印再生钛金属表壳

艺术要闻

优雅浪漫的绘画,美到让人想直接住进去!

手机要闻

红米K90至尊版突然被确认:大屏高刷+超帧生态,是否值得期待?

家居要闻

彰显奢华 意式经典风格

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版