网易首页 > 网易号 > 正文 申请入驻

500美元刷新SOTA!训练成本砍到1/200,华人团队重构视频生成范式

0
分享至

henry 发自 凹非寺
量子位 | 公众号 QbitAI

你可能听说过OpenAI的Sora,用数百万视频、千万美元训练出的AI视频模型。

但你能想象,有团队只用3860段视频、不到500美元成本,也能在关键任务上做到SOTA?

比如这个图生视频:攀岩者在小行星攀岩,人体运动与太空光影完美仿真。

视频扩展也是不在话下,给定起始帧或结束帧,让存钱罐小猪直接在大溪地的冲浪圣地上冲浪。

这些精美的视频就来自于香港城市大学等团队最新联合发布的图像-视频生成模型——Pusa V1.0(菩萨1.0)。

Pusa V1.0在基础大模型Wan2.1-T2V-14B的基础上引入向量时间步适应(vectorized timestep adaptation,VTA )机制,仅使用3860对视频-文字数据、约500美元成本进行微调,就在图像转视频 (I2V) 超越了Wan-I2V-14B,实现了SOTA,并解锁了诸多零样本任务能力。

500美元实现SOTA

如上文所说,Pusa V1.0文本到视频(T2V)模型 Wan-T2V-14B 微调而来,用于图像到视频生成(I2V)。

与其他会破坏基础模型架构的微调模型不同,Pusa采用VTA机制,从而实现最小、非破坏性的优化,将时间步长从标量扩大到矢量。它完全保留了基础模型的预训练先验,并实现了更有效的时间学习。

全面的任务支持

凭借其灵活的矢量化时间步适应策略,Pusa仅需10个推理步骤就能够执行多种视频生成任务。

这些能力都是其“涌现属性”,能够以零样本方式(无需任何任务特定的训练)扩展到:图像到视频、开始-结束帧、视频扩展、文字转视频、视频转场等任务中。

例如,以9个起始帧(左视频)和12个结束帧(右视频)作为条件,让模型生成中间的60帧画面。

或者,直接输入文字,让模型把一辆汽车从金色变成白色。

VTA如何让视频生成更自然?

由于视频本质上是按固定帧率(如电影的每秒 24 帧)连续播放的一系列图片。在视频扩散模型(VDM)中,模型通常将整段视频拆解为逐帧图像进行建模。

在传统的做法中,所有帧共享一个标量时间步长变量,模型对所有帧同步进行相同程度的降噪。不过,这就意味着让所有帧在降噪过程中步调一致,同时演化。

由此,后面的画面无法获得前一帧画面的约束信息,从而使I2V(image-to-video)的效果过于僵硬。

此外,由于图像输入不同于模糊抽象的文本输入,其作为刚性条件,对“视频生成起点”限制非常严格。模型在保持原图约束的同时,必须自己“猜”这个图像之后会怎么动。

因此,为了生成连贯动态的视频,不同帧之间应该以不同速度/时间状态进行演化,从而让后续帧的去噪过程能尽可能的受到前一帧先验的控制。

由此,研究提出VTA,为每一帧引入一个独立的时间编码。这样就允许模型能对每帧的去噪进度和时间位置进行精细控制,从而更好地模拟现实中帧的时序演化,使生成的视频在动态表现上更连贯、自然。

具体而言,VTA通过帧感知的流匹配(Frame-Aware Flow Matching, FAFM)使每一帧能够独立演化,同时赋予模型对同步与异步时间结构的建模能力。最终,它通过向DiT注入自定义的时间嵌入,实现了高效、统一、非破坏性的多任务视频生成。

在训练层面,Pusa 采用了帧感知的流匹配(FAFM)目标函数,模拟每一帧在时间轴上独立演化的理想速度。此外,为了始终保持起始图像作为条件约束,其对应的时间步分量在整个推理过程中都被设置为零。

在模型结构上,VTA 则将这一目标通过向量时间步嵌入落实到 DiT 框架中,实现推理阶段的帧级动态控制。

在推理时,Pusa 允许为每一帧指定不同时间步长,从而实现起始帧固定、末帧补齐、关键帧约束等多种时间控制策略。这种“从目标到机制”的结合,是 Pusa 不仅生成自然,更易泛化的关键。

Pusa V1.0使用LORA+DeepSpeed Zero2在8张80GB内存的GPU上进行微调。实验表明,Pusa V1.0 超越了同样基于Wan-I2V-14B微调而来的Wan-I2V,实现了SOTA。

与此同时,Pusa V1.0所需的参数更新数比Wan-I2V少10倍以上,这表明Pusa仅仅关注与时间相关的模块,从而保留了基础模型的先验知识。与之相对的,Wan-12V则表现出对基础模型先验知识的破坏。

可以说,Pusa V1.0以极致轻量化的训练成本为之后的视频生成建立了可扩展且多功能的范例。

模型目前已开源,详情可参考文末链接。

One More Thing

根据Pusa的介绍文档,模型的名称源于中文中的菩萨(“千手观音”)。

观音菩萨多手的图案象征着她无边的慈悲和无量的能力。

团队采用这个名称是为了表明模型使用多个时间步长变量来实现丰富的视频生成功能。

模型更小,意味着它能更快地进入每个人的电脑,而只有当技术真正服务于每一个创作者的时候,它才成为了真正的“菩萨”。

[1]项目主页:https://yaofang-liu.github.io/Pusa_Web/

[2]huggingface:https://huggingface.co/RaphaelLiu/PusaV1

[3]arxiv:https://arxiv.org/abs/2410.03160

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国正加速抛售美债,美专家:中国用了新抛售方式,完全无法干预

中国正加速抛售美债,美专家:中国用了新抛售方式,完全无法干预

似水流年忘我
2026-01-29 01:24:08
爱泼斯坦最新文件:川普办未成年性派对,老布什&克林顿共同性侵男性

爱泼斯坦最新文件:川普办未成年性派对,老布什&克林顿共同性侵男性

玛丽姬丝
2026-02-02 12:42:14
总统是间谍?美国最新机密文件显示:特朗普是傀儡,早已被以色列收买

总统是间谍?美国最新机密文件显示:特朗普是傀儡,早已被以色列收买

不掉线电波
2026-02-01 15:52:15
吃相越来越难看,都开始硬抢了!

吃相越来越难看,都开始硬抢了!

胖胖说他不胖
2026-02-01 10:00:18
开拓者老鹰达成3换1!杨瀚森添三分神射新队友 交易评级出炉

开拓者老鹰达成3换1!杨瀚森添三分神射新队友 交易评级出炉

罗说NBA
2026-02-02 04:03:35
员工多看了一眼避免了1800万元损失,湖北公布18起事故隐患内部报告奖励典型案例

员工多看了一眼避免了1800万元损失,湖北公布18起事故隐患内部报告奖励典型案例

极目新闻
2026-02-01 17:35:24
一天2.2万人爽约!灵隐寺这次算是被白嫖党,给结结实实上了一课

一天2.2万人爽约!灵隐寺这次算是被白嫖党,给结结实实上了一课

火山诗话
2026-02-02 08:41:43
现货黄金跌破4500美元/盎司

现货黄金跌破4500美元/盎司

界面新闻
2026-02-02 13:54:53
曼城气炸!热刺首球犯规 瓜帅气到无语 金球先生开炮:黑掉太多分

曼城气炸!热刺首球犯规 瓜帅气到无语 金球先生开炮:黑掉太多分

我爱英超
2026-02-02 07:43:51
不是穿越!广州白云机场工作人员换“宋服”,网友赞:送福迎春,机场:仅安检巡逻换装

不是穿越!广州白云机场工作人员换“宋服”,网友赞:送福迎春,机场:仅安检巡逻换装

潇湘晨报
2026-02-02 14:45:14
和领导的410次开房记录,写着她从临时工到副处长的每一步努力!

和领导的410次开房记录,写着她从临时工到副处长的每一步努力!

闲侃闲侃
2026-01-29 08:36:50
离开上海又去了东京:斯塔默“不做选择”的“英式务实主义”

离开上海又去了东京:斯塔默“不做选择”的“英式务实主义”

澎湃新闻
2026-02-02 11:45:05
高铁站分别后儿子在母亲后面狂追,妈妈感动不已以为儿子舍不得自己,儿子回复:妈妈送错站口了

高铁站分别后儿子在母亲后面狂追,妈妈感动不已以为儿子舍不得自己,儿子回复:妈妈送错站口了

黄河新闻网吕梁频道
2026-02-02 11:55:53
死的也不能捞! 2023年浙江渔民捞一只卖了1300元, 专家鉴定值15万

死的也不能捞! 2023年浙江渔民捞一只卖了1300元, 专家鉴定值15万

万象硬核本尊
2026-02-01 18:44:54
绍伊古访华争分夺秒,谈好后马上给普京复命,中俄都已准备好了

绍伊古访华争分夺秒,谈好后马上给普京复命,中俄都已准备好了

头条爆料007
2026-02-02 06:10:13
两被击毙港人去乌做雇佣兵原因曝光,接受军事训练以在香港使用

两被击毙港人去乌做雇佣兵原因曝光,接受军事训练以在香港使用

侠客栈
2026-02-01 13:50:37
爱泼斯坦案“诡异照片”曝光!那张“鸡肉照”到底藏着什么?

爱泼斯坦案“诡异照片”曝光!那张“鸡肉照”到底藏着什么?

墨印斋
2026-02-01 17:46:13
美智库:俄军伤亡竟然大幅下降!北约终于发现:为何打不赢俄罗斯

美智库:俄军伤亡竟然大幅下降!北约终于发现:为何打不赢俄罗斯

混沌录
2026-01-31 16:29:05
纽约期银突破87美元/盎司,日内涨10.78%

纽约期银突破87美元/盎司,日内涨10.78%

每日经济新闻
2026-02-02 08:19:11
收评:三大指数均跌超2% 全市场超百股跌停

收评:三大指数均跌超2% 全市场超百股跌停

财联社
2026-02-02 15:02:16
2026-02-02 15:08:52
量子位 incentive-icons
量子位
追踪人工智能动态
12098文章数 176369关注度
往期回顾 全部

科技要闻

阿里筑墙,腾讯寄生,字节偷家

头条要闻

外媒:伊朗正处于最弱时期 是推翻现有政权的最佳时机

头条要闻

外媒:伊朗正处于最弱时期 是推翻现有政权的最佳时机

体育要闻

澳网男单决赛,属于阿尔卡拉斯的加冕仪式

娱乐要闻

周杰伦带王俊凯陈奕迅聚餐 畅聊音乐

财经要闻

贵金属大跌 多个期货主力合约触及跌停

汽车要闻

雷克萨斯LC500将于今年底停产 "最美雷克萨斯"谢幕

态度原创

亲子
家居
本地
教育
公开课

亲子要闻

太有打乒乓球的天赋了

家居要闻

现代几何彩拼 智焕童梦居

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

教育要闻

江苏省教育厅:致全省中小学生家长的一封信

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版