网易首页 > 网易号 > 正文 申请入驻

港大、JD探索院联手出招:视频AI从"能用"到"好用",只需这四步

0
分享至


这项由香港大学、京东探索研究院、清华大学、北京大学和浙江大学联合完成的研究,以技术报告形式发布于2026年4月,论文编号为arXiv:2604.25427,有兴趣深入了解的读者可通过该编号查询完整原文。

你有没有试过用AI视频生成工具,结果出来的东西跟你描述的完全对不上号?或者生成的人物手指长得奇奇怪怪,画面前后一会儿是白天一会儿是黑夜,整个视频看起来像是拼凑出来的?这不是你的问题,这是现在几乎所有视频生成AI都面临的老大难困境。

来自香港大学和京东探索研究院等机构的研究团队,决定系统性地解决这个问题。他们把这套解决方案称为"视频生成后训练框架",简单来说,就是给已经学会"生成视频"的AI,再上一套专门让它"生成好视频"的课程。

**预训练的AI,就像刚毕业的新员工**

要理解这项研究的价值,先得明白一个道理:AI生成视频分两个大阶段。第一阶段叫"预训练",模型会看海量的视频和文字,学会"视频长什么样"这件事,有点像一个大学生花四年时间读了很多书、看了很多案例。第二阶段叫"后训练",针对真实工作环境里的具体问题做调整,就像这个大学生入职以后要经历试用期培训、导师辅导、项目历练,才能真正上手干活。

当前大多数视频AI只完成了第一阶段就直接上岗了,结果暴露出三个典型问题:第一,对用户输入的描述极其敏感,你换个词、换个语序,生成结果可能天差地别;第二,视频在时间上不连贯,同一个物体前后帧之间会莫名其妙地变形、消失或者抖动;第三,计算成本极高,生成一段视频要等很长时间,根本不适合大规模商用。

这个研究团队设计了一套完整的"后训练"课程,把整个流程分成四个递进的阶段,每个阶段各司其职,合力解决上面三个问题。

一、打地基:先用优质数据让AI学会"好好说话"

整个课程的第一步,叫做"监督微调",英文缩写是SFT。这一步的核心目标不是让AI变得多厉害,而是让它变得"靠谱"。

用一个更直观的类比来理解:假设你要训练一个厨师助手机器人。它可能已经看过几百万道菜的食谱,理论知识满分,但实际操作起来,可能会把盐和糖搞混,或者炒一半突然不动了。这时候你要做的第一件事,不是立刻让它挑战米其林菜单,而是让它先把最基本的操作做对——正确识别调料、按顺序完成步骤、不出安全事故。

研究团队在这一阶段做的,就是用一批精心筛选的高质量视频-文字配对数据,专门针对AI最频繁出现的严重错误进行纠正。这些错误包括:完全拒绝执行某些指令(就像厨师助手突然罢工)、生成逻辑混乱的内容(就像做菜做到一半开始往锅里倒洗洁精)、以及产出不安全的内容。

经过这一步,AI就从一个"能力强但行为不稳定"的状态,变成了一个"听话、稳定、有基本判断力"的状态。这个稳定的状态非常重要,因为它是后续所有进阶训练的基础。如果跳过这一步直接做后面更复杂的优化,AI可能在优化过程中"跑偏",出现各种奇怪的退化现象。研究团队特别强调:这一步还有一个额外好处,就是让AI在尝试不同生成策略时有更大的"探索空间",为后续训练提供更好的素材。

二、用奖惩机制做精细打磨:让AI追求真正的"好看"

AI学会了基本操作之后,下一步是教它追求更高的标准。这一阶段叫做"基于人类反馈的强化学习",缩写是RLHF,用的具体方法叫GRPO。

用奖惩机制训练AI这件事,可以用驯犬来类比。狗学会了"坐下"这个基本指令之后,你想让它学会更复杂的行为,就需要用零食奖励它做对的,用平淡的态度回应它做错的。不同的是,AI的"零食"是由一批专门的评分系统给出的分数。

这个研究里,团队构建了四个专门的评分系统,分别负责评估不同维度的质量。第一个负责评估整体视频美学,包括光影、色彩搭配、构图是否好看、前后帧是否像一部电影。第二个负责评估单帧图像质量,也就是截出任意一帧看,清晰度和精致度是否过关。第三个负责评估运动质量,物体的移动是否自然流畅,有没有抖动、跳帧、突然变形之类的问题。第四个负责评估语义一致性,也就是生成的视频内容和用户描述的文字是否对得上。

然而,同时让这四个评委打分、然后综合他们的意见来决定是否"奖励"AI,远比听起来复杂。因为这四个维度有时候会互相冲突。比如追求视觉上特别华丽,可能会让画面变得夸张不自然,反而和用户的文字描述对不上;而追求文字对齐,有时候生成的画面又会显得平淡呆板。研究团队花了大量精力设计评分的合并策略和各维度的权重比例,确保最终的优化方向是"整体最好"而不是"某一项特别极端"。

在具体的技术实现上,团队面对的是视频生成特有的挑战:生成一段视频需要多个连续的计算步骤,而奖励只在最后一步给出。这就像是厨师花了两小时做了一道菜,结果评委只在最后品尝一口的时候才给分。如何把这一口的感受反推回去,指导每一步的烹饪操作,是个技术难题。

研究团队采用了一种叫"同步时间步分组"的策略来解决这个问题。简单说,就是把生成过程中的不同时间节点分给不同的训练批次,每次只在特定节点引入随机探索(技术上叫SDE采样),其余时间保持确定性操作(ODE采样)。这样一来,每次计算的成本降低了,但AI依然能够通过随机探索发现更好的生成策略。团队还引入了"时序梯度校正"机制,用一个数学公式对不同时间步的学习信号强度进行标准化,避免某些时间步的影响过大或过小。

经过这一阶段的训练之后,在实际评测中,视频整体质量的人工评分提升了31%。视觉质量和运动流畅度的提升最为显著,文字语义对齐方面的提升则相对有限——研究团队坦承,这主要是因为目前文字-视频对齐的评分系统本身还不够准确,限制了这方面的优化效果。

三、从源头入手:训练一个专门"帮你描述"的助手

前两个阶段解决的是AI生成视频的质量问题,但还有一个问题没有解决:用户给出的描述往往太简单、太模糊。如果用户只输入"一只猫在玩耍",AI能做的最多就是生成一只在玩耍的猫,但光影、场景、风格、动作细节全靠AI自己猜。

这一阶段的解法,是训练一个专门的"提示词增强"语言模型,充当用户和视频AI之间的翻译官。用户输入简单描述,这个翻译官把它扩充、润色、补充细节,然后再交给视频AI处理。

这个翻译官的训练方式,和第二阶段的视频AI训练异曲同工——同样用奖惩机制,只不过被训练的对象从视频AI变成了语言模型,奖励目标也略有调整。这里的评分系统有三个维度:生成的视频和原始用户描述的语义是否依然吻合(防止翻译官乱加内容,把"一只猫"变成"一条狗");视频整体视觉质量是否更好;以及增强后的描述格式是否规范、长度是否合适、AI能否正常解析执行。

这个方案的一个重要优点在于:训练翻译官的时候,视频生成AI本身是被冻结的、不参与训练。这意味着训练成本大大降低,而且同一套翻译官可以给不同的视频AI使用,灵活性很高。

实测效果显示,加入提示词增强之后,视频整体人工评分在已有31%提升的基础上,又额外提升了20%。提升的主要来源依然是视觉质量和运动质量,而语义对齐基本保持稳定——说明翻译官在帮用户把描述说得更丰富的同时,没有偏离用户的原始意图。

四、提速:让慢吞吞的好视频变得快起来

经过前三个阶段,AI生成的视频质量已经大幅提升。但还有一个现实问题没解决:视频生成太慢了。当前主流的视频AI使用的是"双向注意力"机制,简单理解就是:生成第10秒的内容时,它需要同时参考第1秒到最后一秒的所有信息。这就像写一篇文章,每写一个字都要把整篇文章从头到尾看一遍,效率极低。

更高效的方案是"自回归"架构,也就是像说话一样,只看已经说过的内容,依次往后生成。这样可以边生成边播放,大幅降低等待时间。但问题在于,直接训练一个自回归视频模型,很容易出现"误差积累"问题——生成第二帧时用第一帧的内容,生成第三帧时用前两帧,一旦某一帧出了点小错,这个错误会被一直带下去,越来越大,到最后视频完全崩掉。

研究团队用了一套三步走的蒸馏方案来解决这个问题。第一步,先用一种叫"分布匹配蒸馏"的技术,把原来那个慢但质量高的双向模型,压缩成一个步骤更少的双向学生模型,保留它高质量生成的能力,同时减少计算量。第二步,给这个学生模型装上"时间遮挡"机制,让它学会只看过去的帧来预测未来的帧,完成从双向到单向的架构转换。这一步直接上手训练很容易崩,所以团队设计了一套专门的初始化策略来稳住训练过程。第三步,用"自强迫蒸馏"方法做最终打磨——在训练时,让AI真正模拟上线后的工作状态:生成每一帧时,只依赖自己之前真实生成的内容,而不是标准答案里的完美数据。通过这种方式,AI学会了如何在真实误差存在的情况下依然生成好内容,而不是在"理想条件"下表现好、一到真实场景就垮掉。

这套方案还考虑到了音视频同步生成的场景,专门设计了非对称的时间对齐机制和音频处理方式,确保音画同步不错位。

**从评分系统到评测协议,研究的诚实之处**

整个研究体系中,评分系统的构建本身就是一项重要工作。研究团队参考了HPSv3的训练范式,用Qwen3.5视觉语言模型作为特征提取骨干,配合一个多层感知机输出最终分数,并引入了"不确定性感知排序损失"来提升评分的可靠性。他们为此收集了涵盖视频美学、文字-视频对齐、图像美学、文字-图像对齐四个维度的标注数据。

在人工评测方面,团队采用了"好-持平-差"三类比较协议,而没有强迫评测人员在每对视频中必须选出一个更好的。这种设计很实用,因为很多时候两段视频真的差不多,强迫选择只会引入噪声。评测维度覆盖了视觉质量、运动质量和文字对齐三个方面。

研究团队在结论中也坦诚地指出了当前框架的局限:文字对齐方面的提升效果相对有限,根本原因在于现有的文字-视频对齐评分系统准确性还不够高,导致这个维度的奖励信号本身就不可靠。他们明确把"开发更准确的文字对齐评分系统"列为未来工作的重点方向。

**这对普通人意味着什么**

说到底,这项研究做的事情,是把一个"能用但不好用"的视频AI,系统性地改造成一个"好用、快用、还能对得上你想要的效果"的工具。四个阶段各自解决一类问题:第一阶段保稳定,第二阶段提质量,第三阶段解决用户描述能力不足的问题,第四阶段解决速度瓶颈。

对于普通用户来说,这意味着未来用AI生成视频时,不再需要绞尽脑汁想怎么描述才能得到想要的结果;不再需要对着诡异的手指或者跳帧的画面抓狂;也不再需要等待漫长的生成时间。对于企业来说,这套框架提供了一个可复用的后训练蓝图,可以应用于不同的基础视频模型,降低了把实验室模型转化为产品的门槛。

研究团队本身也承认,这不是终点。提示词增强只优化了输入端,视频AI只优化了输出端,而两者之间的深度协同、以及如何在更长视频、更复杂场景下保持稳定,都还有很多工作要做。但作为一套系统化的工程实践总结,这项研究为整个行业提供了一个难得的完整参考。

有兴趣进一步了解技术细节的读者,可以通过arXiv编号2604.25427查阅原始论文。

Q&A

Q1:视频生成AI的后训练框架和预训练有什么区别?

A:预训练阶段,AI通过看海量视频和文字学会"视频长什么样",相当于大学四年学理论。后训练框架则是针对实际部署中的具体问题做调整,比如纠正生成错误、提升画面质量、加快生成速度,相当于入职后的实战培训。这篇论文设计的四阶段后训练框架,核心目标就是弥补预训练模型和真实用户需求之间的落差。

Q2:GRPO奖惩机制训练视频AI时,奖励分数是怎么给出来的?

A:研究团队构建了四个专门的评分系统:视频整体美学评分系统、单帧图像质量评分系统、运动流畅度评分系统,以及文字-视频语义一致性评分系统。这四个系统综合给出奖励分数,引导AI朝着视觉质量和文字对齐同时提升的方向优化,但四者的权重需要精心调配,防止某一项过度主导优化方向。

Q3:提示词增强模型为什么不会把用户的原始意思改掉?

A:提示词增强模型在训练时设置了专门的"文字-视频对齐"奖励维度,确保增强后的描述和用户原始输入在语义上保持一致。如果翻译官把"一只猫在玩耍"改成了完全不相关的内容,这个奖励分数就会很低,模型就不会学习这种做法。实测数据也显示,加入提示词增强后,文字对齐的评分基本维持稳定,没有因为扩充描述而跑偏。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
谁是五一“吸金王”?这5座城市让游客心甘情愿掏钱包

谁是五一“吸金王”?这5座城市让游客心甘情愿掏钱包

晓栗
2026-05-08 01:08:33
世界冠军又怎样!吴宜泽夺得世锦赛冠军,回家照样被姐姐揪耳朵

世界冠军又怎样!吴宜泽夺得世锦赛冠军,回家照样被姐姐揪耳朵

童叔不飙车
2026-05-06 19:42:57
14岁神童手搓发动机被曝造假!漏洞百出吹上天,普通人拿什么比?

14岁神童手搓发动机被曝造假!漏洞百出吹上天,普通人拿什么比?

社会日日鲜
2026-05-08 04:18:01
特朗普:若停火失效伊朗将火光冲天,与伊朗达成协议可能不会发生,但也可能随时发生

特朗普:若停火失效伊朗将火光冲天,与伊朗达成协议可能不会发生,但也可能随时发生

潇湘晨报
2026-05-08 11:09:28
三星员工:240万人民币就想打发我 隔壁SK海力士明年可是要发650万!

三星员工:240万人民币就想打发我 隔壁SK海力士明年可是要发650万!

快科技
2026-05-07 19:53:05
保住纳税人的钱!美国防部长宣布采购革命:企业自己掏钱建厂,交不出货就换人

保住纳税人的钱!美国防部长宣布采购革命:企业自己掏钱建厂,交不出货就换人

爆角追踪
2026-05-08 08:22:25
广州50万粉丝“捡瓶小狗”,疑被“毒狗团伙”盯上,目前只能被迫困在家中;其主人被扒出姓名、住址等隐私信息,相关证据将交由公安处理

广州50万粉丝“捡瓶小狗”,疑被“毒狗团伙”盯上,目前只能被迫困在家中;其主人被扒出姓名、住址等隐私信息,相关证据将交由公安处理

扬子晚报
2026-05-08 12:01:34
网传山西大同订婚强奸案男主出狱后发文:一天刑期未减,因我始终没有认罪

网传山西大同订婚强奸案男主出狱后发文:一天刑期未减,因我始终没有认罪

互联网大观
2026-05-07 18:16:26
搞垮中国交通的罪魁祸首,并非是车太多?这几座山不移除就白搭了

搞垮中国交通的罪魁祸首,并非是车太多?这几座山不移除就白搭了

原来仙女不讲理
2026-05-07 23:09:21
女子川西徒步遇难:全过程曝光,队友恐担责,网友怒斥不值得同情

女子川西徒步遇难:全过程曝光,队友恐担责,网友怒斥不值得同情

智慧生活笔记
2026-05-08 11:37:52
36岁名校海归博士求职无门:不上班最难受的不是没钱,是精神失重

36岁名校海归博士求职无门:不上班最难受的不是没钱,是精神失重

三言四拍
2026-05-08 09:01:06
不敢相信!一个落选秀,首次打季后赛,三分命中率58%

不敢相信!一个落选秀,首次打季后赛,三分命中率58%

球毛鬼胎
2026-05-08 13:06:01
外甥被赶出台企,顽固“台独”分子破防了

外甥被赶出台企,顽固“台独”分子破防了

枢密院十号
2026-05-07 19:41:09
从知名女星到广州老板娘,一个女儿用皮肉苦力,买断了父亲的命

从知名女星到广州老板娘,一个女儿用皮肉苦力,买断了父亲的命

杰丝聊古今
2026-05-08 12:49:39
稀土战争其实早就打完了——一份从 1985 到 2026 的完整账本,告诉你 AI 时代真正的胜负手是什么

稀土战争其实早就打完了——一份从 1985 到 2026 的完整账本,告诉你 AI 时代真正的胜负手是什么

六子吃凉粉
2026-05-06 18:14:18
江苏生态环境厅工作组赴徐州调查,多部门连夜转运黑臭水体

江苏生态环境厅工作组赴徐州调查,多部门连夜转运黑臭水体

上观新闻
2026-05-08 06:34:12
火爆!亚历山大险夹伤里夫斯被吹一级恶犯 旧将卡鲁索抱怨吃T

火爆!亚历山大险夹伤里夫斯被吹一级恶犯 旧将卡鲁索抱怨吃T

醉卧浮生
2026-05-08 11:17:44
特朗普态度大转变:连说中国三句好话,日本想截胡被晾一边

特朗普态度大转变:连说中国三句好话,日本想截胡被晾一边

壹切的壹切
2026-05-08 09:54:16
委内瑞拉,从热搜消失了

委内瑞拉,从热搜消失了

民间胡扯老哥
2026-05-08 06:45:03
魏凤和案、李尚福案一审宣判

魏凤和案、李尚福案一审宣判

界面新闻
2026-05-07 18:01:52
2026-05-08 13:19:00
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
8262文章数 563关注度
往期回顾 全部

科技要闻

追赶星舰:中国商业火箭离SpaceX有多远?

头条要闻

女子网购发现所在街道被"拉黑" 商家:"白嫖"的人太多

头条要闻

女子网购发现所在街道被"拉黑" 商家:"白嫖"的人太多

体育要闻

巴黎再进欧冠决赛,最尴尬的情况还是发生了

娱乐要闻

黄子佼获缓刑4年,无需入狱服刑

财经要闻

一觉醒来,美伊又打起来了

汽车要闻

雷克萨斯全新纯电三排SUV 全新TZ全球首发

态度原创

数码
旅游
游戏
教育
艺术

数码要闻

苹果教育优惠扩容:Apple Watch全系加入,最高降价700元

旅游要闻

河南自然博物馆关于免费预约参观的声明

双人分屏合作 RC遥控赛车狂飙《双轮成行》试玩开启

教育要闻

成长的勋章:藏在细节里的家教智慧——张敬家教好故事

艺术要闻

探索施密德的油画,感受无法抵挡的艺术魅力!

无障碍浏览 进入关怀版