网易首页 > 网易号 > 正文 申请入驻

AI像电影人一样「看」视频,8B小模型反超GPT-5与Gemini-3.1-Pro

0
分享至



团队一作林之秋(Zhiqiu Lin)是卡内基梅隆大学(CMU)机器人研究所的博士,研究方向涵盖视觉 - 语言大模型的评估、数据与生成;前作 CameraBench 曾获 NeurIPS’25 Spotlight(Top 3%)。二作 Chancharik Mitra 即将前往麻省理工学院(MIT)攻读博士,专注于多模态大模型。本工作由 CMU 与哈佛大学合作完成。

先来做一个小实验:把希区柯克变焦(dolly zoom)、拉焦(rack focus)、荷兰角(Dutch angle)或变速剪辑(speed ramp)这几个词,输入到大部分主流视频生成器里。结果几乎都一样,你只会得到一个普通的推镜,或一段平庸的慢动作。

原因很简单:这些技法对应着电影人之间通用的一套「镜头语言」,而当前的视觉 - 语言大模型几乎听不懂。



视频链接:https://mp.weixin.qq.com/s/SCk63tSurxIeuaVNxqgSkA

近日,由 CMU 联合哈佛大学组成的研究团队推出了CHAI(Critique-based Human-AI Oversight),一整套从「标注体系」「可扩展监督」到「后训练方法」再到「视频生成」的完整方案。该工作已被CVPR 2026 接收为 Highlight 论文(Top 3%)



  • 论文链接:https://arxiv.org/abs/2604.21718
  • 代码:https://github.com/chancharikmitra/CHAI



图 1:CHAI 的整体方案。上半(红)是过往视频字幕工作的三大短板:缺乏统一规范、仅用人类或模型标注、仅凭输出对比做后训练;下半(蓝)是 CHAI 的对应方案:精准的结构化规范、可扩展的人机监督、基于显式偏好与批改的后训练,最终反哺出更专业的视频生成。

概述:CHAI 的四块拼图

CHAI 不是一个单独的模型,而是一整套面向精准视频语言的落地方案,由四块拼图组成:

  1. 标注体系(Specification):覆盖主体、场景、动作、空间构图和移动、镜头参数和运动 5 大维度,由 200+ 个与职业摄影师共同设计的视觉基元支撑。
  2. 可扩展监督(Scalable Oversight):让 LLM 起草字幕,由人类专家给出批改(critique),指出错误并提供修正,再交由 AI 改写。这一过程让 AI 负责写作,人类专注纠错,各司其长。
  3. 后训练方法(Post-Training):基于(初稿,批改,终稿),同时训练字幕、奖励模型与批改模型。团队训练的 Qwen3-VL-8B 开源小模型得以反超闭源的 Gemini-3.1-Pro 与 GPT-5。
  4. 更好的视频生成(Better Generation):用后训练好的模型重新对专业视频打字幕,再微调 Wan2.2,使其能听懂长达 400 英文词的电影级指令,精准生成希区柯克变焦、拉焦、荷兰角、变速、等距视角等专业摄影技法。

一、标注体系:把电影人的镜头语言写下来

过去的视频文本数据集(如 ActivityNet、MSR-VTT、PerceptionLM)由于缺乏字幕规范,常见问题包括:混淆 dolly-in(推轨)与 zoom-in(变焦),遗漏关键相机与变焦细节,用「氛围感足」「让人热血沸腾」等主观描述代替客观视觉内容。

电影人以及更广泛的视频创作者则没有这个问题。他们用拉焦(rack focus)、荷兰角(Dutch angle)、中景(medium full shot)这样的专业术语在片场与团队实现了精准的沟通、协作。CHAI 正是把这套影视行业内的通用词汇整理成了一套清晰的标注体系



图 2:与 100+ 位职业视频创作者历时一年共建的标注体系。左(红):过往数据集的三类典型问题,包括术语含混、信息缺失、主观描述;右(蓝):CHAI 的结构化标注体系及配套的标注规则与教程。

CHAI 的字幕标注覆盖 5 大维度:

  • 主体(Subject):类型、外观、姿态、主体关系等
  • ️ 场景(Scene):视角、叠加元素、环境、时间等
  • 动作(Motion):动作行为、人物互动、群体动态等
  • 空间构图和移动(Spatial):景别、画面位置、纵深、空间运动等
  • 镜头参数和运动(Camera):机位高度、角度、焦距、聚焦、稳定度、运动轨迹等



图 3:CHAI 的视频语言分类体系:各一级维度进一步细分为多个子维度,并由 200 余个视觉与运动基元支撑,实现对视频内容的精细化表达。

二、可扩展监督:AI 起草,人类批改

规范告诉你「描述什么」,但「谁来写」仍是个问题。

人类亲手写的字幕常见问题有:错别字、语法错误、事件顺序混乱。模型写的字幕:行文流畅,却经常凭空捏造画面里没有的物体和动作(模型幻觉)。

CHAI 的核心思路是可扩展监督(Scalable Oversight):让模型负责写作,让人类专注发现字幕中的视觉与动作错误,各司其长

CHAI 的标注流程由此被重新设计为「AI— 专家 —AI」的三段式协作:模型先按既定规范生成一份覆盖全面的「pre-caption」初稿,专家随后在初稿基础上指出错误并提出修改建议(critique),无需从零撰写字幕;模型再依据专家的批改意见进行改写,生成准确的「post-caption」终稿。

同时,CHAI 引入同行评审奖励机制:标注越准确,奖励越高;审核纠错同样有奖励。这一举措显著提升了标注的质量。



图 4:左(红):传统纯人工或纯模型标注的三类问题,包括视觉幻觉、行文糟糕、细节不准;右(蓝):CHAI 的可扩展监督框架。AI 基于基元生成初稿(pre-caption),人类用批改(critique)把幻觉与细节错误指出来,再由 AI 生成终稿(post-caption);标注员与审核员之间则通过同行评审奖励机制相互制衡。

把标注员工作重心从「写作」转向「校对」,他们对单个视频的认知负担得以显著降低,却能产出准确度更高的 200–400 词长字幕。

三、后训练效果:8B 小模型反超 GPT-5 与 Gemini-3.1-Pro

CHAI 流水线产出的不只是字幕,而是(pre-caption, critique, post-caption)三元组:一份数据,同时可以训练三种模型能力,包括字幕生成、奖励建模、批改生成。

CHAI 团队发现:批改的质量,决定了模型能力



图 5:一条好的批改必须同时满足三个属性:准确(precision)、完整(recall)、有建设性(constructive)。CHAI 的标注机制通过强制标注员撰写高质量批改,直接指导模型改写,自然实现了这三点。

为了证明这一点,团队做了一组对比实验:分别削弱批改的某一项属性,观察对下游任务的影响。



研究得出三项关键结论。其一,在模型训练时加入奖励(reward)和批改(critique)的数据能够显著提升 SFT 与 RL 的效果,仅 8B 参数的 Qwen3-VL 经过后训练,便在多项关键评测上反超闭源的 Gemini-3.1-Pro 与 GPT-5。其二,批改质量是真正的瓶颈所在,准确性、完整性、和建设性三者缺一不可;然而过往工作(如 OpenAI GDC、MM-RLHF)所收集的批改样本中,超过 50% 属于非建设性反馈。其三,推理时扩展(Inference-Time Scaling)同样适用于这一框架,以同一份奖励模型进行 best-of-N 选择,无需新增数据,性能即可持续提升。

四、更准的理解 → 更好的生成

视频字幕做得更准之后,最直接的下游应用就是视频生成

研究团队用后训练好的字幕模型,重新对大规模专业视频(电影、广告、MV、游戏画面)进行打标,再以这些数据微调 Wan2.2。结果:模型可以听懂长达 400 词的电影级指令,对那些开源生成器(Wan2.2)普遍翻车的技法实现精准生成。





图 6:在重新打标的专业视频上微调后,Wan2.2 对详细的电影级指令显著更忠实,可以精准执行希区柯克变焦(上)、保持 2.5D 等距视角(下)等过往视频模型频繁失败的复杂技法。

下面是更多团队展示的「电影技法」生成样例:



荷兰角(Dutch Angle)画面地平线倾斜

视频链接:https://mp.weixin.qq.com/s/SCk63tSurxIeuaVNxqgSkA



拉焦(Rack Focus)焦点在不同平面切换

视频链接:https://mp.weixin.qq.com/s/SCk63tSurxIeuaVNxqgSkA

为什么不用众包?为什么过去的标注总是失败?

在请来职业创作者之前,团队也尝试过众包工人。结果?众包标注员仍然分不清 推轨(dolly-in)与 变焦 (zoom-in)、把全景镜头(full shot)叫成 特写(close-up shot)、把鱼眼镜头(fisheye lens)造成的建筑物变形描述成「圆形的建筑」。



图 7:众包标注员描述常见镜头技法时的典型错误。把鸟瞰镜头叫「鸟瞰视图」、把鱼眼镜头看作「圆形建筑」、把推焦镜头描述为「推轨镜头」等,反映出他们缺乏对镜头语言的基本视觉词汇。

为进一步验证这一判断,团队系统评估了 2016 至 2025 年间发布的 8 个公开视频 - 文本数据集(包括 MSR-VTT、PerceptionLM、Dream1K 等),结果指向两类反复出现的问题。其一源于标注规则缺失,术语含混、关键信息缺失;其二源于监督不足,导致行文混乱与细节失真。无论扩大模型规模还是增加数据体量,都难以解决,根本问题在于流程,必须从数据标注源头入手。这一发现直接促成了 CHAI 团队和 100+ 位职业视频创作者的长期合作。

写在最后:开源生态

为了支持后续研究与产业落地,CHAI 团队完整开源了:标注体系、培训教材、标注平台、质控流程、数据、代码与模型。

项目主页:https://linzhiqiu.github.io/papers/chai/

CHAI 是该 CMU 团队「精准视频语言」研究计划中的一环。同期推进的还有两项工作:CameraBench(NeurIPS'25 Spotlight,入选率前 3%)作为相机运动理解的前作基准,包含约 3000 个专家标注视频、一套完整的运动基元分类体系,以及对 SfM 与 VLM 方法的系统性评测;Moodio 与 CameraBench-Pro(2026 年 5 月发布)则在此基础上更进一步,基于 225 个电影级基元与 150 万余条专业标注,面向专业视频制作场景打造 AI 协作工具。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
法记者质疑C罗疯狂庆祝:这垃圾比赛有啥意义 有些人还跟过年似的

法记者质疑C罗疯狂庆祝:这垃圾比赛有啥意义 有些人还跟过年似的

风过乡
2026-06-24 13:19:21
“看面相就是个死心眼儿”,农村大专女火了,忙了一天啥也不是

“看面相就是个死心眼儿”,农村大专女火了,忙了一天啥也不是

熙熙说教
2026-06-23 19:12:34
最后的难关!还有两项世界杯射手纪录,梅西估计破不了?

最后的难关!还有两项世界杯射手纪录,梅西估计破不了?

纵横之策
2026-06-24 08:40:45
养路费大调整!油车电车终于公平了,普通家用车主基本不花钱

养路费大调整!油车电车终于公平了,普通家用车主基本不花钱

阿芒娱乐说
2026-06-24 16:02:28
销量崩跌23%、股价腰斩!中国车市的至暗时刻来了

销量崩跌23%、股价腰斩!中国车市的至暗时刻来了

沙雕小琳琳
2026-06-24 21:51:47
Shams:被做筹码交易字母哥失败后,杰伦-布朗与绿军的关系已变得紧张

Shams:被做筹码交易字母哥失败后,杰伦-布朗与绿军的关系已变得紧张

懂球帝
2026-06-24 01:02:09
金钱的狂飙与门票的冰冷:美加墨世界杯凭什么甩开巴黎奥运一条街

金钱的狂飙与门票的冰冷:美加墨世界杯凭什么甩开巴黎奥运一条街

民间胡扯老哥
2026-06-24 05:59:27
日乌量产自杀式无人机,中方警告乌克兰:别在中国家门口递刀!

日乌量产自杀式无人机,中方警告乌克兰:别在中国家门口递刀!

冷眼看尽世间繁华
2026-06-24 21:45:39
画面公布!俄国防部:俄军图-160战略轰炸机在巴伦支海和挪威海中立水域上空执行例行飞行任务

画面公布!俄国防部:俄军图-160战略轰炸机在巴伦支海和挪威海中立水域上空执行例行飞行任务

环球网资讯
2026-06-23 14:18:21
斯塔默刚辞职12小时,英国下任首相锁定,对华态度一目了然

斯塔默刚辞职12小时,英国下任首相锁定,对华态度一目了然

云上乌托邦
2026-06-23 22:30:01
威尔逊:我想成为有史以来最伟大的球员 是时候上场打球了

威尔逊:我想成为有史以来最伟大的球员 是时候上场打球了

北青网-北京青年报
2026-06-24 21:51:28
为何勃列日涅夫执掌苏联18年,中风后智力衰退,却没人敢迫他下台

为何勃列日涅夫执掌苏联18年,中风后智力衰退,却没人敢迫他下台

人生录
2026-06-23 22:24:22
光纤行业,两巨头争霸!

光纤行业,两巨头争霸!

新浪财经
2026-06-24 19:29:36
新疆小伙撞脸耶稣,老外歧视后滑跪道歉?戴王冠化身判官,笑疯外网!

新疆小伙撞脸耶稣,老外歧视后滑跪道歉?戴王冠化身判官,笑疯外网!

英国报姐
2026-06-24 01:12:14
世界杯两场4球连夺MVP,巴洛贡成转会市场头号猎物

世界杯两场4球连夺MVP,巴洛贡成转会市场头号猎物

元气满分吖
2026-06-24 01:22:40
中国男篮赢球后,郭士强宣布重要决定,打日本队真的稳了

中国男篮赢球后,郭士强宣布重要决定,打日本队真的稳了

宗介说体育
2026-06-24 13:46:50
北京上空,飘来一团巨大的云!气象专家解读

北京上空,飘来一团巨大的云!气象专家解读

环球网资讯
2026-06-24 21:25:17
北京公交车最近等得越来越久|大车悄悄换成了中巴小车|怎么回事

北京公交车最近等得越来越久|大车悄悄换成了中巴小车|怎么回事

右耳远闻
2026-06-23 18:50:03
官方:米歇尔-康达成协议收购里昂,最高注资7100万欧

官方:米歇尔-康达成协议收购里昂,最高注资7100万欧

懂球帝
2026-06-24 00:10:27
震惊!37岁女子向男友发婚嫁清单,各项开支总额高达273.4888万元

震惊!37岁女子向男友发婚嫁清单,各项开支总额高达273.4888万元

火山詩话
2026-06-24 05:29:08
2026-06-25 00:03:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13350文章数 142680关注度
往期回顾 全部

科技要闻

豆包专业版上线:定价68-500元每月

头条要闻

谢锋当众质问巴拿马:若契约想撕毁就撕毁 谁还来投资

头条要闻

谢锋当众质问巴拿马:若契约想撕毁就撕毁 谁还来投资

体育要闻

字母哥,会把凯尔特人拆了吗?

娱乐要闻

向佐向佑兄弟合体直播!母子终于和解

财经要闻

逃税23亿:审计署年报直指七家机构

汽车要闻

施鹏泽:为什么奥迪E7X强调座舱气味安全?

态度原创

健康
家居
亲子
公开课
军事航空

神经内科专家破解中风十大谣言

家居要闻

绿意盎然 自然之境

亲子要闻

婴儿纸尿裤十大品牌排行榜:2026母婴安心回购清单

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗代表:霍尔木兹海峡已免费开放

无障碍浏览 进入关怀版