网易首页 > 网易号 > 正文 申请入驻

AI像电影人一样「看」视频,8B小模型反超GPT-5与Gemini-3.1-Pro

0
分享至



团队一作林之秋(Zhiqiu Lin)是卡内基梅隆大学(CMU)机器人研究所的博士,研究方向涵盖视觉 - 语言大模型的评估、数据与生成;前作 CameraBench 曾获 NeurIPS’25 Spotlight(Top 3%)。二作 Chancharik Mitra 即将前往麻省理工学院(MIT)攻读博士,专注于多模态大模型。本工作由 CMU 与哈佛大学合作完成。

先来做一个小实验:把希区柯克变焦(dolly zoom)、拉焦(rack focus)、荷兰角(Dutch angle)或变速剪辑(speed ramp)这几个词,输入到大部分主流视频生成器里。结果几乎都一样,你只会得到一个普通的推镜,或一段平庸的慢动作。

原因很简单:这些技法对应着电影人之间通用的一套「镜头语言」,而当前的视觉 - 语言大模型几乎听不懂。



视频链接:https://mp.weixin.qq.com/s/SCk63tSurxIeuaVNxqgSkA

近日,由 CMU 联合哈佛大学组成的研究团队推出了CHAI(Critique-based Human-AI Oversight),一整套从「标注体系」「可扩展监督」到「后训练方法」再到「视频生成」的完整方案。该工作已被CVPR 2026 接收为 Highlight 论文(Top 3%)



  • 论文链接:https://arxiv.org/abs/2604.21718
  • 代码:https://github.com/chancharikmitra/CHAI



图 1:CHAI 的整体方案。上半(红)是过往视频字幕工作的三大短板:缺乏统一规范、仅用人类或模型标注、仅凭输出对比做后训练;下半(蓝)是 CHAI 的对应方案:精准的结构化规范、可扩展的人机监督、基于显式偏好与批改的后训练,最终反哺出更专业的视频生成。

概述:CHAI 的四块拼图

CHAI 不是一个单独的模型,而是一整套面向精准视频语言的落地方案,由四块拼图组成:

  1. 标注体系(Specification):覆盖主体、场景、动作、空间构图和移动、镜头参数和运动 5 大维度,由 200+ 个与职业摄影师共同设计的视觉基元支撑。
  2. 可扩展监督(Scalable Oversight):让 LLM 起草字幕,由人类专家给出批改(critique),指出错误并提供修正,再交由 AI 改写。这一过程让 AI 负责写作,人类专注纠错,各司其长。
  3. 后训练方法(Post-Training):基于(初稿,批改,终稿),同时训练字幕、奖励模型与批改模型。团队训练的 Qwen3-VL-8B 开源小模型得以反超闭源的 Gemini-3.1-Pro 与 GPT-5。
  4. 更好的视频生成(Better Generation):用后训练好的模型重新对专业视频打字幕,再微调 Wan2.2,使其能听懂长达 400 英文词的电影级指令,精准生成希区柯克变焦、拉焦、荷兰角、变速、等距视角等专业摄影技法。

一、标注体系:把电影人的镜头语言写下来

过去的视频文本数据集(如 ActivityNet、MSR-VTT、PerceptionLM)由于缺乏字幕规范,常见问题包括:混淆 dolly-in(推轨)与 zoom-in(变焦),遗漏关键相机与变焦细节,用「氛围感足」「让人热血沸腾」等主观描述代替客观视觉内容。

电影人以及更广泛的视频创作者则没有这个问题。他们用拉焦(rack focus)、荷兰角(Dutch angle)、中景(medium full shot)这样的专业术语在片场与团队实现了精准的沟通、协作。CHAI 正是把这套影视行业内的通用词汇整理成了一套清晰的标注体系



图 2:与 100+ 位职业视频创作者历时一年共建的标注体系。左(红):过往数据集的三类典型问题,包括术语含混、信息缺失、主观描述;右(蓝):CHAI 的结构化标注体系及配套的标注规则与教程。

CHAI 的字幕标注覆盖 5 大维度:

  • 主体(Subject):类型、外观、姿态、主体关系等
  • ️ 场景(Scene):视角、叠加元素、环境、时间等
  • 动作(Motion):动作行为、人物互动、群体动态等
  • 空间构图和移动(Spatial):景别、画面位置、纵深、空间运动等
  • 镜头参数和运动(Camera):机位高度、角度、焦距、聚焦、稳定度、运动轨迹等



图 3:CHAI 的视频语言分类体系:各一级维度进一步细分为多个子维度,并由 200 余个视觉与运动基元支撑,实现对视频内容的精细化表达。

二、可扩展监督:AI 起草,人类批改

规范告诉你「描述什么」,但「谁来写」仍是个问题。

人类亲手写的字幕常见问题有:错别字、语法错误、事件顺序混乱。模型写的字幕:行文流畅,却经常凭空捏造画面里没有的物体和动作(模型幻觉)。

CHAI 的核心思路是可扩展监督(Scalable Oversight):让模型负责写作,让人类专注发现字幕中的视觉与动作错误,各司其长

CHAI 的标注流程由此被重新设计为「AI— 专家 —AI」的三段式协作:模型先按既定规范生成一份覆盖全面的「pre-caption」初稿,专家随后在初稿基础上指出错误并提出修改建议(critique),无需从零撰写字幕;模型再依据专家的批改意见进行改写,生成准确的「post-caption」终稿。

同时,CHAI 引入同行评审奖励机制:标注越准确,奖励越高;审核纠错同样有奖励。这一举措显著提升了标注的质量。



图 4:左(红):传统纯人工或纯模型标注的三类问题,包括视觉幻觉、行文糟糕、细节不准;右(蓝):CHAI 的可扩展监督框架。AI 基于基元生成初稿(pre-caption),人类用批改(critique)把幻觉与细节错误指出来,再由 AI 生成终稿(post-caption);标注员与审核员之间则通过同行评审奖励机制相互制衡。

把标注员工作重心从「写作」转向「校对」,他们对单个视频的认知负担得以显著降低,却能产出准确度更高的 200–400 词长字幕。

三、后训练效果:8B 小模型反超 GPT-5 与 Gemini-3.1-Pro

CHAI 流水线产出的不只是字幕,而是(pre-caption, critique, post-caption)三元组:一份数据,同时可以训练三种模型能力,包括字幕生成、奖励建模、批改生成。

CHAI 团队发现:批改的质量,决定了模型能力



图 5:一条好的批改必须同时满足三个属性:准确(precision)、完整(recall)、有建设性(constructive)。CHAI 的标注机制通过强制标注员撰写高质量批改,直接指导模型改写,自然实现了这三点。

为了证明这一点,团队做了一组对比实验:分别削弱批改的某一项属性,观察对下游任务的影响。



研究得出三项关键结论。其一,在模型训练时加入奖励(reward)和批改(critique)的数据能够显著提升 SFT 与 RL 的效果,仅 8B 参数的 Qwen3-VL 经过后训练,便在多项关键评测上反超闭源的 Gemini-3.1-Pro 与 GPT-5。其二,批改质量是真正的瓶颈所在,准确性、完整性、和建设性三者缺一不可;然而过往工作(如 OpenAI GDC、MM-RLHF)所收集的批改样本中,超过 50% 属于非建设性反馈。其三,推理时扩展(Inference-Time Scaling)同样适用于这一框架,以同一份奖励模型进行 best-of-N 选择,无需新增数据,性能即可持续提升。

四、更准的理解 → 更好的生成

视频字幕做得更准之后,最直接的下游应用就是视频生成

研究团队用后训练好的字幕模型,重新对大规模专业视频(电影、广告、MV、游戏画面)进行打标,再以这些数据微调 Wan2.2。结果:模型可以听懂长达 400 词的电影级指令,对那些开源生成器(Wan2.2)普遍翻车的技法实现精准生成。





图 6:在重新打标的专业视频上微调后,Wan2.2 对详细的电影级指令显著更忠实,可以精准执行希区柯克变焦(上)、保持 2.5D 等距视角(下)等过往视频模型频繁失败的复杂技法。

下面是更多团队展示的「电影技法」生成样例:



荷兰角(Dutch Angle)画面地平线倾斜

视频链接:https://mp.weixin.qq.com/s/SCk63tSurxIeuaVNxqgSkA



拉焦(Rack Focus)焦点在不同平面切换

视频链接:https://mp.weixin.qq.com/s/SCk63tSurxIeuaVNxqgSkA

为什么不用众包?为什么过去的标注总是失败?

在请来职业创作者之前,团队也尝试过众包工人。结果?众包标注员仍然分不清 推轨(dolly-in)与 变焦 (zoom-in)、把全景镜头(full shot)叫成 特写(close-up shot)、把鱼眼镜头(fisheye lens)造成的建筑物变形描述成「圆形的建筑」。



图 7:众包标注员描述常见镜头技法时的典型错误。把鸟瞰镜头叫「鸟瞰视图」、把鱼眼镜头看作「圆形建筑」、把推焦镜头描述为「推轨镜头」等,反映出他们缺乏对镜头语言的基本视觉词汇。

为进一步验证这一判断,团队系统评估了 2016 至 2025 年间发布的 8 个公开视频 - 文本数据集(包括 MSR-VTT、PerceptionLM、Dream1K 等),结果指向两类反复出现的问题。其一源于标注规则缺失,术语含混、关键信息缺失;其二源于监督不足,导致行文混乱与细节失真。无论扩大模型规模还是增加数据体量,都难以解决,根本问题在于流程,必须从数据标注源头入手。这一发现直接促成了 CHAI 团队和 100+ 位职业视频创作者的长期合作。

写在最后:开源生态

为了支持后续研究与产业落地,CHAI 团队完整开源了:标注体系、培训教材、标注平台、质控流程、数据、代码与模型。

项目主页:https://linzhiqiu.github.io/papers/chai/

CHAI 是该 CMU 团队「精准视频语言」研究计划中的一环。同期推进的还有两项工作:CameraBench(NeurIPS'25 Spotlight,入选率前 3%)作为相机运动理解的前作基准,包含约 3000 个专家标注视频、一套完整的运动基元分类体系,以及对 SfM 与 VLM 方法的系统性评测;Moodio 与 CameraBench-Pro(2026 年 5 月发布)则在此基础上更进一步,基于 225 个电影级基元与 150 万余条专业标注,面向专业视频制作场景打造 AI 协作工具。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
方正科技:公司已批量生产应用于10G-100G-200G-400G-800G、1.6T等光模块的PC

方正科技:公司已批量生产应用于10G-100G-200G-400G-800G、1.6T等光模块的PC

每日经济新闻
2026-05-08 15:53:08
人的命,天注定,这10句话,人越活越信

人的命,天注定,这10句话,人越活越信

金沛的国学笔记
2026-04-24 14:22:27
伦敦世乒赛男子团体八强战,国乒复仇击败韩国队挺进四强

伦敦世乒赛男子团体八强战,国乒复仇击败韩国队挺进四强

澎湃新闻
2026-05-08 21:40:27
郑州市纪委监委:吴耀田被查

郑州市纪委监委:吴耀田被查

商丘交通广播
2026-05-08 18:01:34
特斯拉宣布大降价,加拿大网民:谢谢中国!

特斯拉宣布大降价,加拿大网民:谢谢中国!

环球时报国际
2026-05-08 00:23:15
TCL这款Mini LED电视降价2000美元,画质能打OLED

TCL这款Mini LED电视降价2000美元,画质能打OLED

薛定谔的BUG
2026-05-08 01:53:03
DO:门德斯在与皇马谈任命穆帅,弗洛伦蒂诺在考虑这一决定

DO:门德斯在与皇马谈任命穆帅,弗洛伦蒂诺在考虑这一决定

懂球帝
2026-05-09 00:37:06
于文红宣扬“换血”抗衰,两周内年轻十几岁,晒术后照引网友热议

于文红宣扬“换血”抗衰,两周内年轻十几岁,晒术后照引网友热议

阿伧说事
2026-05-08 19:33:51
《伪钞重案》上映,包贝尔的B级片预制菜,暴力情色加一丁点民俗

《伪钞重案》上映,包贝尔的B级片预制菜,暴力情色加一丁点民俗

马庆云的影音娱
2026-05-08 15:48:21
大连船厂灯火不熄,美方研判中国直接造4艘核航母,这次没悬念了

大连船厂灯火不熄,美方研判中国直接造4艘核航母,这次没悬念了

瞻史
2026-05-07 18:00:35
世乒赛战报:连爆大冷头号种子2-3出局了,4强决出4席日本VS省队

世乒赛战报:连爆大冷头号种子2-3出局了,4强决出4席日本VS省队

求球不落谛
2026-05-08 06:01:08
李家鼎公布录音!实锤李泳汉每月啃老5万,不给钱就按揭房产套现

李家鼎公布录音!实锤李泳汉每月啃老5万,不给钱就按揭房产套现

东方不败然多多
2026-05-09 01:14:13
22点 vs 23 点入睡,1 小时的差距到底有多大?

22点 vs 23 点入睡,1 小时的差距到底有多大?

猫大夫医学科普
2026-05-08 06:52:35
受到多方青睐,名记:AJ-迪班萨NBA选秀状元概率已升至76%

受到多方青睐,名记:AJ-迪班萨NBA选秀状元概率已升至76%

懂球帝
2026-05-08 22:29:06
奔驰C级新车型上市,29.99万起配8295芯片

奔驰C级新车型上市,29.99万起配8295芯片

野生运营
2026-05-08 15:43:58
老色医要求女患者脱光衣服检查,并称“你都结婚了,别那么扭捏”

老色医要求女患者脱光衣服检查,并称“你都结婚了,别那么扭捏”

长安一孤客
2026-04-29 14:33:12
茼蒿开始上市!医生再三强调:高血压患者吃茼蒿,多注意这6点

茼蒿开始上市!医生再三强调:高血压患者吃茼蒿,多注意这6点

冷眼看世界728
2026-05-06 20:55:56
特斯拉官宣新版本上架,罕见三种蓝色选择!

特斯拉官宣新版本上架,罕见三种蓝色选择!

XCiOS俱乐部
2026-05-08 19:32:35
刘基死后不久,胡惟庸随即全族被杀,朱元璋:他毒杀了刘伯温

刘基死后不久,胡惟庸随即全族被杀,朱元璋:他毒杀了刘伯温

史笔似尘钩
2026-04-09 18:20:30
特朗普称俄乌9日起停火三天并交换战俘

特朗普称俄乌9日起停火三天并交换战俘

澎湃新闻
2026-05-09 02:44:05
2026-05-09 03:43:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12950文章数 142646关注度
往期回顾 全部

科技要闻

SK海力士平均奖金600万 工服成相亲神器

头条要闻

美公布首批UFO文件 视频公开:阿联酋现水母状物体

头条要闻

美公布首批UFO文件 视频公开:阿联酋现水母状物体

体育要闻

他把首胜让给队友,然后用一年时间还清账单

娱乐要闻

古天乐被曝隐婚生子,新娘竟是她

财经要闻

估值3000亿 DeepSeek寻求500亿元融资

汽车要闻

MG 4X实车亮相 将于5月11日开启盲订

态度原创

家居
本地
艺术
教育
数码

家居要闻

流动的尺度 打破家的形式主义

本地新闻

用苏绣的方式,打开江西婺源

艺术要闻

砸22亿!OPPO在东莞建了一批“O字楼”

教育要闻

摒弃打压式教育,皮格马利翁效应

数码要闻

华硕京东重磅新品日,华硕天选7系列游戏本开启预约

无障碍浏览 进入关怀版