网易首页 > 网易号 > 正文 申请入驻

小米研究院推出AI视频理解:让机器像人一样"回看"思考视频内容

0
分享至


这项由小米人工智能实验室(MiLM Plus)的李佳泽领导,联合独立研究者以及中国人民大学团队合作完成的研究,发表于2025年11月的计算机视觉领域顶级会议论文中。有兴趣深入了解的读者可以通过论文编号arXiv:2511.13026v1查询完整论文。

当你在看一部长电影时,如果朋友突然问你"刚才那个场景里谁救了谁",你可能会本能地回想刚才看到的画面,重新审视那些关键镜头。现在,研究团队让人工智能也学会了这种"回看思考"的能力。

目前的AI视频理解系统就像一个只能"一遍过"看视频的观众,看完就必须立即给出答案,不能重新检查可能遗漏的重要细节。特别是面对长视频时,这种限制变得更加明显。就好比你被要求看完一部两小时的电影后,不允许回想任何情节就要回答复杂问题一样困难。

研究团队发现了现有AI系统的一个重要缺陷:当这些系统需要理解长视频内容时,它们只会重新思考文字描述,却不会重新审视视频画面本身。这就像一个学生在考试时只反复读题目,却不重新观察图表和图像一样。相比之下,人类在遇到复杂视频理解任务时,会自然地回到关键画面进行再次观察和思考。

为了解决这个问题,研究团队开发了名为REVISOR的创新框架。这个名字本身就很有意思——它结合了"反思"(Reflective)、"视觉"(Visual)、"片段"(Segment)和"推理"(Reasoning)四个关键概念。可以把REVISOR比作一个配备了"倒带功能"的智能视频观察者。

REVISOR的工作方式非常巧妙,分为两个阶段进行。第一个阶段类似于快速浏览,AI系统会先粗略地看一遍整个视频,形成初步印象,同时标记出那些看起来最重要或最让它困惑的时间段。就像你快速翻阅一本书时会用便签纸标记重要章节一样。

在第二个阶段,AI系统会启动"视觉工具箱",重新仔细观察那些被标记的关键片段。这时,它会用更高的精度重新采样这些片段的画面,获得比第一遍观看时更详细的视觉信息。然后,AI系统会结合初步观察的结果和新获得的详细画面信息,进行深入的反思和重新推理,最终得出更准确的答案。

这个过程就像一个侦探在调查案件时的工作方式。侦探会先听取案件的大致情况,形成初步判断,然后重返现场仔细检查那些最可疑的区域,寻找之前可能遗漏的关键证据,最后综合所有信息得出结论。

为了确保AI系统能够准确地找到真正重要的视频片段,研究团队还设计了一个精巧的训练机制,叫做"双重归因解耦奖励机制"(DADR)。这个机制的工作原理有点像训练一个学生同时掌握两种技能:既要能给出正确答案,又要能准确指出支持这个答案的关键证据。

传统的AI训练方法只关注最终答案是否正确,就像只看考试分数而不关心学生的解题过程。而DADR机制除了要求AI给出正确答案外,还要求它能够准确识别出那些对得出正确答案至关重要的视频片段。只有当AI既能给出正确答案,又能准确定位关键证据时,它才会获得最高的奖励分数。

这种训练方式确保了AI不仅仅是"碰运气"答对题目,而是真正理解了视频内容的逻辑关系。就像训练一个学生不仅要会做题,还要能够清楚地解释自己的解题思路一样。

研究团队在多个权威数据集上测试了REVISOR的效果,结果令人印象深刻。在VideoMME这个具有挑战性的长视频理解基准测试中,REVISOR相比基础模型提升了1.4%的准确率,在专门针对长视频的子集上更是提升了2.8%。在MLVU数据集(包含长达120分钟的视频)上,准确率提升了2.5%。这些数字虽然看起来不大,但在AI领域,即使是1%的提升也往往需要大量的技术突破才能实现。

更有趣的是,研究团队还发现REVISOR在视频片段定位任务上表现出色。在Charades-STA数据集上,它达到了51.4%的精确定位率,比之前的最佳方法提升了4.1%。这说明REVISOR不仅能够理解视频内容,还能够准确地找到支持其结论的关键证据。

为了深入了解REVISOR为什么有效,研究团队进行了详细的分析实验。他们发现了一个非常有趣的现象:在训练过程中,AI系统生成的文字推理内容越来越短,而选择重新观看的视频片段则先增长后缩短。这个变化模式揭示了AI学习过程中的一个重要洞察。

文字推理变短说明AI逐渐认识到,对于长视频理解任务,纯粹的文字思考作用有限,关键在于视觉信息的重新审视。而视频片段长度的变化则表明,AI首先学会了扩大搜索范围以确保不遗漏重要信息,然后又学会了精确定位,去除冗余内容。这个学习过程很像人类专家技能的发展轨迹:从广泛探索到精确聚焦。

研究团队还进行了一个对照实验,强制让AI进行更长的文字推理。结果发现,这样做反而导致了性能下降。这进一步证实了他们的核心观点:对于长视频理解,视觉重新审视比文字反思更为重要。

这项研究的意义远远超出了技术本身。在当今视频内容爆炸的时代,从短视频平台到在线教育,从安防监控到医疗诊断,长视频理解技术有着广泛的应用前景。REVISOR提出的"视觉反思"理念为AI系统处理复杂视觉信息提供了新的思路。

比如在教育领域,这种技术可以帮助AI系统更好地理解课堂录像,准确识别学生的学习状态和关键知识点。在安防监控中,AI可以更准确地识别异常事件,并定位到具体的关键时刻。在内容创作领域,AI可以帮助编辑快速找到视频中的精彩片段。

研究团队特别强调,REVISOR框架不需要额外的监督学习训练或外部模型支持,这意味着它可以很容易地集成到现有的AI系统中。这种设计的实用性为技术的广泛应用奠定了基础。

更重要的是,这项研究提供了一个全新的视角来思考AI的学习和推理过程。传统上,我们倾向于让AI系统"一次性"处理信息,就像填鸭式教育一样。而REVISOR证明了"回看思考"的价值,这更接近人类的自然学习方式。

这种视觉反思机制也为未来的多模态AI发展指明了方向。随着AI需要处理的信息越来越复杂,单纯依靠"直觉式"的一次性处理可能无法满足需求。REVISOR展示了一种更加深思熟虑的AI推理模式,这可能成为下一代智能系统的重要特征。

当然,这项研究也还有进一步改进的空间。目前的系统主要针对视频内容,未来可能会扩展到其他类型的多模态内容。另外,如何在保持准确性的同时进一步提高效率,也是一个值得探索的方向。

说到底,REVISOR的核心贡献在于它让我们重新思考了AI系统应该如何处理复杂信息。它证明了有时候"慢下来,仔细看"比"快速处理"更有价值。这不仅是技术上的进步,也是AI系统向人类认知方式靠近的重要一步。归根结底,这项研究为我们展示了一个更加"深思熟虑"的AI未来,在这个未来里,AI不仅能够快速处理信息,还能够像人类一样进行反思和重新审视。这种能力的重要性,在我们面临越来越复杂的信息世界时显得尤为珍贵。

Q&A

Q1:REVISOR框架是如何工作的?

A:REVISOR采用两阶段工作模式。首先快速浏览整个视频形成初步印象并标记关键片段,然后用视觉工具箱重新仔细观察这些片段,结合初步结果和详细视觉信息进行深入反思,最终得出准确答案。就像侦探先了解案件概况再深入调查可疑区域一样。

Q2:双重归因解耦奖励机制DADR有什么作用?

A:DADR机制确保AI系统既能给出正确答案又能准确定位关键证据。它不像传统训练只看最终答案对错,而是要求AI准确识别支持答案的重要视频片段。只有答案正确且证据定位准确时才给予最高奖励,避免AI"碰运气"答题。

Q3:REVISOR在长视频理解上效果如何?

A:在多个权威测试中表现出色。VideoMME数据集上准确率提升1.4%,长视频子集提升2.8%;120分钟视频的MLVU数据集提升2.5%;视频片段定位任务达到51.4%精确率,比之前最佳方法提升4.1%。这些提升在AI领域意义重大。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
法媒:“伊朗战争的首个受害者是真相”

法媒:“伊朗战争的首个受害者是真相”

参考消息
2026-03-26 13:30:07
这就是钱学森后人真实的样貌,女儿定居美国,儿子长孙精忠报国!

这就是钱学森后人真实的样貌,女儿定居美国,儿子长孙精忠报国!

旧史新谭
2026-03-25 13:15:22
停炸五天的真正含义:伊朗被迫进入二选一困局

停炸五天的真正含义:伊朗被迫进入二选一困局

斌闻天下
2026-03-26 07:45:03
正式确定!CBA名将加盟浙江广厦,重返老东家,全力卫冕总冠军

正式确定!CBA名将加盟浙江广厦,重返老东家,全力卫冕总冠军

体坛瞎白话
2026-03-25 16:52:09
经济下行后,正常人变得越来越稀缺了

经济下行后,正常人变得越来越稀缺了

经济学教授V
2026-03-24 08:04:04
张雪峰的家人发声明!丧事从简,28号办葬礼,公开了张雪峰的遗愿

张雪峰的家人发声明!丧事从简,28号办葬礼,公开了张雪峰的遗愿

苗苗情感说
2026-03-26 09:33:59
美军中央司令部:美军“亚伯拉罕·林肯”号航空母舰“在区域海域航行期间,继续针对伊朗境内的军事目标开展作战行动”

美军中央司令部:美军“亚伯拉罕·林肯”号航空母舰“在区域海域航行期间,继续针对伊朗境内的军事目标开展作战行动”

潇湘晨报
2026-03-26 10:55:27
教育彻底变天!2026届初中生注意,这是最后一届只拼分数的一届

教育彻底变天!2026届初中生注意,这是最后一届只拼分数的一届

老特有话说
2026-03-25 15:22:58
南京女教师停职风波反转!大批家长发声力挺,恳请恢复岗位与声誉

南京女教师停职风波反转!大批家长发声力挺,恳请恢复岗位与声誉

火山詩话
2026-03-26 06:37:23
中国移动正式发布通知:全国将统一执行:4月30日起

中国移动正式发布通知:全国将统一执行:4月30日起

云舟史策
2026-03-26 07:34:02
蒋介石孙子召开发布会,提出“两蒋”移灵大陆,2句话让世人唏嘘

蒋介石孙子召开发布会,提出“两蒋”移灵大陆,2句话让世人唏嘘

老谢谈史
2026-03-18 18:33:35
余承东正式宣布问界M6订单超6万台后,一个奇怪的现象就出现了

余承东正式宣布问界M6订单超6万台后,一个奇怪的现象就出现了

春雨说科技
2026-03-26 14:46:46
公职人员下班后这5种行为,将严肃处理,千万别踩红线!

公职人员下班后这5种行为,将严肃处理,千万别踩红线!

细说职场
2026-03-26 11:13:03
改口!姆巴佩为皇马队医发声:他们并未误诊 这事我也有一定责任

改口!姆巴佩为皇马队医发声:他们并未误诊 这事我也有一定责任

风过乡
2026-03-26 05:54:46
巴蒂:曾想成为大罗那样的前锋但我做不到;哈兰德让我很惊讶

巴蒂:曾想成为大罗那样的前锋但我做不到;哈兰德让我很惊讶

懂球帝
2026-03-26 11:02:09
歼-16D携载LD-8A,开启反辐射作战新篇!

歼-16D携载LD-8A,开启反辐射作战新篇!

杨风
2026-03-25 20:50:09
全国禁赛5年!凉山队一球员不满判罚赛后飞踹拳击裁判,此前已被四川省内禁赛5年

全国禁赛5年!凉山队一球员不满判罚赛后飞踹拳击裁判,此前已被四川省内禁赛5年

红星新闻
2026-03-25 23:19:21
如果美国疯狂印钞还完所有债会怎样 网友深度剖析 原来有人等着呢

如果美国疯狂印钞还完所有债会怎样 网友深度剖析 原来有人等着呢

侃神评故事
2026-03-23 17:20:03
骗贷6.6亿余元 潜逃境外涉金融领域犯罪嫌疑人张某被押解回国

骗贷6.6亿余元 潜逃境外涉金融领域犯罪嫌疑人张某被押解回国

新京报
2026-03-26 12:58:08
京华城案一审宣判不只柯文哲,应晓薇被判15年半,沈庆京10年

京华城案一审宣判不只柯文哲,应晓薇被判15年半,沈庆京10年

海峡导报社
2026-03-26 15:29:03
2026-03-26 18:56:49
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7746文章数 556关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

原正部级刘慧被开除党籍:结交政治骗子 匿名诬告他人

头条要闻

原正部级刘慧被开除党籍:结交政治骗子 匿名诬告他人

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

旅游
健康
教育
亲子
公开课

旅游要闻

世界那么大,来安美如画丨「与V四季行」倒计时1天,这份春日请柬请查收→

转头就晕的耳石症,能开车上班吗?

教育要闻

2026高考捡漏指南:西安藏着4所“就业王炸”院校,考生闭眼冲

亲子要闻

上海美华妇儿医院"康复中心"完成全面升级并正式焕新启幕

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版