网易首页 > 网易号 > 正文 申请入驻

腾讯与港大团队打造更聪明的视频理解模型

0
分享至

这项由香港大学刘锡辉教授、腾讯PCG ARC实验室葛语婴和葛一晓博士、以及香港中文大学王瑞教授等学者共同完成的研究发表于2025年6月,论文标题为"GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning"。感兴趣的读者可以通过论文编号arXiv:2506.16141v1访问完整研究内容,相关代码已在GitHub开源。

当我们看到一个人说话时言不由衷,总会觉得这人不可信。有趣的是,现在的AI视频理解模型也面临着类似的问题——它们在分析视频时,虽然经常能给出正确答案,但推理过程却经常"前言不搭后语",就像一个学生在考试时胡乱写了一堆过程,最后蒙对了答案一样。

这种现象在AI领域被称为"推理一致性"问题。当前最先进的多模态大语言模型(简单说就是能同时理解文字、图片和视频的AI)虽然在很多任务上表现出色,但它们的思考过程往往混乱不堪。比如,当AI观看一段厨房清洁的视频后,它可能在推理中说"需要把布放到水龙头下冲洗",但最终答案却是"关闭水龙头"——虽然答案是对的,但思路完全不对。

研究团队为了解决这个问题,首先创建了一个专门的"考试系统"——SEED-Bench-R1基准测试。这个测试系统就像是为AI设计的多级考试,包含了从简单到复杂的三个等级。第一级是"在家考试",AI需要在熟悉的厨房环境中理解日常任务;第二级是"换个教室考试",同样的任务但换到了完全不同的厨房环境;第三级则是"跨专业考试",不仅环境全变了,连任务类型也从做饭扩展到了工作、娱乐、运动等各个领域。

这个测试系统最巧妙的地方在于,它要求AI不仅要给出正确答案,还要展示完整的思考过程。就像老师不仅要看学生的最终答案,还要检查解题步骤是否合理。研究团队通过分析发现,现有的强化学习方法GRPO虽然能让AI答对更多题目,但却让AI的思考过程变得更加混乱——正确率提高了,但推理的逻辑性却下降了。

为了理解这个问题的根源,可以把AI的学习过程比作训练一个学生。传统的训练方法只关注最终成绩,就像只看考试分数而不管学生是怎么得出答案的。这种方式会鼓励学生"投机取巧"——可能通过死记硬背或者猜测来获得高分,而不是真正理解问题。同时,过度严格的约束条件就像给学生戴上了"思维枷锁",限制了他们探索不同解题思路的可能性。

针对这些问题,研究团队提出了GRPO-CARE方法,这个名字中的"CARE"代表"一致性感知奖励增强"。这种方法的核心思想是建立一个"双重评分系统":不仅要奖励答对题目的AI,还要额外奖励那些推理过程逻辑清晰的AI。

具体来说,GRPO-CARE的工作机制是这样的:首先,它会让AI生成多个不同的推理过程和答案;然后,对于那些答案正确的推理过程,系统会进一步评估这些推理是否真的能支撑最终答案。这个评估过程依靠一个"参考老师"——一个通过指数移动平均方式缓慢更新的模型,它就像一个经验丰富但相对保守的老师,能够判断学生的推理过程是否合理。

这个参考老师的评估方式很有趣:它会看着AI的推理过程,然后判断"如果按照这个思路,能得出这个答案的概率有多大"。如果概率很高,说明推理过程和答案是匹配的;如果概率很低,说明推理过程有问题。系统会比较同一批AI的表现,只有那些推理过程既正确又逻辑清晰的AI才能获得额外奖励。

为了避免AI学会"一致但错误"的推理模式,系统只对答案正确的情况进行一致性评估。这就像老师只会对做对题目的学生进行解题思路的进一步指导,而不会强化错误的解题方法。

实验结果证明了这种方法的有效性。在SEED-Bench-R1的三个难度级别上,GRPO-CARE都显著超越了传统的GRPO方法。特别是在最困难的第三级测试中,性能提升了6.7%,而推理一致性更是提升了24.5%。这意味着AI不仅答得更对,思考过程也更加清晰合理。

研究团队还进行了详细的对比实验,测试了各种不同的改进策略。他们发现,简单地调整约束条件或者使用其他奖励方式都不如GRPO-CARE效果好。比如,有些方法虽然能提高推理一致性,但会降低整体准确率;有些方法能在简单任务上有效,但在复杂任务上表现不佳。只有GRPO-CARE能够在保证准确率的同时显著提升推理质量。

更令人兴奋的是,这种训练方法的效果具有很强的迁移性。当研究团队将用GRPO-CARE训练的模型应用到其他视频理解任务时,发现它在多个不同的测试基准上都表现出色。这就像一个学会了正确学习方法的学生,不仅在数学上表现更好,在物理、化学等其他科目上也会有所提升。

从技术实现的角度来看,GRPO-CARE的创新之处在于它巧妙地平衡了多个目标。传统方法往往在提高准确率和保持推理质量之间存在权衡,而GRPO-CARE通过引入适应性的一致性奖励,实现了两者的同时提升。这种方法不需要额外的人工标注数据,完全依靠模型自身的学习能力来改进推理质量。

研究团队在论文中还展示了一些具体的案例分析。例如,在一个高尔夫球训练场的视频理解任务中,传统的GRPO方法虽然能给出正确答案"用球杆击球",但推理过程却说要"把球移到发球台",逻辑上前后矛盾。而GRPO-CARE训练的模型不仅给出了正确答案,推理过程也更加合理:先观察到球已经在发球台上,然后得出应该击球的结论。

这项研究的意义不仅仅局限于技术层面,它也为AI的可解释性提供了新的思路。在很多应用场景中,我们不仅需要AI给出正确的结果,还需要理解AI是如何得出这个结果的。比如在医疗诊断、自动驾驶或者教育辅助等领域,AI的推理过程往往比结果本身更重要。GRPO-CARE方法为提升AI推理的透明度和可信度提供了一个有效的解决方案。

值得注意的是,这项研究还揭示了当前AI发展中的一个重要问题:单纯追求准确率可能会导致AI学会"投机取巧",而忽视了推理过程的合理性。这提醒我们,在设计AI训练方法时,不能只关注最终指标,还要考虑中间过程的质量。这种思路对于构建更加可靠和可信的AI系统具有重要意义。

从更广阔的视角来看,GRPO-CARE代表了AI研究中的一个新趋势:从追求单一性能指标转向多目标优化。未来的AI系统不仅要聪明,还要"明白事理"——既能给出正确答案,又能清楚地解释自己的思考过程。这种发展方向对于AI在现实世界中的广泛应用具有重要意义。

研究团队也在论文中讨论了这种方法的局限性和未来发展方向。虽然GRPO-CARE在视频理解任务上表现出色,但它在其他类型的多模态任务上的效果还需要进一步验证。此外,如何进一步提高参考模型的质量,以及如何设计更加精细的一致性评估机制,都是值得继续探索的问题。

从实际应用的角度来看,这项研究为开发更智能的视频分析系统奠定了基础。无论是智能监控、内容审核、教育视频分析,还是自动驾驶中的环境理解,都需要AI能够准确理解视频内容并给出合理解释。GRPO-CARE方法的成功为这些应用场景提供了新的技术可能性。

说到底,这项研究解决的是一个看似简单但实际上非常重要的问题:如何让AI在变得更聪明的同时,也变得更加"理性"和"可信"。通过巧妙地设计奖励机制,研究团队成功地让AI学会了"言行一致",这不仅提高了AI的性能,更重要的是增强了我们对AI决策过程的理解和信任。

对于普通人来说,这项研究的意义在于它让AI变得更加"人性化"——不仅能给出正确答案,还能清楚地解释为什么这个答案是对的。这种进步将使AI在日常生活中的应用变得更加可靠和值得信赖,为构建更好的人机交互体验铺平了道路。随着这类技术的不断发展和完善,我们有理由期待AI能够成为更加智能、可靠的伙伴,在各个领域为人类提供更好的服务。

Q&A

Q1:GRPO-CARE是什么?它解决了什么问题? A:GRPO-CARE是一种新的AI训练方法,全称是"一致性感知奖励增强"。它解决的核心问题是AI虽然能答对问题,但推理过程经常逻辑混乱的现象。就像学生虽然考试得分高,但解题步骤完全错误一样。这种方法让AI不仅要答对,还要推理合理。

Q2:SEED-Bench-R1基准测试有什么特别之处? A:SEED-Bench-R1是专门为测试AI视频理解能力设计的"三级考试系统"。第一级在熟悉环境中测试,第二级换到不同环境,第三级则是完全不同的任务和环境。这种设计能全面评估AI的泛化能力,就像从简单的家庭作业逐步升级到高难度综合考试。

Q3:这项研究会对普通人的生活产生什么影响? A:这项研究让AI变得更加可信和透明。未来在医疗诊断、自动驾驶、教育辅助等领域,AI不仅能给出正确结果,还能清楚解释原因。这意味着我们能更好地理解和信任AI的决策,让AI成为更可靠的生活助手。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
世卫组织推荐的肌肉不流失四大黄金法则,照着做,准没错

世卫组织推荐的肌肉不流失四大黄金法则,照着做,准没错

观星赏月
2026-06-18 15:29:58
洪秀柱直言敲打:既然不愿扛起统一大旗,何必身居国民党主席之位

洪秀柱直言敲打:既然不愿扛起统一大旗,何必身居国民党主席之位

谁将主宰未来
2026-06-21 09:57:43
为何延迟退休最近突然“没声了”?不是暂停,背后4大难题制约

为何延迟退休最近突然“没声了”?不是暂停,背后4大难题制约

芳姐侃社会
2026-06-20 18:26:43
虎扑老哥看世界杯大破防:原来美国球场修得真不赖

虎扑老哥看世界杯大破防:原来美国球场修得真不赖

影视情报室
2026-06-21 00:33:51
ICU工作24年的北大博士坦言自己不鸡娃原因!让所有家长警醒

ICU工作24年的北大博士坦言自己不鸡娃原因!让所有家长警醒

菁妈育儿
2026-06-21 09:39:39
后勤绞杀封锁正把克里米亚从普京的战略资产变成压垮他的稻草

后勤绞杀封锁正把克里米亚从普京的战略资产变成压垮他的稻草

刘耘博士
2026-06-19 08:42:41
重庆95后女生拍下火山灰中的纸鹦鹉螺,捧回全球摄影大奖

重庆95后女生拍下火山灰中的纸鹦鹉螺,捧回全球摄影大奖

陌上桃花开的
2026-06-15 22:58:40
苹果这三家直营店将在今天永久关闭!

苹果这三家直营店将在今天永久关闭!

XCiOS俱乐部
2026-06-21 07:45:57
“听不懂英语装懂”?高市早苗夸张表情引日网热议;日媒:高市“献媚外交”引反噬

“听不懂英语装懂”?高市早苗夸张表情引日网热议;日媒:高市“献媚外交”引反噬

环球网资讯
2026-06-21 13:12:26
向佑发抖音了,39岁 没带团队,就自己对着镜头切蛋糕。全家福照片

向佑发抖音了,39岁 没带团队,就自己对着镜头切蛋糕。全家福照片

陈意小可爱
2026-06-21 01:42:36
爆冷不到24小时,土耳其两大噩耗传来,全队淘汰主帅成头号罪人

爆冷不到24小时,土耳其两大噩耗传来,全队淘汰主帅成头号罪人

阿伧说事
2026-06-20 21:54:12
完美!顶级冠军拼图,马刺速度交易!

完美!顶级冠军拼图,马刺速度交易!

体育新角度
2026-06-21 11:42:25
如何调整?突尼斯1-5惨败后换帅+半场0-2日本 本场输球就提前出局

如何调整?突尼斯1-5惨败后换帅+半场0-2日本 本场输球就提前出局

砚底沉香
2026-06-21 13:05:29
发动机能换,龙骨换不了

发动机能换,龙骨换不了

大鱼jun讲世界
2026-06-17 22:15:03
“处长、副处长”改“科长、副科长”,江苏多地调整

“处长、副处长”改“科长、副科长”,江苏多地调整

澎湃新闻
2026-06-20 12:00:03
英格兰名宿罗伊·基恩批评世界杯英格兰太太团穿球衣太过招摇,嘲讽“她们中大多数一年后就会分手”,有...

英格兰名宿罗伊·基恩批评世界杯英格兰太太团穿球衣太过招摇,嘲讽“她们中大多数一年后就会分手”,有...

星Xin辰大海
2026-06-20 14:20:05
东风-17发射过程清晰公开,美国仰望但已非主力

东风-17发射过程清晰公开,美国仰望但已非主力

走进事件的中心
2026-06-21 10:50:00
20寸行李箱不能免费登机了!人民网发文详解

20寸行李箱不能免费登机了!人民网发文详解

快科技
2026-06-20 11:39:12
金价6月21日,大家要有心理准备了,下周,金价或将重现15年历史

金价6月21日,大家要有心理准备了,下周,金价或将重现15年历史

生活新鲜市
2026-06-21 03:31:54
《抓特务》第一波真实口碑出炉!现场观众打分和评价“一针见血”

《抓特务》第一波真实口碑出炉!现场观众打分和评价“一针见血”

八卦南风
2026-06-18 19:21:54
2026-06-21 14:04:49
至顶科技 incentive-icons
至顶科技
科技产业媒体与 AI 产业服务机构
19463文章数 49713关注度
往期回顾 全部

科技要闻

马斯克拿下7800亿元天价薪酬 2028年可兑现

头条要闻

外国知名学者:当今世界只有四个大国

头条要闻

外国知名学者:当今世界只有四个大国

体育要闻

德国的超级替补,10年前还在工厂上班

娱乐要闻

李乃文带妻子法国购物,2人5个孩子!

财经要闻

蔚来的“暗战”时刻

汽车要闻

惊出冷汗!重庆实测奥迪A5L,华为智驾这波操作绝了…

态度原创

健康
艺术
教育
手机
公开课

吃粽子的3条保胃法则,消化科医生推荐

艺术要闻

大卫・霍克尼 经典彩色版画

教育要闻

爆笑作业:这些学生作业真的很难绷住!

手机要闻

聊聊小米17 Max,它与你们想的真不一样

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版