腾讯与港大团队打造更聪明的视频理解模型|推理|实验|知名企业

腾讯与港大团队打造更聪明的视频理解模型

2025-06-30 23:48:06　来源: 至顶科技

北京举报

分享至

这项由香港大学刘锡辉教授、腾讯PCG ARC实验室葛语婴和葛一晓博士、以及香港中文大学王瑞教授等学者共同完成的研究发表于2025年6月，论文标题为"GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning"。感兴趣的读者可以通过论文编号arXiv:2506.16141v1访问完整研究内容，相关代码已在GitHub开源。

当我们看到一个人说话时言不由衷，总会觉得这人不可信。有趣的是，现在的AI视频理解模型也面临着类似的问题——它们在分析视频时，虽然经常能给出正确答案，但推理过程却经常"前言不搭后语"，就像一个学生在考试时胡乱写了一堆过程，最后蒙对了答案一样。

这种现象在AI领域被称为"推理一致性"问题。当前最先进的多模态大语言模型（简单说就是能同时理解文字、图片和视频的AI）虽然在很多任务上表现出色，但它们的思考过程往往混乱不堪。比如，当AI观看一段厨房清洁的视频后，它可能在推理中说"需要把布放到水龙头下冲洗"，但最终答案却是"关闭水龙头"——虽然答案是对的，但思路完全不对。

研究团队为了解决这个问题，首先创建了一个专门的"考试系统"——SEED-Bench-R1基准测试。这个测试系统就像是为AI设计的多级考试，包含了从简单到复杂的三个等级。第一级是"在家考试"，AI需要在熟悉的厨房环境中理解日常任务；第二级是"换个教室考试"，同样的任务但换到了完全不同的厨房环境；第三级则是"跨专业考试"，不仅环境全变了，连任务类型也从做饭扩展到了工作、娱乐、运动等各个领域。

这个测试系统最巧妙的地方在于，它要求AI不仅要给出正确答案，还要展示完整的思考过程。就像老师不仅要看学生的最终答案，还要检查解题步骤是否合理。研究团队通过分析发现，现有的强化学习方法GRPO虽然能让AI答对更多题目，但却让AI的思考过程变得更加混乱——正确率提高了，但推理的逻辑性却下降了。

为了理解这个问题的根源，可以把AI的学习过程比作训练一个学生。传统的训练方法只关注最终成绩，就像只看考试分数而不管学生是怎么得出答案的。这种方式会鼓励学生"投机取巧"——可能通过死记硬背或者猜测来获得高分，而不是真正理解问题。同时，过度严格的约束条件就像给学生戴上了"思维枷锁"，限制了他们探索不同解题思路的可能性。

针对这些问题，研究团队提出了GRPO-CARE方法，这个名字中的"CARE"代表"一致性感知奖励增强"。这种方法的核心思想是建立一个"双重评分系统"：不仅要奖励答对题目的AI，还要额外奖励那些推理过程逻辑清晰的AI。

具体来说，GRPO-CARE的工作机制是这样的：首先，它会让AI生成多个不同的推理过程和答案；然后，对于那些答案正确的推理过程，系统会进一步评估这些推理是否真的能支撑最终答案。这个评估过程依靠一个"参考老师"——一个通过指数移动平均方式缓慢更新的模型，它就像一个经验丰富但相对保守的老师，能够判断学生的推理过程是否合理。

这个参考老师的评估方式很有趣：它会看着AI的推理过程，然后判断"如果按照这个思路，能得出这个答案的概率有多大"。如果概率很高，说明推理过程和答案是匹配的；如果概率很低，说明推理过程有问题。系统会比较同一批AI的表现，只有那些推理过程既正确又逻辑清晰的AI才能获得额外奖励。

为了避免AI学会"一致但错误"的推理模式，系统只对答案正确的情况进行一致性评估。这就像老师只会对做对题目的学生进行解题思路的进一步指导，而不会强化错误的解题方法。

实验结果证明了这种方法的有效性。在SEED-Bench-R1的三个难度级别上，GRPO-CARE都显著超越了传统的GRPO方法。特别是在最困难的第三级测试中，性能提升了6.7%，而推理一致性更是提升了24.5%。这意味着AI不仅答得更对，思考过程也更加清晰合理。

研究团队还进行了详细的对比实验，测试了各种不同的改进策略。他们发现，简单地调整约束条件或者使用其他奖励方式都不如GRPO-CARE效果好。比如，有些方法虽然能提高推理一致性，但会降低整体准确率；有些方法能在简单任务上有效，但在复杂任务上表现不佳。只有GRPO-CARE能够在保证准确率的同时显著提升推理质量。

更令人兴奋的是，这种训练方法的效果具有很强的迁移性。当研究团队将用GRPO-CARE训练的模型应用到其他视频理解任务时，发现它在多个不同的测试基准上都表现出色。这就像一个学会了正确学习方法的学生，不仅在数学上表现更好，在物理、化学等其他科目上也会有所提升。

从技术实现的角度来看，GRPO-CARE的创新之处在于它巧妙地平衡了多个目标。传统方法往往在提高准确率和保持推理质量之间存在权衡，而GRPO-CARE通过引入适应性的一致性奖励，实现了两者的同时提升。这种方法不需要额外的人工标注数据，完全依靠模型自身的学习能力来改进推理质量。

研究团队在论文中还展示了一些具体的案例分析。例如，在一个高尔夫球训练场的视频理解任务中，传统的GRPO方法虽然能给出正确答案"用球杆击球"，但推理过程却说要"把球移到发球台"，逻辑上前后矛盾。而GRPO-CARE训练的模型不仅给出了正确答案，推理过程也更加合理：先观察到球已经在发球台上，然后得出应该击球的结论。

这项研究的意义不仅仅局限于技术层面，它也为AI的可解释性提供了新的思路。在很多应用场景中，我们不仅需要AI给出正确的结果，还需要理解AI是如何得出这个结果的。比如在医疗诊断、自动驾驶或者教育辅助等领域，AI的推理过程往往比结果本身更重要。GRPO-CARE方法为提升AI推理的透明度和可信度提供了一个有效的解决方案。

值得注意的是，这项研究还揭示了当前AI发展中的一个重要问题：单纯追求准确率可能会导致AI学会"投机取巧"，而忽视了推理过程的合理性。这提醒我们，在设计AI训练方法时，不能只关注最终指标，还要考虑中间过程的质量。这种思路对于构建更加可靠和可信的AI系统具有重要意义。

从更广阔的视角来看，GRPO-CARE代表了AI研究中的一个新趋势：从追求单一性能指标转向多目标优化。未来的AI系统不仅要聪明，还要"明白事理"——既能给出正确答案，又能清楚地解释自己的思考过程。这种发展方向对于AI在现实世界中的广泛应用具有重要意义。

研究团队也在论文中讨论了这种方法的局限性和未来发展方向。虽然GRPO-CARE在视频理解任务上表现出色，但它在其他类型的多模态任务上的效果还需要进一步验证。此外，如何进一步提高参考模型的质量，以及如何设计更加精细的一致性评估机制，都是值得继续探索的问题。

从实际应用的角度来看，这项研究为开发更智能的视频分析系统奠定了基础。无论是智能监控、内容审核、教育视频分析，还是自动驾驶中的环境理解，都需要AI能够准确理解视频内容并给出合理解释。GRPO-CARE方法的成功为这些应用场景提供了新的技术可能性。

说到底，这项研究解决的是一个看似简单但实际上非常重要的问题：如何让AI在变得更聪明的同时，也变得更加"理性"和"可信"。通过巧妙地设计奖励机制，研究团队成功地让AI学会了"言行一致"，这不仅提高了AI的性能，更重要的是增强了我们对AI决策过程的理解和信任。

对于普通人来说，这项研究的意义在于它让AI变得更加"人性化"——不仅能给出正确答案，还能清楚地解释为什么这个答案是对的。这种进步将使AI在日常生活中的应用变得更加可靠和值得信赖，为构建更好的人机交互体验铺平了道路。随着这类技术的不断发展和完善，我们有理由期待AI能够成为更加智能、可靠的伙伴，在各个领域为人类提供更好的服务。

Q&A

Q1：GRPO-CARE是什么？它解决了什么问题？ A：GRPO-CARE是一种新的AI训练方法，全称是"一致性感知奖励增强"。它解决的核心问题是AI虽然能答对问题，但推理过程经常逻辑混乱的现象。就像学生虽然考试得分高，但解题步骤完全错误一样。这种方法让AI不仅要答对，还要推理合理。

Q2：SEED-Bench-R1基准测试有什么特别之处？ A：SEED-Bench-R1是专门为测试AI视频理解能力设计的"三级考试系统"。第一级在熟悉环境中测试，第二级换到不同环境，第三级则是完全不同的任务和环境。这种设计能全面评估AI的泛化能力，就像从简单的家庭作业逐步升级到高难度综合考试。

Q3：这项研究会对普通人的生活产生什么影响？ A：这项研究让AI变得更加可信和透明。未来在医疗诊断、自动驾驶、教育辅助等领域，AI不仅能给出正确结果，还能清楚解释原因。这意味着我们能更好地理解和信任AI的决策，让AI成为更可靠的生活助手。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.