Meta与华盛顿大学联手打造"自我成长"的AI判官|数学|高超|推理|meta

Meta与华盛顿大学联手打造"自我成长"的AI判官

2025-12-11 16:26:57　来源: 科技行者

北京举报

分享至

这项由Meta公司FAIR实验室和华盛顿大学合作完成的研究，发表于2025年12月的arXiv预印本平台（论文编号：2512.05145），为我们展示了一个颠覆性的发现：AI评判官也能像人类一样通过"自学成才"的方式不断提升判断能力，而且完全不需要人类手把手地教它什么是对什么是错。

要理解这项研究的意义，我们可以把视觉AI模型想象成刚学会画画的小朋友。这些小朋友每天都在画各种图画，有些画得很好，有些画得不太好。但问题来了：谁来判断这些画的好坏呢？传统做法就像请一群专业美术老师来逐一评判，告诉我们哪幅画更好。但这样做成本极高，而且当小朋友们的画技越来越高超时，这些评判标准很快就过时了。

研究团队中的林茵娜（Inna Wanyin Lin）、胡雨时（Yushi Hu）等科学家们提出了一个巧妙的解决方案：既然我们需要一个评判官来评判AI的作品，为什么不让AI自己来培养这个评判官呢？这就好比让一个聪明的学生既当运动员又当裁判，通过不断练习比赛来提升自己的判断水平。

这个"自我成长"的AI评判官基于Llama-3.2-11B视觉指令模型构建。虽然它的"身材"相对小巧（只有110亿个参数），但经过特殊训练后，它的表现竟然能够媲美甚至超越那些体积庞大的模型，比如拥有900亿参数的Llama-3.2-90B，以及知名的GPT-4o和Claude 3.5 Sonnet。这就像是一个普通身材的运动员通过科学训练，最终在比赛中击败了那些天生体格更强壮的对手。

研究的核心创新在于设计了一套"三步循环"的自我训练方法。第一步是"制造对比"，AI会生成各种质量层次的回答，就像一个学生故意写出一些好答案和一些有明显错误的答案。对于那些有标准答案的问题（比如数学题或选择题），它会生成多个答案然后选择大多数都认同的那个作为"正确答案"，再随机选择一个不同的答案作为"错误答案"。对于那些没有标准答案的开放性问题（比如图片描述），它会先写一个正常的回答，然后故意在另一个版本中加入一些错误信息，比如把"红色巴士"说成"蓝色巴士"，或者把"40层建筑"说成"10层建筑"。

第二步是"自我判断"，当前版本的AI评判官会对这些成对的答案进行评判，并且详细解释自己的判断理由。研究团队只保留那些判断正确的案例和相应的推理过程。这就像是一个学生在练习判断题时，只有当他选对答案并且给出了合理解释的时候，这道题才会被记录下来供后续学习使用。

第三步是"反思成长"，AI评判官会基于这些筛选出来的正确判断和推理过程进行学习，就像学生通过复习自己做对的题目来巩固判断标准。然后整个过程会重新开始，形成一个持续改进的循环。

在实际测试中，这个方法展现出了令人印象深刻的效果。研究团队使用了两个权威的评估基准：VL-RewardBench和Multimodal RewardBench，这些就像是AI界的"标准化考试"。在VL-RewardBench上，AI评判官的整体准确率从初始的0.38提升到了0.51，相当于从38分进步到51分，这是一个相当显著的提升。更令人惊讶的是，在某些特定任务上，这个小巧的AI评判官竟然超过了那些大型模型的表现。

具体来说，在常规指令跟随任务中，它的得分达到了0.503，明显超过了90B参数的大型模型（0.426）以及Claude-3.5-Sonnet（0.434）和GPT-4o（0.491）。在幻觉检测（即识别AI是否编造了不存在的内容）方面，它的表现也有了40.9%的相对提升。在视觉问答任务中，改进幅度达到了18%。

这种进步模式就像是一个学生的成绩单：第一次考试得38分，经过一轮学习后得45分，再学习一轮得52分，如此反复，最终达到了54分的好成绩。有趣的是，研究发现不同类型的任务改进速度是不同的。有些技能（比如基础的指令理解）改进得很快很稳定，而有些技能（比如复杂推理）的改进则比较缓慢甚至会出现波动。

研究团队深入分析了为什么"多数投票"策略比使用标准答案效果更好。他们发现，即使AI选择了正确答案，它的推理过程也可能有问题。比如在一个文本识别任务中，AI虽然最终选择了含有正确数字的回答，但它的理由却是"回答B更详细，描述了字体颜色和布局"，完全没有注意到回答A其实把数字写错了。这就像是一个学生在数学考试中蒙对了答案，但解题思路完全错误。

相比之下，多数投票策略要求AI在多个不同的合成对比中都能给出正确判断，这样就更可能筛选出那些真正理解判断标准的推理过程，而不是仅仅靠运气或表面特征做出判断。

这项研究的意义远远超出了技术层面。从成本角度看，传统的人工标注方法可能需要50万到100万美元来创建等量的训练数据，而这种自我训练方法只需要大约400个GPU小时，成本仅为几千到一万美元。这就像是用业余爱好者的成本达到了专业团队的效果。

更重要的是，这种方法具有很强的适应性。当AI模型不断进步、新的视觉任务不断涌现时，传统的人工标注很难及时跟上。而这种自我训练的评判官可以随时适应新的场景和任务，不需要等待人类专家重新制定评判标准。

研究也坦诚地指出了当前方法的局限性。在安全性评估方面，改进效果并不明显，因为这种训练方法并没有专门教AI识别有害或有偏见的内容。这就像是培养了一个优秀的文学评论家，但他在识别政治敏感内容方面可能还需要额外的专门训练。

另外，不同类型的任务对这种自我训练的响应程度也不同。一些需要深度推理或微妙判断的任务改进相对有限，这提示我们可能需要更加精细化的训练策略，或者针对不同类型的任务培养专门的评判官。

从更广阔的视角来看，这项研究代表了AI发展的一个重要方向：从依赖人类监督转向自主学习能力。这不仅仅是技术的进步，更是AI系统走向真正智能的重要一步。当AI能够自主评判和改进时，它就具备了持续学习和适应的能力，这对于构建更加灵活和强大的AI系统具有重要意义。

这种技术的应用前景也相当广泛。在教育领域，可以用来自动评判学生的作业和考试；在内容创作领域，可以帮助评估AI生成的图像、视频或文章质量；在产品开发中，可以用来评估用户界面设计或产品描述的质量。

说到底，这项研究向我们展示了AI的一个重要特质：像人类一样，AI也可以通过反思和练习来不断提升自己的判断能力。虽然目前还有一些局限性，但这种"自我成长"的能力为AI的未来发展开辟了新的可能性。随着技术的进一步完善，我们可能会看到更多能够自主学习和改进的AI系统，它们不再需要人类的手把手指导，而是能够像成熟的专家一样独立工作和成长。

Q&A

Q1：这种自我训练的AI评判官是如何工作的？

A：这种AI评判官采用"三步循环"的训练方式。首先，AI会生成质量不同的答案对比，比如一个正确答案和一个有错误的答案。然后，当前版本的评判官会对这些答案进行判断并解释理由，研究团队只保留判断正确的案例。最后，AI会基于这些正确的判断案例进行学习，提升自己的评判能力，然后重复整个过程。

Q2：这种方法比传统的人工标注有什么优势？

A：主要有三个优势：成本更低，传统人工标注需要50万到100万美元，而这种方法只需几千到一万美元；适应性更强，可以随时适应新的AI模型和任务，不需要等待人类重新制定标准；效果更好，在某些任务上甚至超过了大型模型的表现，比如在指令跟随任务中超过了GPT-4o和Claude等模型。

Q3：这种AI评判官在实际应用中表现如何？

A：在权威测试中表现相当出色。整体准确率从38%提升到51%，在常规指令跟随任务中得分0.503，超过了90B参数的大型模型。在幻觉检测方面有40.9%的提升，视觉问答任务改进了18%。虽然在安全性评估和某些复杂推理任务上还有改进空间，但整体表现已经达到甚至超越了许多知名的大型AI模型。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.