网易首页 > 网易号 > 正文 申请入驻

Meta与华盛顿大学联手打造"自我成长"的AI判官

0
分享至


这项由Meta公司FAIR实验室和华盛顿大学合作完成的研究,发表于2025年12月的arXiv预印本平台(论文编号:2512.05145),为我们展示了一个颠覆性的发现:AI评判官也能像人类一样通过"自学成才"的方式不断提升判断能力,而且完全不需要人类手把手地教它什么是对什么是错。

要理解这项研究的意义,我们可以把视觉AI模型想象成刚学会画画的小朋友。这些小朋友每天都在画各种图画,有些画得很好,有些画得不太好。但问题来了:谁来判断这些画的好坏呢?传统做法就像请一群专业美术老师来逐一评判,告诉我们哪幅画更好。但这样做成本极高,而且当小朋友们的画技越来越高超时,这些评判标准很快就过时了。

研究团队中的林茵娜(Inna Wanyin Lin)、胡雨时(Yushi Hu)等科学家们提出了一个巧妙的解决方案:既然我们需要一个评判官来评判AI的作品,为什么不让AI自己来培养这个评判官呢?这就好比让一个聪明的学生既当运动员又当裁判,通过不断练习比赛来提升自己的判断水平。

这个"自我成长"的AI评判官基于Llama-3.2-11B视觉指令模型构建。虽然它的"身材"相对小巧(只有110亿个参数),但经过特殊训练后,它的表现竟然能够媲美甚至超越那些体积庞大的模型,比如拥有900亿参数的Llama-3.2-90B,以及知名的GPT-4o和Claude 3.5 Sonnet。这就像是一个普通身材的运动员通过科学训练,最终在比赛中击败了那些天生体格更强壮的对手。

研究的核心创新在于设计了一套"三步循环"的自我训练方法。第一步是"制造对比",AI会生成各种质量层次的回答,就像一个学生故意写出一些好答案和一些有明显错误的答案。对于那些有标准答案的问题(比如数学题或选择题),它会生成多个答案然后选择大多数都认同的那个作为"正确答案",再随机选择一个不同的答案作为"错误答案"。对于那些没有标准答案的开放性问题(比如图片描述),它会先写一个正常的回答,然后故意在另一个版本中加入一些错误信息,比如把"红色巴士"说成"蓝色巴士",或者把"40层建筑"说成"10层建筑"。

第二步是"自我判断",当前版本的AI评判官会对这些成对的答案进行评判,并且详细解释自己的判断理由。研究团队只保留那些判断正确的案例和相应的推理过程。这就像是一个学生在练习判断题时,只有当他选对答案并且给出了合理解释的时候,这道题才会被记录下来供后续学习使用。

第三步是"反思成长",AI评判官会基于这些筛选出来的正确判断和推理过程进行学习,就像学生通过复习自己做对的题目来巩固判断标准。然后整个过程会重新开始,形成一个持续改进的循环。

在实际测试中,这个方法展现出了令人印象深刻的效果。研究团队使用了两个权威的评估基准:VL-RewardBench和Multimodal RewardBench,这些就像是AI界的"标准化考试"。在VL-RewardBench上,AI评判官的整体准确率从初始的0.38提升到了0.51,相当于从38分进步到51分,这是一个相当显著的提升。更令人惊讶的是,在某些特定任务上,这个小巧的AI评判官竟然超过了那些大型模型的表现。

具体来说,在常规指令跟随任务中,它的得分达到了0.503,明显超过了90B参数的大型模型(0.426)以及Claude-3.5-Sonnet(0.434)和GPT-4o(0.491)。在幻觉检测(即识别AI是否编造了不存在的内容)方面,它的表现也有了40.9%的相对提升。在视觉问答任务中,改进幅度达到了18%。

这种进步模式就像是一个学生的成绩单:第一次考试得38分,经过一轮学习后得45分,再学习一轮得52分,如此反复,最终达到了54分的好成绩。有趣的是,研究发现不同类型的任务改进速度是不同的。有些技能(比如基础的指令理解)改进得很快很稳定,而有些技能(比如复杂推理)的改进则比较缓慢甚至会出现波动。

研究团队深入分析了为什么"多数投票"策略比使用标准答案效果更好。他们发现,即使AI选择了正确答案,它的推理过程也可能有问题。比如在一个文本识别任务中,AI虽然最终选择了含有正确数字的回答,但它的理由却是"回答B更详细,描述了字体颜色和布局",完全没有注意到回答A其实把数字写错了。这就像是一个学生在数学考试中蒙对了答案,但解题思路完全错误。

相比之下,多数投票策略要求AI在多个不同的合成对比中都能给出正确判断,这样就更可能筛选出那些真正理解判断标准的推理过程,而不是仅仅靠运气或表面特征做出判断。

这项研究的意义远远超出了技术层面。从成本角度看,传统的人工标注方法可能需要50万到100万美元来创建等量的训练数据,而这种自我训练方法只需要大约400个GPU小时,成本仅为几千到一万美元。这就像是用业余爱好者的成本达到了专业团队的效果。

更重要的是,这种方法具有很强的适应性。当AI模型不断进步、新的视觉任务不断涌现时,传统的人工标注很难及时跟上。而这种自我训练的评判官可以随时适应新的场景和任务,不需要等待人类专家重新制定评判标准。

研究也坦诚地指出了当前方法的局限性。在安全性评估方面,改进效果并不明显,因为这种训练方法并没有专门教AI识别有害或有偏见的内容。这就像是培养了一个优秀的文学评论家,但他在识别政治敏感内容方面可能还需要额外的专门训练。

另外,不同类型的任务对这种自我训练的响应程度也不同。一些需要深度推理或微妙判断的任务改进相对有限,这提示我们可能需要更加精细化的训练策略,或者针对不同类型的任务培养专门的评判官。

从更广阔的视角来看,这项研究代表了AI发展的一个重要方向:从依赖人类监督转向自主学习能力。这不仅仅是技术的进步,更是AI系统走向真正智能的重要一步。当AI能够自主评判和改进时,它就具备了持续学习和适应的能力,这对于构建更加灵活和强大的AI系统具有重要意义。

这种技术的应用前景也相当广泛。在教育领域,可以用来自动评判学生的作业和考试;在内容创作领域,可以帮助评估AI生成的图像、视频或文章质量;在产品开发中,可以用来评估用户界面设计或产品描述的质量。

说到底,这项研究向我们展示了AI的一个重要特质:像人类一样,AI也可以通过反思和练习来不断提升自己的判断能力。虽然目前还有一些局限性,但这种"自我成长"的能力为AI的未来发展开辟了新的可能性。随着技术的进一步完善,我们可能会看到更多能够自主学习和改进的AI系统,它们不再需要人类的手把手指导,而是能够像成熟的专家一样独立工作和成长。

Q&A

Q1:这种自我训练的AI评判官是如何工作的?

A:这种AI评判官采用"三步循环"的训练方式。首先,AI会生成质量不同的答案对比,比如一个正确答案和一个有错误的答案。然后,当前版本的评判官会对这些答案进行判断并解释理由,研究团队只保留判断正确的案例。最后,AI会基于这些正确的判断案例进行学习,提升自己的评判能力,然后重复整个过程。

Q2:这种方法比传统的人工标注有什么优势?

A:主要有三个优势:成本更低,传统人工标注需要50万到100万美元,而这种方法只需几千到一万美元;适应性更强,可以随时适应新的AI模型和任务,不需要等待人类重新制定标准;效果更好,在某些任务上甚至超过了大型模型的表现,比如在指令跟随任务中超过了GPT-4o和Claude等模型。

Q3:这种AI评判官在实际应用中表现如何?

A:在权威测试中表现相当出色。整体准确率从38%提升到51%,在常规指令跟随任务中得分0.503,超过了90B参数的大型模型。在幻觉检测方面有40.9%的提升,视觉问答任务改进了18%。虽然在安全性评估和某些复杂推理任务上还有改进空间,但整体表现已经达到甚至超越了许多知名的大型AI模型。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
人民日报专访陈梦!不谈金牌退役,句句不提孙颖莎,却字字藏着她

人民日报专访陈梦!不谈金牌退役,句句不提孙颖莎,却字字藏着她

林雁飞
2026-03-25 16:09:46
太意外!米兰宝格丽之夜合影:刘亦菲两度被挤,下意识动作引热议

太意外!米兰宝格丽之夜合影:刘亦菲两度被挤,下意识动作引热议

时间巡查
2026-03-25 04:28:00
美股芯片存储板块盘前普跌 闪迪跌近4%

美股芯片存储板块盘前普跌 闪迪跌近4%

财联社
2026-03-26 16:20:17
老板娘的丝袜都破了,我要不要告诉她买一双?

老板娘的丝袜都破了,我要不要告诉她买一双?

太急张三疯
2026-03-26 12:50:15
22万人!山西人口再跌,14年流失150万,双压力下该如何破局?

22万人!山西人口再跌,14年流失150万,双压力下该如何破局?

晋才晋商
2026-03-26 11:32:20
悲催!怎么会这么巧?张雪峰和曝光眼镜暴利的记者,都是心脏骤停

悲催!怎么会这么巧?张雪峰和曝光眼镜暴利的记者,都是心脏骤停

火山詩话
2026-03-24 18:23:32
1986年,叶剑英追悼会举行,中央邀请其遗孀参加,聂荣臻:我不让

1986年,叶剑英追悼会举行,中央邀请其遗孀参加,聂荣臻:我不让

简史档案馆
2026-03-25 11:05:03
拒绝回归WCBA!李月汝再赴美国,官宣重磅决定,韩旭也要这么干了

拒绝回归WCBA!李月汝再赴美国,官宣重磅决定,韩旭也要这么干了

萌兰聊个球
2026-03-26 13:09:33
男人的生理需求能有多难忍?网友:我对我老公只有动物本能

男人的生理需求能有多难忍?网友:我对我老公只有动物本能

带你感受人间冷暖
2026-02-07 03:58:56
张雪峰抢救细节曝光,倒地30分钟才被发现,最后直播状态早有预兆

张雪峰抢救细节曝光,倒地30分钟才被发现,最后直播状态早有预兆

阿凫爱吐槽
2026-03-26 01:23:46
联大通过决议:宣布最严重反人类罪

联大通过决议:宣布最严重反人类罪

鲁中晨报
2026-03-26 17:41:04
2026年,设计院和施工单位集中爆发裁员潮!

2026年,设计院和施工单位集中爆发裁员潮!

黯泉
2026-03-26 18:37:19
巴拿马接到通知,赔款156亿还不够,中方扩大反制,港口管控升级

巴拿马接到通知,赔款156亿还不够,中方扩大反制,港口管控升级

小虎新车推荐员
2026-03-26 14:02:10
心梗去世的人越来越多?专家提醒:没事宁可做家务,也别做这8事

心梗去世的人越来越多?专家提醒:没事宁可做家务,也别做这8事

叙说医疗健康
2026-03-12 22:00:05
张雪峰心源性猝死多严重,那个最快护士就有多“牛逼”(张雪峰的惯用词)

张雪峰心源性猝死多严重,那个最快护士就有多“牛逼”(张雪峰的惯用词)

天山箴言录
2026-03-26 16:45:50
为何越来越多有钱人,宁愿买两套房和父母住对门,也要搬离别墅?

为何越来越多有钱人,宁愿买两套房和父母住对门,也要搬离别墅?

装修秀
2026-03-26 14:05:47
过分!一大V讽刺张雪峰:称少一个鼓吹战争的疯子,对世界更美好

过分!一大V讽刺张雪峰:称少一个鼓吹战争的疯子,对世界更美好

谈史论天地
2026-03-26 07:56:52
特朗普帮了中国大忙,中国首次成为全球第一,日本完全被踩在脚下

特朗普帮了中国大忙,中国首次成为全球第一,日本完全被踩在脚下

有范又有料
2026-03-25 13:48:51
放弃阿隆索!利物浦新帅目标敲定,他是下一个克洛普

放弃阿隆索!利物浦新帅目标敲定,他是下一个克洛普

奶盖熊本熊
2026-03-26 04:28:59
华为、商汤等873家机构遭AI顶会“封杀”,中国学界怒了

华为、商汤等873家机构遭AI顶会“封杀”,中国学界怒了

智东西
2026-03-26 20:49:23
2026-03-26 21:32:49
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7747文章数 556关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

亲子
手机
艺术
教育
公开课

亲子要闻

孩子模仿这种行为,容易被坏人盯上!

手机要闻

OPPO K15 Pro系列突然官宣:天玑9500s+主动散热,4月1日发布

艺术要闻

哪一座桥不是风景?

教育要闻

来上课了——高考阅读难题大综合(细节+主旨+含义)(下)第1段

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版