网易首页 > 网易号 > 正文 申请入驻

Meta与华盛顿大学联手打造"自我成长"的AI判官

0
分享至


这项由Meta公司FAIR实验室和华盛顿大学合作完成的研究,发表于2025年12月的arXiv预印本平台(论文编号:2512.05145),为我们展示了一个颠覆性的发现:AI评判官也能像人类一样通过"自学成才"的方式不断提升判断能力,而且完全不需要人类手把手地教它什么是对什么是错。

要理解这项研究的意义,我们可以把视觉AI模型想象成刚学会画画的小朋友。这些小朋友每天都在画各种图画,有些画得很好,有些画得不太好。但问题来了:谁来判断这些画的好坏呢?传统做法就像请一群专业美术老师来逐一评判,告诉我们哪幅画更好。但这样做成本极高,而且当小朋友们的画技越来越高超时,这些评判标准很快就过时了。

研究团队中的林茵娜(Inna Wanyin Lin)、胡雨时(Yushi Hu)等科学家们提出了一个巧妙的解决方案:既然我们需要一个评判官来评判AI的作品,为什么不让AI自己来培养这个评判官呢?这就好比让一个聪明的学生既当运动员又当裁判,通过不断练习比赛来提升自己的判断水平。

这个"自我成长"的AI评判官基于Llama-3.2-11B视觉指令模型构建。虽然它的"身材"相对小巧(只有110亿个参数),但经过特殊训练后,它的表现竟然能够媲美甚至超越那些体积庞大的模型,比如拥有900亿参数的Llama-3.2-90B,以及知名的GPT-4o和Claude 3.5 Sonnet。这就像是一个普通身材的运动员通过科学训练,最终在比赛中击败了那些天生体格更强壮的对手。

研究的核心创新在于设计了一套"三步循环"的自我训练方法。第一步是"制造对比",AI会生成各种质量层次的回答,就像一个学生故意写出一些好答案和一些有明显错误的答案。对于那些有标准答案的问题(比如数学题或选择题),它会生成多个答案然后选择大多数都认同的那个作为"正确答案",再随机选择一个不同的答案作为"错误答案"。对于那些没有标准答案的开放性问题(比如图片描述),它会先写一个正常的回答,然后故意在另一个版本中加入一些错误信息,比如把"红色巴士"说成"蓝色巴士",或者把"40层建筑"说成"10层建筑"。

第二步是"自我判断",当前版本的AI评判官会对这些成对的答案进行评判,并且详细解释自己的判断理由。研究团队只保留那些判断正确的案例和相应的推理过程。这就像是一个学生在练习判断题时,只有当他选对答案并且给出了合理解释的时候,这道题才会被记录下来供后续学习使用。

第三步是"反思成长",AI评判官会基于这些筛选出来的正确判断和推理过程进行学习,就像学生通过复习自己做对的题目来巩固判断标准。然后整个过程会重新开始,形成一个持续改进的循环。

在实际测试中,这个方法展现出了令人印象深刻的效果。研究团队使用了两个权威的评估基准:VL-RewardBench和Multimodal RewardBench,这些就像是AI界的"标准化考试"。在VL-RewardBench上,AI评判官的整体准确率从初始的0.38提升到了0.51,相当于从38分进步到51分,这是一个相当显著的提升。更令人惊讶的是,在某些特定任务上,这个小巧的AI评判官竟然超过了那些大型模型的表现。

具体来说,在常规指令跟随任务中,它的得分达到了0.503,明显超过了90B参数的大型模型(0.426)以及Claude-3.5-Sonnet(0.434)和GPT-4o(0.491)。在幻觉检测(即识别AI是否编造了不存在的内容)方面,它的表现也有了40.9%的相对提升。在视觉问答任务中,改进幅度达到了18%。

这种进步模式就像是一个学生的成绩单:第一次考试得38分,经过一轮学习后得45分,再学习一轮得52分,如此反复,最终达到了54分的好成绩。有趣的是,研究发现不同类型的任务改进速度是不同的。有些技能(比如基础的指令理解)改进得很快很稳定,而有些技能(比如复杂推理)的改进则比较缓慢甚至会出现波动。

研究团队深入分析了为什么"多数投票"策略比使用标准答案效果更好。他们发现,即使AI选择了正确答案,它的推理过程也可能有问题。比如在一个文本识别任务中,AI虽然最终选择了含有正确数字的回答,但它的理由却是"回答B更详细,描述了字体颜色和布局",完全没有注意到回答A其实把数字写错了。这就像是一个学生在数学考试中蒙对了答案,但解题思路完全错误。

相比之下,多数投票策略要求AI在多个不同的合成对比中都能给出正确判断,这样就更可能筛选出那些真正理解判断标准的推理过程,而不是仅仅靠运气或表面特征做出判断。

这项研究的意义远远超出了技术层面。从成本角度看,传统的人工标注方法可能需要50万到100万美元来创建等量的训练数据,而这种自我训练方法只需要大约400个GPU小时,成本仅为几千到一万美元。这就像是用业余爱好者的成本达到了专业团队的效果。

更重要的是,这种方法具有很强的适应性。当AI模型不断进步、新的视觉任务不断涌现时,传统的人工标注很难及时跟上。而这种自我训练的评判官可以随时适应新的场景和任务,不需要等待人类专家重新制定评判标准。

研究也坦诚地指出了当前方法的局限性。在安全性评估方面,改进效果并不明显,因为这种训练方法并没有专门教AI识别有害或有偏见的内容。这就像是培养了一个优秀的文学评论家,但他在识别政治敏感内容方面可能还需要额外的专门训练。

另外,不同类型的任务对这种自我训练的响应程度也不同。一些需要深度推理或微妙判断的任务改进相对有限,这提示我们可能需要更加精细化的训练策略,或者针对不同类型的任务培养专门的评判官。

从更广阔的视角来看,这项研究代表了AI发展的一个重要方向:从依赖人类监督转向自主学习能力。这不仅仅是技术的进步,更是AI系统走向真正智能的重要一步。当AI能够自主评判和改进时,它就具备了持续学习和适应的能力,这对于构建更加灵活和强大的AI系统具有重要意义。

这种技术的应用前景也相当广泛。在教育领域,可以用来自动评判学生的作业和考试;在内容创作领域,可以帮助评估AI生成的图像、视频或文章质量;在产品开发中,可以用来评估用户界面设计或产品描述的质量。

说到底,这项研究向我们展示了AI的一个重要特质:像人类一样,AI也可以通过反思和练习来不断提升自己的判断能力。虽然目前还有一些局限性,但这种"自我成长"的能力为AI的未来发展开辟了新的可能性。随着技术的进一步完善,我们可能会看到更多能够自主学习和改进的AI系统,它们不再需要人类的手把手指导,而是能够像成熟的专家一样独立工作和成长。

Q&A

Q1:这种自我训练的AI评判官是如何工作的?

A:这种AI评判官采用"三步循环"的训练方式。首先,AI会生成质量不同的答案对比,比如一个正确答案和一个有错误的答案。然后,当前版本的评判官会对这些答案进行判断并解释理由,研究团队只保留判断正确的案例。最后,AI会基于这些正确的判断案例进行学习,提升自己的评判能力,然后重复整个过程。

Q2:这种方法比传统的人工标注有什么优势?

A:主要有三个优势:成本更低,传统人工标注需要50万到100万美元,而这种方法只需几千到一万美元;适应性更强,可以随时适应新的AI模型和任务,不需要等待人类重新制定标准;效果更好,在某些任务上甚至超过了大型模型的表现,比如在指令跟随任务中超过了GPT-4o和Claude等模型。

Q3:这种AI评判官在实际应用中表现如何?

A:在权威测试中表现相当出色。整体准确率从38%提升到51%,在常规指令跟随任务中得分0.503,超过了90B参数的大型模型。在幻觉检测方面有40.9%的提升,视觉问答任务改进了18%。虽然在安全性评估和某些复杂推理任务上还有改进空间,但整体表现已经达到甚至超越了许多知名的大型AI模型。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
1984年,张宗逊之子张又侠8个多小时拿下松毛岭:预备队还没上呢

1984年,张宗逊之子张又侠8个多小时拿下松毛岭:预备队还没上呢

历史龙元阁
2026-01-20 10:40:11
李湘王诗龄被曝已经跑路,妄图用外籍身份扯保护旗,逃脱法律制裁

李湘王诗龄被曝已经跑路,妄图用外籍身份扯保护旗,逃脱法律制裁

花哥扒娱乐
2026-01-24 16:06:55
泽连斯基炮轰欧洲石破天惊,德国将从美国运回1000吨黄金

泽连斯基炮轰欧洲石破天惊,德国将从美国运回1000吨黄金

史政先锋
2026-01-23 22:41:06
快报调查|嫣然医院与嫣然基金的账本迷局

快报调查|嫣然医院与嫣然基金的账本迷局

现代快报
2026-01-24 18:53:06
中国公民尽快撤离!外交部、中使馆再发提醒

中国公民尽快撤离!外交部、中使馆再发提醒

上观新闻
2026-01-24 06:46:11
罗永浩,人民日报表扬你了!

罗永浩,人民日报表扬你了!

不主流讲话
2026-01-24 13:59:20
饲养员用金属锁多次猛砸小象头部,西双版纳野生动物园致歉:饲养员操作不规范,已严肃批评教育

饲养员用金属锁多次猛砸小象头部,西双版纳野生动物园致歉:饲养员操作不规范,已严肃批评教育

封面新闻
2026-01-24 19:19:03
国家下狠手了!体制内大地震,少爷、公主们的“天”,要塌了

国家下狠手了!体制内大地震,少爷、公主们的“天”,要塌了

霹雳炮
2026-01-19 22:24:13
反转,官方确认董路直播违法,最高面临1.6亿元罚款,董路麻烦了

反转,官方确认董路直播违法,最高面临1.6亿元罚款,董路麻烦了

体坛风之子
2026-01-24 04:30:02
李嘉诚豪宅出现尸体腐臭味

李嘉诚豪宅出现尸体腐臭味

地产微资讯
2026-01-24 19:47:00
0-4,虽败犹荣,U23国足斩获亚军,李昊零封被终结,成绩超出预期

0-4,虽败犹荣,U23国足斩获亚军,李昊零封被终结,成绩超出预期

替补席看球
2026-01-25 00:55:44
澳网神剧本:4届大满贯冠军退赛!王欣瑜创历史,1/8决赛对阵如下

澳网神剧本:4届大满贯冠军退赛!王欣瑜创历史,1/8决赛对阵如下

侃球熊弟
2026-01-24 20:42:43
解放军报社论:坚决打赢军队反腐败斗争攻坚战持久战总体战

解放军报社论:坚决打赢军队反腐败斗争攻坚战持久战总体战

新华社
2026-01-24 23:03:04
这位上将一家咋了,二儿子被开除军籍,四儿子被拘留,妻子又入狱

这位上将一家咋了,二儿子被开除军籍,四儿子被拘留,妻子又入狱

领悟看世界
2025-12-23 01:53:23
缝“哭哭马”的他找到了!“接到电话还有点不好意思”,老板娘:奖!每年8888元,直到下一个马年

缝“哭哭马”的他找到了!“接到电话还有点不好意思”,老板娘:奖!每年8888元,直到下一个马年

大象新闻
2026-01-24 17:45:16
演员王传君发文宣布退出

演员王传君发文宣布退出

乔话
2026-01-22 17:43:06
里根后第一人:泽连斯基达沃斯演讲后全场起立鼓掌!猛批欧尔班

里根后第一人:泽连斯基达沃斯演讲后全场起立鼓掌!猛批欧尔班

项鹏飞
2026-01-24 18:14:59
嫣然医院房东被扒不到24小时,令人恶心的一幕发生,白岩松没说错

嫣然医院房东被扒不到24小时,令人恶心的一幕发生,白岩松没说错

削桐作琴
2026-01-24 16:21:24
难以置信!女子十二乐坊成员直播养不活自己,一晚上打赏不到3000

难以置信!女子十二乐坊成员直播养不活自己,一晚上打赏不到3000

火山诗话
2026-01-24 11:37:19
男子生病怕拖累家人,留下深情遗书后徒步回老家,民警追到时他已靠面包红薯走了22天

男子生病怕拖累家人,留下深情遗书后徒步回老家,民警追到时他已靠面包红薯走了22天

潇湘晨报
2026-01-24 22:09:40
2026-01-25 03:36:49
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
6978文章数 546关注度
往期回顾 全部

科技要闻

黄仁勋现身上海菜市场

头条要闻

张又侠、刘振立被查 解放军报发布社论

头条要闻

张又侠、刘振立被查 解放军报发布社论

体育要闻

当家球星打替补,他们在故意摆烂?

娱乐要闻

回归还是顶流 凤凰传奇将现身马年春晚

财经要闻

“百年老字号”张小泉遭60亿债务压顶

汽车要闻

有增程和纯电版可选 日产NX8或于3-4月间上市

态度原创

家居
本地
亲子
游戏
公开课

家居要闻

在家度假 160平南洋混搭宅

本地新闻

云游中国|格尔木的四季朋友圈,张张值得你点赞

亲子要闻

幼儿园体能课秒变“绝活”秀场! 萌娃个个身手不凡,活力满满~ #睡个好觉

梦幻西游珍宝阁拿下新出第一化生神衣,毅力帝300万帮贡求超越?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版