网易首页 > 网易号 > 正文 申请入驻

普林斯顿大学RLAnything:AI学会一边学习一边给自己打分

0
分享至

刚开始学自行车的时候,爸妈可能会扶着你,告诉你向左偏了向右歪了。慢慢地,你学会了自己感知平衡,甚至不用别人说,就知道自己骑得好不好。然后你开始提高难度,先在平坦的小路上练,熟练了再挑战有坡度的马路。


普林斯顿大学的研究,做的事情本质上就是这个:让人工智能也学会这种自我学习的本领。2026年2月2日,研究团队发布了一篇名为RLAnything的论文,翻译过来就是强化学习万能版,意味着这套方法可以用在几乎任何需要AI自我学习的场景里。

那么问题来了:为什么AI学习需要一个新方法?目前的AI学习方式有什么问题?让我们一层一层揭开这个故事。

AI学习的老大难问题:做完整件事才知道对不对

想象你是一个正在学做蛋糕的新手。传统的教学法是这样的:你按照菜谱一步步操作,打蛋、加糖、搅拌、烤制……最后蛋糕出炉了,老师才告诉你这个蛋糕不好吃,0分。你崩溃地问:那我到底哪一步做错了?老师却说:不知道,你自己想去吧。

这就是目前很多AI学习面临的困境。在强化学习领域,AI通过不断尝试和获得反馈来学习,但反馈往往只在最后一步才给出。比如让AI操控电脑完成一个任务,它可能需要点击50次鼠标,但只有在第50次之后,系统才会告诉它任务成功或任务失败。至于第3次点击是不是错了、第17次操作有没有问题,AI完全不知道。

这种学习方式在长程任务中尤其成问题。比如让AI帮你订一张机票,它需要打开浏览器、搜索航班、选择日期、填写信息、完成支付……每一步都可能出错,但如果只在最后告诉AI订票失败,它几乎不可能学会。

妙招一:给AI配一个实时解说员

RLAnything的核心创新之一,就是给AI配备了一个实时解说员。这个解说员的学名叫奖励模型,但它的作用很像足球比赛中的解说员,不只是在比赛结束时告诉你谁赢了,而是在每一个关键动作发生时就给出评价。


回到做蛋糕的例子。有了这个实时解说员之后,学习过程变成了这样:你刚把鸡蛋打进碗里,解说员就说蛋打得不错,没有蛋壳碎片;你加糖的时候,解说员说糖量有点少;你开始搅拌的时候,解说员说方向反了……最后蛋糕出炉,解说员再给出一个总分。

研究团队把这种方法叫做整合反馈,把过程中的反馈和最终结果的反馈整合在一起。这样既保证了学习方向的正确性,又让AI能够从每一个小步骤中学到东西。实验表明,单纯依赖最终结果反馈的AI学习曲线几乎是平的;而使用整合反馈的AI学习曲线稳步上升。

妙招二:让解说员也能不断进步

故事讲到这里,你可能会问:这个解说员哪来的?它怎么知道每一步做得好不好?

传统方法需要人类专家来标注,找很多人来看AI的每一步操作,然后给出评分。但这种方法既昂贵又缓慢。RLAnything的第二个创新,就是让解说员也能够自我学习。

研究团队设计了一个巧妙的机制:解说员通过一致性反馈来学习。假设解说员给某一步打了高分,而最终任务成功了,那这个评价就被奖励;如果解说员给某一步打了高分,但最终任务失败了,那这个评价就会被惩罚。

这就像是一个足球解说员在学习变得更专业。如果他说这次传球很精彩,结果球队进球了,那他的判断就被验证是对的;如果他说这次传球很精彩,结果球被对方抢断了,那他就应该反思自己的判断标准。研究团队还让解说员对同一个动作进行多次独立评价,看这些评价是否一致,不一致则可信度降低。

妙招三:AI的专属游戏设计师

RLAnything的第三个创新也许是最有趣的:让AI有一个专属的游戏设计师,能够根据AI的当前水平自动调整任务难度。


你可能玩过那种会根据你的表现调整难度的电子游戏。如果你打得太好,游戏会变难;如果你老是失败,游戏会稍微简单一点。研究团队把这个理念应用到AI学习中:如果AI在某个任务上的成功率超过80%,系统就会把任务变难;如果成功率低于20%,系统就会把任务变简单。

怎么让任务变难或变简单?系统会利用解说员的反馈。解说员会总结AI在这个任务上犯了哪些错误,然后系统根据这些错误信息调整任务。

举个例子。假设AI在学习操作电脑时,有个任务是计算表格中每个员工的年龄。AI失败了,解说员的反馈是AI点错了按钮,把自动求和按钮当成了函数向导按钮。系统收到这个反馈后,会在任务描述中添加提示,比如使用函数向导(fx按钮)而不是自动求和。这样AI就能更容易完成任务。

反过来,如果AI表现太好,系统也会让任务变难。比如在文字冒险游戏中,如果AI每次都能轻松把布料放到抽屉里,系统就会把目标物品换成更难找的肥皂瓶。

研究团队从理论上证明了这种难度自适应机制不仅对AI的学习有好处,对解说员的学习也有好处,只有当任务难度适中时,整个系统才能运转得最好。

三个场景的实战检验

研究团队在三个不同场景中测试了RLAnything的效果。


第一个场景是电脑操作。研究团队使用OSWorld测试平台,让AI在真实电脑环境中完成各种任务,比如操作表格软件、制作演示文稿等。经过RLAnything训练后,模型准确率从35.8%提升到了44.9%,提升了9.1个百分点。

第二个场景是文字冒险游戏。这是一个叫Alf World的模拟环境,AI需要通过文字命令在虚拟房间中导航、拿取物品、完成家务任务。经过训练后,模型表现从44.9%提升到了63.6%,提升了18.7个百分点。有趣的是,AI在训练过程中逐渐学会了思考,一开始往往不经思考就直接行动,训练后会先进行一段推理再执行动作。

第三个场景是写代码。研究团队让AI学习写程序解决编程问题,同时让另一个AI学习生成测试用例。在LiveBench测试中,准确率从31.3%提升到了43.2%,提升了11.9个百分点。

在所有场景中,解说员的判断能力也在不断提升。在电脑操作场景中,解说员判断单步动作质量的准确率从86%提升到了91.3%,验证了解说员和AI相互促进的设计理念。

一个意外发现:AI给自己打分比人类标注还管用

研究过程中有一个令人惊讶的发现:经过优化的解说员给出的评分,居然比人类专家标注的结果还要有效。

研究团队尝试完全不使用人类标注的最终结果,只使用优化后的解说员给出的过程评分来训练AI。结果出乎意料,只用解说员评分训练的AI,表现甚至超过了使用人类标注结果训练的AI。这意味着系统有潜力实现真正的自我进化,AI可以在真实环境中不断学习,而不需要人类持续提供反馈。


研究团队还观察到系统生成新任务的速度几乎是线性增长的。在大约200步训练中,电脑操作场景生成了约270个新任务,而且96%以上的新任务都是有效的。这意味着系统不仅在学习如何完成任务,还在学习如何设计好的任务。

至顶AI实验室洞见

RLAnything解决的根本的问题是:如何让学习者从有限的反馈中获得最大的收益?

人类学习的秘诀,在于我们有老师、有教练、有教材,还有自我反思的能力。RLAnything给AI配备了类似的装备:解说员相当于教练,给出及时反馈;难度自适应机制相当于个性化教材;一致性学习机制相当于自我反思。

这项研究指出了一条通往更加自主的AI系统的道路。当AI可以自己给自己打分、自己调整学习难度、自己验证学习效果时,它就不再那么依赖人类的持续监督了。当然,这也带来了需要思考的问题:如果AI真的能够完全自我进化,我们如何确保它学到的是我们想要它学的东西?

本文来自至顶AI实验室,一个专注于探索生成式AI前沿技术及其应用的实验室。致力于推动生成式AI在各个领域的创新与突破,挖掘其潜在的应用场景,为企业和个人提供切实可行的解决方案。

Q&A

Q1:RLAnything是什么?它解决了什么问题?

A:RLAnything是普林斯顿大学研究团队开发的AI强化学习框架。它解决的核心问题是AI在复杂任务中反馈信号太稀疏的问题,通过让AI同时获得过程评分和最终结果评分,并能自动调整任务难度,让AI学习变得更高效。

Q2:这项研究和ChatGPT有什么关系?

A:ChatGPT等大语言模型也使用强化学习来改进表现,但主要在单轮对话上进行优化。RLAnything专注于解决需要多步骤交互才能完成的复杂任务,比如操控电脑完成一系列操作,可以用来训练更强大的AI助手。

Q3:这种自我学习的AI会不会失控?

A:目前RLAnything的自我学习仍在人类设定的任务范围内进行,AI学习的目标由人类定义。但随着AI自主能力增强,如何确保AI的学习方向与人类期望一致,确实是需要持续研究的重要课题。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
小红书一姐变了,从被网友怒骂到单场带货1.6亿

小红书一姐变了,从被网友怒骂到单场带货1.6亿

派代
2026-02-05 18:17:38
马斯克背后的女人曝光!她给中国父母上的最狠的一课:做一个“自私”的妈妈!

马斯克背后的女人曝光!她给中国父母上的最狠的一课:做一个“自私”的妈妈!

一刻talks丨硬科技趣思想
2026-01-31 20:34:10
江苏开启“冰冻模式”,最新雨雪时间来了

江苏开启“冰冻模式”,最新雨雪时间来了

现代快报
2026-02-05 20:23:07
心理学家:极度自私的人,往往不是斤斤计较,而是有着这3个特征

心理学家:极度自私的人,往往不是斤斤计较,而是有着这3个特征

木言观
2025-12-27 18:01:28
发现一个奇怪现象:越是独来独往、没有朋友、不合群的人,人品往往越没问题,慢慢你就知道了

发现一个奇怪现象:越是独来独往、没有朋友、不合群的人,人品往往越没问题,慢慢你就知道了

LULU生活家
2026-01-11 17:53:51
特朗普惊出一身冷汗:中美已无法开战,一杀手锏让美军无计可施

特朗普惊出一身冷汗:中美已无法开战,一杀手锏让美军无计可施

忠于法纪
2026-02-03 11:26:47
2.5今日金价:大家不必等待了!接下来,金价有可能会重演历史!

2.5今日金价:大家不必等待了!接下来,金价有可能会重演历史!

趣味萌宠的日常
2026-02-05 19:14:11
生肖虎跟这3个属相结婚,简直就是“富贵命”运势飙升,恩爱一生

生肖虎跟这3个属相结婚,简直就是“富贵命”运势飙升,恩爱一生

千秋文化
2025-12-05 09:56:57
爱泼斯坦那座岛上,真的“吃人”吗?

爱泼斯坦那座岛上,真的“吃人”吗?

基本常识
2026-02-05 23:02:46
斗不过特朗普!古特雷斯官宣下台,临走前怒点中美:别想共管世界

斗不过特朗普!古特雷斯官宣下台,临走前怒点中美:别想共管世界

观察者海风
2026-02-04 21:21:38
张怡宁夫妇罕见同框!现身香港赛马场,气场自带结界

张怡宁夫妇罕见同框!现身香港赛马场,气场自带结界

罗纳尔说个球
2026-02-05 10:24:03
都怪本泽马!沙特联4大巨星罢赛,争冠格局改变,C罗复出时间曝光

都怪本泽马!沙特联4大巨星罢赛,争冠格局改变,C罗复出时间曝光

球场没跑道
2026-02-05 11:00:08
张本智和又输了!亚洲杯遭遇首败崩盘,刘国梁哥哥场外指导对手

张本智和又输了!亚洲杯遭遇首败崩盘,刘国梁哥哥场外指导对手

全言作品
2026-02-05 20:56:21
读书时,大家拼的是智商;工作后,大家拼的是情商;而到了人生后半程才发现,比智商、情商更重要的是能量

读书时,大家拼的是智商;工作后,大家拼的是情商;而到了人生后半程才发现,比智商、情商更重要的是能量

德鲁克博雅管理
2026-02-03 17:03:34
印第安维尔斯公布参赛阵容:阿卡萨巴领衔,郑钦文王欣瑜在列

印第安维尔斯公布参赛阵容:阿卡萨巴领衔,郑钦文王欣瑜在列

全景体育V
2026-02-05 09:43:24
台当局称不接受?蓝营:国共两党智库共同意见都符合台湾民众需求

台当局称不接受?蓝营:国共两党智库共同意见都符合台湾民众需求

海峡导报社
2026-02-04 16:02:20
这些离谱谣言该停了:英国没地铁?美澳遍地饥民?

这些离谱谣言该停了:英国没地铁?美澳遍地饥民?

老马拉车莫少装
2025-12-20 07:06:48
李亚鹏年会上哽咽发言:相信能度过难关 感谢那英、董宇辉等人捐款援助

李亚鹏年会上哽咽发言:相信能度过难关 感谢那英、董宇辉等人捐款援助

快科技
2026-02-05 18:07:36
换心风波仅1个月,李连杰再传噩耗,沦落到如今的下场怪不了别人

换心风波仅1个月,李连杰再传噩耗,沦落到如今的下场怪不了别人

乡野小珥
2026-02-05 15:03:34
开战更近:美国拒绝伊朗更改会谈地点后又同意,6日是节点

开战更近:美国拒绝伊朗更改会谈地点后又同意,6日是节点

邵旭峰域
2026-02-05 11:15:38
2026-02-06 04:31:00
至顶AI实验室 incentive-icons
至顶AI实验室
一个专注于探索生成式AI前沿技术及其应用的实验室。
1676文章数 159关注度
往期回顾 全部

科技要闻

美团买下叮咚买菜,防御还是进击?

头条要闻

与爱泼斯坦共舞嬉笑的神秘红衣女子身份披露

头条要闻

与爱泼斯坦共舞嬉笑的神秘红衣女子身份披露

体育要闻

奇才:我学生……独行侠:成交!

娱乐要闻

微博之夜卷入座位风波!杨幂超话沦陷

财经要闻

中美"只会有好消息" 经济冷暖看房价

汽车要闻

李想为全新L9预热 all in AI造更好的车

态度原创

家居
时尚
旅游
本地
手机

家居要闻

简雅序章 自然且闲适

她随手打赏就是6两黄金:人美,心善,钱多!

旅游要闻

刷屏全网!重庆龚滩古镇苗王迎春巡游,千年古镇藏着最浓中国年

本地新闻

围观了北京第一届黑色羽绒服大赛,我笑疯了

手机要闻

传音Pova Curve 2手机亮相:天玑7100处理器,6.78英寸曲屏

无障碍浏览 进入关怀版