网易首页 > 网易号 > 正文 申请入驻

香港大学团队突破:机器如何学会设计自己的奖励机制

0
分享至


这项由香港大学计算机科学系田乐立、滑铁卢大学程思涛、香港中文大学(深圳)黄旭寒以及杜克大学殷逊健共同完成的突破性研究发表于2024年12月,论文编号为arXiv:2512.13399v1。研究团队提出了一种名为"可微分进化强化学习"(DERL)的创新框架,让人工智能系统能够自主发现最优的奖励函数,就像员工学会如何为自己设计最有效的工作激励机制一样。

想象一下,如果你是一位老师,需要设计一套评分系统来激励学生更好地学习。传统的做法是要么给出简单的对错判断(像期末考试只看总分),要么请专家花大量时间制定复杂的评分标准。但是,简单的对错判断往往太粗糙,而专家制定的标准不仅成本高昂,还可能不够灵活。现在,这个研究团队找到了第三种方法——让AI系统自己学会设计最有效的奖励机制,就像一个聪明的学生逐渐摸索出最适合自己的学习方法一样。

在人工智能领域,奖励函数就像是给AI的"工资条",决定了AI什么时候能得到"奖金",什么时候会被"扣工资"。一个好的奖励机制能让AI快速学会正确的行为,而糟糕的奖励设计则可能让AI"钻空子"——表面上完成了任务,实际上却偏离了我们的真实目标。

传统的AI训练方式面临着一个根本性的困境。一方面,最简单直接的方式是只在AI完全完成任务时给予奖励,其他时候一概不给。这就像只在学生期末考试时给成绩,平时的作业和课堂表现一概不看。这种方式虽然简单,但学生(AI)很难从中学到什么,因为反馈太少太迟。另一方面,如果要设计细致的奖励规则,就需要人类专家投入大量时间和精力,就像要为每一个小的学习环节都设计评分标准一样,成本极高且难以推广。

研究团队提出的DERL框架巧妙地解决了这个难题。它的核心思想是建立一个"双层"的学习系统。在这个系统中,有一个"元优化器"(可以理解为一位经验丰富的教学设计师),它的工作是观察学生(内层的AI策略)在不同奖励机制下的学习表现,然后不断调整和优化奖励规则。与此同时,内层的AI策略则根据当前的奖励规则进行学习和改进。

这种设计的精妙之处在于,元优化器不是随机尝试不同的奖励规则,而是能够"理解"奖励结构与最终表现之间的因果关系。就像一位经验丰富的教师能够观察到"当我这样布置作业时,学生的成绩会提高",然后有意识地调整教学方法。这种能力被研究团队称为"元梯度"——即理解如何调整奖励机制才能改善最终结果的能力。

为了验证这个理念,研究团队构建了一个具体的实现方案。他们将奖励函数设计成由多个"原子基元"组成的结构化组合。这些原子基元就像是乐高积木,每一块都有特定的功能——有的用来检查格式是否正确,有的用来验证部分目标是否达成,有的用来评估过程是否合理。元优化器的任务就是学会如何将这些积木以最有效的方式组合起来,创造出能够引导AI获得最佳表现的奖励函数。

在技术实现上,研究团队采用了一种被称为"群体相对策略优化"(GRPO)的算法作为基础。这个算法的工作原理类似于班级内的相对排名——不是看绝对成绩,而是看你在这一批同学中的相对表现。元优化器会同时生成多个不同的奖励配置,然后观察在这些不同配置下训练出来的AI策略各自的表现,通过比较这些表现来学习哪种奖励设计更有效。

整个训练过程就像是一个不断迭代的教学实验。在每一轮中,元优化器会提出几种不同的奖励方案,然后让内层的AI分别在这些方案下进行学习。学习结束后,系统会在验证集上测试这些AI的实际表现,并将这些表现作为反馈信号传递给元优化器。元优化器根据这些反馈调整自己的参数,学会生成更好的奖励配置。这个过程会持续进行,直到元优化器找到能够产生最佳AI表现的奖励机制。

这种方法的一个关键优势是它的可微分特性。与传统的进化算法不同,DERL能够利用梯度信息来指导搜索过程。传统的进化方法就像在黑暗中摸索,只能通过随机尝试来寻找更好的解决方案。而DERL则像是有了一盏明灯,能够"看到"调整的方向,知道朝哪个方向改进更有可能获得更好的结果。

为了全面验证DERL的有效性,研究团队在三个截然不同的领域进行了实验测试。第一个领域是机器人代理任务,使用了ALFWorld基准测试。这个测试模拟了家庭环境中的各种任务,比如"把苹果放到微波炉里"或"清理房间"。AI需要通过自然语言理解任务要求,然后规划和执行一系列动作来完成目标。

第二个测试领域是科学模拟,使用了ScienceWorld基准。这个环境模拟了小学科学课程的各种实验和问题,AI需要在虚拟实验室中进行推理和操作,完成像"测量物体的密度"或"观察植物生长"这样的科学任务。

第三个领域是数学推理,使用了GSM8K和MATH这两个著名的数学问题数据集。GSM8K主要包含小学水平的数学应用题,而MATH则包含了更高级的竞赛水平数学问题。

在每个测试领域中,研究团队都设计了相应的原子基元来构建搜索空间。对于机器人任务,他们设计了四个基元:二元结果奖励(任务是否完成)、以及三个过程奖励(分别对应交互过程的前期、中期和后期阶段的平均表现)。对于数学推理任务,基元包括:二元结果奖励、格式检查奖励(答案是否用正确格式给出)、步骤奖励(是否包含逐步推理)、以及软结果奖励(答案中是否包含正确数值,即使格式不对)。

为了评估DERL在不同难度和分布偏移情况下的表现,研究团队设计了三个难度级别的测试。L0级别是最简单的情况,AI在所有任务类型上都有充分的训练,然后在相似的任务上测试。L1级别增加了一些挑战,AI仍然在所有任务类型上训练,但测试时会遇到一些变种任务。L2级别是最困难的,AI只在部分任务类型上训练,然后需要在完全没见过的任务类型上进行测试,这真正考验了方法的泛化能力。

实验结果令人印象深刻。在ALFWorld任务中,DERL在所有三个难度级别上都达到了最佳性能,特别是在最困难的L2级别上,DERL达到了65%的成功率,而传统的结果奖励方法只有29.7%。在ScienceWorld任务中,DERL同样表现出色,在L2级别上达到了30.1%的成功率,相比之下传统方法只有10.9%。

更引人注目的是DERL的人口变体(DERL-pop)的表现。这个变体在每轮训练中会保留上一轮表现最好的模型作为起点,而不是每次都从头开始。这种做法类似于在教学中建立在之前成功经验基础上的累积学习。DERL-pop在ALFWorld的L2级别上达到了76.4%的惊人成功率,在ScienceWorld的L0级别上甚至达到了98.2%的近乎完美的表现。

在数学推理任务上,DERL同样证明了它的价值。在GSM8K上,DERL达到了87%的准确率,超过了所有基线方法。在更困难的MATH数据集上,DERL达到了60.2%的准确率,明显优于简单结果奖励的58.8%。这个提升可能看起来不大,但在数学推理这样的困难任务上,即使是几个百分点的提升也代表了显著的进步。

研究团队还深入分析了DERL的学习过程,发现了一些fascinating的规律。通过追踪元优化器在训练过程中生成的奖励函数结构,他们发现系统会自然而然地偏向于数学上稳定的奖励组合。在训练初期,元优化器会生成各种各样的奖励函数,其中许多是不稳定的(比如包含可能导致数值爆炸的乘法链)。但随着训练的进行,系统逐渐学会了偏爱那些数学上更稳定、更可靠的奖励结构,比如线性组合和归一化操作。

这种"自然选择"现象说明了DERL不仅仅是在搜索有效的奖励函数,它实际上在学习什么样的奖励设计原则是根本性有效的。就像一位经验丰富的教师不仅知道什么样的教学方法有效,还理解为什么这些方法有效的深层原理。

从计算效率的角度看,DERL确实需要比传统方法更多的计算资源。由于需要在每个元优化步骤中训练多个内层策略,总的计算成本大约是基线方法的n倍(其中n是每轮生成的奖励配置数量)。在研究团队的实验中,他们使用了n=8,这意味着DERL需要大约8倍的计算资源。不过,他们也提供了更高效的DERL-pop变体,它通过减少从零开始训练的次数来显著降低计算开销。

为了深入理解DERL的工作机制,研究团队还进行了一个简化的概念验证实验。他们构建了一个仅使用12个参数的图神经网络来表示元优化器,证明即使在这样简化的设置下,元优化器仍然能够发现比简单基线更好的奖励函数。这个实验表明,DERL的核心思想——利用结构化的奖励搜索空间和梯度引导的优化——是robust的,不依赖于特定的复杂实现。

研究团队还分析了DERL学习到的奖励函数的演化轨迹。他们发现,在训练早期,系统会探索各种复杂的奖励结构,其中一些包含了不稳定的数学操作。但随着训练的进行,系统逐渐收敛到更简单、更稳定的结构。最终学习到的奖励函数通常具有良好的数学性质,比如有界的输出范围和对输入变化的平滑响应。

这种演化模式与人类学习设计原则的过程有着有趣的相似性。初学者可能会尝试复杂的方案,但有经验的设计者往往偏爱简洁、可靠的解决方案。DERL似乎自发地发现了这个设计哲学。

从更广阔的角度来看,DERL代表了人工智能研究中一个重要的转向:从依赖人类先验知识向自主发现转变。传统的强化学习严重依赖人类专家来设计奖励函数,这不仅成本高昂,还可能引入人类的偏见和局限性。DERL提供了一条通往更自主的AI系统的道路,这些系统能够通过与环境的交互来发现有效的学习信号。

然而,这项研究也面临一些限制和挑战。首先是计算成本问题。虽然DERL在性能上表现出色,但它需要的计算资源确实比传统方法更多。对于资源有限的应用场景,这可能是一个重要的限制因素。

其次是原子基元的设计问题。虽然DERL可以自动组合基元来创建奖励函数,但这些基元本身仍然需要人类来定义。在某种程度上,这将设计挑战从"如何组合信号"转移到了"如何选择基元"。不过,研究团队指出,基元的设计通常比完整奖励函数的设计要简单得多,而且同一套基元可以在多个任务中重复使用。

第三个挑战是长期信用分配问题。虽然DERL生成的奖励比简单的结果奖励更密集,但它们仍然主要基于最终的验证性能。对于需要极长推理链或具有欺骗性中间目标的任务,仅依赖最终性能可能仍然不足以提供足够的学习信号。

尽管存在这些挑战,DERL的影响意义是深远的。它不仅在技术层面提供了一个新的工具,更重要的是,它展示了一种新的思维方式——让AI系统参与到自己的训练过程设计中。这种自参照的能力可能是通向更强大、更自主的AI系统的关键一步。

在实际应用前景方面,DERL的技术可能会首先在那些奖励设计特别困难的领域得到应用,比如创造性任务、复杂的游戏环境、或者需要长期规划的现实世界应用。随着计算成本的降低和算法效率的提升,这种方法可能会逐渐扩展到更广泛的应用领域。

从科学意义上讲,这项研究为理解智能系统如何学习学习提供了新的视角。它暗示着,真正的智能可能不仅仅在于解决给定的问题,还在于学会如何为自己设置有效的学习目标。这种元学习能力可能是人类智能的一个关键特征,而DERL为我们提供了一个计算框架来探索和实现这种能力。

说到底,DERL的成功证明了一个重要观点:最好的奖励函数可能不是由人类专家精心设计的,而是通过系统性的探索和优化过程发现的。就像进化过程能够产生比任何设计师都精妙的生物结构一样,自动化的奖励发现可能能够创造出比人类直觉更有效的学习信号。这不仅可能改变我们训练AI系统的方式,也可能为我们理解学习和智能本身提供新的洞察。对于普通人来说,这意味着未来的AI系统可能会变得更加自主和高效,能够在更少的人类指导下学会复杂的技能,从而为各行各业带来更广泛和深入的应用可能性。

Q&A

Q1:什么是可微分进化强化学习DERL?

A:DERL是香港大学团队开发的一种让AI自动设计奖励机制的方法。它就像让AI学会给自己制定最有效的激励制度,通过双层学习系统,让一个"元优化器"观察AI在不同奖励下的表现,然后不断调整优化奖励规则,最终找到最适合的奖励函数。

Q2:DERL相比传统方法有什么优势?

A:传统方法要么只给简单的对错奖励(太稀疏),要么需要专家费时费力设计复杂规则(成本太高)。DERL能够自动发现有效的奖励组合,在机器人、科学推理、数学等多个领域都大幅超越了传统方法,特别是在面对全新任务时表现更佳。

Q3:DERL技术什么时候能普及应用?

A:目前DERL还主要在研究阶段,因为它需要较多计算资源。不过研究团队已经开发了更高效的变体,随着计算成本降低,这种技术可能会首先在游戏、创意设计等奖励设计困难的领域应用,然后逐步扩展到更多实际场景中。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
32岁!生涯首次入选!快船交易的全明星后卫

32岁!生涯首次入选!快船交易的全明星后卫

篮球实战宝典
2026-02-02 13:50:07
成都警方:对刘某、巫某某等人涉嫌诬告陷害罪和非法经营罪立案侦查

成都警方:对刘某、巫某某等人涉嫌诬告陷害罪和非法经营罪立案侦查

界面新闻
2026-02-02 20:09:24
德转:加布里埃尔正式加盟上海海港;上赛季贡献16球8助攻

德转:加布里埃尔正式加盟上海海港;上赛季贡献16球8助攻

懂球帝
2026-02-02 20:43:40
上海警方严厉打击电信网络诈骗境外回流人员

上海警方严厉打击电信网络诈骗境外回流人员

警民直通车上海
2026-02-01 11:11:18
开拓者选中杨瀚森仅评D!美媒解析挑战+定位:两年后值得重新评估

开拓者选中杨瀚森仅评D!美媒解析挑战+定位:两年后值得重新评估

罗说NBA
2026-02-03 05:32:27
57岁男子买高铁票到广州,才发现自己曾因帮人担保被限高到130岁!法院:立刻安排处理

57岁男子买高铁票到广州,才发现自己曾因帮人担保被限高到130岁!法院:立刻安排处理

环球网资讯
2026-02-02 20:50:17
官宣!本泽马加盟利雅得新月,C罗抗议无效,沙超争冠压力又增大

官宣!本泽马加盟利雅得新月,C罗抗议无效,沙超争冠压力又增大

万花筒体育球球
2026-02-03 06:15:01
网友广州偶遇汪小菲带娃逛动物园,玥儿箖箖表情超开心,不受影响

网友广州偶遇汪小菲带娃逛动物园,玥儿箖箖表情超开心,不受影响

萧鑟科普解说
2026-02-02 22:47:49
飙至16℃!河南高温起飞后暴跌10℃!春节期间有雨雪吗?

飙至16℃!河南高温起飞后暴跌10℃!春节期间有雨雪吗?

大象新闻
2026-02-02 06:53:26
美智库:俄军伤亡竟然大幅下降!北约终于发现:为何打不赢俄罗斯

美智库:俄军伤亡竟然大幅下降!北约终于发现:为何打不赢俄罗斯

混沌录
2026-01-31 16:29:05
“价格屠夫”:河北电商,正在“血洗”全国批发市场

“价格屠夫”:河北电商,正在“血洗”全国批发市场

苏格拉高
2026-01-31 07:50:47
斯基拉:本泽马转会利雅得新月达成,合约期至2027年

斯基拉:本泽马转会利雅得新月达成,合约期至2027年

懂球帝
2026-02-02 15:32:28
上期所沪银期货低开低走,触及跌停,跌幅20%

上期所沪银期货低开低走,触及跌停,跌幅20%

每日经济新闻
2026-02-02 21:12:03
独行侠积极兜售四将!浓眉价值缩水仅索要1首轮 老鹰只愿低价捡漏

独行侠积极兜售四将!浓眉价值缩水仅索要1首轮 老鹰只愿低价捡漏

颜小白的篮球梦
2026-02-03 04:41:59
特朗普:立即逮捕奥巴马,他已经涉嫌在美国发动政变!

特朗普:立即逮捕奥巴马,他已经涉嫌在美国发动政变!

达文西看世界
2026-02-02 09:55:53
发出逆天言论后,赵睿正式道歉!恐被国家队开除,郭士强最受伤

发出逆天言论后,赵睿正式道歉!恐被国家队开除,郭士强最受伤

多特体育说
2026-02-02 22:00:21
硬刚“达芬奇”,中国85后夫妻,将国产手术机器人推上240亿市值

硬刚“达芬奇”,中国85后夫妻,将国产手术机器人推上240亿市值

最华人
2026-02-02 13:10:39
委内瑞拉向美国供应石油,加拿大这才发现,自己是最大受害者

委内瑞拉向美国供应石油,加拿大这才发现,自己是最大受害者

碳基生物关怀组织
2026-01-18 22:55:02
便利背后暗藏风险 手机“贴一贴”可能无形中危害国家安全

便利背后暗藏风险 手机“贴一贴”可能无形中危害国家安全

大象新闻
2026-02-02 06:57:23
史诗级转会!曝1亿镑“节拍器”空降曼联!两大“废柴”闪电离队

史诗级转会!曝1亿镑“节拍器”空降曼联!两大“废柴”闪电离队

头狼追球
2026-02-02 10:44:57
2026-02-03 06:52:49
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7098文章数 548关注度
往期回顾 全部

科技要闻

阿里筑墙,腾讯寄生,字节偷家

头条要闻

周生生足金挂坠戴1天被刮花 检测后发现含铁、银、钯

头条要闻

周生生足金挂坠戴1天被刮花 检测后发现含铁、银、钯

体育要闻

澳网男单决赛,属于阿尔卡拉斯的加冕仪式

娱乐要闻

57岁音乐人袁惟仁去世,家属发文悼念

财经要闻

金银暴跌 全球股市遭遇“黑色星期一”

汽车要闻

雷克萨斯LC500将于今年底停产 "最美雷克萨斯"谢幕

态度原创

家居
艺术
旅游
亲子
健康

家居要闻

现代几何彩拼 智焕童梦居

艺术要闻

曾经的年画,难得一见!

旅游要闻

解锁勐泐 4 大玩法,读懂真正的傣家风情!

亲子要闻

为什么“月子仇”,会让女人记一辈子?

耳石症分类型,症状大不同

无障碍浏览 进入关怀版