网易首页 > 网易号 > 正文 申请入驻

研究人员提出因果贝尔曼方程,在线上学习算法中可得到最优智能体

0
分享至

近日,美国哥伦比亚大学李明轩博士和团队提出一种因果贝尔曼方程,它能使用可能包含有混杂变量的观测数据计算出最优价值函数的理论上界。而如果使用这一理论上界设计奖励函数的话,在一些特定的线上学习算法中可以更快速地训练得到最优的智能体。

研究团队预期这一成果可以被扩展到更高维的、更接近现实应用的机器人问题中,帮助自动化设计一些奖励函数用于训练机器人完成复杂的任务。而用于设计奖励函数的数据集可以不再囿于采集自同类机器人成功完成任务的数据,而是可以采集任何具有相似能力的智能体的视频数据,甚至采集人类示范的视频数据。

在训练智能体完成一些缺乏明确任务进度评价的任务时,人们往往需要增加很多额外的监督信号来帮助训练。比如,使用强化学习算法训练控制机械手解决一个魔方时,最直观的任务完成信号只有是否能在指定时间内完成魔方这一非常宏观的评价指标,任务完成过程中没有任何具体定义步骤对错的简单标准。

而直接使用“任务完成与否”这一单一指标会导致强化学习算法几乎无法得到有效的训练数据,因为在随机探索过程中算法偶然碰撞出正确控制机械手解决魔方的概率几乎为零。

也正因此,在 Open AI 早期训练机械手解决魔方的论文中,他们添加了很多额外的奖励信号用于监督诸如机械手的手指动作是否合理,以及魔方当前状态是否符合算法规划的解决方案等。

另一个例子是人们在玩电子游戏的时候如果中途没有任何任务指引或者分数反馈,只有在游戏结束才能知道是否胜利的话,人们就会觉得这个游戏很难通关,或者需要尝试很久才能猜出正确的胜利条件。

所以,在训练智能体过程中,研究人员往往需要针对特定任务增加很多额外的奖惩信号作为过程监督帮助智能体学习。这样一种增加额外奖励信号并且不影响智能体最终能学会的最优策略的算法叫 PBRS(Potential Based Reward Shaping),由华人学者吴恩达于 1999 年提出。

但是,这样就会导致每碰到一个新的任务,都需要花费大量时间和人力来设计并调整奖励信号。这样的解决方案在现代社会日益增长的智能体需求下完全不具有可持续性。

所以,本次研究团队考虑的是能否直接从现有数据中学习到一个合理的额外奖励信号呢?直观来讲是可以的,即使用蒙特卡洛法估算价值函数。而每两个状态之间的价值差就可以作为一个额外的奖励信号(智能体从低价值状态转移到高价值状态就会得到一个正向的奖励,反之则是惩罚)。

但是,如果数据集不是由一个性能很好的智能体产生的,又或者数据集里包含一些没有被观测到的混杂偏差呢?这时直接用蒙特卡洛法估计出来的价值函数就不再是无偏的,并且可能会和最优价值函数相去甚远。

于是,在本次论文里研究团队探索了如何使用一些因果推断的工具来自动地从多个可能有混杂偏差的数据集里学习到合理的奖励函数,并从理论上证明解释了为何此类奖励函数能够显著提高特定智能体训练的效率,大量实验结果也证明了本次发现。

曾经,李明轩并不觉得这一算法上的改进能带来多少样本复杂度上的改善,因为很多前辈论文已经论证过使用吴恩达提出的 PBRS 这一特定方式增加额外奖励信号在很多情况下并不会影响样本复杂度。对此,李明轩的导师也曾表示感到遗憾,因为这完全解释不了他们在实验上观测到的大幅性能提升。

不过在李明轩即将放弃之前,他又再次重温了近年来一些线上探索算法的复杂度分析论文,同时这次他着重阅读了相关论文附录中的证明细节。就在这时,李明轩突然发现几个不同论文里用到的中间结论联系在一起,似乎正好可以帮他证明自己想要的样本复杂度结论。

“这一瞬间的直觉后来被证明是正确的,并且结论也非常的整洁漂亮,让我有种难以言说的巧合感。有时,偶尔能在写代码的间隙,体会到类似于刚找到最后一块拼图的证明的快乐。”他表示。

日前,相关论文以《从混杂离线数据中自动实现奖励塑造》(Automatic Reward Shaping from Confounded Offline Data)为题被 2025 国际机器学习大会(ICML,International Conference on Machine Learning)收录 [1]。

目前,研究团队正在探索如何把这一理论工作拓展到更大规模的问题中如电子游戏(atari games)以及一些需要连续状态和动作空间的机器人控制问题之中。

参考资料:

1.https://arxiv.org/pdf/2505.11478

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
以2.5吨白银建造的湖南“永兴银楼”被拍卖,其中1.75吨纯银折算1204.7万元,每克仅6.88元“白菜价”,委托方回应

以2.5吨白银建造的湖南“永兴银楼”被拍卖,其中1.75吨纯银折算1204.7万元,每克仅6.88元“白菜价”,委托方回应

极目新闻
2026-02-01 16:43:12
中日韩最大财团对比:三星3.2万亿,三菱21万亿,中国第一是谁?

中日韩最大财团对比:三星3.2万亿,三菱21万亿,中国第一是谁?

阿器谈史
2026-01-30 08:40:58
福建南安致2死6伤电力施工爆炸事故调查报告发布

福建南安致2死6伤电力施工爆炸事故调查报告发布

界面新闻
2026-02-02 11:40:10
乌克兰战机2026年首次飞入俄罗斯领土!摧毁库尔斯克指挥部

乌克兰战机2026年首次飞入俄罗斯领土!摧毁库尔斯克指挥部

项鹏飞
2026-01-30 16:10:31
13岁女生确诊胃癌晚期,医生:她吸了13年爸爸的二手烟,肚子里布满了大大小小的肿瘤,没有任何治愈机会

13岁女生确诊胃癌晚期,医生:她吸了13年爸爸的二手烟,肚子里布满了大大小小的肿瘤,没有任何治愈机会

观威海
2026-01-31 10:06:12
湖北一对夫妻带双胞胎宝宝出门,驶上高速才发现后座少了一个娃,网友笑评:“毕竟刚生的,还不太熟”

湖北一对夫妻带双胞胎宝宝出门,驶上高速才发现后座少了一个娃,网友笑评:“毕竟刚生的,还不太熟”

扬子晚报
2026-02-02 12:09:31
莫迪也上了爱泼斯坦文件,情节有点尬…印方火速否认

莫迪也上了爱泼斯坦文件,情节有点尬…印方火速否认

观察者网
2026-02-01 20:37:25
TOP14位身高170以上的女神,有颜有灯有演技

TOP14位身高170以上的女神,有颜有灯有演技

素然追光
2026-01-02 02:45:02
对张庆鹏竖中指?沈梓捷情绪失控一路怒喷 北控或已失控

对张庆鹏竖中指?沈梓捷情绪失控一路怒喷 北控或已失控

大嘴爵爷侃球
2026-02-02 09:31:34
快船近21战17胜4负同时期联盟最佳!莱昂纳德连续27场20+分

快船近21战17胜4负同时期联盟最佳!莱昂纳德连续27场20+分

Emily说个球
2026-02-02 12:10:21
陈松伶自曝晚年将住养老院!遗产早被惦记,外甥女:所有都是我的

陈松伶自曝晚年将住养老院!遗产早被惦记,外甥女:所有都是我的

科学发掘
2026-02-01 01:25:59
32岁!生涯首次入选!快船交易的全明星后卫

32岁!生涯首次入选!快船交易的全明星后卫

篮球实战宝典
2026-02-02 13:50:07
金价暴跌后实探北京金店:有消费者拖行李箱“抄底”,回收变现需排队3个半小时

金价暴跌后实探北京金店:有消费者拖行李箱“抄底”,回收变现需排队3个半小时

红星新闻
2026-02-01 17:17:29
委内瑞拉首次出口液化石油气

委内瑞拉首次出口液化石油气

界面新闻
2026-02-02 07:49:02
金饰克价跌至1484元 单日再跌134元/克

金饰克价跌至1484元 单日再跌134元/克

财联社
2026-02-02 09:30:33
阳东巨变!渔民血亏转富豪?广东阳西眼红了!

阳东巨变!渔民血亏转富豪?广东阳西眼红了!

阿芒娱乐说
2026-02-01 18:41:51
捡漏二手物品简直太香了!网友分享一个比一个羡慕,冒青烟了

捡漏二手物品简直太香了!网友分享一个比一个羡慕,冒青烟了

夜深爱杂谈
2026-01-30 18:07:30
卡里克豪取3连胜!英超5战获13分,曼联队史首人,阿莫林下课不冤

卡里克豪取3连胜!英超5战获13分,曼联队史首人,阿莫林下课不冤

奥拜尔
2026-02-02 00:03:35
周杰伦带王俊凯陈奕迅聚餐:很开心带大家聚餐,可以聊聊音乐真好

周杰伦带王俊凯陈奕迅聚餐:很开心带大家聚餐,可以聊聊音乐真好

韩小娱
2026-02-02 10:04:30
85岁老人被指漏水到楼下,自砸地板证清白全程公证,结果:没渗漏;“冤枉”业主物业该担何责?律师说法

85岁老人被指漏水到楼下,自砸地板证清白全程公证,结果:没渗漏;“冤枉”业主物业该担何责?律师说法

大风新闻
2026-02-01 20:16:03
2026-02-02 14:40:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16209文章数 514582关注度
往期回顾 全部

科技要闻

阿里筑墙,腾讯寄生,字节偷家

头条要闻

外媒:伊朗正处于最弱时期 是推翻现有政权的最佳时机

头条要闻

外媒:伊朗正处于最弱时期 是推翻现有政权的最佳时机

体育要闻

澳网男单决赛,属于阿尔卡拉斯的加冕仪式

娱乐要闻

周杰伦带王俊凯陈奕迅聚餐 畅聊音乐

财经要闻

贵金属大跌 多个期货主力合约触及跌停

汽车要闻

雷克萨斯LC500将于今年底停产 "最美雷克萨斯"谢幕

态度原创

亲子
数码
艺术
公开课
军事航空

亲子要闻

太有打乒乓球的天赋了

数码要闻

小米HyperOS 3推送完成95%!最后一批机型名单公布

艺术要闻

马斯克花5万买的折叠屋,是预制住宅的未来吗?

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

委内瑞拉外长会见美外交使团团长

无障碍浏览 进入关怀版