网易首页 > 网易号 > 正文 申请入驻

研究人员提出因果贝尔曼方程,在线上学习算法中可得到最优智能体

0
分享至

近日,美国哥伦比亚大学李明轩博士和团队提出一种因果贝尔曼方程,它能使用可能包含有混杂变量的观测数据计算出最优价值函数的理论上界。而如果使用这一理论上界设计奖励函数的话,在一些特定的线上学习算法中可以更快速地训练得到最优的智能体。

研究团队预期这一成果可以被扩展到更高维的、更接近现实应用的机器人问题中,帮助自动化设计一些奖励函数用于训练机器人完成复杂的任务。而用于设计奖励函数的数据集可以不再囿于采集自同类机器人成功完成任务的数据,而是可以采集任何具有相似能力的智能体的视频数据,甚至采集人类示范的视频数据。

在训练智能体完成一些缺乏明确任务进度评价的任务时,人们往往需要增加很多额外的监督信号来帮助训练。比如,使用强化学习算法训练控制机械手解决一个魔方时,最直观的任务完成信号只有是否能在指定时间内完成魔方这一非常宏观的评价指标,任务完成过程中没有任何具体定义步骤对错的简单标准。

而直接使用“任务完成与否”这一单一指标会导致强化学习算法几乎无法得到有效的训练数据,因为在随机探索过程中算法偶然碰撞出正确控制机械手解决魔方的概率几乎为零。

也正因此,在 Open AI 早期训练机械手解决魔方的论文中,他们添加了很多额外的奖励信号用于监督诸如机械手的手指动作是否合理,以及魔方当前状态是否符合算法规划的解决方案等。

另一个例子是人们在玩电子游戏的时候如果中途没有任何任务指引或者分数反馈,只有在游戏结束才能知道是否胜利的话,人们就会觉得这个游戏很难通关,或者需要尝试很久才能猜出正确的胜利条件。

所以,在训练智能体过程中,研究人员往往需要针对特定任务增加很多额外的奖惩信号作为过程监督帮助智能体学习。这样一种增加额外奖励信号并且不影响智能体最终能学会的最优策略的算法叫 PBRS(Potential Based Reward Shaping),由华人学者吴恩达于 1999 年提出。

但是,这样就会导致每碰到一个新的任务,都需要花费大量时间和人力来设计并调整奖励信号。这样的解决方案在现代社会日益增长的智能体需求下完全不具有可持续性。

所以,本次研究团队考虑的是能否直接从现有数据中学习到一个合理的额外奖励信号呢?直观来讲是可以的,即使用蒙特卡洛法估算价值函数。而每两个状态之间的价值差就可以作为一个额外的奖励信号(智能体从低价值状态转移到高价值状态就会得到一个正向的奖励,反之则是惩罚)。

但是,如果数据集不是由一个性能很好的智能体产生的,又或者数据集里包含一些没有被观测到的混杂偏差呢?这时直接用蒙特卡洛法估计出来的价值函数就不再是无偏的,并且可能会和最优价值函数相去甚远。

于是,在本次论文里研究团队探索了如何使用一些因果推断的工具来自动地从多个可能有混杂偏差的数据集里学习到合理的奖励函数,并从理论上证明解释了为何此类奖励函数能够显著提高特定智能体训练的效率,大量实验结果也证明了本次发现。

曾经,李明轩并不觉得这一算法上的改进能带来多少样本复杂度上的改善,因为很多前辈论文已经论证过使用吴恩达提出的 PBRS 这一特定方式增加额外奖励信号在很多情况下并不会影响样本复杂度。对此,李明轩的导师也曾表示感到遗憾,因为这完全解释不了他们在实验上观测到的大幅性能提升。

不过在李明轩即将放弃之前,他又再次重温了近年来一些线上探索算法的复杂度分析论文,同时这次他着重阅读了相关论文附录中的证明细节。就在这时,李明轩突然发现几个不同论文里用到的中间结论联系在一起,似乎正好可以帮他证明自己想要的样本复杂度结论。

“这一瞬间的直觉后来被证明是正确的,并且结论也非常的整洁漂亮,让我有种难以言说的巧合感。有时,偶尔能在写代码的间隙,体会到类似于刚找到最后一块拼图的证明的快乐。”他表示。

日前,相关论文以《从混杂离线数据中自动实现奖励塑造》(Automatic Reward Shaping from Confounded Offline Data)为题被 2025 国际机器学习大会(ICML,International Conference on Machine Learning)收录 [1]。

目前,研究团队正在探索如何把这一理论工作拓展到更大规模的问题中如电子游戏(atari games)以及一些需要连续状态和动作空间的机器人控制问题之中。

参考资料:

1.https://arxiv.org/pdf/2505.11478

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
1969年,许光达惨死,遗体无处放,毛主席:骨灰放到应该放的地方

1969年,许光达惨死,遗体无处放,毛主席:骨灰放到应该放的地方

浩渺青史
2026-02-01 08:47:46
赵睿承认错误:扳平两罚不中很不应该 许利民回应质疑是无事生非

赵睿承认错误:扳平两罚不中很不应该 许利民回应质疑是无事生非

醉卧浮生
2026-02-01 22:37:08
玩不到一起真尴尬,沈腾沙溢努力调节气氛,关晓彤张凯丽盛气凌人

玩不到一起真尴尬,沈腾沙溢努力调节气氛,关晓彤张凯丽盛气凌人

白面书誏
2026-02-01 18:39:22
质疑马宁让续约告吹!李提香:10分钟后致电李金羽,很快给合同

质疑马宁让续约告吹!李提香:10分钟后致电李金羽,很快给合同

奥拜尔
2026-02-01 17:36:13
历史第二人!亚历山大34+13连续120场20+ 距张伯伦仅差6场

历史第二人!亚历山大34+13连续120场20+ 距张伯伦仅差6场

醉卧浮生
2026-02-02 13:02:07
林彪率百万雄师解放香港,却被毛主席紧急叫停:香港留着还有用处

林彪率百万雄师解放香港,却被毛主席紧急叫停:香港留着还有用处

大运河时空
2026-02-01 10:05:04
全程频繁捂嘴,台词含糊不清,视帝佟大为坐镇都带不动这个拖油瓶

全程频繁捂嘴,台词含糊不清,视帝佟大为坐镇都带不动这个拖油瓶

流云随风去远方
2026-01-31 13:12:51
佟丽娅为儿子朵朵庆祝10岁生日,前夫陈思诚罕见出席,朵朵好文雅

佟丽娅为儿子朵朵庆祝10岁生日,前夫陈思诚罕见出席,朵朵好文雅

科学发掘
2026-02-01 09:47:55
海南省人民检察院检察委员会原专职委员李思阳被“双开”

海南省人民检察院检察委员会原专职委员李思阳被“双开”

界面新闻
2026-02-02 10:33:58
纽约期银突破85美元/盎司,日内涨8.24%

纽约期银突破85美元/盎司,日内涨8.24%

每日经济新闻
2026-02-02 08:19:12
老太带孙子上香,孙子砸碎观音像,还往里面撒尿,第二天报应来了

老太带孙子上香,孙子砸碎观音像,还往里面撒尿,第二天报应来了

古怪奇谈录
2025-07-30 14:53:04
TOP14位身高170以上的女神,有颜有灯有演技

TOP14位身高170以上的女神,有颜有灯有演技

素然追光
2026-01-02 02:45:02
比尔·克林顿被曝新照,爱泼斯坦同伙陪他庆生,疑受害少女也在场

比尔·克林顿被曝新照,爱泼斯坦同伙陪他庆生,疑受害少女也在场

译言
2026-02-01 08:23:33
2026全国春运首周天气地图来了 一图了解各地返乡天气

2026全国春运首周天气地图来了 一图了解各地返乡天气

大象新闻
2026-02-02 13:53:13
韦东奕正式获聘北京大学长聘副教授

韦东奕正式获聘北京大学长聘副教授

界面新闻
2026-02-01 07:58:06
1958年,张国焘请求中央给予他补助,毛主席同意,但提出一个条件

1958年,张国焘请求中央给予他补助,毛主席同意,但提出一个条件

帝哥说史
2026-01-17 06:40:03
1988年授衔前,赵南起被匿名举报为“韩国间谍”,为何仍被授上将

1988年授衔前,赵南起被匿名举报为“韩国间谍”,为何仍被授上将

墨说古今
2026-01-18 22:56:11
白银连环杀人凶手高承勇:为儿子前途收手,被捕后儿子被单位辞退

白银连环杀人凶手高承勇:为儿子前途收手,被捕后儿子被单位辞退

谈史论天地
2026-01-26 16:55:03
简直是离谱!马斯克宣布将年产 1000 万台人形机器人

简直是离谱!马斯克宣布将年产 1000 万台人形机器人

XCiOS俱乐部
2026-02-01 13:44:39
什刹海大爷雕的抽象“玲娜贝儿”爆火,迪士尼法务部看了都沉默!

什刹海大爷雕的抽象“玲娜贝儿”爆火,迪士尼法务部看了都沉默!

广告案例精选
2026-01-31 19:38:10
2026-02-02 14:23:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16209文章数 514582关注度
往期回顾 全部

科技要闻

元宝发10亿红包,阿里千问:我跟30亿

头条要闻

外媒:伊朗正处于最弱时期 是推翻现有政权的最佳时机

头条要闻

外媒:伊朗正处于最弱时期 是推翻现有政权的最佳时机

体育要闻

澳网男单决赛,属于阿尔卡拉斯的加冕仪式

娱乐要闻

周杰伦带王俊凯陈奕迅聚餐 畅聊音乐

财经要闻

国六货车被迫"换头" 每次收费超200元

汽车要闻

雷克萨斯LC500将于今年底停产 "最美雷克萨斯"谢幕

态度原创

游戏
健康
教育
公开课
军事航空

英雄联盟IP首次新春集结:峡谷拜年秀与WRL年度总决赛双耀上海

耳石症分类型,症状大不同

教育要闻

这篇小学生的作文《我的爸爸》,真实了多少中年老父亲

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

委内瑞拉外长会见美外交使团团长

无障碍浏览 进入关怀版