网易首页 > 网易号 > 正文 申请入驻

图灵奖得主Sutton再突破:强化学习在控制问题上媲美深度强化学习?

0
分享至


来源:机器之心报道

编辑:冷猫

不知道大家是否还记得,人工智能先驱、强化学习之父、图灵奖获得者 Richard S. Sutton,在一个多月前的演讲。

Sutton 认为,LLM 现在学习人类数据的知识已经接近极限,依靠「模仿人类」很难再有创新。

未来人工智能的发展需要从经验中学习,而这一路径始终是「强化学习」

这也是 Sutton 一以贯之的观点,不论是过去的文章《苦涩的教训(Bitter Lesson)》还是近期的研究工作,都能够显示出这位 AI 领域的核心人物,对于建立一个简单通用的,面向下一个「」的强化学习算法的热情。


近些天,Sutton 再发新论文,在强化学习领域再次发力,将他在 2024 年的时序差分学习新算法 SwiftTD拓展到控制领域,在与一些更强大的预处理算法结合使用时,能够展现出与深度强化学习算法相当的性能表现


  • 论文标题:Swift-Sarsa: Fast and Robust Linear Control

  • 论文链接:https://arxiv.org/abs/2507.19539v1

Sutton 在 2024 年提出了一种用于时序差分(TD)学习的新算法 ——SwiftTD。该算法在 True Online TD (λ) 的基础上进行了增强,融合了步长优化、对有效学习率的约束以及步长衰减机制。在实验中,SwiftTD 在多个源自 Atari 游戏的预测任务中均优于 True Online TD (λ) 和传统的 TD (λ),且对超参数的选择具有较强的鲁棒性。

在这篇论文中,作者将 SwiftTD 的核心思想与 True Online Sarsa (λ) 相结合,提出了一种基于策略的强化学习算法 ——Swift-Sarsa

此外,还提出了一个用于线性基于策略控制的简单基准测试环境,称为「操作性条件反射基准」(operant conditioning benchmark)。

问题与方法

控制问题

本论文的控制问题由观测(observations)和动作(actions)构成。智能体在每一个时间步 t 接收到一个观测向量 x_t ∈ ℝⁿ,并输出一个动作向量 a_t ∈ ℝᵈ。观测向量中包含一个特殊的分量,即奖励 r_t。该奖励所在的分量索引在整个智能体生命周期中是固定不变的。

控制问题的性能通过生命周期平均奖励(lifetime average reward)来衡量,定义如下:


在控制问题中,智能体所选择的动作将决定其未来所能感知到的观测,因此智能体的目标是通过控制未来的观测序列来最大化其生命周期奖励。

Swift-Sarsa

SwiftTD 能够比以往的 TD 学习算法更准确地学习预测值。使其具备更优预测能力的核心思想,同样也可以应用于控制算法中。将 SwiftTD 的关键思想与 True Online Sarsa (λ)(Van Seijen 等,2016)结合,是将其应用于控制问题最直接的方式。

在控制问题中,智能体在每一个时间步的输出是一个具有 d 个分量的向量。Swift-Sarsa 限于动作数量离散的问题。如果动作向量的每个分量只能取有限个数值,那么整个动作空间就可以表示为一个有限的离散动作集合。

Swift-Sarsa 使用 SwiftTD 来为其 m 个离散动作中的每一个学习一个价值函数。在每个时间步,它会计算所有动作的价值,并将它们堆叠起来形成一个动作 - 价值向量。一个策略函数 π: ℝᵐ → {1, …, m} 接收该动作 - 价值向量作为输入,并返回一个离散动作。

当前时间步所选动作的价值被用于构建 bootstrapped target,而前一时间步所选动作的价值则作为预测值用于估计 TD 误差。只有当前所选动作对应的价值函数的资格迹(eligibility trace)向量会被更新。

可以用一些记号对该算法进行更具体的描述。设 wiₜ 是在时间步 t 时,第 i 个动作对应的价值函数的权重向量,ϕₜ 是当前时间步的特征向量。那么,第 j 个动作的价值为:


所有动作对应的价值被堆叠形成一个动作 - 价值向量 v_t−1,t ∈ ℝᵐ,其中:


设 a_t 和 a_t-1 分别为时间步 t 和 t-1 选择的动作。Swift-Sarsa 中的 TD 误差为:


除这些修改外,Swift-Sarsa 与 SwiftTD 是一致的。算法 1 给出了 Swift-Sarsa 的伪代码。


策略函数可以是任意函数,通常会被设计为:价值越高的动作被选择的概率越大。两种常用策略是:

1. ϵ- 贪婪策略(ϵ-greedy policy):以 1 - ϵ 的概率选择具有最高价值的动作,以 ϵ 的概率随机选择一个动作;

2. Softmax 策略:将动作价值转化为离散概率分布。

关于 SwiftTD 算法,请参阅论文:


  • 论文标题:SwiftTD: A Fast and Robust Algorithm for Temporal Difference Learning

  • 论文链接:https://openreview.net/pdf?id=JdvFna9ZRF

操作性条件反射基准测试

作者设计了一个名为操作性条件反射基准(operant conditioning benchmark)的测试基准,用于评估 Swift-Sarsa 的性能。

该基准定义了一组控制问题,这些问题不需要复杂的探索策略,随机策略也能偶尔选择到最佳动作。这些问题的最优策略可以由线性学习器表示。

在该基准中的问题里,观测向量由 n 个二值分量组成,动作向量由 d 个二值分量组成。n 和 d 是超参数,只要 n > d,它们的任意组合都定义了一个有效的控制问题。

在某些特定的时间步,观测向量的前 m 个分量中恰好有一个为 1,其余时间步则全部为 0。当前 m 个分量中的第 i 个在某个时间步为 1 时,若智能体选择的动作向量中第 i 个分量为 1 且其余分量为 0,则该智能体将在之后获得一个延迟奖励。该奖励延迟 k_1 个时间步,其中 k_1 是一个变量,每次智能体选择该奖励动作时从区间 (ISI_1, ISI_2) 中均匀采样。在所有其他时间步,奖励为 0。

每隔 k_2 个时间步,观测向量的前 m 个分量中会随机有一个被置为 1,其中 k_2 是一个变量,每次从区间 (ITI_1, ITI_2) 中均匀采样。

在每一个时间步,观测向量中其余 n − m 个分量中每一个以概率 µ_t 被置为 1。初始时 µ_1 = 0.05,之后按如下规则递归更新。


操作性条件反射基准的灵感来源于 Rafiee 等人(2023)提出的动物学习基准。动物学习基准的设计灵感来自行为主义者在动物身上进行的经典条件反射实验,而操作性条件反射基准则是受到了操作性条件反射实验的启发。两者的关键区别在于:

  • 在操作性条件反射实验中,动物所选择的行为会影响奖励的出现频率;

  • 而在经典条件反射实验中,动物无法控制奖励的出现,只能学习去预测即将到来的奖励(如巴甫洛夫的狗实验)。

实验结果

本论文在操作性条件反射基准上针对不同的 n 值对 Swift-Sarsa 进行了实验。

图 1 展示了在两种不同 n 值下,元步长参数(meta-step-size)和初始步长参数对平均奖励的影响。类似于 SwiftTD 的表现,Swift-Sarsa 的性能随着元步长参数的增大而提升,表明步长优化带来了明显的好处。在较宽的参数范围内,Swift-Sarsa 实现的生命周期奖励接近最优生命周期奖励(约为 0.014)。当干扰特征数量增加时,问题变得更具挑战性,Swift-Sarsa 的表现也随之下降。


在第二组实验中,我们比较了步长衰减(step-size decay)对 Swift-Sarsa 性能的影响,结果如图 2 所示。与其在 SwiftTD 中的作用类似,当初始步长参数设置过大时,步长衰减能够提升 Swift-Sarsa 的性能。


值得注意的是,若将 Swift-Sarsa 与更强大的预处理方法结合使用,它在更复杂的问题上(如 Atari 游戏)可能也能达到与深度强化学习算法相当的性能水平。

更多信息,请参阅原论文。

阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828


未来知识库是“ 欧米伽 未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。 欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
你知道战争有多烧钱吗?如果14亿人每人捐100元,打仗能坚持多久

你知道战争有多烧钱吗?如果14亿人每人捐100元,打仗能坚持多久

丰谭笔录
2026-01-17 07:30:12
今晚23:30,U23亚洲杯决赛对阵出炉!数据证明,中国队赢越南难了

今晚23:30,U23亚洲杯决赛对阵出炉!数据证明,中国队赢越南难了

侃球熊弟
2026-01-20 00:07:00
90后第一人,凯伦威尔逊三大赛即将完成,丁俊晖赵心童难超越?

90后第一人,凯伦威尔逊三大赛即将完成,丁俊晖赵心童难超越?

范动舍长
2026-01-20 00:06:49
能打耐操,哈登入选本赛季最佳阵容在望

能打耐操,哈登入选本赛季最佳阵容在望

大眼瞄世界
2026-01-19 21:23:48
星光大道多位冠军现状:大多已无人问津,有人负债累累当搬运工

星光大道多位冠军现状:大多已无人问津,有人负债累累当搬运工

输在感情刀
2025-12-30 18:26:09
官方定调!殡葬大改革:2026年起,办丧事不再“被宰”!

官方定调!殡葬大改革:2026年起,办丧事不再“被宰”!

夜深爱杂谈
2026-01-18 20:24:04
广东104-76四川!球员评分:2人满分,3人良好,3人不合格

广东104-76四川!球员评分:2人满分,3人良好,3人不合格

多特体育说
2026-01-19 21:33:19
伊朗总统称攻击最高领袖致全面战争

伊朗总统称攻击最高领袖致全面战争

财联社
2026-01-18 23:48:01
7岁女孩独自照顾住院父亲,“挂号、交钱、买药都是一个人”,隔壁病房叔叔发红包鼓励:“我自己都一地鸡毛,但是看不得人间疾苦”

7岁女孩独自照顾住院父亲,“挂号、交钱、买药都是一个人”,隔壁病房叔叔发红包鼓励:“我自己都一地鸡毛,但是看不得人间疾苦”

扬子晚报
2026-01-19 09:47:10
刘浩帆:我主动提出来第一个罚点球,想好了发力踢右边

刘浩帆:我主动提出来第一个罚点球,想好了发力踢右边

懂球帝
2026-01-19 13:00:09
回避老东家,媒体人:陈国豪交易中有条款,对北控只能打一节

回避老东家,媒体人:陈国豪交易中有条款,对北控只能打一节

懂球帝
2026-01-19 21:43:04
CBA最新排名出炉:广厦稳居第一,广东第二,四川队17连败

CBA最新排名出炉:广厦稳居第一,广东第二,四川队17连败

孤影来客
2026-01-19 23:34:09
台海局势再次升级,武统、和统都没希望,我国即将走上第三条路

台海局势再次升级,武统、和统都没希望,我国即将走上第三条路

老范谈史
2026-01-18 16:00:07
你听过最劲爆的瓜是啥?网友:被大八岁的补习班老师表白了

你听过最劲爆的瓜是啥?网友:被大八岁的补习班老师表白了

带你感受人间冷暖
2025-11-26 00:10:06
笑喷了!向太力挺李亚鹏,网友:的确,他除了做生意其余都还凑合

笑喷了!向太力挺李亚鹏,网友:的确,他除了做生意其余都还凑合

一只番茄鱼
2025-11-12 11:21:28
“斩杀线”:美国民生的残酷真相

“斩杀线”:美国民生的残酷真相

新华社
2026-01-19 22:23:50
江苏省环保集团有限公司党委书记、董事长方斌斌被查

江苏省环保集团有限公司党委书记、董事长方斌斌被查

扬子晚报
2026-01-19 18:00:00
央视记者赶赴深圳现场:“全国体量最大”的一座 “山”要被全量移走了!

央视记者赶赴深圳现场:“全国体量最大”的一座 “山”要被全量移走了!

深圳梦
2026-01-19 22:13:31
经纪人回应梁小龙去世原因:他不喝酒,不是睡梦中心梗

经纪人回应梁小龙去世原因:他不喝酒,不是睡梦中心梗

红星新闻
2026-01-19 21:36:00
高峰也没想到,他当年抛弃的儿子,如今开始给那英争光了

高峰也没想到,他当年抛弃的儿子,如今开始给那英争光了

趣文说娱
2026-01-04 16:34:24
2026-01-20 00:40:49
人工智能学家 incentive-icons
人工智能学家
人工智能领域权威媒体
4488文章数 37396关注度
往期回顾 全部

科技要闻

这一仗必须赢!马斯克死磕芯片"9个月一更"

头条要闻

除吴孟达、梁小龙外 十多位周星驰电影中的配角已离世

头条要闻

除吴孟达、梁小龙外 十多位周星驰电影中的配角已离世

体育要闻

错失英超冠军奖牌,他却在德甲成为传奇

娱乐要闻

吴磊起诉白珊珊诽谤,白珊珊称被盗号

财经要闻

公章争夺 家族反目 双星为何从顶端跌落?

汽车要闻

徐军:冲击百万销量,零跑一直很清醒

态度原创

房产
亲子
游戏
旅游
公开课

房产要闻

中旅・三亚蓝湾发布会揭秘自贸港好房子高阶形态

亲子要闻

宝妈必学,孩子不懂对侵犯说不,任何人都有可能是坏人!

《上古4》PS5玩家有一半的人游戏时长不到15小时

旅游要闻

什刹海后海冰场明日营业,仅支持现场购票

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版