网易首页 > 网易号 > 正文 申请入驻

图灵奖得主Sutton新作:用一个1967年的公式,解决流式强化学习一大缺陷

0
分享至

来源:市场资讯

(来源:机器之心)

编辑|Panda

2024 年底,一篇题为「流式深度强化学习终于跑通了」的论文(arXiv:2410.14606)在学界引发广泛讨论。作者来自阿尔伯塔大学的 Mahmood 团队,他们花了大量篇幅描述一个令人尴尬的现实:强化学习作为一种天生应该「边走边学」的方法,在深度神经网络时代却几乎无法做到这一点。只要去掉回放缓冲区、只要把批量大小设为 1,训练就会崩溃。他们称之为「流式壁垒」(stream barrier)。

那篇论文提出的 StreamX 系列算法,靠着精细调配的超参数、稀疏初始化和各种稳定化技巧,勉强越过了这堵墙。

然而不到一年半后,同一课题组的一位成员,连同来自 Openmind 研究院的合作者,给出了一个截然不同的答案:流式壁垒的根源不是「数据不够多」,而是「步长选错了单位」。


  • 论文标题:Intentional Updates for Streaming Reinforcement Learning

  • 论文地址:https://arxiv.org/pdf/2604.19033v1

  • 代码库:https://github.com/sharifnassab/Intentional_RL

一脚油门,开出了多大的坑

想象你正在驾车学习停车入库。教练告诉你每次「踩油门 0.1 秒」。问题在于,同样踩 0.1 秒,上坡、下坡、空载、满载,车子前进的距离可能天差地别。有时候差一厘米恰好入库,有时候差 30 厘米直接撞墙。

传统梯度学习的步长,做的正是这件事:它规定参数每次移动多大,但对函数输出到底改变了多少,则完全没有控制。在批量训练时,成百上千个样本的误差平均下来,极端情况被稀释掉了,问题并不明显。但在「流式」环境下,每一步只有一个样本,没有平均可言。一旦梯度方向不稳定,更新幅度就会忽大忽小 —— 今天前进 30 厘米,明天后退 50 厘米,学习过程在剧烈震荡中崩溃。

这种「过冲与欠冲」(overshooting and undershooting)现象在强化学习里尤为严重,因为每个时间步的梯度不仅幅度各异,方向也在高速变化。

重新定义「一步该做多少」

来自 Openmind 研究院的 Arsalan Sharifnassab 与阿尔伯塔大学的 Mohamed Elsayed、A. Rupam Mahmood 和 Richard Sutton 等人,近日发表的论文中提出了一个换一个角度思考的方案:与其指定参数移动多少,不如直接指定函数输出该改变多少。

这个想法并不是凭空而来的。1967 年,日本学者 Nagumo 和 Noda 在论文《A learning method for system identification》中就在自适应滤波领域提出了「归一化最小均方差」(NLMS)算法;本质上也是用期望的输出变化来反推步长,而不是反过来。只不过那个算法只适用于简单的线性场景。

研究者们将这一思路推广到了深度强化学习。他们称之为「意图更新」(Intentional Updates):每次更新之前,先明确「我希望这一步实现什么」,然后反推出应该用多大的步长。

对于价值学习(即预测未来奖励),他们定义的意图是:每次更新后,当前状态的价值预测误差应该缩小一个固定比例 —— 例如缩小 5%,不多也不少。对于策略学习(即优化决策行为),他们定义的意图是:当前动作的选择概率,每一步只允许改变一个「适度」的量。

用驾车的比喻来说:这就好比司机在每次操作前先决定「我要让车向前移动 20 厘米」,然后根据当前路况(坡度、载重)自动计算该踩多深的油门,而不是每次都踩同样的深度听天由命。

图灵奖得主与他的拼图

论文的署名之一,是 Richard S. Sutton——2024 年图灵奖得主,被广泛称为「现代强化学习之父」。

Sutton 在学界的地位大约相当于物理学里的费曼:他不仅提出了时间差分学习(TD learning)和策略梯度(policy gradient)这两个现代强化学习的基础框架,还与 Andrew Barto 合著了该领域最权威的教材《Reinforcement Learning: An Introduction》(现已出至第二版,可免费在线阅读)。他与 Barto 于 2024 年共享图灵奖,奖项评语是「为强化学习奠定了概念与算法基础」。

获奖后,Sutton 没有选择退休,而是将奖金投入创立的 Openmind 研究院,专门资助那些愿意在「不受商业化压迫的环境下探索基础问题」的年轻研究者。这篇新论文,正是从这家非营利机构走出来的。

而论文一作 Sharifnassab,之前刚刚在 ICML 2025 发表了 MetaOptimize 框架,研究如何在线自动调整学习率。两个课题的关注点高度一致:如何让步长本身变得更智能。

算法细节:比想象中简洁

「意图更新」的数学推导并不复杂,其核心公式可以用一句话描述:步长等于「期望的输出变化量」除以「梯度方向对输出的实际影响力」。

在价值学习中,这个「实际影响力」就是梯度向量的范数(相当于衡量当前参数区域有多「陡」):越陡的地方步长越小,越平的地方步长越大,从而保证每次更新对价值函数的冲击保持一致。

在策略学习中,「期望变化量」被定义为与优势函数成比例:当前动作比平均水平好多少,策略就往那个方向动多少 —— 通过一个跑动平均来归一化量级,确保长期下来策略改变的幅度稳定在一个可解释的范围。

研究者还将这一核心思想与两个工程实践结合:RMSProp 风格的对角缩放(处理不同参数维度量级差异)和资格迹(eligibility traces,帮助奖励信号向过去时间步传播)。

最终形成三个完整算法:用于价值预测的 Intentional TD (λ)、用于离散动作控制的 Intentional Q (λ),以及用于连续控制的 Intentional Policy Gradient。




实验结果:不靠 GPU 也能打平 SAC

论文在多个标准基准上评估了这套方法,结果令人印象深刻。

在 MuJoCo 连续控制任务(包括 Ant、Humanoid、HalfCheetah 等复杂仿真机器人)上,新方法 Intentional AC 在流式设置下(批量大小 = 1,无回放缓冲区)的最终性能,多次接近甚至比肩 SAC—— 一个使用大批量回放缓冲区、几乎是当前连续控制任务黄金标准的算法。而在计算量上,每次 Intentional AC 更新所需的浮点运算,只有一次 SAC 更新的约 1/140。


在 Atari 和 MinAtar 离散动作游戏上,Intentional Q-learning 的表现同样与使用回放缓冲区的 DQN 相当,且用同一套超参数设置跑通了全部任务,无需逐个调参。



研究者还专门验证了「意图」是否真的被实现了:他们测量了实际更新量与预期更新量的比值。在禁用资格迹的简化设置下,这个比值的标准差仅为 0.016 到 0.029,99 分位数均在 1.07 以内;意味着绝大多数时候,更新确实做到了「说好要做多少就做多少」。

此外,一组消融实验表明,去掉 RMSProp 归一化或者 σ 项之后,性能有所下降但仍然有竞争力,而这个「意图缩放」本身是首要贡献者,其他组件都是辅助。


问题还是有的

「意图更新」框架在鲁棒性上也展示出明显优势。当研究者逐一去掉 StreamX 方法所依赖的各种稳定化辅助技巧(稀疏初始化、奖励缩放、输入归一化、LayerNorm)时,Intentional AC 的性能退化明显少于原始 StreamAC,说明意图缩放从根源上减少了对外部「拐杖」的依赖。

但论文也坦诚了一个尚未完全解决的问题:策略学习中,步长依赖于当前采样的动作,这会使不同动作被隐性赋予不同的「权重」,可能改变策略梯度的期望方向。在 Humanoid 和 HumanoidStandup 任务中,通过测量期望更新方向的余弦相似度,研究者发现这种偏差在关键学习阶段接近 0.96(几乎没有影响);但在 Ant-v4 中,对齐度降至中位数 0.63,说明问题并非总能被忽视。

作者指出,未来研究应当寻找对动作无关的步长选择策略,使「意图」在期望意义下也保持无偏。这是该方向上留给后来者的明确作业。

结语:让 AI 像人一样边做边学

当前主流的大模型训练范式,依赖海量数据的批量消化:把互联网上的文字和代码统统喂进去,反复迭代,最终涌现出令人惊叹的能力。这套路线已经被证明行之有效,但它从根本上是「先学后用」的:一旦训练完成,模型就冻结了,无法从后续的每一次实际交互中持续更新。

流式强化学习所追求的,是另一种截然不同的学习模式:不依赖海量回放,不依赖庞大 GPU 集群,每一步经历都立刻转化为参数更新,持续、廉价、自适应。这更接近人类和动物真实的学习方式。

从 Elsayed 等人 2024 年「终于跑通了」的初步突破,到这篇论文提出的「意图更新」原则,流式深度强化学习正在以令人意外的速度走向成熟。它不会取代批量训练的大模型,但对于需要长期在线适应的机器人、边缘设备,以及任何无法承受大规模回放缓冲区和 GPU 集群的应用场景,这条路线正变得越来越有说服力。

步长不只是一个超参数,它是 AI 每一步「想做多少」的承诺。当这个承诺终于变得可控,学习本身就稳定了。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
彻底撕破脸!央视硬刚天价转播费后,资本报复手段简直不堪入目

彻底撕破脸!央视硬刚天价转播费后,资本报复手段简直不堪入目

宝哥精彩赛事
2026-05-10 04:34:47
iPhone Air 突然又降价 ,真的太狠了!

iPhone Air 突然又降价 ,真的太狠了!

花果科技
2026-05-10 18:34:41
赵一曼牺牲前有多凄惨?日军晚年回忆:她的惨叫像来自地狱的声音

赵一曼牺牲前有多凄惨?日军晚年回忆:她的惨叫像来自地狱的声音

明月清风阁
2026-05-10 20:45:11
得了文班亚马还不知足,还惦记文班亚昕,马刺管理层我劝你善良

得了文班亚马还不知足,还惦记文班亚昕,马刺管理层我劝你善良

兵哥篮球故事
2026-05-09 22:18:27
甲钴胺立大功!医生研究发现:老人吃甲钴胺,或能缓解4种症状

甲钴胺立大功!医生研究发现:老人吃甲钴胺,或能缓解4种症状

39健康网
2026-05-10 19:33:58
埃里克森:这场失利很难接受,我们不管怎么踢都没能进球

埃里克森:这场失利很难接受,我们不管怎么踢都没能进球

懂球帝
2026-05-10 05:05:15
轰29+5+9!中国女篮20岁后卫新星崛起:宫鲁鸣再栽培她?

轰29+5+9!中国女篮20岁后卫新星崛起:宫鲁鸣再栽培她?

李喜林篮球绝杀
2026-05-09 15:54:46
用所谓的“基本盘”嘲讽人民群众,只能是搬起石头,砸自己的脚!

用所谓的“基本盘”嘲讽人民群众,只能是搬起石头,砸自己的脚!

让心灵得以栖息
2026-05-08 11:19:31
找错伴侣的代价!1.8亿顶薪变中产,从球星沦为蓝领,女方癫狂

找错伴侣的代价!1.8亿顶薪变中产,从球星沦为蓝领,女方癫狂

你的篮球频道
2026-05-10 08:17:00
10日晚世乒赛决赛:孙颖莎3-0击败日本选手,国乒扳平大比分

10日晚世乒赛决赛:孙颖莎3-0击败日本选手,国乒扳平大比分

小鞄搞笑解说
2026-05-10 19:44:08
再调整!5月10日晚间CCTV5直播世乒赛男团决赛有变:中国大战日本

再调整!5月10日晚间CCTV5直播世乒赛男团决赛有变:中国大战日本

宝哥精彩赛事
2026-05-10 20:17:11
冯绍峰没撒谎!消失3个月,曝光率下降的赵丽颖,证实了他的评价

冯绍峰没撒谎!消失3个月,曝光率下降的赵丽颖,证实了他的评价

阿伧说事
2026-05-10 15:30:49
山东男篮大调整!外援一个不留,高诗岩合同到期,陶汉林或退役

山东男篮大调整!外援一个不留,高诗岩合同到期,陶汉林或退役

体坛瞎白话
2026-05-10 08:02:04
我跟女同事开玩笑:嫁给我年终奖归你,下班被总裁叫住:女婿站住

我跟女同事开玩笑:嫁给我年终奖归你,下班被总裁叫住:女婿站住

千秋文化
2026-05-08 19:43:24
1-1!中超诞生神纪录:联赛7轮不败+8轮不胜!邓卓翔回归绝平再现

1-1!中超诞生神纪录:联赛7轮不败+8轮不胜!邓卓翔回归绝平再现

杨仔述
2026-05-10 19:46:25
宋庆龄向毛主席求情,希望宽大处理陈璧君,陈:我情愿监狱度余生

宋庆龄向毛主席求情,希望宽大处理陈璧君,陈:我情愿监狱度余生

史之铭
2026-05-10 19:24:25
第一次坐飞机,第一次出国!四川6位农村阿姨赴泰国看赵露思演唱会,只为感谢其助农善举,“她是我们的恩人”

第一次坐飞机,第一次出国!四川6位农村阿姨赴泰国看赵露思演唱会,只为感谢其助农善举,“她是我们的恩人”

极目新闻
2026-05-10 16:14:23
NBA十大最难打破的纪录!詹姆斯2项登顶;一人连打1192场

NBA十大最难打破的纪录!詹姆斯2项登顶;一人连打1192场

麦子的篮球故事
2026-05-08 17:20:48
国家三部委发文:九月份幼儿园迎来四大新政,家长看完就全明白了

国家三部委发文:九月份幼儿园迎来四大新政,家长看完就全明白了

一口娱乐
2026-05-10 20:11:15
80后真的是最惨一代吗?网友分享80后本科宿舍8人现状!

80后真的是最惨一代吗?网友分享80后本科宿舍8人现状!

黯泉
2026-05-09 17:57:22
2026-05-10 21:28:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
3162545文章数 7294关注度
往期回顾 全部

科技要闻

DeepSeek融资,改写所有人的估值

头条要闻

罕见一幕 韩国总统、国会议长、执政党党首同日飙泪

头条要闻

罕见一幕 韩国总统、国会议长、执政党党首同日飙泪

体育要闻

那个曾让詹姆斯抱头的兄弟,40岁从大学毕业了

娱乐要闻

大S女儿玥儿开通账号,用烟花缅怀母亲

财经要闻

白酒大逃杀

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

时尚
家居
亲子
旅游
军事航空

真爱大牌|| 用了4年都不舍得换,终于把小贵的价格也磨下来了

家居要闻

菁英人居 全能豪宅

亲子要闻

深圳龙岗区被正式认定为“全国学前教育普及普惠区”

旅游要闻

新疆旅游新动向丨从“凑人气”到“留人心” 新疆县域旅游玩出新高度

军事要闻

伊朗革命卫队深夜警告

无障碍浏览 进入关怀版