网易首页 > 网易号 > 正文 申请入驻

上交博士最新思考:仅用两个问题讲清强化学习

0
分享至

人工智能领域发展到现在,强化学习(RL)已经成为人工智能中最令人着迷也最核心的研究方向之一。它试图解决这样一个问题:当智能体没有现成答案时,如何通过与环境的交互,自主学会最优行为?

听起来简单,做起来却异常复杂。几十年来,研究者提出了成百上千种算法,从最早的 Q-learning 到后来基于深度学习的 DDPG、SAC、PPO、IQL……每种方法都有自己的原理、参数与假设,看起来彼此独立,仿佛一座庞大而混乱的迷宫。

对于刚接触强化学习的人来说,这种复杂性常常令人挫败:我们似乎在学习无数名字,却始终难以看清它们之间的联系。

然而,最近有一篇由上海交通大学与上海期智研究院的博士生 Kun Lei 发布的博客提出了一个令人眼前一亮的框架:所有强化学习算法,其实都可以通过两个问题来理解,第一,数据从哪里来?第二,策略更新有多频繁?

就是这两个看似朴素的问题,像两根主线一样,把强化学习的世界重新梳理清楚。从它们出发,我们可以发现:复杂的 RL 算法不过是在这两根轴上移动的不同点位。

而当这一结构被揭示出来,整个算法逻辑突然变得直观、有序,也更容易被理解。


博客地址:https://lei-kun.github.io/blogs/rl.html

数据从哪里来

强化学习的过程,本质上是智能体不断收集经验、并用这些经验改进策略的循环。不同算法的差异,很大程度上取决于它们依赖什么样的数据。

最直接的方式是“在策略学习”。在这种模式下,智能体一边与环境交互,一边学习。每一个动作都带来新的数据,立刻被用于更新模型。这类方法像是不断在现场实践的学生,代表算法包括 PPO、SAC 等。

在线学习的优点是灵活、适应性强,但也意味着代价高昂,每次试错都可能耗费时间、能量,甚至造成损失。

相对保守的是“离策略学习”。它允许智能体反复使用过去的经验,而不必每次都重新与环境交互。算法会把这些经验保存下来,在需要时反复采样学习。DQN、TD3、DDPG 都属于这一类。

离策略学习提高了样本利用率,也让学习过程更稳定,是许多实际应用中的主流方案。

还有一种方式更极端,叫做“离线学习”。这里,智能体完全依赖一个固定的数据集进行训练,不能再与环境交互。这种方法看似受限,但在高风险场景中却尤为重要,比如医疗、自动驾驶或机器人控制。

算法必须在不试错的情况下,从既有数据中学会尽可能好的决策,CQL、IQL 就是这类方法的代表。

从在线到离线,数据的获取方式逐渐从主动探索转向被动利用。算法的选择往往反映了任务的现实约束:能否安全地试错?能否持续获得新数据?试错的代价是否可承受?这便是强化学习的第一个维度:数据从哪里来。


学习更新的节奏

而强化学习的第二个维度,是学习更新的节奏。简单来说,就是智能体多久评估一次策略,又多久调整一次行为。

最简单的方式是一种“一步式学习”。智能体在一个固定的数据集上训练一次,学到一个策略后就不再改进。模仿学习就是典型例子。它速度快、风险低,适合那些对安全性要求高或数据有限的任务。

另一种方式是“多步式学习”。算法在一批数据上多次更新,直到性能收敛,再重新收集新的数据。这是一种折中策略,既避免了频繁交互的高成本,又能比一次性训练获得更好的表现。

最具代表性的是“迭代式学习”。这类算法不断在“收集数据—更新模型—再收集数据”的循环中进化,每一次交互都推动性能提升。它们像一个永不停歇的学习者,不断探索未知、修正自身。PPO 和 SAC 就是这种方式的代表。

从一步到多步,再到迭代,算法的更新节奏越来越密集,也意味着从静态到动态的转变。不同节奏之间,其实反映的是对稳定性和适应性的权衡。


一个更底层的统一框架

在讲清楚“数据从哪来”和“学习更新的节奏”这两条主线之后,博客提出了一个更底层的统一视角:无论算法形式如何变化,所有强化学习方法其实都在做两件事:评估当前策略、然后改进它。

简单来说,强化学习就像一个反复自我练习的过程:

先评估,看看自己目前的策略表现得怎样,哪些动作好、哪些不好;

再改进,根据评估结果,调整策略,让下一次决策更聪明一点。

Q-learning、PPO、SAC……看起来名字各不相同,其实都在重复这两个动作。唯一的区别,只是它们评估得方式不同、改进的速度不同、或者用到的数据不同。雷峰网

在博客中,作者用一组公式,把这两步统一地写了出来:

评估阶段(Policy Evaluation) 就是去衡量“这套策略到底值不值”。算法会让模型预测某个状态下采取某个动作能得到多大的回报,然后和实际反馈进行比较。如果误差太大,就调整模型,让它的预期更接近现实。在线算法直接用新数据计算,离线或离策略算法则要通过重要性采样、加权平均等方式修正旧数据的偏差。

改进阶段(Policy Improvement) 是在得到新的评估结果后,优化策略本身。模型会倾向于选择那些带来更高期望回报的动作。但为了避免一下子“改过头”,很多算法会加上约束或正则项,比如让新策略不能偏离旧策略太多(这就是 PPO 的思想),或者在策略里保留一定的探索性(这就是 SAC 中熵正则的作用)。


从这个角度看,所谓不同的强化学习算法,其实只是这两个过程的不同实现。有的算法更注重评估的准确性,有的更强调改进的稳定性,有的频繁更新、快速迭代,有的则保守谨慎、慢慢优化。

当我们用“评估 + 改进”去看强化学习时,整个算法体系就像被抽丝剥茧地展现在眼前,所有方法都不再是孤立的技巧,而是这两个动作的不同组合。

在讲清这两条主线后,博客还进一步将视角延伸到了现实世界的智能系统,尤其是当下正在快速发展的机器人基础模型。

Kun Lei 指出这种以训练节奏为核心的思考方式,与现代机器人基础模型的训练实践高度契合。例如 Generalist 团队的 GEN-0 与 Pi 的 pi_0.5,它们的成长过程就像一台不断运转的数据飞轮。系统会持续吸收新的任务与场景,将它们整合进统一的语料库,然后周期性地进行再训练或微调。雷峰网

在这样的机制下,多步式更新成为一种自然选择。每一次训练循环都带来小幅、受控的改进,既保守到能避免分布坍塌的风险,又留下足够的探索空间,使模型能够在不断扩展的数据语料中稳步成长。

并且当模型逐渐接近能力瓶颈,无论是为了超越人类在特定任务上的上限,还是为了更精准地对齐人类表现,研究者通常会转向迭代式的在线强化学习,针对特定目标进行更高频、更精细的评估与改进。

这种从多步更新向在线迭代过渡的训练策略,已在实践中被多次验证有效,例如在 rl-100 等典型设定中,多步更新已经能够在有限数据下取得稳定进步,而适量的在线 RL 则能在保持安全与稳定的前提下,将模型性能进一步推高。

走在 RL 前沿的年轻研究者


作者主页:https://lei-kun.github.io/?utm

这篇博客的作者 Kun Lei 目前是上海交通大学与上海期智研究院的博士生,师从清华大学许华哲教授。

Kun Lei 毕业于西南交通大学,在本科阶段就开始从事人工智能与优化相关的研究,并曾与西南交通大学的郭鹏教授以及美国奥本大学的王毅教授合作开展科研工作。

在读博之前,他曾在上海期智研究院担任研究助理,与许华哲教授共同进行强化学习和机器人智能方向的研究,后来又在西湖大学进行了为期四个月的科研实习,主要探索具身智能与强化学习算法在真实环境中的应用。

Kun Lei 的研究方向涵盖深度强化学习、具身智能与机器人学习。相比单纯追求算法指标,他更关心这些算法如何真正落地,怎样让强化学习不仅在仿真环境中有效,也能在真实的机器人系统中稳定工作,怎样让智能体在有限的数据下快速学习、灵活适应。

同时从他的博客也能看出,Kun Lei 的研究风格兼具工程实践与直觉思考,他追求的不是更复杂的模型,而是更清晰的理解。这篇关于强化学习的文章正体现了这种思路,他没有堆叠晦涩的公式,而是用两个最本质的问题,理出强化学习背后的逻辑主线。

而强化学习之所以让人望而却步,是因为它的理论体系庞大、公式繁复。初学者常常被各种贝尔曼方程、策略梯度、折扣回报等概念包围,每一个术语都能展开成几页推导,但却难以抓住核心。

这篇博客的价值就在于,它把这一切重新拉回了原点。作者没有从复杂的数学出发,而是提出两个最简单的问题:数据从哪里来?策略更新有多频繁?

这看似朴素的提问,其实触及了强化学习的根。它帮助读者重新看见算法的结构,不同方法之间不再是孤立的技巧,而是围绕这两个维度的不同取舍。通过这样的视角,强化学习那片看似混乱的森林,突然变得有路可循。

更重要的是,这种思路不仅仅是一种讲解方式,更是一种思考问题的习惯。它提醒我们,复杂系统的背后往往隐藏着最简单的规律,只是被层层公式和术语掩盖。当我们回到原理本身,用结构化的方式去理解问题,复杂性就不再是障碍。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
泰国男星嫁给50岁意大利富商,正式退出娱乐圈

泰国男星嫁给50岁意大利富商,正式退出娱乐圈

下水道男孩
2025-11-11 23:51:55
郑州街头一男子持刀与多名警察对峙,路虎司机一脚油门撞翻持刀者,多方回应

郑州街头一男子持刀与多名警察对峙,路虎司机一脚油门撞翻持刀者,多方回应

极目新闻
2025-11-13 13:55:47
暴跌99%!保时捷为挽回中国销量,价格跌破35万,大家会买账吗?

暴跌99%!保时捷为挽回中国销量,价格跌破35万,大家会买账吗?

体育小柚
2025-11-11 16:00:57
白酒立大功!医生研究发现:高血压喝白酒时,或有4种好处!

白酒立大功!医生研究发现:高血压喝白酒时,或有4种好处!

健身狂人
2025-11-12 13:11:59
无奈6连败,NBA退步最快豪门!作为球队老大,是时候提离队申请了

无奈6连败,NBA退步最快豪门!作为球队老大,是时候提离队申请了

老梁体育漫谈
2025-11-14 00:46:06
里夫斯:我想留在湖人拿冠军,我不会要求不合理的巨额合同

里夫斯:我想留在湖人拿冠军,我不会要求不合理的巨额合同

懂球帝
2025-11-13 23:21:06
出境游,最怕什么?

出境游,最怕什么?

中国新闻周刊
2025-11-13 16:58:03
陪玩陪睡不够!集体开嫖、舔手指、目无王法,阴暗面彻底藏不住了

陪玩陪睡不够!集体开嫖、舔手指、目无王法,阴暗面彻底藏不住了

好贤观史记
2025-11-09 21:58:39
输球就出局!世预赛生死战:4队争1个附加赛名额!出线奖金100万

输球就出局!世预赛生死战:4队争1个附加赛名额!出线奖金100万

球场没跑道
2025-11-13 16:57:19
大疆之后,深圳五个年轻人,又杀出一个“全球第一”!

大疆之后,深圳五个年轻人,又杀出一个“全球第一”!

史纪文谭
2025-11-12 11:24:53
挪威4-1爱沙尼亚无限接近美加墨,哈兰德、瑟洛特双响

挪威4-1爱沙尼亚无限接近美加墨,哈兰德、瑟洛特双响

懂球帝
2025-11-14 03:05:41
副院长又冲上热搜!原来又冒出一个小四,瓜太大了!

副院长又冲上热搜!原来又冒出一个小四,瓜太大了!

魔都姐姐杂谈
2025-11-12 19:34:34
光刻机巨头开始慌了,中国造不成光刻机,但是要造一个光刻工厂!

光刻机巨头开始慌了,中国造不成光刻机,但是要造一个光刻工厂!

娱乐看阿敞
2025-11-11 18:33:20
曾医生日常容颜,没有美颜的样子才是真实的

曾医生日常容颜,没有美颜的样子才是真实的

诗意世界
2025-11-12 20:52:54
强冷空气即将来袭,南昌下周气温跌破个位数

强冷空气即将来袭,南昌下周气温跌破个位数

南昌发布
2025-11-13 22:51:56
荷方代表是否已来华磋商安世半导体问题?商务部回应

荷方代表是否已来华磋商安世半导体问题?商务部回应

财联社
2025-11-13 15:33:05
哪种油最不健康?是大豆油吗?坦白说:这4种油确实要少吃

哪种油最不健康?是大豆油吗?坦白说:这4种油确实要少吃

涵豆说娱
2025-11-06 13:50:21
1979年11月13日,中共中央、国务院印发《关于高级干部生活待遇的若干规定》全文

1979年11月13日,中共中央、国务院印发《关于高级干部生活待遇的若干规定》全文

博故
2025-11-13 16:24:12
“家里已经供不起我上班了!”父母无奈哭诉,成2025年最大的笑话

“家里已经供不起我上班了!”父母无奈哭诉,成2025年最大的笑话

妍妍教育日记
2025-11-09 10:44:07
戾气越来越重了!

戾气越来越重了!

深度报
2025-11-13 23:06:32
2025-11-14 05:31:00
雷峰网 incentive-icons
雷峰网
关注智能与未来!
67803文章数 655955关注度
往期回顾 全部

科技要闻

月产能突破百万片,中芯国际Q3净利增43.1%

头条要闻

高市早苗扯着眼皮诉苦:我现在每天只睡2小时

头条要闻

高市早苗扯着眼皮诉苦:我现在每天只睡2小时

体育要闻

跟豪门传了十年绯闻,他却偏要“择一队终老”

娱乐要闻

王鹤棣孟子义真要搭?

财经要闻

源峰25亿赌局!汉堡王中国"卖身"求生

汽车要闻

具备高阶辅助驾驶功能 欧拉5预售价10.98万起

态度原创

房产
旅游
本地
公开课
军事航空

房产要闻

8200元/㎡!海口宝龙城,彻底杀疯了!

旅游要闻

11月13日最佳情报|济南大明湖斑斓如诗,初冬珍珠泉斑斓多姿

本地新闻

云游安徽 | 江声浩荡阅千年,文脉相承看芜湖

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美国在委内瑞拉海岸动用无人机和F-35

无障碍浏览 进入关怀版