网易首页 > 网易号 > 正文 申请入驻

上交博士最新思考:仅用两个问题讲清强化学习

0
分享至



从「试错」到「优化」,RL 的统一思维框架。

编译丨郑佳美

编辑丨马晓宁

人工智能领域发展到现在,强化学习(RL)已经成为人工智能中最令人着迷也最核心的研究方向之一。它试图解决这样一个问题:当智能体没有现成答案时,如何通过与环境的交互,自主学会最优行为?

听起来简单,做起来却异常复杂。几十年来,研究者提出了成百上千种算法,从最早的Q-learning到后来基于深度学习的DDPG、SAC、PPO、IQL……每种方法都有自己的原理、参数与假设,看起来彼此独立,仿佛一座庞大而混乱的迷宫。

对于刚接触强化学习的人来说,这种复杂性常常令人挫败:我们似乎在学习无数名字,却始终难以看清它们之间的联系。

然而,最近有一篇由上海交通大学与上海期智研究院的博士生 Kun Lei 发布的博客提出了一个令人眼前一亮的框架:所有强化学习算法,其实都可以通过两个问题来理解,第一,数据从哪里来?第二,策略更新有多频繁?

就是这两个看似朴素的问题,像两根主线一样,把强化学习的世界重新梳理清楚。从它们出发,我们可以发现:复杂的 RL 算法不过是在这两根轴上移动的不同点位。

而当这一结构被揭示出来,整个算法逻辑突然变得直观、有序,也更容易被理解。


博客地址:https://lei-kun.github.io/blogs/rl.html

01
数据从哪里来

强化学习的过程,本质上是智能体不断收集经验、并用这些经验改进策略的循环。不同算法的差异,很大程度上取决于它们依赖什么样的数据。

最直接的方式是“在策略学习。在这种模式下,智能体一边与环境交互,一边学习。每一个动作都带来新的数据,立刻被用于更新模型。这类方法像是不断在现场实践的学生,代表算法包括 PPO、SAC 等。

在线学习的优点是灵活、适应性强,但也意味着代价高昂,每次试错都可能耗费时间、能量,甚至造成损失。

相对保守的是“离策略学习”。它允许智能体反复使用过去的经验,而不必每次都重新与环境交互。算法会把这些经验保存下来,在需要时反复采样学习。DQN、TD3、DDPG 都属于这一类。

离策略学习提高了样本利用率,也让学习过程更稳定,是许多实际应用中的主流方案。

还有一种方式更极端,叫做“离线学习”。这里,智能体完全依赖一个固定的数据集进行训练,不能再与环境交互。这种方法看似受限,但在高风险场景中却尤为重要,比如医疗、自动驾驶或机器人控制。

算法必须在不试错的情况下,从既有数据中学会尽可能好的决策,CQL、IQL 就是这类方法的代表。

从在线到离线,数据的获取方式逐渐从主动探索转向被动利用。算法的选择往往反映了任务的现实约束:能否安全地试错?能否持续获得新数据?试错的代价是否可承受?这便是强化学习的第一个维度:数据从哪里来。


02
学习更新的节奏

而强化学习的第二个维度,是学习更新的节奏。简单来说,就是智能体多久评估一次策略,又多久调整一次行为。

最简单的方式是一种“一步式学习”。智能体在一个固定的数据集上训练一次,学到一个策略后就不再改进。模仿学习就是典型例子。它速度快、风险低,适合那些对安全性要求高或数据有限的任务。

另一种方式是“多步式学习”。算法在一批数据上多次更新,直到性能收敛,再重新收集新的数据。这是一种折中策略,既避免了频繁交互的高成本,又能比一次性训练获得更好的表现。

最具代表性的是“迭代式学习”。这类算法不断在“收集数据—更新模型—再收集数据”的循环中进化,每一次交互都推动性能提升。它们像一个永不停歇的学习者,不断探索未知、修正自身。PPO 和 SAC 就是这种方式的代表。

从一步到多步,再到迭代,算法的更新节奏越来越密集,也意味着从静态到动态的转变。不同节奏之间,其实反映的是对稳定性和适应性的权衡。


03
一个更底层的统一

在讲清楚“数据从哪来”和“学习更新的节奏”这两条主线之后,博客提出了一个更底层的统一视角:无论算法形式如何变化,所有强化学习方法其实都在做两件事:评估当前策略、然后改进它。

简单来说,强化学习就像一个反复自我练习的过程:

先评估,看看自己目前的策略表现得怎样,哪些动作好、哪些不好;

再改进,根据评估结果,调整策略,让下一次决策更聪明一点。

Q-learning、PPO、SAC……看起来名字各不相同,其实都在重复这两个动作。唯一的区别,只是它们评估得方式不同改进的速度不同、或者用到的数据不同

在博客中,作者用一组公式,把这两步统一地写了出来:

评估阶段(Policy Evaluation)就是去衡量“这套策略到底值不值”。算法会让模型预测某个状态下采取某个动作能得到多大的回报,然后和实际反馈进行比较。如果误差太大,就调整模型,让它的预期更接近现实。在线算法直接用新数据计算,离线或离策略算法则要通过重要性采样、加权平均等方式修正旧数据的偏差。

改进阶段(Policy Improvement)是在得到新的评估结果后,优化策略本身。模型会倾向于选择那些带来更高期望回报的动作。但为了避免一下子“改过头”,很多算法会加上约束或正则项,比如让新策略不能偏离旧策略太多(这就是 PPO 的思想),或者在策略里保留一定的探索性(这就是 SAC 中熵正则的作用)。


从这个角度看,所谓不同的强化学习算法,其实只是这两个过程的不同实现。有的算法更注重评估的准确性,有的更强调改进的稳定性,有的频繁更新、快速迭代,有的则保守谨慎、慢慢优化。

当我们用“评估 + 改进”去看强化学习时,整个算法体系就像被抽丝剥茧地展现在眼前,所有方法都不再是孤立的技巧,而是这两个动作的不同组合。

在讲清这两条主线后,博客还进一步将视角延伸到了现实世界的智能系统,尤其是当下正在快速发展的机器人基础模型。

Kun Lei 指出这种以训练节奏为核心的思考方式,与现代机器人基础模型的训练实践高度契合。例如 Generalist 团队的 GEN-0 与 Pi 的 pi_0.5,它们的成长过程就像一台不断运转的数据飞轮。系统会持续吸收新的任务与场景,将它们整合进统一的语料库,然后周期性地进行再训练或微调。

在这样的机制下,多步式更新成为一种自然选择。每一次训练循环都带来小幅、受控的改进,既保守到能避免分布坍塌的风险,又留下足够的探索空间,使模型能够在不断扩展的数据语料中稳步成长。

并且当模型逐渐接近能力瓶颈,无论是为了超越人类在特定任务上的上限,还是为了更精准地对齐人类表现,研究者通常会转向迭代式的在线强化学习,针对特定目标进行更高频、更精细的评估与改进。

这种从多步更新向在线迭代过渡的训练策略,已在实践中被多次验证有效,例如在 rl-100 等典型设定中,多步更新已经能够在有限数据下取得稳定进步,而适量的在线 RL 则能在保持安全与稳定的前提下,将模型性能进一步推高。

04
走在 RL 前沿的年轻研究者


作者主页:https://lei-kun.github.io/?utm

这篇博客的作者 Kun Lei 目前是上海交通大学与上海期智研究院的博士生,师从清华大学许华哲教授。

Kun Lei 毕业于西南交通大学,在本科阶段就开始从事人工智能与优化相关的研究,并曾与西南交通大学的郭鹏教授以及美国奥本大学的王毅教授合作开展科研工作。

在读博之前,他曾在上海期智研究院担任研究助理,与许华哲教授共同进行强化学习和机器人智能方向的研究,后来又在西湖大学进行了为期四个月的科研实习,主要探索具身智能与强化学习算法在真实环境中的应用。

Kun Lei 的研究方向涵盖深度强化学习、具身智能与机器人学习。相比单纯追求算法指标,他更关心这些算法如何真正落地,怎样让强化学习不仅在仿真环境中有效,也能在真实的机器人系统中稳定工作,怎样让智能体在有限的数据下快速学习、灵活适应。

同时从他的博客也能看出,Kun Lei 的研究风格兼具工程实践与直觉思考,他追求的不是更复杂的模型,而是更清晰的理解。这篇关于强化学习的文章正体现了这种思路,他没有堆叠晦涩的公式,而是用两个最本质的问题,理出强化学习背后的逻辑主线。

而强化学习之所以让人望而却步,是因为它的理论体系庞大、公式繁复。初学者常常被各种贝尔曼方程、策略梯度、折扣回报等概念包围,每一个术语都能展开成几页推导,但却难以抓住核心。

这篇博客的价值就在于,它把这一切重新拉回了原点。作者没有从复杂的数学出发,而是提出两个最简单的问题:数据从哪里来?策略更新有多频繁?

这看似朴素的提问,其实触及了强化学习的根。它帮助读者重新看见算法的结构,不同方法之间不再是孤立的技巧,而是围绕这两个维度的不同取舍。通过这样的视角,强化学习那片看似混乱的森林,突然变得有路可循。

更重要的是,这种思路不仅仅是一种讲解方式,更是一种思考问题的习惯。它提醒我们,复杂系统的背后往往隐藏着最简单的规律,只是被层层公式和术语掩盖。当我们回到原理本身,用结构化的方式去理解问题,复杂性就不再是障碍。

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
金鸡奖红毯生图来了!倪妮珠宝抢镜,关晓彤背厚,辛芷蕾礼服过季

金鸡奖红毯生图来了!倪妮珠宝抢镜,关晓彤背厚,辛芷蕾礼服过季

萌神木木
2025-11-15 18:38:53
突发特讯!中国海事局通告全球:黄海中部实弹射击,禁止驶入,引发美西方高度关注

突发特讯!中国海事局通告全球:黄海中部实弹射击,禁止驶入,引发美西方高度关注

青风点评
2025-11-15 16:43:15
日本野心藏不住了?一旦开战,我军将如何吊打日军?

日本野心藏不住了?一旦开战,我军将如何吊打日军?

兵国大事
2025-11-15 00:45:04
一把大火烧出真相!文昌阁的“钢筋铁骨”,还算哪门子古建筑?

一把大火烧出真相!文昌阁的“钢筋铁骨”,还算哪门子古建筑?

GA环球建筑
2025-11-15 11:43:49
郑丽文接受日媒专访倡导“一中保台”,反对大幅增加军费

郑丽文接受日媒专访倡导“一中保台”,反对大幅增加军费

海峡导报社
2025-11-15 08:03:07
今年以来,中国已经垮塌了3座特大桥

今年以来,中国已经垮塌了3座特大桥

基本常识
2025-11-14 23:37:04
从火爆全国到集体关门,兰州拉面为啥逐渐消失了?被坑过后就懂了

从火爆全国到集体关门,兰州拉面为啥逐渐消失了?被坑过后就懂了

米果说识
2025-11-15 14:31:57
孙颖莎4-1逆转朱雨玲晋级决赛!后三局全是反超,下轮战王曼昱!

孙颖莎4-1逆转朱雨玲晋级决赛!后三局全是反超,下轮战王曼昱!

篮球资讯达人
2025-11-15 21:39:34
对话|日本问题权威专家:不能将高市早苗涉台言论视为偶然和孤立性事件

对话|日本问题权威专家:不能将高市早苗涉台言论视为偶然和孤立性事件

澎湃新闻
2025-11-14 15:12:30
11月15日俄乌最新:转折点来了?

11月15日俄乌最新:转折点来了?

西楼饮月
2025-11-15 13:27:48
李连杰风波再升级!业内大V曝有钱人更多内幕,不止是换器官而已

李连杰风波再升级!业内大V曝有钱人更多内幕,不止是换器官而已

古希腊掌管月桂的神
2025-11-15 15:23:34
美国将拒绝肥胖外国人入境,白宫发言人安娜·凯利:美国国务院有权拒绝给纳税人带来经济负担的签证申请人

美国将拒绝肥胖外国人入境,白宫发言人安娜·凯利:美国国务院有权拒绝给纳税人带来经济负担的签证申请人

观威海
2025-11-15 15:26:04
日本议员:受降的是中华民国,新中国没资格说话!网友:那更好了

日本议员:受降的是中华民国,新中国没资格说话!网友:那更好了

青青子衿
2025-11-15 15:51:35
泰王来了,他在破除一个魔咒

泰王来了,他在破除一个魔咒

虚声
2025-11-15 19:59:17
日本机票大涨,三大航司免费退改签!这是航空公司与国人间的默契

日本机票大涨,三大航司免费退改签!这是航空公司与国人间的默契

垛垛糖
2025-11-15 22:16:27
乌克兰F16一夜连发45枚导弹!扎波罗热俄军大桥被摧毁

乌克兰F16一夜连发45枚导弹!扎波罗热俄军大桥被摧毁

项鹏飞
2025-11-15 16:16:24
正部级蔡名照、叶冬松、黄明、宋秀岩、冯正霖、许又声、苗圩、傅自应、欧阳坚、黄建盛,有新任务

正部级蔡名照、叶冬松、黄明、宋秀岩、冯正霖、许又声、苗圩、傅自应、欧阳坚、黄建盛,有新任务

新京报政事儿
2025-11-15 20:41:56
宋佳获得金鸡奖最佳女主角

宋佳获得金鸡奖最佳女主角

界面新闻
2025-11-15 21:48:28
金鸡奖获奖名单出炉!易烊千玺影帝宋佳二封影后,张艺谋惹争议

金鸡奖获奖名单出炉!易烊千玺影帝宋佳二封影后,张艺谋惹争议

萌神木木
2025-11-15 22:11:55
神 21 成功着陆!返回地球后第一顿饭,3 名航天员都点了这道餐食

神 21 成功着陆!返回地球后第一顿饭,3 名航天员都点了这道餐食

寒士之言本尊
2025-11-15 16:41:39
2025-11-16 01:00:49
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
6976文章数 20706关注度
往期回顾 全部

科技要闻

撕掉流量外衣,小米还剩什么?

头条要闻

中方愤怒升级24小时内2次"奉示约见" 高市又有新动作

头条要闻

中方愤怒升级24小时内2次"奉示约见" 高市又有新动作

体育要闻

樊振东和他的尖子班 勇闯地表最强乒乓球赛

娱乐要闻

钟嘉欣婚变风波升级!被骗婚?

财经要闻

小米之“惑”

汽车要闻

"冰彩沙"全配齐 红旗HS6 PHEV预售17.88万起

态度原创

数码
家居
教育
时尚
军事航空

数码要闻

华为Mate 80全系支持3D人脸识别,同期还有高端“二合一平板电脑”

家居要闻

现代简逸 寻找生活的光

教育要闻

天塌了啊:英国大学又开始搞大裁员了!

有品味的中年女人,穿衣都有4个共同点,看看你掌握了几个

军事要闻

解密福建舰电磁弹射背后的硬核支撑

无障碍浏览 进入关怀版