网易首页 > 网易号 > 正文 申请入驻

广义优势估计(GAE):端策略优化PPO中偏差与方差平衡的关键技术

0
分享至

广义优势估计(Generalized Advantage Estimation, GAE)由Schulman等人在2016年的论文中提出,是近端策略优化(PPO)算法的重要基础理论,也是促使PPO成为高效强化学习算法的核心因素之一。

GAE的理论基础建立在资格迹(eligibility traces)和时序差分λ(TD-λ)之上,为深入理解GAE的核心价值,我们需要先分析其解决的根本问题。

强化学习中的核心问题

在策略梯度方法及广义强化学习框架中,信用分配问题(credit assignment problem)始终是一个关键挑战:当系统中的奖励延迟出现时,如何准确地判定哪些历史动作应当获得强化?

这一问题本质上是寻求偏差(bias)与方差(variance)之间的最佳平衡点。当算法考虑远期回报以强化当前动作时,会引入较大方差,因为准确估计真实期望回报需要大量采样轨迹。当算法仅关注短期回报时,会导致估计偏差增大,特别是当我们将状态价值估计为较小步数(如TD残差为1时)的n步回报加权平均时。

现有技术工具

在解决上述问题方面,强化学习领域已有资格迹和λ-returns等工具,以及Sutton与Barto在《强化学习导论》中详细讨论的TD-λ算法。而λ-returns方法需要完整的训练回合(episode)才能进行计算,传统TD-λ作为一个完整算法,直接将资格迹整合到梯度向量中。在PPO等现代算法中,我们期望将优势函数作为损失函数的一部分,这与TD-λ的直接应用方式不相兼容。

GAE的技术创新

广义优势估计从本质上将TD-λ的核心思想引入策略梯度方法,通过系统性地估计优势函数,使其能够有效集成到算法损失函数中。回顾优势函数的定义,它计量特定动作价值与策略预期动作价值之间的差异,即衡量某动作相比于当前策略平均表现的优劣程度。

GAE的工作原理

从直觉上理解,优势函数的构建需要准确评估状态-动作对的价值,以便测量其与状态价值函数或当前策略的偏差。由于无法直接获取真实值,需要构建既低方差又低偏差的估计器。GAE采用n步优势的指数加权平均值方法,其中单个n步优势定义为:

这些不同步长的优势估计各有特点:

上述估计中,TD(0)具有高偏差但低方差特性,而蒙特卡洛(MC)方法则表现为高方差低偏差。GAE通过对各种不同步长优势估计的加权组合,实现了在t时刻的优势估计是状态或状态-动作价值的n步估计的衰减加权和。这种方法精确地实现了我们的目标:通过引入更精确的长期估计来减小偏差,同时通过适当降低远期估计权重来控制方差。

GAE与TD-λ的技术区别

TD-λ本质上是一个完整的算法,它以"反向"方式利用资格迹,使我们能够在每个时间步进行更新,该算法将资格迹直接整合到梯度更新中:

这一特性使TD-λ成为价值函数估计的有效工具,但在策略梯度方法中,我们需要自定义损失函数(如PPO中使用的损失函数),并且优化目标是策略而非价值函数。GAE的创新之处在于找到了将这一思想应用于策略梯度方法的有效途径。

通过这种方式,GAE可以作为损失函数中需要最小化的关键组件,为策略优化提供更稳定的梯度信号。

总结

本文通过系统分析明确了GAE的技术本质、理论来源以及其在当前强化学习领域最先进算法(尤其是PPO)中的核心作用。GAE通过巧妙平衡偏差与方差,为解决强化学习中的信用分配问题提供了一种数学严谨且实用高效的方法。

https://avoid.overfit.cn/post/dac142ef48c149d0bf30066535727cb0

BoxingBytes

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
车还在,厂没了,40 万哪吒车主的尴尬

车还在,厂没了,40 万哪吒车主的尴尬

科技狐
2026-04-26 22:54:06
上海地铁互殴最新后续!双双被行拘,客服发声,知情人曝更多细节

上海地铁互殴最新后续!双双被行拘,客服发声,知情人曝更多细节

爱写的樱桃
2026-04-26 21:38:12
触目惊心!央视曝光上海一中医馆:从医生到病人全是演员!

触目惊心!央视曝光上海一中医馆:从医生到病人全是演员!

人间颂
2026-04-20 10:16:00
广东人狂喜!全国最长跨市“地铁”来了,横跨5座城市

广东人狂喜!全国最长跨市“地铁”来了,横跨5座城市

小怪吃美食
2026-04-27 12:44:55
列宁曾派特工来到中国,专门暗杀一个人:脑袋至今保存在俄博物馆

列宁曾派特工来到中国,专门暗杀一个人:脑袋至今保存在俄博物馆

抽象派大师
2026-04-25 18:39:46
南方黑芝麻创始人,被立案调查

南方黑芝麻创始人,被立案调查

第一财经资讯
2026-04-27 09:28:28
曝杨子新女友已产子!与黄圣依婚姻存续期疑云重重,去年否定关系

曝杨子新女友已产子!与黄圣依婚姻存续期疑云重重,去年否定关系

一盅情怀
2026-04-27 14:27:14
执行董事被曝“在美疑涉性侵指控”,知名公司紧急公告

执行董事被曝“在美疑涉性侵指控”,知名公司紧急公告

南方都市报
2026-04-27 14:57:10
张军被查,才看懂林丹有多狠!

张军被查,才看懂林丹有多狠!

情感大头说说
2026-04-27 13:26:29
上高环,见真章!谁是新能源车省电之王?

上高环,见真章!谁是新能源车省电之王?

Autolab
2026-04-11 23:12:59
美国已收到伊朗谈判新方案

美国已收到伊朗谈判新方案

界面新闻
2026-04-27 11:28:26
重磅!中国DDR5价格大跌!

重磅!中国DDR5价格大跌!

EETOP半导体社区
2026-04-27 08:09:41
田亮儿子照片炸锅!确实很蹊跷,网友集体催去医院

田亮儿子照片炸锅!确实很蹊跷,网友集体催去医院

南万说娱26
2026-04-27 09:22:43
上海迪士尼一男子劝阻另一男子吸烟,反被连扇巴掌、拳打脚踢!当事人删帖称“对方赔了五位数”,警方已介入

上海迪士尼一男子劝阻另一男子吸烟,反被连扇巴掌、拳打脚踢!当事人删帖称“对方赔了五位数”,警方已介入

都市快报橙柿互动
2026-04-27 14:53:19
斯诺克赛程:决出4席8强,吴宜泽生死战,火箭冲8冠,5虎变3虎?

斯诺克赛程:决出4席8强,吴宜泽生死战,火箭冲8冠,5虎变3虎?

刘姚尧的文字城堡
2026-04-27 07:56:16
太扎心!400万炒到剩20万,三年半亏掉380万

太扎心!400万炒到剩20万,三年半亏掉380万

财经智多星
2026-04-26 11:02:55
伟伟道来 | 伊朗为什么越来越强硬

伟伟道来 | 伊朗为什么越来越强硬

经济观察报
2026-04-27 12:08:53
67岁迟志强现状:出狱37年后,定居黑龙江,儿子工作令人泪目

67岁迟志强现状:出狱37年后,定居黑龙江,儿子工作令人泪目

蹲坑看世界
2026-04-25 19:10:38
科尔:我主张直接取消三分线 詹姆斯没有乔丹的威慑力和统治气场

科尔:我主张直接取消三分线 詹姆斯没有乔丹的威慑力和统治气场

罗说NBA
2026-04-27 10:09:08
芬兰外长突然发难:不和中国签自贸协定!中方一句话淡定回应

芬兰外长突然发难:不和中国签自贸协定!中方一句话淡定回应

闻识
2026-04-27 12:07:18
2026-04-27 16:08:49
deephub incentive-icons
deephub
CV NLP和数据挖掘知识
1982文章数 1461关注度
往期回顾 全部

科技要闻

DeepSeek V4上线三天,第一批实测出来了

头条要闻

美国白宫记协晚宴突发枪击事件 外交部回应

头条要闻

美国白宫记协晚宴突发枪击事件 外交部回应

体育要闻

最抽象的天才,正在改变瓜迪奥拉

娱乐要闻

黄杨钿甜为“耳环风波”出镜道歉:谣言已澄清

财经要闻

DeepSeek融资、字节加码 AI开始真烧钱了

汽车要闻

在不确定中寻找确定性:大众汽车的中国解法

态度原创

游戏
房产
旅游
本地
军事航空

GTA6引巨大争议!玩家直言30FPS根本玩不下去

房产要闻

新一轮教育大爆发来了!海口,开始疯狂建学校!

旅游要闻

“宝藏”小城,何以宁国?

本地新闻

云游中国|逛世界风筝都 留学生探秘中国传统文化

军事要闻

伊朗外长折返伊斯兰堡内情披露

无障碍浏览 进入关怀版