网易首页 > 网易号 > 正文 申请入驻

广义优势估计(GAE):端策略优化PPO中偏差与方差平衡的关键技术

0
分享至

广义优势估计(Generalized Advantage Estimation, GAE)由Schulman等人在2016年的论文中提出,是近端策略优化(PPO)算法的重要基础理论,也是促使PPO成为高效强化学习算法的核心因素之一。

GAE的理论基础建立在资格迹(eligibility traces)和时序差分λ(TD-λ)之上,为深入理解GAE的核心价值,我们需要先分析其解决的根本问题。

强化学习中的核心问题

在策略梯度方法及广义强化学习框架中,信用分配问题(credit assignment problem)始终是一个关键挑战:当系统中的奖励延迟出现时,如何准确地判定哪些历史动作应当获得强化?

这一问题本质上是寻求偏差(bias)与方差(variance)之间的最佳平衡点。当算法考虑远期回报以强化当前动作时,会引入较大方差,因为准确估计真实期望回报需要大量采样轨迹。当算法仅关注短期回报时,会导致估计偏差增大,特别是当我们将状态价值估计为较小步数(如TD残差为1时)的n步回报加权平均时。

现有技术工具

在解决上述问题方面,强化学习领域已有资格迹和λ-returns等工具,以及Sutton与Barto在《强化学习导论》中详细讨论的TD-λ算法。而λ-returns方法需要完整的训练回合(episode)才能进行计算,传统TD-λ作为一个完整算法,直接将资格迹整合到梯度向量中。在PPO等现代算法中,我们期望将优势函数作为损失函数的一部分,这与TD-λ的直接应用方式不相兼容。

GAE的技术创新

广义优势估计从本质上将TD-λ的核心思想引入策略梯度方法,通过系统性地估计优势函数,使其能够有效集成到算法损失函数中。回顾优势函数的定义,它计量特定动作价值与策略预期动作价值之间的差异,即衡量某动作相比于当前策略平均表现的优劣程度。

GAE的工作原理

从直觉上理解,优势函数的构建需要准确评估状态-动作对的价值,以便测量其与状态价值函数或当前策略的偏差。由于无法直接获取真实值,需要构建既低方差又低偏差的估计器。GAE采用n步优势的指数加权平均值方法,其中单个n步优势定义为:

这些不同步长的优势估计各有特点:

上述估计中,TD(0)具有高偏差但低方差特性,而蒙特卡洛(MC)方法则表现为高方差低偏差。GAE通过对各种不同步长优势估计的加权组合,实现了在t时刻的优势估计是状态或状态-动作价值的n步估计的衰减加权和。这种方法精确地实现了我们的目标:通过引入更精确的长期估计来减小偏差,同时通过适当降低远期估计权重来控制方差。

GAE与TD-λ的技术区别

TD-λ本质上是一个完整的算法,它以"反向"方式利用资格迹,使我们能够在每个时间步进行更新,该算法将资格迹直接整合到梯度更新中:

这一特性使TD-λ成为价值函数估计的有效工具,但在策略梯度方法中,我们需要自定义损失函数(如PPO中使用的损失函数),并且优化目标是策略而非价值函数。GAE的创新之处在于找到了将这一思想应用于策略梯度方法的有效途径。

通过这种方式,GAE可以作为损失函数中需要最小化的关键组件,为策略优化提供更稳定的梯度信号。

总结

本文通过系统分析明确了GAE的技术本质、理论来源以及其在当前强化学习领域最先进算法(尤其是PPO)中的核心作用。GAE通过巧妙平衡偏差与方差,为解决强化学习中的信用分配问题提供了一种数学严谨且实用高效的方法。

https://avoid.overfit.cn/post/dac142ef48c149d0bf30066535727cb0

BoxingBytes

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
埃及人的「国菜」,每年有多少人吃进医院?

埃及人的「国菜」,每年有多少人吃进医院?

病理青年
2026-04-09 18:52:51
准备开抢!美媒晒字母哥4笔交易方案:火箭5换1卖申京打造双超巨

准备开抢!美媒晒字母哥4笔交易方案:火箭5换1卖申京打造双超巨

锅子篮球
2026-04-10 22:46:29
2025年我国留学回国人数达53.56万

2025年我国留学回国人数达53.56万

澎湃新闻
2026-04-10 10:00:07
阿莱格里:皇马对拜仁是顶级享受,终场哨响时我甚至有些遗憾

阿莱格里:皇马对拜仁是顶级享受,终场哨响时我甚至有些遗憾

懂球帝
2026-04-11 01:04:02
文章新饭店开张!开业当天人气爆满,文章戴婚戒抱着婴儿在店合影

文章新饭店开张!开业当天人气爆满,文章戴婚戒抱着婴儿在店合影

一盅情怀
2026-04-10 15:38:43
中央明确:社保最低缴费年限要提高,70、80后早做准备

中央明确:社保最低缴费年限要提高,70、80后早做准备

混沌录
2026-04-10 17:39:15
迟重瑞,已皈依佛门,不生孩子家族显赫,财富差距掩盖了他的才华

迟重瑞,已皈依佛门,不生孩子家族显赫,财富差距掩盖了他的才华

混沌录
2026-04-09 18:45:25
159名球员票选MVP:亚历山大得票率39%居首 文班亚马意外没进前五

159名球员票选MVP:亚历山大得票率39%居首 文班亚马意外没进前五

罗说NBA
2026-04-10 22:00:23
文章上海开陕菜馆爆火!女儿打头阵捧场,手上婚戒引全网猜测

文章上海开陕菜馆爆火!女儿打头阵捧场,手上婚戒引全网猜测

老特有话说
2026-04-10 12:58:01
南宁市伊岭工业发展管理委员会四级调研员潘肖良接受审查调查

南宁市伊岭工业发展管理委员会四级调研员潘肖良接受审查调查

武鸣论坛网
2026-04-10 15:41:08
人民日报都下场了!张雪夺冠没火,12天后在墨西哥火得一塌糊涂

人民日报都下场了!张雪夺冠没火,12天后在墨西哥火得一塌糊涂

林雁飞
2026-04-10 13:36:45
涉嫌严重违纪违法,江苏2名干部被查

涉嫌严重违纪违法,江苏2名干部被查

东南西北侃
2026-04-09 18:28:30
黄景瑜王玉雯双方否认恋情!聚会细节被扒于适在场,带了一箱茅台

黄景瑜王玉雯双方否认恋情!聚会细节被扒于适在场,带了一箱茅台

萌神木木
2026-04-10 12:08:58
导弹生产技术转让给中国!只因三次雪中送炭,美俄看了也“眼红“

导弹生产技术转让给中国!只因三次雪中送炭,美俄看了也“眼红“

芳芳历史烩
2026-04-10 20:53:57
现在朝鲜的女人们也穿上黑丝袜了,很美

现在朝鲜的女人们也穿上黑丝袜了,很美

微微热评
2026-04-10 13:07:53
“我女儿敢这样,腿给砸断”,宝妈晒2个女儿出门,装束让人怒了

“我女儿敢这样,腿给砸断”,宝妈晒2个女儿出门,装束让人怒了

蝴蝶花雨话教育
2026-04-10 13:01:09
儿科专家林晓洁:多煮这碗“长高汤”,孩子少生病、个子往上蹿!

儿科专家林晓洁:多煮这碗“长高汤”,孩子少生病、个子往上蹿!

大明爱养生
2026-04-08 14:36:52
越打越好!二年级的布朗尼,打出55顺位表现了吗?

越打越好!二年级的布朗尼,打出55顺位表现了吗?

篮球实录
2026-04-10 17:56:24
绍兴一博物馆战国青铜剑被指多处“拼接痕”,库保员:入库时登记“完整”,但“拼接痕”说不清楚

绍兴一博物馆战国青铜剑被指多处“拼接痕”,库保员:入库时登记“完整”,但“拼接痕”说不清楚

新京报
2026-04-10 16:44:49
筱梅更新动态!今天回北京,已在候机室等待,回京前和闺蜜聚餐

筱梅更新动态!今天回北京,已在候机室等待,回京前和闺蜜聚餐

潮鹿逐梦
2026-04-10 17:31:53
2026-04-11 01:39:00
deephub incentive-icons
deephub
CV NLP和数据挖掘知识
1972文章数 1461关注度
往期回顾 全部

科技要闻

马斯克狂发大火箭也养不起AI 年亏50亿美元

头条要闻

特朗普:美军舰已装最先进武器 未来24小时成关键窗口

头条要闻

特朗普:美军舰已装最先进武器 未来24小时成关键窗口

体育要闻

17岁赚了一百万美元,25岁被CBA裁员

娱乐要闻

黄景瑜王玉雯否认恋情!聚会细节被扒

财经要闻

李强主持召开经济形势专家和企业家座谈会

汽车要闻

搭载第二代刀片电池及闪充技术 腾势N8L闪充版预售35万起

态度原创

教育
家居
时尚
房产
健康

教育要闻

山东中考数学,0的倒数是多少?

家居要闻

复古风格 自然简约

今日热点:陈添祥长文道歉;夏克立曾给前经纪人传上厕所照片……

房产要闻

28条新规落地!好房子,终于有了“广州标准”!

干细胞抗衰4大误区,90%的人都中招

无障碍浏览 进入关怀版