网易首页 > 网易号 > 正文 申请入驻

清华打破强化学习安全性悖论,14项测试基准任务全SOTA

0
分享至

来源:市场资讯

(来源:新智元)


新智元报道

编辑:LRST

【新智元导读】清华大学李升波教授团队提出RACS算法,通过引入「探险者」策略主动探索违规边界,破解安全强化学习的「安全性悖论」。该方法在不增加采样成本的前提下,显著提升违规样本质量与系统安全认知,实现安全与性能的双赢,刷新多项基准的SOTA成绩。

随着强化学习(RL)在虚拟世界的统治级表现,将其迁移至自动驾驶、机器人控制等真实物理系统已成为行业共识。然而,物理世界的高风险特性画出了一道不可逾越的红线——「零约束违反」。

为了守住这道红线,学界提出了多种方案:OpenAI结合拉格朗日乘子法动态权衡安全与性能,UC Berkeley提出的CPO算法利用信赖域将策略限制在可行空间内。

然而,现有方法始终面临一个核心痛点:策略难以做到严格的「零违反」。大多数算法只能将违规控制在极低水平,一旦试图追求绝对的零违规,就会遭遇巨大阻力。

清华大学李升波教授课题组于安全强化学习领域获得突破性进展,首次在理论层面揭示并证明了安全强化学习(Safe RL)中的一个反直觉现象——「安全性悖论」(Safety Paradox):策略越追求安全,反而可能越不安全。


论文链接:https://openreview.net/forum?id=BHSSV1nHvU

代码仓库:https://github.com/yangyujie-jack/Feasible-Dual-Policy-Iteration

在安全强化学习中,智能体通常依赖交互数据学习一个可行性函数(Feasibility Function),以此判断当前状态是否长期安全,从而规避危险区域。

然而,研究通过严格的理论证明揭示了一个严峻事实:

随着策略变得越来越安全,其产生的违规样本会变得极度稀疏。这直接导致可行性函数的估计误差急剧增大,进而使指导策略优化的约束函数出现偏差,最终导致策略安全性崩塌。

这就像一个从未见过悬崖的人,在行走时即便再小心翼翼,也会因为缺乏对「悬崖边缘」的确切认知,而无法精准判断危险界限究竟在哪里。越是刻意追求安全,对危险边界的认知就越模糊,最终反而导致安全防线失效。 这就是所谓的「安全性悖论」——策略陷入了一个自我挫败的死循环。


针对这一困境,团队提出了Region-wise Actor-Critic-Scenery(RACS)算法,通过引入专门收集违规样本的「探险者」策略,成功打破悖论,在权威基准Safety-Gymnasium上刷新了SOTA成绩,该工作发表于人工智能顶会ICLR 2026。

破局之道RACS算法

既然「不敢越雷池一步」会导致认知盲区,那么破解之道便是主动探险、直面危险。

研究团队提出了Region-wise Actor-Critic-Scenery(RACS)算法,创造性地引入了双策略架构:

(1)原始策略(Primal Policy):扮演「守规矩的执行者」。它负责在满足安全约束的前提下,尽可能最大化任务奖励。

(2)对偶策略(Dual Policy):扮演「无畏的探险者」。它的目标与前者相反,旨在策略性地最大化约束违反,主动触探原始策略不敢涉足的危险边界。

通过这种「左右互搏」的机制,RACS在不增加总采样成本的前提下,显著提升了关键违规样本的比例,从而让系统对「安全边界」有了清晰、精准的认知。

为了解决双策略数据混合带来的分布偏移(Distributional Shift)问题,RACS采用了重要性采样(Importance Sampling)技术进行数学修正,并约束对偶策略与原始策略间的KL散度,确保训练过程的平稳收敛。


实验结果:刷新SOTA

研究团队在安全强化学习权威基准Safety-Gymnasium上进行了广泛验证。结果表明,RACS在14项任务中的综合性能达到了State-of-the-art(SOTA)水平:



(1)安全性显著提升:RACS实现了最低的平均约束违反次数(Cost),显著优于现有的拉格朗日乘子法或信赖域方法。特别是在HalfCheetahVelocity、Walker2dVelocity等任务中,实现了严格的零约束违反。

(2)控制性能无退化:在保证安全性的同时,RACS的平均累积回报(Return)依然位居榜首,实现了安全与性能的双赢。在高维的HumanoidVelocity、复杂的PointPush(推箱子导航避障)等多项高难度任务中,安全指标与任务性能均名列前茅。

为探究性能提升的根本原因,研究团队统计了增加对偶策略后的关键指标变化:




(1)违规样本显著增加:在所有 14 项任务中,对偶策略成功采集了大量高价值的违规样本,大部分任务中的样本量提升了一个数量级。

(2)估计误差大幅降低:统计显示,可行性函数的拟合误差显著减小,尤其是「低估风险」(误差小于零)的频率大幅降低。这意味着系统不再将危险状态误判为安全,从而从根本上提升了策略的安全性。

总结与展望

该研究从理论上揭示了强化学习中的「安全性悖论」,阐明了违规样本稀疏性与可行性函数估计误差之间的内在因果。

RACS算法通过对偶策略的「对抗式」探索打破了「安全性悖论」,证明了一个深刻的道理:为了真正的安全,必须充分地了解危险。

该研究为自动驾驶、机器人等高风险场景下的强化学习落地提供了坚实的理论基础与有效的解决方案。

参考资料:

https://openreview.net/forum?id=BHSSV1nHvU

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
记者:麦基和老鹰的合同将于月底终止,预计第二阶段亮相CBA

记者:麦基和老鹰的合同将于月底终止,预计第二阶段亮相CBA

懂球帝
2026-02-16 06:53:15
“最惨超女”黄雅莉:没工作没积蓄,34岁生子后住5平米的小屋

“最惨超女”黄雅莉:没工作没积蓄,34岁生子后住5平米的小屋

地理三体说
2026-01-29 21:40:34
宋丹丹到儿子家过年!巴图住200平房子很空荡,婆媳关系让人羡慕

宋丹丹到儿子家过年!巴图住200平房子很空荡,婆媳关系让人羡慕

王二哥老搞笑
2026-02-16 22:33:10
MAGA内战爆发!特朗普的“圣旨”失灵了?

MAGA内战爆发!特朗普的“圣旨”失灵了?

华人星光
2026-02-16 11:13:21
泰山队教练组有内鬼专门泄密,两年前就有端倪,崔康熙曾大发雷霆

泰山队教练组有内鬼专门泄密,两年前就有端倪,崔康熙曾大发雷霆

姜大叔侃球
2026-02-16 17:02:47
高市将访华消息一出,中日航线骤减,中方开始算总账

高市将访华消息一出,中日航线骤减,中方开始算总账

清欢百味
2026-02-15 23:12:34
OpenClaw创始人加入OpenAI,目标“开发一款连我妈妈都能用的AI助手”

OpenClaw创始人加入OpenAI,目标“开发一款连我妈妈都能用的AI助手”

华尔街见闻官方
2026-02-16 09:15:27
美国一富豪被冷冻50年,原定2017年苏醒,解冻时工作人员紧急叫停

美国一富豪被冷冻50年,原定2017年苏醒,解冻时工作人员紧急叫停

蜉蝣说
2025-12-01 11:20:58
恩爱相伴26年,75岁张艺谋再次官宣新消息,陈婷嫁对了人

恩爱相伴26年,75岁张艺谋再次官宣新消息,陈婷嫁对了人

冷紫葉
2026-02-15 11:11:43
上海炒股大赛冠军的箴言:如果手里只有10万,不妨死磕"七大口诀"

上海炒股大赛冠军的箴言:如果手里只有10万,不妨死磕"七大口诀"

一方聊市
2026-01-19 13:13:48
定期存款年利率1.8%,都没有人存了,银行员工:储户都在想什么?

定期存款年利率1.8%,都没有人存了,银行员工:储户都在想什么?

平说财经
2026-02-08 21:53:14
倒在黎明前的生鲜鼻祖,反被700万人封神

倒在黎明前的生鲜鼻祖,反被700万人封神

金错刀
2026-02-14 17:18:33
为什么领导很少生病请假,总是精力充沛?主要有这4点

为什么领导很少生病请假,总是精力充沛?主要有这4点

细说职场
2026-02-11 17:27:08
夫妻性生活的“黄金时长”是多少?别再被电影骗了!

夫妻性生活的“黄金时长”是多少?别再被电影骗了!

精彩分享快乐
2025-11-29 00:00:03
荷兰明要抢,英国要明抢,澳大利亚要明抢,巴拿马也要明抢……

荷兰明要抢,英国要明抢,澳大利亚要明抢,巴拿马也要明抢……

百态人间
2026-02-04 15:52:55
不懂编程用AI智能体赚200万?我试了,到不了200

不懂编程用AI智能体赚200万?我试了,到不了200

小小河
2026-02-17 00:09:55
任弼时46岁时猝然离世,毛主席为党中央定下一条规矩,用意深远

任弼时46岁时猝然离世,毛主席为党中央定下一条规矩,用意深远

寄史言志
2026-02-15 15:07:08
人口加速下滑,中国距离“6、7年减少1 亿”还有多远?

人口加速下滑,中国距离“6、7年减少1 亿”还有多远?

老了才懂
2026-02-17 00:00:06
问界销量靠M7撑着,其他车型集体掉队,品牌根基开始晃了

问界销量靠M7撑着,其他车型集体掉队,品牌根基开始晃了

趣味萌宠的日常
2026-02-17 02:12:30
放心吧,我们不是日本,也不会有“失去的三十年”

放心吧,我们不是日本,也不会有“失去的三十年”

六爷阿旦
2026-01-19 17:10:26
2026-02-17 03:32:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2224282文章数 5488关注度
往期回顾 全部

科技要闻

阿里除夕发布千问3.5,性能媲美Gemini 3

头条要闻

日方宣称向中方提出交涉 中使馆驳斥

头条要闻

日方宣称向中方提出交涉 中使馆驳斥

体育要闻

全明星正赛美国星辰队夺冠 爱德华兹MVP

娱乐要闻

王菲六登春晚献唱 水滴钻石耳环再出圈

财经要闻

2025,中国商业十大意外,黄金只排第九

汽车要闻

叫停纯屏操作 工信部拟推车内实体操作件强制国标

态度原创

艺术
游戏
本地
教育
军事航空

艺术要闻

名家笔下话过年,别有风味!

索尼又背刺PS5Pro用户?独占《战神》新作不支持强化

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

教育要闻

2025智慧家长家教好故事分享会大年初一19:32开播!

军事要闻

慕安会美国角色逆转 中国议题"打满全场"

无障碍浏览 进入关怀版