网易首页 > 网易号 > 正文 申请入驻

清华打破强化学习安全性悖论,14项测试基准任务全SOTA

0
分享至


新智元报道

编辑:LRST

【新智元导读】清华大学李升波教授团队提出RACS算法,通过引入「探险者」策略主动探索违规边界,破解安全强化学习的「安全性悖论」。该方法在不增加采样成本的前提下,显著提升违规样本质量与系统安全认知,实现安全与性能的双赢,刷新多项基准的SOTA成绩。

随着强化学习(RL)在虚拟世界的统治级表现,将其迁移至自动驾驶、机器人控制等真实物理系统已成为行业共识。然而,物理世界的高风险特性画出了一道不可逾越的红线——「零约束违反」。

为了守住这道红线,学界提出了多种方案:OpenAI结合拉格朗日乘子法动态权衡安全与性能,UC Berkeley提出的CPO算法利用信赖域将策略限制在可行空间内。

然而,现有方法始终面临一个核心痛点:策略难以做到严格的「零违反」。大多数算法只能将违规控制在极低水平,一旦试图追求绝对的零违规,就会遭遇巨大阻力。

清华大学李升波教授课题组于安全强化学习领域获得突破性进展,首次在理论层面揭示并证明了安全强化学习(Safe RL)中的一个反直觉现象——「安全性悖论」(Safety Paradox):策略越追求安全,反而可能越不安全。


论文链接:https://openreview.net/forum?id=BHSSV1nHvU

代码仓库:https://github.com/yangyujie-jack/Feasible-Dual-Policy-Iteration

在安全强化学习中,智能体通常依赖交互数据学习一个可行性函数(Feasibility Function),以此判断当前状态是否长期安全,从而规避危险区域。

然而,研究通过严格的理论证明揭示了一个严峻事实:

随着策略变得越来越安全,其产生的违规样本会变得极度稀疏。这直接导致可行性函数的估计误差急剧增大,进而使指导策略优化的约束函数出现偏差,最终导致策略安全性崩塌。

这就像一个从未见过悬崖的人,在行走时即便再小心翼翼,也会因为缺乏对「悬崖边缘」的确切认知,而无法精准判断危险界限究竟在哪里。越是刻意追求安全,对危险边界的认知就越模糊,最终反而导致安全防线失效。 这就是所谓的「安全性悖论」——策略陷入了一个自我挫败的死循环。


针对这一困境,团队提出了Region-wise Actor-Critic-Scenery(RACS)算法,通过引入专门收集违规样本的「探险者」策略,成功打破悖论,在权威基准Safety-Gymnasium上刷新了SOTA成绩,该工作发表于人工智能顶会ICLR 2026。

破局之道RACS算法

既然「不敢越雷池一步」会导致认知盲区,那么破解之道便是主动探险、直面危险。

研究团队提出了Region-wise Actor-Critic-Scenery(RACS)算法,创造性地引入了双策略架构:

(1)原始策略(Primal Policy):扮演「守规矩的执行者」。它负责在满足安全约束的前提下,尽可能最大化任务奖励。

(2)对偶策略(Dual Policy):扮演「无畏的探险者」。它的目标与前者相反,旨在策略性地最大化约束违反,主动触探原始策略不敢涉足的危险边界。

通过这种「左右互搏」的机制,RACS在不增加总采样成本的前提下,显著提升了关键违规样本的比例,从而让系统对「安全边界」有了清晰、精准的认知。

为了解决双策略数据混合带来的分布偏移(Distributional Shift)问题,RACS采用了重要性采样(Importance Sampling)技术进行数学修正,并约束对偶策略与原始策略间的KL散度,确保训练过程的平稳收敛。


实验结果:刷新SOTA

研究团队在安全强化学习权威基准Safety-Gymnasium上进行了广泛验证。结果表明,RACS在14项任务中的综合性能达到了State-of-the-art(SOTA)水平:



(1)安全性显著提升RACS实现了最低的平均约束违反次数(Cost),显著优于现有的拉格朗日乘子法或信赖域方法。特别是在HalfCheetahVelocity、Walker2dVelocity等任务中,实现了严格的零约束违反

(2)控制性能无退化在保证安全性的同时,RACS的平均累积回报(Return)依然位居榜首,实现了安全与性能的双赢。在高维的HumanoidVelocity、复杂的PointPush(推箱子导航避障)等多项高难度任务中,安全指标与任务性能均名列前茅。

为探究性能提升的根本原因,研究团队统计了增加对偶策略后的关键指标变化:




(1)违规样本显著增加:在所有 14 项任务中,对偶策略成功采集了大量高价值的违规样本,大部分任务中的样本量提升了一个数量级。

(2)估计误差大幅降低:统计显示,可行性函数的拟合误差显著减小,尤其是「低估风险」(误差小于零)的频率大幅降低。这意味着系统不再将危险状态误判为安全,从而从根本上提升了策略的安全性。

总结与展望

该研究从理论上揭示了强化学习中的「安全性悖论」,阐明了违规样本稀疏性与可行性函数估计误差之间的内在因果。

RACS算法通过对偶策略的「对抗式」探索打破了「安全性悖论」,证明了一个深刻的道理:为了真正的安全,必须充分地了解危险。

该研究为自动驾驶、机器人等高风险场景下的强化学习落地提供了坚实的理论基础与有效的解决方案。

参考资料:

https://openreview.net/forum?id=BHSSV1nHvU

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中方拒收道歉,日本自卫官被转移,小泉进次郎沉默24小时后发声

中方拒收道歉,日本自卫官被转移,小泉进次郎沉默24小时后发声

何氽简史
2026-03-26 15:40:58
医保大变革!4月1日执行,取消备案、全家共济、药店可报销

医保大变革!4月1日执行,取消备案、全家共济、药店可报销

复转这些年
2026-03-26 09:27:58
教育部宣布中考重大变革,取消 5:5 分流,升学规则将全面调整?

教育部宣布中考重大变革,取消 5:5 分流,升学规则将全面调整?

今朝牛马
2026-03-26 20:22:18
张本智和回击中国网友:我是自愿加入日本籍的,凭啥让我滚出四川?哭诉:那是我老家

张本智和回击中国网友:我是自愿加入日本籍的,凭啥让我滚出四川?哭诉:那是我老家

乒乓网国球汇
2026-03-27 00:03:40
日本网民真怕了,呼吁严惩闯入中国使馆的暴徒,防止226事件再现

日本网民真怕了,呼吁严惩闯入中国使馆的暴徒,防止226事件再现

知法而形
2026-03-25 18:38:56
一觉醒来,大量美军逃匿!伊朗全力搜捕!美议长透露重要信息

一觉醒来,大量美军逃匿!伊朗全力搜捕!美议长透露重要信息

安安说
2026-03-26 13:00:12
周杰伦继续割韭菜!网友一针见血:他唯一和华流关系最大的是割大陆韭菜

周杰伦继续割韭菜!网友一针见血:他唯一和华流关系最大的是割大陆韭菜

爆角追踪
2026-03-26 08:56:24
郭正亮直播突发脸歪嘴斜,连夜就医引全网担忧:别像张雪峰那样拼

郭正亮直播突发脸歪嘴斜,连夜就医引全网担忧:别像张雪峰那样拼

行者聊官
2026-03-26 11:56:25
商务部:中方将自5月1日起对所有非洲建交国全面实施零关税举措

商务部:中方将自5月1日起对所有非洲建交国全面实施零关税举措

界面新闻
2026-03-26 16:08:24
我国航空发动机领域著名专家严红病逝,年仅57岁

我国航空发动机领域著名专家严红病逝,年仅57岁

澎湃新闻
2026-03-26 11:40:26
宋喆出狱后现状:县城搬菜月入三千,前妻杨慧横店开公司年入千万

宋喆出狱后现状:县城搬菜月入三千,前妻杨慧横店开公司年入千万

一盅情怀
2026-03-26 14:47:59
广东女子十几万爱马仕包被狗啃坏,配色稀有没法修复,回应:心疼包,更担心狗子的肠胃

广东女子十几万爱马仕包被狗啃坏,配色稀有没法修复,回应:心疼包,更担心狗子的肠胃

大象新闻
2026-03-26 13:53:02
41岁张雪峰去世后续,其婚姻被扒,已离婚6年,前妻很低调

41岁张雪峰去世后续,其婚姻被扒,已离婚6年,前妻很低调

180视角
2026-03-26 13:01:03
罗技中国致歉

罗技中国致歉

界面新闻
2026-03-26 23:25:51
砸6700亿建雄安,面积抵3个纽约,如今究竟咋样了?

砸6700亿建雄安,面积抵3个纽约,如今究竟咋样了?

娱乐圈的笔娱君
2026-03-26 12:15:32
中共中央批准,开除刘慧党籍

中共中央批准,开除刘慧党籍

新京报
2026-03-26 17:14:17
翻到张雪峰2016年婚纱照,瞬间看哭了!

翻到张雪峰2016年婚纱照,瞬间看哭了!

魔都姐姐杂谈
2026-03-26 22:06:50
岛上设陷阱,海上堵两头!伊朗布下天罗地网,曼德海峡将成美国经济新“放血点”?

岛上设陷阱,海上堵两头!伊朗布下天罗地网,曼德海峡将成美国经济新“放血点”?

红星新闻
2026-03-26 18:34:31
勇敢发声!科威特记者联合国痛批“反以仪式”

勇敢发声!科威特记者联合国痛批“反以仪式”

Nee看
2026-03-26 14:15:21
联大通过决议,宣布“最严重反人类罪”

联大通过决议,宣布“最严重反人类罪”

澎湃新闻
2026-03-26 11:03:06
2026-03-27 03:48:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14821文章数 66720关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

艺术
家居
亲子
房产
公开课

艺术要闻

北京大兴机场和青岛胶东机场“撞脸”,长得像就是抄袭?

家居要闻

傍海而居 静观蝴蝶海

亲子要闻

试工育儿嫂被查出传染病,宝妈崩溃!家政服务“健康关”如何保障?

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版