网易首页 > 网易号 > 正文 申请入驻

清华打破强化学习安全性悖论,14项测试基准任务全SOTA

0
分享至


新智元报道

编辑:LRST

【新智元导读】清华大学李升波教授团队提出RACS算法,通过引入「探险者」策略主动探索违规边界,破解安全强化学习的「安全性悖论」。该方法在不增加采样成本的前提下,显著提升违规样本质量与系统安全认知,实现安全与性能的双赢,刷新多项基准的SOTA成绩。

随着强化学习(RL)在虚拟世界的统治级表现,将其迁移至自动驾驶、机器人控制等真实物理系统已成为行业共识。然而,物理世界的高风险特性画出了一道不可逾越的红线——「零约束违反」。

为了守住这道红线,学界提出了多种方案:OpenAI结合拉格朗日乘子法动态权衡安全与性能,UC Berkeley提出的CPO算法利用信赖域将策略限制在可行空间内。

然而,现有方法始终面临一个核心痛点:策略难以做到严格的「零违反」。大多数算法只能将违规控制在极低水平,一旦试图追求绝对的零违规,就会遭遇巨大阻力。

清华大学李升波教授课题组于安全强化学习领域获得突破性进展,首次在理论层面揭示并证明了安全强化学习(Safe RL)中的一个反直觉现象——「安全性悖论」(Safety Paradox):策略越追求安全,反而可能越不安全。


论文链接:https://openreview.net/forum?id=BHSSV1nHvU

代码仓库:https://github.com/yangyujie-jack/Feasible-Dual-Policy-Iteration

在安全强化学习中,智能体通常依赖交互数据学习一个可行性函数(Feasibility Function),以此判断当前状态是否长期安全,从而规避危险区域。

然而,研究通过严格的理论证明揭示了一个严峻事实:

随着策略变得越来越安全,其产生的违规样本会变得极度稀疏。这直接导致可行性函数的估计误差急剧增大,进而使指导策略优化的约束函数出现偏差,最终导致策略安全性崩塌。

这就像一个从未见过悬崖的人,在行走时即便再小心翼翼,也会因为缺乏对「悬崖边缘」的确切认知,而无法精准判断危险界限究竟在哪里。越是刻意追求安全,对危险边界的认知就越模糊,最终反而导致安全防线失效。 这就是所谓的「安全性悖论」——策略陷入了一个自我挫败的死循环。


针对这一困境,团队提出了Region-wise Actor-Critic-Scenery(RACS)算法,通过引入专门收集违规样本的「探险者」策略,成功打破悖论,在权威基准Safety-Gymnasium上刷新了SOTA成绩,该工作发表于人工智能顶会ICLR 2026。

破局之道RACS算法

既然「不敢越雷池一步」会导致认知盲区,那么破解之道便是主动探险、直面危险。

研究团队提出了Region-wise Actor-Critic-Scenery(RACS)算法,创造性地引入了双策略架构:

(1)原始策略(Primal Policy):扮演「守规矩的执行者」。它负责在满足安全约束的前提下,尽可能最大化任务奖励。

(2)对偶策略(Dual Policy):扮演「无畏的探险者」。它的目标与前者相反,旨在策略性地最大化约束违反,主动触探原始策略不敢涉足的危险边界。

通过这种「左右互搏」的机制,RACS在不增加总采样成本的前提下,显著提升了关键违规样本的比例,从而让系统对「安全边界」有了清晰、精准的认知。

为了解决双策略数据混合带来的分布偏移(Distributional Shift)问题,RACS采用了重要性采样(Importance Sampling)技术进行数学修正,并约束对偶策略与原始策略间的KL散度,确保训练过程的平稳收敛。


实验结果:刷新SOTA

研究团队在安全强化学习权威基准Safety-Gymnasium上进行了广泛验证。结果表明,RACS在14项任务中的综合性能达到了State-of-the-art(SOTA)水平:



(1)安全性显著提升RACS实现了最低的平均约束违反次数(Cost),显著优于现有的拉格朗日乘子法或信赖域方法。特别是在HalfCheetahVelocity、Walker2dVelocity等任务中,实现了严格的零约束违反

(2)控制性能无退化在保证安全性的同时,RACS的平均累积回报(Return)依然位居榜首,实现了安全与性能的双赢。在高维的HumanoidVelocity、复杂的PointPush(推箱子导航避障)等多项高难度任务中,安全指标与任务性能均名列前茅。

为探究性能提升的根本原因,研究团队统计了增加对偶策略后的关键指标变化:




(1)违规样本显著增加:在所有 14 项任务中,对偶策略成功采集了大量高价值的违规样本,大部分任务中的样本量提升了一个数量级。

(2)估计误差大幅降低:统计显示,可行性函数的拟合误差显著减小,尤其是「低估风险」(误差小于零)的频率大幅降低。这意味着系统不再将危险状态误判为安全,从而从根本上提升了策略的安全性。

总结与展望

该研究从理论上揭示了强化学习中的「安全性悖论」,阐明了违规样本稀疏性与可行性函数估计误差之间的内在因果。

RACS算法通过对偶策略的「对抗式」探索打破了「安全性悖论」,证明了一个深刻的道理:为了真正的安全,必须充分地了解危险。

该研究为自动驾驶、机器人等高风险场景下的强化学习落地提供了坚实的理论基础与有效的解决方案。

参考资料:

https://openreview.net/forum?id=BHSSV1nHvU

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
王毅直言警告,日本急了,小泉进次郎欧洲放话:不会畏惧中方威胁

王毅直言警告,日本急了,小泉进次郎欧洲放话:不会畏惧中方威胁

创造精彩剧情
2026-02-17 02:35:10
老了才明白:一个家庭无论任何时候,都不能犯这三个大忌!早了解

老了才明白:一个家庭无论任何时候,都不能犯这三个大忌!早了解

千秋文化
2026-02-16 16:45:51
跟学历低的妹子谈恋爱是什么体验?如果你被她吸引,不妨放下预设

跟学历低的妹子谈恋爱是什么体验?如果你被她吸引,不妨放下预设

另子维爱读史
2026-01-09 22:06:39
别被马斯克忽悠了!星链撑不起人类通讯,中国通信基建才是底气

别被马斯克忽悠了!星链撑不起人类通讯,中国通信基建才是底气

像梦一场a
2026-02-13 20:20:26
小县城过年:活在一种短暂的假象里。

小县城过年:活在一种短暂的假象里。

老陆不老
2026-02-13 19:05:44
人一定要大量读书:读书,世界就在眼前,不读书,眼前就是世界

人一定要大量读书:读书,世界就在眼前,不读书,眼前就是世界

木言观
2026-01-23 06:03:43
中央重拳打击鼓吹不婚不育歪风,生孩子才是正道,紧迫作务

中央重拳打击鼓吹不婚不育歪风,生孩子才是正道,紧迫作务

老猫观点
2026-02-16 18:34:42
一汽奥迪A5L预售,25.68万起,比上汽奥迪便宜就行

一汽奥迪A5L预售,25.68万起,比上汽奥迪便宜就行

车动态
2025-07-21 17:42:38
从小迷糊到江苏女排副攻一姐!她进攻拦网进步巨大,可去国家队

从小迷糊到江苏女排副攻一姐!她进攻拦网进步巨大,可去国家队

金毛爱女排
2026-02-17 00:00:07
法国专家:中国电力已经让世界畏惧!为何中国人自己却浑然不知?

法国专家:中国电力已经让世界畏惧!为何中国人自己却浑然不知?

爱吃醋的猫咪
2026-01-23 20:38:06
当着120国面!王毅正告高市:敢踏足台湾,中国会让日本输得更惨

当着120国面!王毅正告高市:敢踏足台湾,中国会让日本输得更惨

福建平子
2026-02-16 07:05:49
狗血!中戏王鑫主动投案,共4位表演系主任落马,闫学晶的天塌了

狗血!中戏王鑫主动投案,共4位表演系主任落马,闫学晶的天塌了

壹月情感
2026-02-13 23:30:13
“钱退回来,这是夫妻共同财产!”女子回娘家被嫂子堵在屋里要钱

“钱退回来,这是夫妻共同财产!”女子回娘家被嫂子堵在屋里要钱

一丝不苟的法律人
2026-02-14 21:21:39
继张本智和反华拜鬼,被官媒点名后,石川佳纯也走上了他的老路

继张本智和反华拜鬼,被官媒点名后,石川佳纯也走上了他的老路

月光作笺a
2026-02-11 23:20:28
2026最新早安祝福语短句大全,愿喜乐健康、顺心顺意~

2026最新早安祝福语短句大全,愿喜乐健康、顺心顺意~

心灵悦读
2026-02-13 09:34:57
春节攻势:乌克兰对莫斯科发动最大规模空袭!数百架无人机齐发

春节攻势:乌克兰对莫斯科发动最大规模空袭!数百架无人机齐发

项鹏飞
2026-02-16 20:05:05
别再用现金行贿受贿了!大数据一查就现形,全程 “裸奔” 藏不住

别再用现金行贿受贿了!大数据一查就现形,全程 “裸奔” 藏不住

复转这些年
2026-02-09 23:45:54
李源潮母亲吕继英:18岁入党,江苏妇女解放运动的先驱

李源潮母亲吕继英:18岁入党,江苏妇女解放运动的先驱

芊芊子吟
2026-02-16 10:10:05
糟心!浙江一女子无奈剃光头,“春节没脸见人了……”快提醒家人

糟心!浙江一女子无奈剃光头,“春节没脸见人了……”快提醒家人

白宸侃片
2026-02-16 10:44:57
韩媒:中国欠特朗普一声谢谢!要不是美国打压,中国芯不会那么强

韩媒:中国欠特朗普一声谢谢!要不是美国打压,中国芯不会那么强

荆楚寰宇文枢
2026-02-16 20:23:00
2026-02-17 05:12:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14546文章数 66628关注度
往期回顾 全部

科技要闻

阿里除夕发布千问3.5,性能媲美Gemini 3

头条要闻

"王菲接班李谷一"上热搜 窦靖童发文"挖嘞个亲娘"

头条要闻

"王菲接班李谷一"上热搜 窦靖童发文"挖嘞个亲娘"

体育要闻

短道男子接力半决赛失误后 刘少昂多次说"抱歉"

娱乐要闻

王菲六登春晚献唱 水滴钻石耳环再出圈

财经要闻

2025,中国商业十大意外,黄金只排第九

汽车要闻

叫停纯屏操作 工信部拟推车内实体操作件强制国标

态度原创

数码
旅游
本地
游戏
军事航空

数码要闻

iPhone17e来了!苹果官宣春季发布会:3月4日晚上十点

旅游要闻

巨型“彩马”驰骋上海夜空 上千架无人机浪漫烟花交相辉映

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

PS发布会压轴!《战神》新作只有近30人白金

军事要闻

慕安会美国角色逆转 中国议题"打满全场"

无障碍浏览 进入关怀版