网易首页 > 网易号 > 正文 申请入驻

清华打破强化学习安全性悖论,14项测试基准任务全SOTA

0
分享至


新智元报道

编辑:LRST

【新智元导读】清华大学李升波教授团队提出RACS算法,通过引入「探险者」策略主动探索违规边界,破解安全强化学习的「安全性悖论」。该方法在不增加采样成本的前提下,显著提升违规样本质量与系统安全认知,实现安全与性能的双赢,刷新多项基准的SOTA成绩。

随着强化学习(RL)在虚拟世界的统治级表现,将其迁移至自动驾驶、机器人控制等真实物理系统已成为行业共识。然而,物理世界的高风险特性画出了一道不可逾越的红线——「零约束违反」。

为了守住这道红线,学界提出了多种方案:OpenAI结合拉格朗日乘子法动态权衡安全与性能,UC Berkeley提出的CPO算法利用信赖域将策略限制在可行空间内。

然而,现有方法始终面临一个核心痛点:策略难以做到严格的「零违反」。大多数算法只能将违规控制在极低水平,一旦试图追求绝对的零违规,就会遭遇巨大阻力。

清华大学李升波教授课题组于安全强化学习领域获得突破性进展,首次在理论层面揭示并证明了安全强化学习(Safe RL)中的一个反直觉现象——「安全性悖论」(Safety Paradox):策略越追求安全,反而可能越不安全。


论文链接:https://openreview.net/forum?id=BHSSV1nHvU

代码仓库:https://github.com/yangyujie-jack/Feasible-Dual-Policy-Iteration

在安全强化学习中,智能体通常依赖交互数据学习一个可行性函数(Feasibility Function),以此判断当前状态是否长期安全,从而规避危险区域。

然而,研究通过严格的理论证明揭示了一个严峻事实:

随着策略变得越来越安全,其产生的违规样本会变得极度稀疏。这直接导致可行性函数的估计误差急剧增大,进而使指导策略优化的约束函数出现偏差,最终导致策略安全性崩塌。

这就像一个从未见过悬崖的人,在行走时即便再小心翼翼,也会因为缺乏对「悬崖边缘」的确切认知,而无法精准判断危险界限究竟在哪里。越是刻意追求安全,对危险边界的认知就越模糊,最终反而导致安全防线失效。 这就是所谓的「安全性悖论」——策略陷入了一个自我挫败的死循环。


针对这一困境,团队提出了Region-wise Actor-Critic-Scenery(RACS)算法,通过引入专门收集违规样本的「探险者」策略,成功打破悖论,在权威基准Safety-Gymnasium上刷新了SOTA成绩,该工作发表于人工智能顶会ICLR 2026。

破局之道RACS算法

既然「不敢越雷池一步」会导致认知盲区,那么破解之道便是主动探险、直面危险。

研究团队提出了Region-wise Actor-Critic-Scenery(RACS)算法,创造性地引入了双策略架构:

(1)原始策略(Primal Policy):扮演「守规矩的执行者」。它负责在满足安全约束的前提下,尽可能最大化任务奖励。

(2)对偶策略(Dual Policy):扮演「无畏的探险者」。它的目标与前者相反,旨在策略性地最大化约束违反,主动触探原始策略不敢涉足的危险边界。

通过这种「左右互搏」的机制,RACS在不增加总采样成本的前提下,显著提升了关键违规样本的比例,从而让系统对「安全边界」有了清晰、精准的认知。

为了解决双策略数据混合带来的分布偏移(Distributional Shift)问题,RACS采用了重要性采样(Importance Sampling)技术进行数学修正,并约束对偶策略与原始策略间的KL散度,确保训练过程的平稳收敛。


实验结果:刷新SOTA

研究团队在安全强化学习权威基准Safety-Gymnasium上进行了广泛验证。结果表明,RACS在14项任务中的综合性能达到了State-of-the-art(SOTA)水平:



(1)安全性显著提升RACS实现了最低的平均约束违反次数(Cost),显著优于现有的拉格朗日乘子法或信赖域方法。特别是在HalfCheetahVelocity、Walker2dVelocity等任务中,实现了严格的零约束违反

(2)控制性能无退化在保证安全性的同时,RACS的平均累积回报(Return)依然位居榜首,实现了安全与性能的双赢。在高维的HumanoidVelocity、复杂的PointPush(推箱子导航避障)等多项高难度任务中,安全指标与任务性能均名列前茅。

为探究性能提升的根本原因,研究团队统计了增加对偶策略后的关键指标变化:




(1)违规样本显著增加:在所有 14 项任务中,对偶策略成功采集了大量高价值的违规样本,大部分任务中的样本量提升了一个数量级。

(2)估计误差大幅降低:统计显示,可行性函数的拟合误差显著减小,尤其是「低估风险」(误差小于零)的频率大幅降低。这意味着系统不再将危险状态误判为安全,从而从根本上提升了策略的安全性。

总结与展望

该研究从理论上揭示了强化学习中的「安全性悖论」,阐明了违规样本稀疏性与可行性函数估计误差之间的内在因果。

RACS算法通过对偶策略的「对抗式」探索打破了「安全性悖论」,证明了一个深刻的道理:为了真正的安全,必须充分地了解危险。

该研究为自动驾驶、机器人等高风险场景下的强化学习落地提供了坚实的理论基础与有效的解决方案。

参考资料:

https://openreview.net/forum?id=BHSSV1nHvU

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
2-0完胜4届大满贯冠军,世界第一强势晋级法网女单八强

2-0完胜4届大满贯冠军,世界第一强势晋级法网女单八强

凌空倒钩
2026-06-02 07:20:59
体检报告出现这几个字,距离癌症只有一步之遥!别等得癌了才后悔

体检报告出现这几个字,距离癌症只有一步之遥!别等得癌了才后悔

健康之光
2026-06-01 08:56:18
割四赔五风波升级,崔培军给员工发钱带薪收麦,评论区出奇一致

割四赔五风波升级,崔培军给员工发钱带薪收麦,评论区出奇一致

阿凫爱吐槽
2026-06-03 03:54:38
6300万欧加盟1年就想走?18岁的他正寻找信任

6300万欧加盟1年就想走?18岁的他正寻找信任

慢享生活集
2026-06-03 01:48:41
文班亚马和唐斯交手6次,唐斯场均19.2分,而文班亚马是这种数据

文班亚马和唐斯交手6次,唐斯场均19.2分,而文班亚马是这种数据

林子说事
2026-06-02 09:08:54
15万亿重磅落地!中国或将成全球首个城市更新王国,有房的都笑了

15万亿重磅落地!中国或将成全球首个城市更新王国,有房的都笑了

混沌录
2026-06-02 22:37:48
印度拟购114架“阵风”战机,军方称必要时准备“辛杜尔行动2.0”

印度拟购114架“阵风”战机,军方称必要时准备“辛杜尔行动2.0”

澎湃新闻
2026-06-02 19:30:33
张雪机车4848万元购得新生产基地

张雪机车4848万元购得新生产基地

财闻
2026-06-02 15:11:24
王鹤棣直播痛哭,情绪崩溃,让粉丝心疼不已!

王鹤棣直播痛哭,情绪崩溃,让粉丝心疼不已!

小椰的奶奶
2026-06-03 00:50:23
24小时已过,普京政府准时断供,航油不卖中国,欧盟启动应急方案

24小时已过,普京政府准时断供,航油不卖中国,欧盟启动应急方案

云上乌托邦
2026-06-02 17:15:44
嘉宾晒奚梦瑶婚礼第三套造型,白色裙搭配一身珍珠,不浮夸很漂亮

嘉宾晒奚梦瑶婚礼第三套造型,白色裙搭配一身珍珠,不浮夸很漂亮

童叔不飙车
2026-06-02 22:17:06
震惊!一高考家长要物业驱夜鸟,网友:温度高,是否把太阳射下来

震惊!一高考家长要物业驱夜鸟,网友:温度高,是否把太阳射下来

火山詩话
2026-06-02 15:21:11
打脸!巴萨 8000 万核心刚表忠心,转头就接近加盟阿森纳

打脸!巴萨 8000 万核心刚表忠心,转头就接近加盟阿森纳

澜归序
2026-06-02 07:29:35
深挖 | 纳塔莉:从贫民窟水果姐到LV“太子妃”,44岁的人生太彪悍!

深挖 | 纳塔莉:从贫民窟水果姐到LV“太子妃”,44岁的人生太彪悍!

新民周刊
2026-06-02 10:16:41
上海城投变了,杭迎伟没有退路

上海城投变了,杭迎伟没有退路

新浪财经
2026-06-02 16:46:12
日本汽车全线爆雷!七大车企集体崩盘

日本汽车全线爆雷!七大车企集体崩盘

象视汽车
2026-06-03 07:00:07
演员魏宗万去世,享年89岁,俩女儿发讣告,最后露面剃光头发暴瘦

演员魏宗万去世,享年89岁,俩女儿发讣告,最后露面剃光头发暴瘦

180视角
2026-06-02 21:33:29
有资格续签4年1.79亿!名记:哈滕大概率会留在雷霆

有资格续签4年1.79亿!名记:哈滕大概率会留在雷霆

体坛周报
2026-06-02 09:45:20
直到薛桂生成封导接班人,才知封导为何一夜白头,退出剧团工作

直到薛桂生成封导接班人,才知封导为何一夜白头,退出剧团工作

容妃
2026-06-01 13:34:28
关门贴告示也没用!跑男工作人员“强闯”咖啡店吃喝留垃圾

关门贴告示也没用!跑男工作人员“强闯”咖啡店吃喝留垃圾

南万说娱26
2026-06-02 10:54:26
2026-06-03 07:35:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15372文章数 66896关注度
往期回顾 全部

科技要闻

烧掉千亿后,美团、阿里、京东谁先止血?

头条要闻

演员魏宗万去世 曾在94版《三国演义》中饰演"司马懿"

头条要闻

演员魏宗万去世 曾在94版《三国演义》中饰演"司马懿"

体育要闻

1米74的业余联赛替补,在英超踢中卫

娱乐要闻

奚梦瑶何猷君补办婚礼超幸福

财经要闻

智元和宇树的“暗战”愈演愈烈

汽车要闻

星途神秘新车轮廓曝光 又一款性能SUV要来了?

态度原创

游戏
房产
教育
家居
军事航空

离发售不远了!《寂静岭》系列新作已公开游戏评级

房产要闻

5200巨量投资曝光!未来五年,海南格局大变!

教育要闻

进位制之谜,一个视频学明白!

家居要闻

流线型轮廓 包容多元身形

军事要闻

伊朗媒体新发布最高领袖照片

无障碍浏览 进入关怀版