网易首页 > 网易号 > 正文 申请入驻

南洋理工揭露AI「运行安全」全线崩溃,简单伪装即可骗过所有模型

0
分享至



本文的第一作者雷京迪是南洋理工大学博士生,其研究聚焦于大语言模型,尤其关注模型推理、后训练与对齐等方向。通讯作者 Soujanya Poria 为南洋理工大学电气与电子工程学院副教授。论文的其他合作者来自 Walled AI Labs、新加坡资讯通信媒体发展局 (IMDA) 以及 Lambda Labs。

当我们谈论 AI 安全的问题时,我们到底在谈论什么?

是暴力,偏见还是伦理问题?这些固然重要,但是对于将 AI 投入实际业务的企业而言,一个更致命但却长期被忽视的一条安全红线正在被频繁触碰:你精心打造的「法律咨询」聊天机器人,正在热情地为用户提供医疗建议。

这仅仅是模型跑题了而已吗?不,这就是一种不安全。

在这篇文章中,来自南洋理工大学等机构的研究者们首先提出了一个开创性的概念 ---运行安全(Operational Safety),旨在彻底重塑我们对 AI 在特定场景下安全边界的认知。



  • 论文标题:OffTopicEval: When Large Language Models Enter the Wrong Chat, Almost Always!
  • 论文地址:https://arxiv.org/pdf/2509.26495
  • 论文代码:https://github.com/declare-lab/OffTopicEval
  • 评测数据集:https://huggingface.co/datasets/declare-lab/OffTopicEval

本文核心观点振聋发聩:当 AI 超出其预设的职责边界时,其行为本身,就是一种不安全。

这篇论文的根本性贡献,是将 AI 安全讨论从传统的「内容过滤」提升到了「职责忠诚度」的全新维度。一个无法严守自身岗位职责的 AI,无论其输出的内容多么 「干净」,在应用中都是一个巨大的、不可控的风险,运行安全应该作为通用安全的一个必要不充分条件而存在。



OffTopicEval: 衡量「运行安全」的第一把标尺

为了将这一全新的概念付诸实践并量化风险,团队开发了首个针对运行安全的评测基准 ---OffTopicEval,它不关心模型知道多少或者能力有多么强大,而是关心模型是否能懂得在恰当的时候说不。

他们构建了 21 个不同场景下的聊天机器人,并严格设定其职责与边界,然后精心构建了 direct out of domain (OOD) question test (非常显然的领域外问题),adaptive OOD question (伪装成领域内而实际为领域外问题,人类可以非常轻易的判断出来) 以及为了衡量模型是否能够恰当的拒绝而非一味的拒绝而设计的领域内问题,总体包括 21 万 + 条 OOD 数据,3000 + 条领域内数据,涵盖英语,中文,印地语三种完全不同语法结构的语系。

用评测揭露残酷的现实

通过对 GPT、LLama、Qwen 等六大主流模型家族的测试,评测结果揭示了一个令人警醒的问题:在「运行安全」这门必修课上,几乎所有模型都不及格。如:

  • 伪装之下不堪一击:面对经过简单伪装的越界问题,模型的防御能力几乎快要崩溃,所有模型对于 OOD 问题的平均拒绝率因此暴跌近 44%,其中像 Gemma-3 (27B) 和 Qwen-3 (235B) 等模型的拒绝率降幅甚至超过了 70%。
  • 跨语言的缺陷:这个问题对于不同的语言仍然存在,说明这是当前大模型的一个根本缺陷。





他们还发现,当模型经历一次欺骗过后,它似乎放弃了所有抵抗,即使对于简单的 OOD 问题的拒绝率也会下降 50% 以上!



简单来说,你认真训练的一个银行客服机器人,只要用户换个问法,它就开始提供投资建议,并乐在其中,这在要求严格的行业里将是不可想象的潜在威胁。

重新找回 AI 的职业操守

这篇论文不仅在于揭示这样一个问题,更提供了切实可行的解决思路和他们失败的经验尝试,他们尝试了 prompt-based steering(提示词转向)、activation steering(激活转向)以及 parameter steering(参数转向)的方式,其中 activation steering 和 parameter steering 的方式均难以提升模型坚守能力。

而在 prompt-based steering 中,他们提出了两种轻量级的,无需重新训练的两种提示方式:

  1. P-ground: 在用户提出问题后追加指令告诉模型,强制它先忘掉问题聚焦于系统提示词再做回答。
  2. Q-ground: 让模型将用户的问题重写成最核心、最精简的形式,然后基于这样一个问题进行回应。

他们在实验中基于这两种思路写了非常简单的提示词,效果却立竿见影,P-ground 方法让 Llama-3.3 (70B) 的操作安全评分飙升了 41%,Qwen-3 (30B) 也提升了 27%。这证明,用轻量级的方法就能显著增强模型的「职业操守」。



总结

这篇论文首次将跑题的问题从大众所认知的简单的功能缺陷提升到了安全的战略高度,它向整个行业发出了一个明确的信号:

  1. AI 安全不止是内容安全:一个不能严守边界的 AI,在商业上是不可靠、不安全的。
  2. 「越界」本身就是风险:我们必须建立新的评测和对齐范式,来奖励那些懂得自身局限性、敢于拒绝越界请求的模型。
  3. 运行安全是部署前提:对于所有希望将 AI 代理用于严肃场景的开发者而言,运行安全将成为部署前必须通过的上岗测试。

从这个角度来看,这篇论文不仅仅是提出了一个评测工具,它更像是一份宣言,呼吁整个社区重新审视和定义面向实际应用的 AI 安全,确保我们构建的不仅是强大的 AI,更是值得信赖、恪尽职守的 AI。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
千里大堤溃于蚁穴,银行信用,溃于呼伦贝尔?

千里大堤溃于蚁穴,银行信用,溃于呼伦贝尔?

细雨中的呼喊
2026-01-31 15:43:54
便利背后暗藏风险 手机“贴一贴”可能无形中危害国家安全

便利背后暗藏风险 手机“贴一贴”可能无形中危害国家安全

大象新闻
2026-02-02 06:57:23
徐畅江,升副部

徐畅江,升副部

新京报政事儿
2026-02-02 09:00:23
订单暴增!年夜饭私厨上门服务火了,价格涨到三倍仍供不应求

订单暴增!年夜饭私厨上门服务火了,价格涨到三倍仍供不应求

上观新闻
2026-02-02 06:49:12
两被击毙港人去乌做雇佣兵原因曝光,接受军事训练以在香港使用

两被击毙港人去乌做雇佣兵原因曝光,接受军事训练以在香港使用

侠客栈
2026-02-01 13:50:37
江苏南通一吊车起吊树木时,突然向前翻倒,车身直接被翻成直角!当地回应:事故未造成人员伤亡

江苏南通一吊车起吊树木时,突然向前翻倒,车身直接被翻成直角!当地回应:事故未造成人员伤亡

台州交通广播
2026-02-01 20:06:15
59年陈毅回老家,得知表弟被关押,陈拍案而起大怒:你们真是可笑

59年陈毅回老家,得知表弟被关押,陈拍案而起大怒:你们真是可笑

海佑讲史
2026-01-30 16:30:09
以2.5吨白银建造的湖南“永兴银楼”被拍卖,其中1.75吨纯银折算1204.7万元,每克仅6.88元“白菜价”,委托方回应

以2.5吨白银建造的湖南“永兴银楼”被拍卖,其中1.75吨纯银折算1204.7万元,每克仅6.88元“白菜价”,委托方回应

极目新闻
2026-02-01 16:43:12
邻居投诉我家太吵,我无奈卖掉架子鼓,半月后邻居崩溃:你卖谁了

邻居投诉我家太吵,我无奈卖掉架子鼓,半月后邻居崩溃:你卖谁了

船长与船1
2026-02-01 08:45:05
台湾GDP靓眼   跃居亚洲第三

台湾GDP靓眼 跃居亚洲第三

跟着老李看世界
2026-02-01 11:44:55
万科亏损1314亿

万科亏损1314亿

地产微资讯
2026-01-31 13:05:20
现货白银日内跌幅扩大至10%,报76.89美元/盎司

现货白银日内跌幅扩大至10%,报76.89美元/盎司

每日经济新闻
2026-02-02 07:26:07
美智库:俄军伤亡竟然大幅下降!北约终于发现:为何打不赢俄罗斯

美智库:俄军伤亡竟然大幅下降!北约终于发现:为何打不赢俄罗斯

混沌录
2026-01-31 16:29:05
豪门悲喜夜:皇马100分钟绝杀2-1 曼联94分钟破门3-2 热刺2-2曼城

豪门悲喜夜:皇马100分钟绝杀2-1 曼联94分钟破门3-2 热刺2-2曼城

狍子歪解体坛
2026-02-02 02:36:41
内存涨到怀疑人生:512GB DDR5逼近100000元!价签贴了一层又一层

内存涨到怀疑人生:512GB DDR5逼近100000元!价签贴了一层又一层

快科技
2026-02-01 20:57:39
1688平台售卖“德国双筒望远镜”宣称可望38.4万千米 到手成地摊玩具

1688平台售卖“德国双筒望远镜”宣称可望38.4万千米 到手成地摊玩具

信网
2026-02-01 15:01:30
现场画面:柬埔寨对一电诈园区展开最大规模行动,抓捕2044人;缅甸出动空军运输机押729人回国

现场画面:柬埔寨对一电诈园区展开最大规模行动,抓捕2044人;缅甸出动空军运输机押729人回国

扬子晚报
2026-02-01 15:59:57
2月1日俄乌:马斯克终于出手了

2月1日俄乌:马斯克终于出手了

山河路口
2026-02-01 18:23:05
吃相越来越难看,都开始硬抢了!

吃相越来越难看,都开始硬抢了!

胖胖说他不胖
2026-02-01 10:00:18
8年来,两任英国首相访华,为何都关注京东?

8年来,两任英国首相访华,为何都关注京东?

正解局
2026-01-31 22:32:13
2026-02-02 09:48:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12226文章数 142562关注度
往期回顾 全部

科技要闻

10亿元宝红包突袭 复刻微信支付还是微视?

头条要闻

牛弹琴:欧洲终于开骂了 特朗普可能会气到咆哮

头条要闻

牛弹琴:欧洲终于开骂了 特朗普可能会气到咆哮

体育要闻

德约大度祝贺阿卡 幽默互动逗笑纳达尔

娱乐要闻

春晚第三次联排阵容曝光:全是实力派

财经要闻

国六货车被迫"换头" 每次收费超200元

汽车要闻

岚图汽车1月交付10515辆 同比增长31%

态度原创

健康
教育
时尚
房产
军事航空

耳石症分类型,症状大不同

教育要闻

现在看易中天大师的金句,感觉买德云社的门票太亏了(三)

普通人衣服没必要买太多,准备好这些单品,简单实用又耐看

房产要闻

藏不住的小城大事,海澄新城执掌自贸港风口,进阶兑现美好生活新篇

军事要闻

委内瑞拉外长会见美外交使团团长

无障碍浏览 进入关怀版