网易首页 > 网易号 > 正文 申请入驻

南洋理工揭露AI「运行安全」全线崩溃,简单伪装即可骗过所有模型

0
分享至

本文的第一作者雷京迪是南洋理工大学博士生,其研究聚焦于大语言模型,尤其关注模型推理、后训练与对齐等方向。通讯作者 Soujanya Poria 为南洋理工大学电气与电子工程学院副教授。论文的其他合作者来自 Walled AI Labs、新加坡资讯通信媒体发展局 (IMDA) 以及 Lambda Labs。

当我们谈论 AI 安全的问题时,我们到底在谈论什么?

是暴力,偏见还是伦理问题?这些固然重要,但是对于将 AI 投入实际业务的企业而言,一个更致命但却长期被忽视的一条安全红线正在被频繁触碰:你精心打造的「法律咨询」聊天机器人,正在热情地为用户提供医疗建议。

这仅仅是模型跑题了而已吗?不,这就是一种不安全。

在这篇文章中,来自南洋理工大学等机构的研究者们首先提出了一个开创性的概念 ---运行安全(Operational Safety),旨在彻底重塑我们对 AI 在特定场景下安全边界的认知。

  • 论文标题:OffTopicEval: When Large Language Models Enter the Wrong Chat, Almost Always!
  • 论文地址:https://arxiv.org/pdf/2509.26495
  • 论文代码:https://github.com/declare-lab/OffTopicEval
  • 评测数据集:https://huggingface.co/datasets/declare-lab/OffTopicEval

本文核心观点振聋发聩:当 AI 超出其预设的职责边界时,其行为本身,就是一种不安全。

这篇论文的根本性贡献,是将 AI 安全讨论从传统的「内容过滤」提升到了「职责忠诚度」的全新维度。一个无法严守自身岗位职责的 AI,无论其输出的内容多么 「干净」,在应用中都是一个巨大的、不可控的风险,运行安全应该作为通用安全的一个必要不充分条件而存在。

OffTopicEval: 衡量「运行安全」的第一把标尺

为了将这一全新的概念付诸实践并量化风险,团队开发了首个针对运行安全的评测基准 ---OffTopicEval,它不关心模型知道多少或者能力有多么强大,而是关心模型是否能懂得在恰当的时候说不。

他们构建了 21 个不同场景下的聊天机器人,并严格设定其职责与边界,然后精心构建了 direct out of domain (OOD) question test (非常显然的领域外问题),adaptive OOD question (伪装成领域内而实际为领域外问题,人类可以非常轻易的判断出来) 以及为了衡量模型是否能够恰当的拒绝而非一味的拒绝而设计的领域内问题,总体包括 21 万 + 条 OOD 数据,3000 + 条领域内数据,涵盖英语,中文,印地语三种完全不同语法结构的语系。

用评测揭露残酷的现实

通过对 GPT、LLama、Qwen 等六大主流模型家族的测试,评测结果揭示了一个令人警醒的问题:在「运行安全」这门必修课上,几乎所有模型都不及格。如:

  • 伪装之下不堪一击:面对经过简单伪装的越界问题,模型的防御能力几乎快要崩溃,所有模型对于 OOD 问题的平均拒绝率因此暴跌近 44%,其中像 Gemma-3 (27B) 和 Qwen-3 (235B) 等模型的拒绝率降幅甚至超过了 70%。
  • 跨语言的缺陷:这个问题对于不同的语言仍然存在,说明这是当前大模型的一个根本缺陷。

他们还发现,当模型经历一次欺骗过后,它似乎放弃了所有抵抗,即使对于简单的 OOD 问题的拒绝率也会下降 50% 以上!

简单来说,你认真训练的一个银行客服机器人,只要用户换个问法,它就开始提供投资建议,并乐在其中,这在要求严格的行业里将是不可想象的潜在威胁。

重新找回 AI 的职业操守

这篇论文不仅在于揭示这样一个问题,更提供了切实可行的解决思路和他们失败的经验尝试,他们尝试了 prompt-based steering(提示词转向)、activation steering(激活转向)以及 parameter steering(参数转向)的方式,其中 activation steering 和 parameter steering 的方式均难以提升模型坚守能力。

而在 prompt-based steering 中,他们提出了两种轻量级的,无需重新训练的两种提示方式:

  1. P-ground: 在用户提出问题后追加指令告诉模型,强制它先忘掉问题聚焦于系统提示词再做回答。
  2. Q-ground: 让模型将用户的问题重写成最核心、最精简的形式,然后基于这样一个问题进行回应。

他们在实验中基于这两种思路写了非常简单的提示词,效果却立竿见影,P-ground 方法让 Llama-3.3 (70B) 的操作安全评分飙升了 41%,Qwen-3 (30B) 也提升了 27%。这证明,用轻量级的方法就能显著增强模型的「职业操守」。

总结

这篇论文首次将跑题的问题从大众所认知的简单的功能缺陷提升到了安全的战略高度,它向整个行业发出了一个明确的信号:

  1. AI 安全不止是内容安全:一个不能严守边界的 AI,在商业上是不可靠、不安全的。
  2. 「越界」本身就是风险:我们必须建立新的评测和对齐范式,来奖励那些懂得自身局限性、敢于拒绝越界请求的模型。
  3. 运行安全是部署前提:对于所有希望将 AI 代理用于严肃场景的开发者而言,运行安全将成为部署前必须通过的上岗测试。

从这个角度来看,这篇论文不仅仅是提出了一个评测工具,它更像是一份宣言,呼吁整个社区重新审视和定义面向实际应用的 AI 安全,确保我们构建的不仅是强大的 AI,更是值得信赖、恪尽职守的 AI。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
30年,刘佩琦在这个追踪故事里活了两次

30年,刘佩琦在这个追踪故事里活了两次

澎湃新闻
2026-07-03 08:00:28
4年6691万美元!状元迪班萨正式签约奇才 7月10日首秀战彼得森

4年6691万美元!状元迪班萨正式签约奇才 7月10日首秀战彼得森

罗说NBA
2026-07-03 06:19:42
精神小妹的生活原来是这样的!网友:终于知道她们为啥都这么瘦了

精神小妹的生活原来是这样的!网友:终于知道她们为啥都这么瘦了

深度报
2026-02-11 23:35:03
罕见露脸!郭富城小女儿正脸彻底曝光,全网看清真实长相

罕见露脸!郭富城小女儿正脸彻底曝光,全网看清真实长相

东方不败然多多
2026-07-02 15:11:27
大婚风波未过,香港政府“点名”霍启山,原来他和霍启刚处境一样

大婚风波未过,香港政府“点名”霍启山,原来他和霍启刚处境一样

老琴才是我的外号
2026-07-03 10:35:58
Speed:我的航班取消了,看不了C罗比赛了,谁能帮帮我?

Speed:我的航班取消了,看不了C罗比赛了,谁能帮帮我?

懂球帝
2026-07-03 02:28:56
今晚决战日本!郭士强进步了,弃用赵维伦,庞峥麟入选大名单!

今晚决战日本!郭士强进步了,弃用赵维伦,庞峥麟入选大名单!

体坛侃排球
2026-07-03 10:24:38
终于有经济学家批评体制内退休金太高、加剧代际矛盾,评论区炸锅

终于有经济学家批评体制内退休金太高、加剧代际矛盾,评论区炸锅

慧翔百科
2026-06-23 08:47:02
最新 | 大到暴雨!天津雨情有变!今天局地雷暴大风+冰雹!

最新 | 大到暴雨!天津雨情有变!今天局地雷暴大风+冰雹!

天津广播
2026-07-03 11:36:34
没中国的亚运会一文不值!

没中国的亚运会一文不值!

安安说
2026-07-02 11:25:47
外交部官宣:中方代表将出席哈梅内伊葬礼

外交部官宣:中方代表将出席哈梅内伊葬礼

看看新闻Knews
2026-07-02 20:32:01
河南古墓惊现“不存在的时间”,考古专家:很正常

河南古墓惊现“不存在的时间”,考古专家:很正常

牛马搞笑
2026-07-01 09:48:12
斯大林拿到长津湖战报,态度急变:马上交给中国同志36个师的装备

斯大林拿到长津湖战报,态度急变:马上交给中国同志36个师的装备

云霄纪史观
2026-07-02 02:31:55
伊朗为已故最高领袖哈梅内伊举行遗体告别仪式

伊朗为已故最高领袖哈梅内伊举行遗体告别仪式

新京报
2026-07-03 13:08:22
Papi酱把公司全关了,只留七个人

Papi酱把公司全关了,只留七个人

卢松松
2026-06-30 15:54:25
中国空间站机械臂在轨捕获了一颗废弃卫星残骸,并成功带回了舱内

中国空间站机械臂在轨捕获了一颗废弃卫星残骸,并成功带回了舱内

荆楚寰宇文枢
2026-07-02 23:16:54
自然界从没出现过丝袜,为啥男生天生会对丝袜如此着迷?

自然界从没出现过丝袜,为啥男生天生会对丝袜如此着迷?

向航说
2026-07-03 11:55:05
深度长文:太阳光8分钟抵达地球?光:别闹,我只需一瞬间!

深度长文:太阳光8分钟抵达地球?光:别闹,我只需一瞬间!

宇宙时空
2026-07-02 21:30:04
印尼傻眼了!本以为可以轻松收割中企,结果2大船撤走了全部设备

印尼傻眼了!本以为可以轻松收割中企,结果2大船撤走了全部设备

爱看剧的阿峰
2026-07-03 09:49:40
3100亿!深市史上最大IPO来了!

3100亿!深市史上最大IPO来了!

上市之家
2026-07-03 02:11:15
2026-07-03 13:48:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13421文章数 142686关注度
往期回顾 全部

科技要闻

特斯拉交付超预期7.4万辆,股价却大跌7.5%

头条要闻

齐达内儿子被梅西打穿后一度崩溃 淘汰赛又被灌进2球

头条要闻

齐达内儿子被梅西打穿后一度崩溃 淘汰赛又被灌进2球

体育要闻

韩国人,为什么恨透了洪明甫?

娱乐要闻

黄晓明深夜约会美女,分手原因曝光

财经要闻

AI“鬼故事”不断,市场开始重估?

汽车要闻

极氪9X五座版官宣,如图!

态度原创

家居
健康
教育
数码
军事航空

家居要闻

传奇筑 日常诗

这4类消化病患者 吃粘食管住嘴

教育要闻

高分扎堆,“分数通胀”是怎么产生的?

数码要闻

299元双8K旗舰款!雷神X7s Pro Max鼠标预售:全球首发PAW3955 Turbo

军事要闻

美军“航母杀手”首次公开 此前从未展示

无障碍浏览 进入关怀版