网易首页 > 网易号 > 正文 申请入驻

南洋理工揭露AI「运行安全」全线崩溃,简单伪装即可骗过所有模型

0
分享至



本文的第一作者雷京迪是南洋理工大学博士生,其研究聚焦于大语言模型,尤其关注模型推理、后训练与对齐等方向。通讯作者 Soujanya Poria 为南洋理工大学电气与电子工程学院副教授。论文的其他合作者来自 Walled AI Labs、新加坡资讯通信媒体发展局 (IMDA) 以及 Lambda Labs。

当我们谈论 AI 安全的问题时,我们到底在谈论什么?

是暴力,偏见还是伦理问题?这些固然重要,但是对于将 AI 投入实际业务的企业而言,一个更致命但却长期被忽视的一条安全红线正在被频繁触碰:你精心打造的「法律咨询」聊天机器人,正在热情地为用户提供医疗建议。

这仅仅是模型跑题了而已吗?不,这就是一种不安全。

在这篇文章中,来自南洋理工大学等机构的研究者们首先提出了一个开创性的概念 ---运行安全(Operational Safety),旨在彻底重塑我们对 AI 在特定场景下安全边界的认知。



  • 论文标题:OffTopicEval: When Large Language Models Enter the Wrong Chat, Almost Always!
  • 论文地址:https://arxiv.org/pdf/2509.26495
  • 论文代码:https://github.com/declare-lab/OffTopicEval
  • 评测数据集:https://huggingface.co/datasets/declare-lab/OffTopicEval

本文核心观点振聋发聩:当 AI 超出其预设的职责边界时,其行为本身,就是一种不安全。

这篇论文的根本性贡献,是将 AI 安全讨论从传统的「内容过滤」提升到了「职责忠诚度」的全新维度。一个无法严守自身岗位职责的 AI,无论其输出的内容多么 「干净」,在应用中都是一个巨大的、不可控的风险,运行安全应该作为通用安全的一个必要不充分条件而存在。



OffTopicEval: 衡量「运行安全」的第一把标尺

为了将这一全新的概念付诸实践并量化风险,团队开发了首个针对运行安全的评测基准 ---OffTopicEval,它不关心模型知道多少或者能力有多么强大,而是关心模型是否能懂得在恰当的时候说不。

他们构建了 21 个不同场景下的聊天机器人,并严格设定其职责与边界,然后精心构建了 direct out of domain (OOD) question test (非常显然的领域外问题),adaptive OOD question (伪装成领域内而实际为领域外问题,人类可以非常轻易的判断出来) 以及为了衡量模型是否能够恰当的拒绝而非一味的拒绝而设计的领域内问题,总体包括 21 万 + 条 OOD 数据,3000 + 条领域内数据,涵盖英语,中文,印地语三种完全不同语法结构的语系。

用评测揭露残酷的现实

通过对 GPT、LLama、Qwen 等六大主流模型家族的测试,评测结果揭示了一个令人警醒的问题:在「运行安全」这门必修课上,几乎所有模型都不及格。如:

  • 伪装之下不堪一击:面对经过简单伪装的越界问题,模型的防御能力几乎快要崩溃,所有模型对于 OOD 问题的平均拒绝率因此暴跌近 44%,其中像 Gemma-3 (27B) 和 Qwen-3 (235B) 等模型的拒绝率降幅甚至超过了 70%。
  • 跨语言的缺陷:这个问题对于不同的语言仍然存在,说明这是当前大模型的一个根本缺陷。





他们还发现,当模型经历一次欺骗过后,它似乎放弃了所有抵抗,即使对于简单的 OOD 问题的拒绝率也会下降 50% 以上!



简单来说,你认真训练的一个银行客服机器人,只要用户换个问法,它就开始提供投资建议,并乐在其中,这在要求严格的行业里将是不可想象的潜在威胁。

重新找回 AI 的职业操守

这篇论文不仅在于揭示这样一个问题,更提供了切实可行的解决思路和他们失败的经验尝试,他们尝试了 prompt-based steering(提示词转向)、activation steering(激活转向)以及 parameter steering(参数转向)的方式,其中 activation steering 和 parameter steering 的方式均难以提升模型坚守能力。

而在 prompt-based steering 中,他们提出了两种轻量级的,无需重新训练的两种提示方式:

  1. P-ground: 在用户提出问题后追加指令告诉模型,强制它先忘掉问题聚焦于系统提示词再做回答。
  2. Q-ground: 让模型将用户的问题重写成最核心、最精简的形式,然后基于这样一个问题进行回应。

他们在实验中基于这两种思路写了非常简单的提示词,效果却立竿见影,P-ground 方法让 Llama-3.3 (70B) 的操作安全评分飙升了 41%,Qwen-3 (30B) 也提升了 27%。这证明,用轻量级的方法就能显著增强模型的「职业操守」。



总结

这篇论文首次将跑题的问题从大众所认知的简单的功能缺陷提升到了安全的战略高度,它向整个行业发出了一个明确的信号:

  1. AI 安全不止是内容安全:一个不能严守边界的 AI,在商业上是不可靠、不安全的。
  2. 「越界」本身就是风险:我们必须建立新的评测和对齐范式,来奖励那些懂得自身局限性、敢于拒绝越界请求的模型。
  3. 运行安全是部署前提:对于所有希望将 AI 代理用于严肃场景的开发者而言,运行安全将成为部署前必须通过的上岗测试。

从这个角度来看,这篇论文不仅仅是提出了一个评测工具,它更像是一份宣言,呼吁整个社区重新审视和定义面向实际应用的 AI 安全,确保我们构建的不仅是强大的 AI,更是值得信赖、恪尽职守的 AI。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
沙特:若对伊开战将启动巴基斯坦核保护伞

沙特:若对伊开战将启动巴基斯坦核保护伞

Nee看
2026-03-25 19:07:00
特朗普杀了他全家!他会当伊朗张学良吗?

特朗普杀了他全家!他会当伊朗张学良吗?

乌鸦校尉
2026-03-25 18:19:47
马筱梅眼含泪水回应!买房真因不是自私,汪小菲第一次和张兰同队

马筱梅眼含泪水回应!买房真因不是自私,汪小菲第一次和张兰同队

潮鹿逐梦
2026-03-24 13:13:55
研究所所长猥亵下属后续,女主多张高清照曝光,知情人再爆料

研究所所长猥亵下属后续,女主多张高清照曝光,知情人再爆料

观察鉴娱
2026-03-26 09:25:28
不得不说,面相真的能看出一个人的路子。停播快两个月的李亚鹏,

不得不说,面相真的能看出一个人的路子。停播快两个月的李亚鹏,

小光侃娱乐
2026-03-26 17:05:03
为什么只有革命卫队与美以干,而伊朗40万国防军沉默观战?

为什么只有革命卫队与美以干,而伊朗40万国防军沉默观战?

廖保平
2026-03-17 09:04:38
连蔡依林都在玩,“雪山救狐狸”到底是什么梗?对话视频原创作者:最初只是为了卖酱板鸭,特意设置反转剧情,没想到会这么火

连蔡依林都在玩,“雪山救狐狸”到底是什么梗?对话视频原创作者:最初只是为了卖酱板鸭,特意设置反转剧情,没想到会这么火

极目新闻
2026-03-25 19:37:57
露出了狐狸尾巴?朱立伦主动邀约国民党“立委”,或为逼宫郑丽文

露出了狐狸尾巴?朱立伦主动邀约国民党“立委”,或为逼宫郑丽文

承受之重
2026-03-25 12:45:53
1981年,彭真狱中见江青,江青出言不逊提出:我要见华国锋邓小平

1981年,彭真狱中见江青,江青出言不逊提出:我要见华国锋邓小平

微野谈写作
2026-01-27 06:00:03
人情薄如纸!丈夫住院100天沒人探望,出院当天大伯突然打来电话

人情薄如纸!丈夫住院100天沒人探望,出院当天大伯突然打来电话

水泥土的搞笑
2026-03-26 17:37:27
15战14胜,加时掀翻东部第一!新鹰王27+8+12证明贱卖特雷杨有理

15战14胜,加时掀翻东部第一!新鹰王27+8+12证明贱卖特雷杨有理

锅子篮球
2026-03-26 11:25:55
充电桩市场价格战惨烈!每度电服务费收三毛 利润只有4分钱

充电桩市场价格战惨烈!每度电服务费收三毛 利润只有4分钱

快科技
2026-03-24 00:22:40
江苏拟建一条过江通道,或将再破“世界纪录”

江苏拟建一条过江通道,或将再破“世界纪录”

水泥土的搞笑
2026-03-26 14:04:59
到底是谁让马景涛穿这身衣服的?简直是灾难现场!

到底是谁让马景涛穿这身衣服的?简直是灾难现场!

西楼知趣杂谈
2026-03-25 23:41:24
美军发布战果,摧毁中国产战机,伊朗空军损失殆尽

美军发布战果,摧毁中国产战机,伊朗空军损失殆尽

爱吃醋的猫咪
2026-03-22 22:29:08
利空突袭,全线杀跌!

利空突袭,全线杀跌!

中国基金报
2026-03-26 13:16:51
周杰伦的INS被网友冲爆,新歌MV里手表调到“83”,疑用旧恋情炒作卖新唱片

周杰伦的INS被网友冲爆,新歌MV里手表调到“83”,疑用旧恋情炒作卖新唱片

回旋镖
2026-03-25 20:38:44
延寿9年,心脏病风险降60%!悉尼大学最新:饮食、睡眠、运动最佳组合出炉,小改变也大有益

延寿9年,心脏病风险降60%!悉尼大学最新:饮食、睡眠、运动最佳组合出炉,小改变也大有益

医诺维
2026-03-24 17:02:18
广东:力争到2026年底 建成50个以上特色鲜明、功能突出的生产性服务业集聚区

广东:力争到2026年底 建成50个以上特色鲜明、功能突出的生产性服务业集聚区

财联社
2026-03-26 10:15:09
中国军事专家送日本3句话,太绝了,真不是吓唬他们

中国军事专家送日本3句话,太绝了,真不是吓唬他们

安安说
2026-03-26 11:21:19
2026-03-26 20:03:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12606文章数 142594关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

手机
数码
旅游
本地
家居

手机要闻

狂揽307万!红米杀疯了:K90破150万、Turbo 5破百万,性价比赢麻

数码要闻

1+4核,英特尔酷睿3 304处理器现身基准测试

旅游要闻

鲁冰花开啦!快来新乡南太行八里沟 赴一场春日之约

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

家居要闻

傍海而居 静观蝴蝶海

无障碍浏览 进入关怀版