网易首页 > 网易号 > 正文 申请入驻

南洋理工揭露AI「运行安全」全线崩溃,简单伪装即可骗过所有模型

0
分享至



本文的第一作者雷京迪是南洋理工大学博士生,其研究聚焦于大语言模型,尤其关注模型推理、后训练与对齐等方向。通讯作者 Soujanya Poria 为南洋理工大学电气与电子工程学院副教授。论文的其他合作者来自 Walled AI Labs、新加坡资讯通信媒体发展局 (IMDA) 以及 Lambda Labs。

当我们谈论 AI 安全的问题时,我们到底在谈论什么?

是暴力,偏见还是伦理问题?这些固然重要,但是对于将 AI 投入实际业务的企业而言,一个更致命但却长期被忽视的一条安全红线正在被频繁触碰:你精心打造的「法律咨询」聊天机器人,正在热情地为用户提供医疗建议。

这仅仅是模型跑题了而已吗?不,这就是一种不安全。

在这篇文章中,来自南洋理工大学等机构的研究者们首先提出了一个开创性的概念 ---运行安全(Operational Safety),旨在彻底重塑我们对 AI 在特定场景下安全边界的认知。



  • 论文标题:OffTopicEval: When Large Language Models Enter the Wrong Chat, Almost Always!
  • 论文地址:https://arxiv.org/pdf/2509.26495
  • 论文代码:https://github.com/declare-lab/OffTopicEval
  • 评测数据集:https://huggingface.co/datasets/declare-lab/OffTopicEval

本文核心观点振聋发聩:当 AI 超出其预设的职责边界时,其行为本身,就是一种不安全。

这篇论文的根本性贡献,是将 AI 安全讨论从传统的「内容过滤」提升到了「职责忠诚度」的全新维度。一个无法严守自身岗位职责的 AI,无论其输出的内容多么 「干净」,在应用中都是一个巨大的、不可控的风险,运行安全应该作为通用安全的一个必要不充分条件而存在。



OffTopicEval: 衡量「运行安全」的第一把标尺

为了将这一全新的概念付诸实践并量化风险,团队开发了首个针对运行安全的评测基准 ---OffTopicEval,它不关心模型知道多少或者能力有多么强大,而是关心模型是否能懂得在恰当的时候说不。

他们构建了 21 个不同场景下的聊天机器人,并严格设定其职责与边界,然后精心构建了 direct out of domain (OOD) question test (非常显然的领域外问题),adaptive OOD question (伪装成领域内而实际为领域外问题,人类可以非常轻易的判断出来) 以及为了衡量模型是否能够恰当的拒绝而非一味的拒绝而设计的领域内问题,总体包括 21 万 + 条 OOD 数据,3000 + 条领域内数据,涵盖英语,中文,印地语三种完全不同语法结构的语系。

用评测揭露残酷的现实

通过对 GPT、LLama、Qwen 等六大主流模型家族的测试,评测结果揭示了一个令人警醒的问题:在「运行安全」这门必修课上,几乎所有模型都不及格。如:

  • 伪装之下不堪一击:面对经过简单伪装的越界问题,模型的防御能力几乎快要崩溃,所有模型对于 OOD 问题的平均拒绝率因此暴跌近 44%,其中像 Gemma-3 (27B) 和 Qwen-3 (235B) 等模型的拒绝率降幅甚至超过了 70%。
  • 跨语言的缺陷:这个问题对于不同的语言仍然存在,说明这是当前大模型的一个根本缺陷。





他们还发现,当模型经历一次欺骗过后,它似乎放弃了所有抵抗,即使对于简单的 OOD 问题的拒绝率也会下降 50% 以上!



简单来说,你认真训练的一个银行客服机器人,只要用户换个问法,它就开始提供投资建议,并乐在其中,这在要求严格的行业里将是不可想象的潜在威胁。

重新找回 AI 的职业操守

这篇论文不仅在于揭示这样一个问题,更提供了切实可行的解决思路和他们失败的经验尝试,他们尝试了 prompt-based steering(提示词转向)、activation steering(激活转向)以及 parameter steering(参数转向)的方式,其中 activation steering 和 parameter steering 的方式均难以提升模型坚守能力。

而在 prompt-based steering 中,他们提出了两种轻量级的,无需重新训练的两种提示方式:

  1. P-ground: 在用户提出问题后追加指令告诉模型,强制它先忘掉问题聚焦于系统提示词再做回答。
  2. Q-ground: 让模型将用户的问题重写成最核心、最精简的形式,然后基于这样一个问题进行回应。

他们在实验中基于这两种思路写了非常简单的提示词,效果却立竿见影,P-ground 方法让 Llama-3.3 (70B) 的操作安全评分飙升了 41%,Qwen-3 (30B) 也提升了 27%。这证明,用轻量级的方法就能显著增强模型的「职业操守」。



总结

这篇论文首次将跑题的问题从大众所认知的简单的功能缺陷提升到了安全的战略高度,它向整个行业发出了一个明确的信号:

  1. AI 安全不止是内容安全:一个不能严守边界的 AI,在商业上是不可靠、不安全的。
  2. 「越界」本身就是风险:我们必须建立新的评测和对齐范式,来奖励那些懂得自身局限性、敢于拒绝越界请求的模型。
  3. 运行安全是部署前提:对于所有希望将 AI 代理用于严肃场景的开发者而言,运行安全将成为部署前必须通过的上岗测试。

从这个角度来看,这篇论文不仅仅是提出了一个评测工具,它更像是一份宣言,呼吁整个社区重新审视和定义面向实际应用的 AI 安全,确保我们构建的不仅是强大的 AI,更是值得信赖、恪尽职守的 AI。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
华尔街情绪已达极端恐惧!高盛专家:即便特朗普暗示停战,我依然对“做多”感到不安

华尔街情绪已达极端恐惧!高盛专家:即便特朗普暗示停战,我依然对“做多”感到不安

华尔街见闻官方
2026-03-31 23:29:27
马航370并非意外失联,前美中情局特工说出真相后,车祸身亡

马航370并非意外失联,前美中情局特工说出真相后,车祸身亡

南冥那只猫
2025-03-05 21:11:34
美股高开高走 纳斯达克指数涨超2%

美股高开高走 纳斯达克指数涨超2%

财联社
2026-03-31 21:57:17
广东101-92战胜江苏,赛后出现两大事实,杜锋表情严肃

广东101-92战胜江苏,赛后出现两大事实,杜锋表情严肃

凡人说体育
2026-03-31 22:07:29
突发!Claude Code“开源”,全网疯传

突发!Claude Code“开源”,全网疯传

智东西
2026-03-31 21:53:35
57岁森保一回击英国记者嘲讽:日本队有实力在世界杯夺冠 走着瞧

57岁森保一回击英国记者嘲讽:日本队有实力在世界杯夺冠 走着瞧

风过乡
2026-03-31 06:19:52
主持人沈南参加张雪峰告别式,落泪回忆细节:他就像睡着了一样

主持人沈南参加张雪峰告别式,落泪回忆细节:他就像睡着了一样

萌神木木
2026-03-29 11:50:49
才播4集,飙升榜第一!湖南卫视这部剧,又是2026黑马

才播4集,飙升榜第一!湖南卫视这部剧,又是2026黑马

阿废冷眼观察所
2026-03-31 17:02:09
不演了,日本地对舰导弹竖起,马克龙连夜飞日本:急见高市早苗

不演了,日本地对舰导弹竖起,马克龙连夜飞日本:急见高市早苗

无情有思可
2026-03-31 22:13:44
大陆撑腰,郑丽文高调访问大陆,马英九为什么不来了?

大陆撑腰,郑丽文高调访问大陆,马英九为什么不来了?

蓝色海边
2026-03-31 19:52:41
沉默电话3秒陷阱:你的"喂"正在喂养诈骗机器

沉默电话3秒陷阱:你的"喂"正在喂养诈骗机器

我是一个养虾人
2026-03-29 08:44:17
正式退出常规赛!焦泊乔赴京开启治疗,原因曝光,杜锋该醒醒了

正式退出常规赛!焦泊乔赴京开启治疗,原因曝光,杜锋该醒醒了

萌兰聊个球
2026-03-31 14:44:52
即将免费!华快一期收费期限8月7日截止!

即将免费!华快一期收费期限8月7日截止!

广州楼市发布
2026-03-31 10:02:56
C罗截胡梅西?力邀卡塞米罗加盟沙特,拒绝“梅罗”联手美职联

C罗截胡梅西?力邀卡塞米罗加盟沙特,拒绝“梅罗”联手美职联

星耀国际足坛
2026-03-31 23:42:06
中南财经政法大学回应749秒超长红灯:仅在大课间时段启用

中南财经政法大学回应749秒超长红灯:仅在大课间时段启用

闪电新闻
2026-03-31 09:55:02
杜锋接受采访,回应焦泊乔请假离开广东队

杜锋接受采访,回应焦泊乔请假离开广东队

晚雾空青
2026-03-31 17:07:20
美国最担心的事发生了,伊朗亮出中国“底牌”,中国或成最大赢家

美国最担心的事发生了,伊朗亮出中国“底牌”,中国或成最大赢家

徐云流浪中国
2026-03-04 15:30:07
伊朗女孩这场模仿秀,比任何抗议都狠

伊朗女孩这场模仿秀,比任何抗议都狠

老马拉车莫少装
2026-03-27 22:59:05
特斯拉FSD被刷机

特斯拉FSD被刷机

鞭牛士
2026-03-31 10:23:08
长鑫科技、蓝箭航天,IPO暂停

长鑫科技、蓝箭航天,IPO暂停

21世纪经济报道
2026-03-31 19:59:01
2026-04-01 00:32:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12648文章数 142600关注度
往期回顾 全部

科技要闻

华为2025年销售收入8809亿,净利润680亿元

头条要闻

男子玩具店买枪被羁押279天获国赔16万:打官司花40万

头条要闻

男子玩具店买枪被羁押279天获国赔16万:打官司花40万

体育要闻

县城修车工,用20年成为世界冠军

娱乐要闻

《月鳞绮纪》空降 鞠婧祎却被举报偷税

财经要闻

油价暴涨 我们的生活成本会飙升多少?

汽车要闻

腾势Z9GT到底GT在哪?

态度原创

本地
家居
数码
手机
公开课

本地新闻

用Color Walk的方式解锁城市春日

家居要闻

新婚爱巢 甜蜜情趣拉满

数码要闻

联想推出YOGA AI Mini迷你主机,5499元

手机要闻

iOS 26.5 Beta登场:地图商业化试水,国行AI却上演“深夜快闪”

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版