网易首页 > 网易号 > 正文 申请入驻

OpenAI安全团队栽了:Agent思考越久,护栏越像摆设

0
分享至


Agentic AI(自主智能体)在生产环境崩溃的频率,比产品经理的周报还准时。行业标准的修复方案?写一段措辞严厉的系统提示词。这不是工程,是玄学——赌模型心情好。

问题在于:这套"提示词护栏"从架构上就是残次品。它有两个必崩的命门。

命门一:向量空间里的"坏区"删不掉

大语言模型生成文本,本质是在高维向量空间里导航。输入上下文像一张地图,模型顺着找相关区域。但安全护栏作为系统提示词,也只是另一串token,和其他所有内容公平竞争注意力。

预训练数据包含人类生成的全部文本——包括有害内容。这些"坏区"永远存在于向量空间里。提示词护栏只能让某些区域更难到达,无法抹除。 framing(框架设计)得当的攻击提示,总能把模型的内部状态往危险区域推。

用提示词删向量空间?相当于用便利贴盖住火山口。

命门二:上下文窗口的"记忆稀释"


Transformer的注意力机制是加权的关键词-值查找。位置0的系统提示词,要和后面所有内容抢注意力。上下文越长,附近token越占主导,护栏的影响力被指数级削弱。

不是模型"故意"忘记——注意力天然优先处理近期、上下文相关的token。护栏从未被架构特殊对待,只是另一段token序列。

Agentic AI的核心卖点是"多步推理"。但每多一步,护栏就淡一分。思考10步后,那句"请勿生成有害内容"的权重可能只剩初始值的零头。

安全系统的效能与任务复杂度成反比,这是产品设计的自杀式结构。

解法:把护栏从"内置"改成"外挂"

与其让护栏和主模型挤在一个上下文里内耗,不如拆出来——用一个小型微调LLM做外部验证器,代号Overseer(监督者)。

架构差异:


Overseer初始化时只加载护栏规则,状态固定;它从不接触完整的、不断增长的对话上下文;只接收主模型的"提示-回复"对;专门微调用于检测回复是否违反原始护栏意图。

主模型专心干活,Overseer专职挑刺。两者解耦,注意力不再打架。

这套设计把"安全"从概率游戏变成确定性检查。Overseer的输入长度恒定,不受主模型推理深度影响——Agent思考100步,护栏效力不打折。

为什么行业还在用便利贴盖火山

提示词护栏的流行,不是因为有效,是因为便宜。加一段system prompt(系统提示词)就能交差,谁愿意单独训一个验证模型?

但生产环境的崩溃成本,迟早会超过预防成本。Agentic AI的调用链越长、工具越多、推理越深,提示词护栏的失效曲线就越陡峭。

某安全团队内部测试显示:同样的攻击提示,在5轮对话后的突破成功率比单轮高出340%。数据没公开,但方向符合注意力机制的数学规律。

Overseer方案的真正门槛不是技术,是组织——需要安全团队和模型团队协同,而不是安全写段提示词就甩手。

Agentic AI的竞赛已经进入深水区。主模型比谁更聪明,安全架构比谁更清醒。当竞争对手的Agent开始处理100步以上的复杂任务,你的护栏还在第几步失效?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
布伦特原油期货跌幅扩大至5%,报98.70美元/桶

布伦特原油期货跌幅扩大至5%,报98.70美元/桶

每日经济新闻
2026-04-01 15:00:24
以军称“圣城旅”黎巴嫩部队工程部门负责人身亡

以军称“圣城旅”黎巴嫩部队工程部门负责人身亡

新华社
2026-04-01 14:33:02
苏联“人猿杂交”实验:5名女孩与11只猩猩参与,结局如何?

苏联“人猿杂交”实验:5名女孩与11只猩猩参与,结局如何?

谈史论天地
2026-02-28 13:35:18
日本人破防了:DNA检测日本祖先被证实,日本人不是徐福后代

日本人破防了:DNA检测日本祖先被证实,日本人不是徐福后代

铭记历史呀
2026-03-14 13:00:41
上甘岭收缴大量美军罐头,装的却都是粪便,美军:要怪就怪张桃芳

上甘岭收缴大量美军罐头,装的却都是粪便,美军:要怪就怪张桃芳

历史点行
2026-04-01 12:19:02
虎跳峡落水男子遗体发现后,因难度太大家属无奈同意放弃打捞,专业人士揭秘致命“水下虹吸”

虎跳峡落水男子遗体发现后,因难度太大家属无奈同意放弃打捞,专业人士揭秘致命“水下虹吸”

红星新闻
2026-03-31 01:01:12
7-5!这就是文班和邓肯的区别,22岁的他已改写马刺队史

7-5!这就是文班和邓肯的区别,22岁的他已改写马刺队史

奕辰说球
2026-04-01 15:46:10
遗体就在水面下40厘米,可他们再也拉不上来了

遗体就在水面下40厘米,可他们再也拉不上来了

芭比衣橱
2026-04-01 09:56:55
美媒:特朗普已无法恢复政治地位,他的总统任期在实质上已经结束

美媒:特朗普已无法恢复政治地位,他的总统任期在实质上已经结束

青烟小先生
2026-03-31 10:19:42
孙颖莎3-0,没想到他会现身比赛,有他在莎莎很安心

孙颖莎3-0,没想到他会现身比赛,有他在莎莎很安心

郭夷包工头
2026-04-01 13:04:47
蔚盛斌辞去湖北省副省长职务,此前已履新安徽

蔚盛斌辞去湖北省副省长职务,此前已履新安徽

时尚的弄潮
2026-04-01 12:48:11
7旬老头帮留守女孩补课,两年后班主任发觉异常,父母得知后崩溃

7旬老头帮留守女孩补课,两年后班主任发觉异常,父母得知后崩溃

天梦见证
2025-04-11 22:45:43
央视主持人吞300颗安眠药自杀,抢救7天7夜,如今生活如何?

央视主持人吞300颗安眠药自杀,抢救7天7夜,如今生活如何?

谢鵑解说
2026-04-01 12:58:45
吃肉有讲究!鸡肉倒数第一,牛肉才排第二,第一名不起眼却最养人

吃肉有讲究!鸡肉倒数第一,牛肉才排第二,第一名不起眼却最养人

江江食研社
2026-02-05 21:10:06
卡塔尔公主来深圳提车,比亚迪王传福要白送?国产车靠硬技术逆袭

卡塔尔公主来深圳提车,比亚迪王传福要白送?国产车靠硬技术逆袭

生活魔术专家
2026-03-31 11:55:54
国际观察|“七线作战”的以色列还能撑多久?

国际观察|“七线作战”的以色列还能撑多久?

新华社
2026-03-31 21:30:55
CBA两场焦点战央5直播!山东北京冲前4,辽宁冲前8,四川拒33连败

CBA两场焦点战央5直播!山东北京冲前4,辽宁冲前8,四川拒33连败

老吴说体育
2026-04-01 10:25:13
十天内连续五次袭击俄能源设施 霍尔木兹危机改写俄乌冲突重点战线

十天内连续五次袭击俄能源设施 霍尔木兹危机改写俄乌冲突重点战线

财联社
2026-04-01 11:38:38
苹果京东旗舰店将于4月1日开启“Apple 50周年庆”直播活动

苹果京东旗舰店将于4月1日开启“Apple 50周年庆”直播活动

IT之家
2026-03-30 23:01:56
生育大局已定:如不出意外,2026年起中国人口将迎来3大变化

生育大局已定:如不出意外,2026年起中国人口将迎来3大变化

蜉蝣说
2026-03-17 15:58:31
2026-04-01 16:52:49
赛博兰博
赛博兰博
专注捣鼓AI效率工具,试图在这个时代留下数字分身的探索者。
644文章数 5关注度
往期回顾 全部

科技要闻

营收翻倍、巨亏31亿!中国大模型太烧钱了

头条要闻

女生被瑜伽教练帮忙松解肌肉 腿上留下难以褪去的痕迹

头条要闻

女生被瑜伽教练帮忙松解肌肉 腿上留下难以褪去的痕迹

体育要闻

NBA扩军,和篮球无关?

娱乐要闻

宋宁峰人设崩塌!带娃偷情+反向索赔

财经要闻

电商售械三水光针 机构倒货or假货猖獗?

汽车要闻

2026年3月小米汽车交付超2万台 新SU7上市即交付

态度原创

亲子
手机
本地
公开课
军事航空

亲子要闻

湖北一婴儿不小心将被子盖在脸上,爸爸沉迷手机近一分钟未察觉,直到孩子发出声响才发现危险

手机要闻

OPPO K15 Pro系列发布 主动散热颜值性能两不误

本地新闻

从学徒到世界冠军,为什么说张雪的底气在重庆?

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普:想要石油自己去霍尔木兹抢 我最想抢伊朗石油

无障碍浏览 进入关怀版