网易首页 > 网易号 > 正文 申请入驻

91%有漏洞、94%可投毒——AI Agent的安全“一团糟”

0
分享至

自主AI Agent正以惊人速度渗透医疗、金融和企业运营,但迄今最大规模的安全研究表明:绝大多数在生产环境运行的Agent存在严重漏洞,而当前主流安全评估手段对此几乎束手无策。

近期,斯坦福大学、MIT CSAIL、卡内基梅隆大学、ITU哥本哈根及NVIDIA的联合研究团队近期研究发现,在所评估的847个自主智能体生产部署中,91%存在工具链攻击漏洞,89.4%在执行约30步后出现目标偏移,94%的记忆增强型智能体面临"投毒"风险。研究共发现2,347个此前未知漏洞,其中23%被评定为严重级别。

论文第一作者Owen Sakawa援引2026年初的"OpenClaw/Moltbook事件",佐证这一威胁已从理论走入现实:Moltbook平台数据库中的单一漏洞,导致平台上77万个运行中的AI Agent同时遭到攻陷,每个Agent均持有对其用户设备、电子邮件及文件的特权访问权限。"这不再是假设性威胁,"Sakawa表示。

这对正加速布局AI Agent的企业和投资者构成直接警示:当前主流安全评估框架均基于无状态语言模型设计,无法识别多步骤执行中涌现的组合性漏洞,意味着大量企业可能正在对自身AI Agent的真实安全状况存在系统性误判。美国认知心理学和AI领域专家Gary Marcus评论称,“自主代理Agents简直一团糟”。


漏洞图谱:六类攻击、2347个已知弱点

研究覆盖医疗(289个部署,占34.1%)、金融(247个,占29.2%)、客户服务(198个,占23.4%)及代码生成(113个,占13.3%)四大行业。


研究建立了一套针对自主智能体的六类漏洞分类体系,包括目标漂移与指令衰减、规划器-执行器去同步、工具权限提升、记忆投毒、静默多步骤策略违规,以及委托失败。

在生产环境评估中,状态操纵(State Manipulation)以612个实例居首(占总量26.1%),目标漂移(573个实例,占24.4%)紧随其后。工具误用与链式调用虽在总量上(489个实例)排名第三,但严重性最高——198个实例被评为严重级,在所有类别中占比最高。

更广泛的关键数字同样触目惊心:67%的智能体在执行15步后出现目标漂移,84%无法跨会话维持安全策略,73%缺乏状态投毒检测机制,58%存在时序一致性漏洞。研究还发现,记忆投毒的效果平均在初次注入后3.7个会话才显现,这大幅增加了安全检测的难度。

现实案例:77万Agent同时沦陷

OpenClaw(前身为Clawdbot和Moltbot)案例为上述威胁模型提供了迄今最直观的现实验证。

这款由奥地利开发者Peter Steinberger于2025年11月发布的开源AI Agent,数周内积累逾16万个GitHub星标,具备自主发送电子邮件、管理日程、执行终端命令及部署代码的能力,并可跨会话保持持久记忆。

安全公司Astrix Security通过自研扫描工具ClawdHunter发现,公开网络上存在42,665个OpenClaw实例,其中8个完全开放且未经任何身份验证。

据VentureBeat报道,Cisco的AI安全研究团队将OpenClaw描述为"从能力角度看具有突破性,但从安全角度看是彻头彻尾的噩梦"。卡巴斯基在2026年1月的安全审计中识别出512个漏洞,其中8个为严重级别。

Moltbook事件的发生过程尤为典型。

这一专为OpenClaw Agent打造的社交平台通过病毒式传播吸引了逾77万个Agent注册——用户将Moltbook告知自己的Agent,Agent随即自主完成注册。

此后,平台数据库漏洞使攻击者得以绕过身份验证,向任意Agent会话直接注入指令,全部77万个Agent——每个均持有对用户设备的特权访问——同时陷入风险敞口。研究团队将此定性为迄今首起有记录的大规模跨Agent攻击传播事件。

安全研究员Simon Willison所称的"致命三角"(lethal trifecta)在OpenClaw身上得到完整体现:访问私密数据的能力、接触不可信内容的暴露面,以及对外通信的渠道,三者叠加使自主智能体成为攻击者的理想跳板。

架构缺陷:AI Agent为何比LLM更脆弱

研究的核心论断是,自主智能体与无状态语言模型的安全挑战在性质上截然不同。

针对语言模型的安全评估聚焦于"能否让模型说出不安全的内容";而对AI Agent而言,问题变为"能否让模型做出不安全的事"——包括具有现实效果的工具调用、影响未来行为的状态修改,以及跨多步骤才显现违规的计划执行。

研究以具体场景说明这一逻辑:一个同时具备文件读取(read_file)和HTTP请求(http_request)权限的Agent,每项工具的访问控制决策在孤立评估时均合规,但二者组合却可实现数据窃取——从配置文件读取凭证,再通过HTTP请求将其发送至外部端点。每一步均满足本地安全策略,整体却完成了对抗性目标。研究将这一现象称为"组合安全"(compositional safety)问题。

在受控架构研究中,研究人员测试了ReAct智能体、多智能体系统、记忆增强型智能体及工具使用型智能体四类主流架构。

结果显示,针对工具使用型智能体的权限提升攻击成功率高达95%,针对记忆增强型智能体的投毒攻击成功率为94%。

即便是抗御能力最强的多智能体系统,针对目标漂移的攻击成功率也达58%——研究人员据此判断,当前所有已测试架构均不具备抵御对抗性部署的充分能力。

自适应攻击生成测试的结果进一步加剧担忧:基于强化学习生成的攻击违规率达79%,相比人工设计场景的63%提升了25.4%,表明AI Agent面临的威胁空间正超出人类红队测试的覆盖边界。

对企业部署的直接影响:防护框架尚不成熟

研究团队依据实证结果提出了最低安全基线:所有生产Agent强制部署运行时监控;对涉及数据访问后对外通信的工具链操作设置人工审批门槛;每执行20—25步应强制触发人工审查,以应对步骤超出后几乎必然出现的目标偏移;记忆增强型Agent须对持久化状态进行加密完整性校验。

在监控效果层面,研究显示行动级监控(单步操作检测)精确率可达0.94,序列级监控(多步行为链)F1分数为0.85,状态级监控F1分数为0.83。在对127个生产Agent进行30天运行时监控的测试中,系统在拦截4782次操作的同时,误报率控制在3.7%,其中14.6%的被标记操作被确认为真实攻击。

研究还指出,当前"AI治理"方法存在根本性错位:现有框架多为事后审计,而非在执行环节实时执行合规约束。

随着欧盟《人工智能法案》、美国NIST AI风险管理框架等监管要求的落地,企业面临的合规压力与安全风险将同步上升。在AI Agent被广泛部署于高风险业务场景的背景下,安全基础设施的缺位,正成为这一轮AI商业化浪潮中不可忽视的系统性风险。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
曝央视已发邀请函!被批冤大头 1.1亿美元太贵?比4年前还便宜了

曝央视已发邀请函!被批冤大头 1.1亿美元太贵?比4年前还便宜了

风过乡
2026-05-15 13:13:30
“那家伙在空军1号前居然一动不动”!美媒注意到一名中国仪仗兵

“那家伙在空军1号前居然一动不动”!美媒注意到一名中国仪仗兵

阿龙聊军事
2026-05-14 11:02:15
孩子一生最大的福报,就是遇到一个觉醒后的母亲

孩子一生最大的福报,就是遇到一个觉醒后的母亲

户外阿毽
2026-05-14 09:59:29
分析:乌克兰真的在扭转战局吗?

分析:乌克兰真的在扭转战局吗?

被误解的时候能微微一笑
2026-05-12 16:39:15
青岛利客来集团因违规转包被暂停陆军范围物资工程服务采购资格

青岛利客来集团因违规转包被暂停陆军范围物资工程服务采购资格

齐鲁壹点
2026-05-15 09:03:17
日本已经明牌了,他们对中国发起的不仅仅是冲突那么简单

日本已经明牌了,他们对中国发起的不仅仅是冲突那么简单

安安说
2026-02-28 09:24:12
属虎人,5月20日前后三天,你要摊上大事!不是吓你

属虎人,5月20日前后三天,你要摊上大事!不是吓你

牛锅巴小钒
2026-05-15 11:09:54
中印冲突再度升级!冰冷现实刺眼:中国越克制,印度越步步紧逼!

中印冲突再度升级!冰冷现实刺眼:中国越克制,印度越步步紧逼!

小樾说历史
2026-05-14 12:20:38
王洪文38岁正国级,狂草藏三处神技,你绝对没见过!

王洪文38岁正国级,狂草藏三处神技,你绝对没见过!

书画相约
2026-05-14 09:15:45
笑麻了,原来真实的乡镇公务员是这样的!网友:疑是被编制做局了

笑麻了,原来真实的乡镇公务员是这样的!网友:疑是被编制做局了

另子维爱读史
2026-05-10 10:55:25
35岁1个月,坎特成法国队历史入选世界杯名单第二年长外场球员

35岁1个月,坎特成法国队历史入选世界杯名单第二年长外场球员

懂球帝
2026-05-15 05:54:04
无极县一火锅店突发重大刑案,惊悚说法大量传播,信息公开很重要

无极县一火锅店突发重大刑案,惊悚说法大量传播,信息公开很重要

胡侃社会百态
2026-05-14 13:26:32
舒淇坦言冯德伦很讨厌,却透露他为了健身严格执行14小时进食理论

舒淇坦言冯德伦很讨厌,却透露他为了健身严格执行14小时进食理论

小邵说剧
2026-05-15 07:45:58
他是四川省委原书记,更是老百姓心中的“草鞋书记”,享年92

他是四川省委原书记,更是老百姓心中的“草鞋书记”,享年92

翠羽
2026-05-15 08:10:18
中美会谈圆满结束,中方当面定调台海红线,特朗普反应值得细品

中美会谈圆满结束,中方当面定调台海红线,特朗普反应值得细品

枫红染山径
2026-05-15 15:42:04
4年3亿美元超级合同遭文班亚马拒绝,他的野心早已写在脸上

4年3亿美元超级合同遭文班亚马拒绝,他的野心早已写在脸上

郝小小看体育
2026-05-15 06:33:32
访华归来不满一个月,苏林在印度总理莫迪面前,对印度改了叫法

访华归来不满一个月,苏林在印度总理莫迪面前,对印度改了叫法

楠楠自语
2026-05-09 11:58:58
埃及法老迎娶自己的女儿,还生下孩子,难道他们不觉得违背伦理?

埃及法老迎娶自己的女儿,还生下孩子,难道他们不觉得违背伦理?

历史人文2
2026-05-05 09:46:17
面向全球市场!神龙汽车将生产标致和Jeep品牌的全新新能源车,2027年起投产

面向全球市场!神龙汽车将生产标致和Jeep品牌的全新新能源车,2027年起投产

每日经济新闻
2026-05-15 13:44:15
砸了个寂寞!特朗普最愚蠢之处,就是把中美平起平坐的真相说出来

砸了个寂寞!特朗普最愚蠢之处,就是把中美平起平坐的真相说出来

小嵩
2026-03-28 18:44:22
2026-05-15 18:08:49
华尔街见闻官方 incentive-icons
华尔街见闻官方
中国领先的金融商业信息提供商
146123文章数 2653575关注度
往期回顾 全部

科技要闻

两年联姻一地鸡毛,传苹果OpenAI濒临决裂

头条要闻

白宫称中方同意重开霍尔木兹海峡 外交部回应

头条要闻

白宫称中方同意重开霍尔木兹海峡 外交部回应

体育要闻

德约科维奇买的球队,从第6级联赛升入法甲

娱乐要闻

方媛为何要来《桃花坞6》没苦硬吃?

财经要闻

特朗普的北京时刻

汽车要闻

标杆级乘坐感受 驾驶智界V9需要再细腻一点?

态度原创

本地
数码
手机
教育
公开课

本地新闻

用苏绣的方式,打开江西婺源

数码要闻

智界V9上线智能关怀卡片:搭配华为儿童手表,可一键寻娃

手机要闻

十倍潜望长焦+双哈苏2亿像素!OPPO Find X9 Ultra 评测:不止影像旗舰 更是专业摄影师的随拍神器

教育要闻

既要学校稳,又要同学好,还要门槛低?这所学校满足你!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版