网易首页 > 网易号 > 正文 申请入驻

OpenClaw爆火,暴露12类致命隐患!MCP协议安全基准发布 | ICLR

0
分享至


新智元报道

编辑:LRST

【新智元导读】MCP协议正推动AI Agent自主执行任务,但安全风险飙升。研究发现,攻击者可借工具名称混淆、虚假错误等12类手法诱骗Agent执行恶意操作,连顶级模型也难以幸免。北京邮电大学团队发布MSB安全基准,通过真实环境测试揭示:性能越强的模型,反而越易受攻击。新指标NRP首次平衡安全与实用性,为AI Agent筑牢防线提供关键标尺。

最近,OpenClaw等开源AI Agent项目在开发者社区火爆出圈。只需要一句话,Agent就能自动帮你写代码、查资料、操作本地文件,甚至接管电脑。

这些 Agent 惊人自主性的背后,离不开工具调用提供的能力,MCP(Model Context Protocol,模型上下文协议)正是统一AI工具生态的接口。就像USB-C让电脑可以连接各种设备一样,MCP让大模型能够以标准化方式调用文件系统、浏览器、数据库等外部工具。

面对如此庞大的生态,连主打原生命令行的OpenClaw,也通过适配器接入了 MCP,以获取更广阔的工具能力。

然而,当AI的「手」越伸越长,危险也随之降临。如果Agent调用的工具本身被黑客投毒了呢?如果工具返回的报错信息里藏着恶意指令呢?

当大模型毫无防备地执行这些指令时,你的隐私数据、本地文件甚至服务器权限,都将沦为黑客的囊中之物。

为了填补MCP生态的安全测评空白,来自北京邮电大学等机构的研究团队推出了专门针对MCP协议的安全基准:MSB(MCP Security Bench)。研究发现:针对MCP的每个阶段的攻击都具有有效性性能越强大的模型,反而更容易受到攻击。该论文已被ICLR 2026接收。


论文链接:https://openreview.net/pdf?id=irxxkFMrry

代码:https://github.com/dongsenzhang/MSB

Agent背后的MCP安全风险


图1:MCP攻击框架

MCP极大地拓宽了Agent的能力,同时也极大地拓宽了攻击面。在MCP体系下,Agent的工具调用流程通常包含三个阶段:

1. 任务规划(Task Planning):Agent根据用户查询,通过工具名称和描述选择合适的工具。

2. 工具调用(Tool Invocation):Agent向选定工具发送请求,并传入相应参数以执行具体操作。

3. 响应处理(Response Handling):Agent解析工具响应结果,并据此继续推理或生成最终回答。

每一个阶段,都可能成为新的攻击入口。MSB覆盖完整的MCP工具调用阶段,专门用于评估基于MCP工具使用的 Agent安全性,具有三大核心亮点:

MCP 攻击分类体系

在 MCP 工作流程中,Agent通过工具标识(名称和描述)、参数以及工具响应与工具进行交互,这些都可能成为攻击途径。MSB根据这些攻击途径和交互阶段对攻击类型分类:

Tool Signature Attack:在任务规划阶段,利用工具名称和描述进行攻击,包括:

名称冲突(Name Collision,NC):伪造名称与官方工具相似的恶意工具,诱导Agent选择。

偏好操纵(Preference Manipulation,PM):向工具描述中注入宣传语句,诱导Agent选择。

提示注入(Prompt Injection,PI):向工具描述中注入恶意指令。

Tool Parameter Attack:在工具调用阶段,利用工具参数进行攻击,包括:

越权参数(Out-of-Scope Parameter,OP):设置超出正常功能的工具参数,通过参数传递引发信息泄露

Tool Response Attack:在响应处理阶段,利用工具响应进行攻击,包括:

用户模拟(User Impersonation,UI):冒充用户下达恶意指令。

虚假错误(False Error,FE):提供虚假的工具执行错误信息,要求Agent遵循恶意指令才能成功调用工具。

工具重定向(Tool Transfer,TT):指示Agent调用恶意工具。

Retrieval Injection Attack:在响应处理阶段,利用外部资源进行攻击,包括:

检索注入(Retrieval Injection,RI):嵌入恶意指令的外部资源通过工具响应破坏上下文。

Mixed Attack:在多个阶段,同时利用多个工具组件进行攻击,包括对以上攻击的组合。

基于真实环境的执行套件

MSB 拒绝纸上谈兵的模拟评测,其搭载了真实的MCP 服务器,涵盖10个现实场景、405个真实工具和 2,000 个攻击实例。所有实例都通过MCP运行真实的工具执行,真实地反映实际操作环境,以直接观测攻击对环境状态的破坏程度。

平衡性能与安全的指标NRP

在Agent安全测评中,单纯看攻击成功率(ASR, Attack Success Rate)极具欺骗性,如果一个 Agent 为了避免风险而拒绝执行任何工具调用,其ASR可能接近0,但同时也无法完成用户任务,失去实际应用价值。

为此,MSB提出了净弹性性能 NRP(Net Resilient Performance)指标:

NRP=PUA⋅(1−ASR)

其中,PUA(Performance Under Attack)为Agent在对抗环境中完成用户任务的比例,ASR为攻击成功率。NRP旨在评估Agent在抵御攻击的同时保持性能的整体抗风险能力,提供平衡性能与安全的综合性量化标准。


图2:NRP vs ASR,NRP vs PUA。

所有攻击方式均有效


图3:主实验结果。

研究团队使用MSB对GPT-5、DeepSeek-V3.1、Claude 4 Sonnet、Qwen3等10款主流模型进行了大规模测试,所有攻击方式均表现出有效性,总体平均ASR为40.35%。其中MCP引入的新型攻击更具侵略性,相较于在function calling中已存在的PI和RI攻击,基于MCP的攻击例如UI和FE有更高的成功率。混合攻击则是展现出协同增强,混合攻击的成功率要高于组成其的单一攻击。

越强大的模型,反而越脆弱题

不同指标间的关系揭示了一个反直觉的结论:能力越强的模型往往更容易受到攻击。


图4:PUA vs ASR。

在MSB中,完成攻击任务仍需要Agent调用工具,例如使用文件读取工具获取个人信息。具有更高实用性的LLM,由于其更出色的工具调用和指令遵循能力,表现出更高的ASR。这一发现揭示了MCP安全漏洞的巨大实际风险。

全阶段、多工具环境侵害


图5:不同阶段和工具配置的ASR。

进一步从MCP工作流程和工具配置的角度分析发现,在MCP的所有阶段Agent都容易遭受攻击,在工具调用阶段模型的安全性最低。

此外,即使在包含无害工具的多工具环境中,攻击依然有效。现实场景通常会为Agent提供工具包,即便存在无害工具,诸如NC、PM和TT等诱导方式仍会导致显著的攻击成功。

总结

OpenClaw的爆火,让人们直观地看到了Agent的未来:大模型不再只是回答问题,而是开始真正动手做事。MSB正是在这样的背景下提出,它系统揭示了MCP生态中的潜在攻击面,并为Agent安全研究提供了可复现、可量化的系统评测基准。

过去的大模型安全研究主要聚焦于提示注入等语言层面的风险,而MSB表明,当AI调用工具并与真实系统交互时,攻击面也正在从文本空间扩展到工具生态。随着Agent逐渐成为AI应用的新范式,安全或许正成为这场技术跃迁必须跨过的一道门槛。

参考资料:

https://openreview.net/pdf?id=irxxkFMrry

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
生育大局已定:如不出意外,2026年起中国人口将迎来3大变化

生育大局已定:如不出意外,2026年起中国人口将迎来3大变化

蜉蝣说
2026-03-17 15:58:31
中方对荷光刻机优待全部取消,450亿芯片不做了!

中方对荷光刻机优待全部取消,450亿芯片不做了!

福建睿平
2026-04-22 11:22:01
陈妍希申请强制执行

陈妍希申请强制执行

鲁中晨报
2026-04-22 16:24:02
足协认定漏判海牛点球 叶博亚禁区内倒地应判点

足协认定漏判海牛点球 叶博亚禁区内倒地应判点

体坛周报
2026-04-22 21:48:16
东莞重点发展的5大区域,未来可能让你“高攀不起”!

东莞重点发展的5大区域,未来可能让你“高攀不起”!

次元君情感
2026-04-22 13:29:13
日本人怎么也想不通:上万元的电饭煲,中国是怎么做到卖几十的?

日本人怎么也想不通:上万元的电饭煲,中国是怎么做到卖几十的?

李砍柴
2026-04-22 17:21:23
5月1日起!巨额财产来源不明罪,立案标准从30万大幅提高到300万

5月1日起!巨额财产来源不明罪,立案标准从30万大幅提高到300万

今朝牛马
2026-04-22 21:09:48
17年前,他把黄家驹念成黄家“狗”,自以为幽默,没想到断送前程

17年前,他把黄家驹念成黄家“狗”,自以为幽默,没想到断送前程

老吴教育课堂
2026-04-21 11:35:25
场均20+命中率60%联盟居然只有两人啊!

场均20+命中率60%联盟居然只有两人啊!

柚子说球
2026-04-22 20:42:25
2200万美元成本,《木乃伊》夺得季军,温子仁和华纳兄弟小赚一笔

2200万美元成本,《木乃伊》夺得季军,温子仁和华纳兄弟小赚一笔

电影票房预告片
2026-04-21 23:32:00
深圳福田灯光秀将暂停5个月,预计国庆回归

深圳福田灯光秀将暂停5个月,预计国庆回归

南方都市报
2026-04-22 11:17:53
“保姆纵火案”8年后,再婚得子的林生斌现状曝光,反噬终于来了

“保姆纵火案”8年后,再婚得子的林生斌现状曝光,反噬终于来了

姩姩有娱
2025-10-10 19:01:25
朝鲜5枚导弹齐射,金正恩亲自督战,日本找上中国,发出强烈抗议

朝鲜5枚导弹齐射,金正恩亲自督战,日本找上中国,发出强烈抗议

小涛叨叨
2026-04-21 18:52:37
前两场季后赛三分17中4,凯尔特人后场大将的手感真是惨不忍睹?

前两场季后赛三分17中4,凯尔特人后场大将的手感真是惨不忍睹?

稻谷与小麦
2026-04-23 00:07:47
伤得很深!男子打赏女主播近300万,想结婚时才知对方女儿都20岁了:我只顾为爱冲锋,结果她全是假话

伤得很深!男子打赏女主播近300万,想结婚时才知对方女儿都20岁了:我只顾为爱冲锋,结果她全是假话

台州交通广播
2026-04-10 16:23:25
阿尔特塔长子上演阿森纳U18首秀,恩瓦内里的弟弟在比赛中破门

阿尔特塔长子上演阿森纳U18首秀,恩瓦内里的弟弟在比赛中破门

懂球帝
2026-04-22 22:51:09
展示各队状态!中超非罚积分榜:蓉城19分,申花铜梁龙17分

展示各队状态!中超非罚积分榜:蓉城19分,申花铜梁龙17分

懂球帝
2026-04-22 22:21:01
曼联否决纳格尔斯曼,卡里克转正又近一步!双红会定欧冠资格归属

曼联否决纳格尔斯曼,卡里克转正又近一步!双红会定欧冠资格归属

罗米的曼联博客
2026-04-22 11:31:13
阎鹤祥女儿百天亮相!3个月大体重超18斤 白白胖胖戴金镯子好贵气

阎鹤祥女儿百天亮相!3个月大体重超18斤 白白胖胖戴金镯子好贵气

离离言几许
2026-04-22 23:18:06
深度 | 80多年来首次,放开杀伤性武器出口,日本为何此时迈出危险一步?

深度 | 80多年来首次,放开杀伤性武器出口,日本为何此时迈出危险一步?

上观新闻
2026-04-21 21:18:03
2026-04-23 00:32:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15039文章数 66797关注度
往期回顾 全部

科技要闻

对话梅涛:没有视频底座,具身智能走不远

头条要闻

医院主任"巨额财产来源不明" 被指向女儿转账超800万

头条要闻

医院主任"巨额财产来源不明" 被指向女儿转账超800万

体育要闻

网易传媒再度签约法国队和阿根廷队

娱乐要闻

蜜雪冰城泰国代言人 被扒出辱华黑历史

财经要闻

医院专家号"秒空"!警方牵出黑色产业链

汽车要闻

纯电续航301km+激光雷达 宋Pro DM-i飞驰版9.99万起

态度原创

教育
本地
健康
数码
公开课

教育要闻

初中物理怎么学?树德名师提到学生要有三种思维

本地新闻

春色满城关不住|白鹃梅浪漫盛放,吴山藏了一片四月雪

干细胞抗衰4大误区,90%的人都中招

数码要闻

Beats发布3米USB-C数据线:售229元 最高240W快充

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版