网易首页 > 网易号 > 正文 申请入驻

对话邓智航|以「龙虾」为起点,起底从单个 Agent 到 Agentic Web 的安全重构

0
分享至


安全问题不再局限模型,而是系统中的控制权之争。

作者丨郑佳美

编辑丨岑 峰

OpenClaw 的爆火,让一个原本更多停留在技术圈内部的变化,突然变得具象起来。

当一个 Agent 可以跨应用执行任务、调用工具、在几乎没有人工干预的情况下完成复杂流程时,人们第一次直观地看到:AI 正在从“生成内容的工具”,转变为“参与行动的主体”。也正是在这一刻,安全问题迅速被推到前台。

但一个更值得注意的现象是,在几乎所有关于 Agent 安全的讨论中,问题的定义仍然高度集中在模型层面:输入是否被注入、输出是否越界、对齐是否失效。这种讨论路径本身并没有错,但它隐含着一个前提,即安全问题主要发生在“模型”这一单点之上。

问题在于,这个前提可能正在失效。当 Agent 不再只是响应指令,而是持续接收来自不同来源的信息、在多组件结构中做出决策、并通过工具链将决策转化为现实动作时,“安全”所指向的对象,已经不再是单一模型,而是一个由模型、记忆、工具、环境以及交互链路共同构成的系统。

在这样的系统中,风险不一定以“错误输出”的形式出现,也不一定以“瞬时失控”的方式爆发。它可能表现为决策过程中的偏移、信息在链路中的传递与放大,甚至是跨组件、跨主体之间的相互影响。

这也意味着,Agent 安全的问题,正在从“是否安全”,转向“如何被影响”。

在论文《From Secure Agentic AI to Secure Agentic Web》中,上海交通大学、上海创智学院张伟楠团队正是从这一转变出发,尝试将 Agent 安全从模型层面的鲁棒性问题,重新置于系统结构与运行机制之中进行讨论。

围绕这一问题,AI 科技评论与论文一作邓智航进行了对话。下文在不改变原意的前提下,对访谈内容进行了整理与呈现,试图还原其对于 Agent 安全问题“从模型走向系统”的整体理解。


论文链接:https://arxiv.org/pdf/2603.01564

01


Agent 安全,被理解错了吗?

AI 科技评论:最近 OpenClaw 的爆火,让很多人开始关注 Agent 安全,但你会发现大家讨论的重点几乎都集中在 prompt injection、越狱这些问题上,你是怎么看待这种观点的?

邓智航:我认为这其实是目前一个非常普遍的误解。现在大多数人在谈 Agent 安全的时候,还是停留在 prompt injection、越狱这些比较“表层”的问题上,本质上仍然是在关注模型输出这一层。

但实际上,Agent 已经不再是一个只生成文本的系统了。过去的 chatbot,本质上就是输入一段文本、输出一段文本,而现在的 Agent 会调用工具,会写入长期记忆,还会持续和外部环境进行交互。

在这种情况下,安全问题的重心必须发生转变,也就是要从“模型会不会说话”,转向“整个系统在开放环境中是否可控、可审计、可约束”。我认为这是目前最重要的一个视角变化。

AI 科技评论:也就是说,它的风险已经不只是“说错话”,而是会真正影响现实世界?

邓智航:可以这么理解。因为 Agent 现在具备调用工具和操作外部系统的能力,它的行为已经不再局限在生成内容这一层,而是可以直接转化为现实中的动作。比如它可以删除你的文件,可以泄露你的隐私,甚至可以在获取到一些敏感信息之后,调用邮件系统自动发送给攻击者。所以现在的问题不只是“生成是否安全”,而是它在执行层面是否安全,这个变化是非常本质的。

AI 科技评论:如果必须选一个关键因素,你觉得这种变化是由什么驱动的?很多人会说是工具调用。

邓智航:工具调用确实是一个重要因素,但如果只能选一个更核心的点,我认为是 Agent 在开放环境中的自主行动能力。工具调用本质上只是能力的一个接口,它让 Agent 可以做更多事情,但真正让安全问题发生质变的,是 Agent 开始在一个动态、复杂,甚至带有对抗性的环境中进行感知、判断和执行。

比如网页中的内容、文档中的信息、第三方服务返回的数据,这些都会进入 Agent 的决策流程,从而共同构成一个更大的风险面。所以关键不只是“能不能调用工具”,而是“在什么环境中行动,以及如何行动”。

AI 科技评论:在你们的论文中把威胁分成 prompt、environment、memory、toolchain 等不同类别,这种分类背后的共性是什么?

邓智航:如果从攻击者的角度来看,其实这些攻击有一个非常统一的本质,那就是争夺对 Agent 的决策控制权。无论是 prompt 攻击、环境注入、记忆投毒,还是工具链上的问题,它们表面上发生在不同模块,但本质上都是在影响 Agent 的理解能力和认知过程。

所以安全问题的核心,并不是某个漏洞被触发,而是 Agent 在看似正常的情况下,被悄悄带偏了。这种“控制权的转移”,是我认为最关键的共性。

AI 科技评论:你刚刚提到环境,那是不是可以理解为,外部世界本身就是 Agent 的输入?

邓智航:是的,这个理解是对的。对于人来说,网页主要是用来阅读和判断信息的,但对于 Agent 来说,它通常不会像人一样去做复杂判断,而是会把网页、文件以及工具返回的内容直接作为输入,用来影响它的任务规划和行为决策。

所以从系统安全的角度来看,我们需要把整个外部环境都视为潜在的攻击面,也就是说默认它可能是带有恶意意图的,而不是默认它是可信的。

AI 科技评论:如果有人认为,通过 system prompt 和拒答机制,已经可以解决大部分问题,你会怎么回应?

邓智航:我觉得这是远远不够的。首先,system prompt 本身就可能被篡改或者被攻击,其次,很多攻击并不是通过用户正面输入进入系统的,而是来自网页内容、工具返回,甚至是跨 Agent 的通信。

所以 system prompt 和拒答机制更多只是第一层护栏,它们很重要,但无法覆盖整个 Agent 系统的攻击面。真正可靠的安全方案,需要把工具权限控制、运行时监控、协议级校验以及持续的红队测试结合起来,从而形成一个更完整的安全体系,本质上这是一个生态级的问题。

AI 科技评论:在你们的论文中把 toolchain 风险类比为供应链问题,这个你会怎么解释?

邓智航:这个类比是比较直观的。风险不一定来自模型本身,也可能来自它依赖的第三方工具、API 或插件。比如一个被污染的工具提供方,一个返回结果不可靠的接口,或者多个看起来安全的工具在组合调用时产生联动,这些都可能导致严重的后果。所以在 Agent 系统中,工具链其实就相当于一个供应链,而安全问题也就变成了供应链安全问题。

AI 科技评论:那像 MCP 这种统一工具调用方式,一方面提升能力,一方面是否也在放大风险?

邓智航:是的,这种双重性是非常明显的。一方面,MCP 提供了统一的上下文和工具交互方式,使得不同系统之间可以更方便地协作,这确实大幅提升了 Agent 的能力。但另一方面,它作为一个统一入口,也会把权限问题、信任问题以及潜在的污染风险集中放大。

所以关键不在于要不要使用 MCP,而在于在使用这些能力的同时,是否同步设计了相应的安全机制。本质上,能力越强,对应的风险面就越大。

AI 科技评论:现在围绕 Agent 安全的讨论很多,你觉得哪些风险被高估了,哪些被低估了?

邓智航:被高估的,主要是那些容易被发现的风险,比如单轮越狱或者即时攻破,这类问题因为比较直观,所以更容易被关注。但被低估的,是一些更接近真实部署场景的问题,比如长期记忆污染、Agent 之间的传播效应,以及行为偏移。这些问题通常不会立刻爆发,也不容易被察觉,但会在长期过程中持续影响 Agent 的行为。

一个更“聪明”的攻击,不会让 Agent 当场失控,而是会慢慢改变它的偏好、信任对象和决策倾向,让它在很多看似正常的决策中逐渐偏移。我认为这种风险是更值得警惕的。

02


问题,不再发生在一个 Agent 上

AI 科技评论:如果 Agent 之间形成网络,会带来什么新的变化?

邓智航:一个很重要的变化是,我们原来在互联网中有一个默认前提,就是请求的另一端大概率是人,很多信任关系是建立在这个隐含假设之上的。但在 Agentic Web 中,这个前提被打破了,因为请求很可能来自另一个 Agent,甚至是多层 Agent 的委托和自动决策。

这就意味着,原来依赖常识建立的信任关系已经不成立了,必须转变为显式表达,并且需要具备可验证、可审计和可追踪的能力。

AI 科技评论:这是不是也意味着,一旦出问题,会很难追溯责任?

邓智航:是的,这是一个非常现实的问题。如果是人说错话,我们可以直接找到这个人,但如果是 Agent 出现问题,我们很难判断它是自己判断错误,还是被其他 Agent 误导,或者是某个中间环节被污染。

在这种情况下,就需要一整套审计和追溯机制,否则就会变成需要一层一层往上追,这个过程是非常困难的,有点类似于追查资金来源的链条。

AI 科技评论:那会不会出现一种攻击,不是立刻出问题,而是长期潜伏?

邓智航:我认为这种情况是非常可能的,而且概率很高。一个更成熟的攻击方式,不会马上制造一个可以被发现的事故,而是会悄悄改变 Agent 的偏好、信任对象以及行为倾向,让它在很多看似正常的微小决策中持续偏移。相比那种瞬间失控,这种长期的行为漂移其实更危险,因为它更隐蔽,也更难被检测。

AI 科技评论:那能力和安全之间的矛盾应该怎么处理?

邓智航:这是一个不可避免的张力。Agent 的能力越强,它可以访问的上下文越多、可以调用的工具越多,自主性也越高,但相应的风险也会增加。如果把权限收紧,它的能力又会受到限制。

所以问题不在于能不能消除这种张力,而在于能不能把它设计成一个可控的系统,比如通过分级授权、实时监测以及事后追溯等机制,把这种张力转化为一个可以被管理的状态。

AI 科技评论:你觉得未来两三年,Agent 安全的分水岭会出现在哪里?

邓智航:我认为关键在于,整个行业能不能把身份、授权、溯源以及运行时治理这些能力真正做成基础设施。如果这些基础设施建立起来,Agent 才有可能从“能用但危险”,走向“可扩展且可治理”。

如果只是依赖 prompt 工程或者局部的补丁式防御,一旦 Agent 大规模进入开放网络,这种方式是无法支撑的。

AI 科技评论:那这种“安全基础设施”,你觉得可能会以什么形式出现?

邓智航:具体形式还需要行业去探索,但可以做一个类比。两年前没有 MCP 的时候,大家的工具调用方式是完全不统一的,不同系统之间也很难互通。但 MCP 出现之后,通过统一协议,工具调用这一层被标准化,Agent 的能力也因此提升。

未来的安全机制,也有可能以类似“协议”的形式出现,通过统一的安全协议,让整个 Agent 生态在运行过程中更安全。


未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美国机场彻底崩溃了!

美国机场彻底崩溃了!

终于在眼泪中明白
2026-03-31 18:09:48
打击伊朗为何不需要太多美军呢?因为只需打垮12.5万革命卫队而已

打击伊朗为何不需要太多美军呢?因为只需打垮12.5万革命卫队而已

民间胡扯老哥
2026-03-30 05:05:52
反戈一击!若利物浦解雇他,斯洛特已确定将加盟英超竞争对手!

反戈一击!若利物浦解雇他,斯洛特已确定将加盟英超竞争对手!

体坛关键帧
2026-03-31 22:39:03
复星国际的退与进:年亏234亿,郭广昌致歉,提出“恢复百亿利润”目标

复星国际的退与进:年亏234亿,郭广昌致歉,提出“恢复百亿利润”目标

红星新闻
2026-04-01 19:01:42
伊朗给全世界上了最残酷一课,特朗普开始认输了

伊朗给全世界上了最残酷一课,特朗普开始认输了

爱吃醋的猫咪
2026-03-31 20:51:32
不靠运气靠本事!马年最会过日子的三大生肖,家底越来越厚实

不靠运气靠本事!马年最会过日子的三大生肖,家底越来越厚实

毅谈生肖
2026-04-01 12:47:23
伊朗:美军撤离伊边境邻近地区,美多架预警机和加油机被击落,多处仓库被摧毁,未来更多高价值目标将被列入打击名单

伊朗:美军撤离伊边境邻近地区,美多架预警机和加油机被击落,多处仓库被摧毁,未来更多高价值目标将被列入打击名单

鲁中晨报
2026-03-30 07:09:20
巴巴克·阿里普尔、普亚·戈巴迪,被处决

巴巴克·阿里普尔、普亚·戈巴迪,被处决

南方都市报
2026-03-31 22:45:29
台湾六大都市国民党选情展望

台湾六大都市国民党选情展望

代伟看世界
2026-04-01 09:02:44
平时直播只有几十个人,突然涌入3万多人!杭州一家“张雪机车”店长电话被打爆,订单已排到2个月以后

平时直播只有几十个人,突然涌入3万多人!杭州一家“张雪机车”店长电话被打爆,订单已排到2个月以后

都市快报橙柿互动
2026-03-31 22:22:50
“阿联酋准备下场”

“阿联酋准备下场”

第一财经资讯
2026-04-01 19:32:22
1棵都不行! 2024年,云南青年租车上山采“倒钩刺”, 被当场堵获

1棵都不行! 2024年,云南青年租车上山采“倒钩刺”, 被当场堵获

万象硬核本尊
2026-04-01 19:39:13
广州人去澳门,不能直接免费坐这些发财车了?

广州人去澳门,不能直接免费坐这些发财车了?

羊城攻略
2026-04-01 23:19:29
4月,压了很久的财运终于松动,偏财正财一起动的三个星座

4月,压了很久的财运终于松动,偏财正财一起动的三个星座

小晴星座说
2026-04-01 17:47:37
双色球26035期:精选2组连号,胆码锁定16,一码定蓝22倍实票亮相

双色球26035期:精选2组连号,胆码锁定16,一码定蓝22倍实票亮相

蓝色海边
2026-04-02 00:24:41
郑丽文真是一个狠人!竟公开承认自己身世之谜!宋楚瑜题字火出圈

郑丽文真是一个狠人!竟公开承认自己身世之谜!宋楚瑜题字火出圈

素衣读史
2026-02-03 11:49:44
欧洲人在性方面有多开放?德国再创历史!女厕所、女浴室随便进了

欧洲人在性方面有多开放?德国再创历史!女厕所、女浴室随便进了

西楼知趣杂谈
2026-03-24 14:38:30
我娶了单位32岁前台,结婚半个月后董事长:你知道你老婆是啥人不

我娶了单位32岁前台,结婚半个月后董事长:你知道你老婆是啥人不

千秋历史
2026-03-12 19:18:12
他26岁拼命追一34岁有病、不能生、还穷的女人,所有人都说他疯了

他26岁拼命追一34岁有病、不能生、还穷的女人,所有人都说他疯了

南权先生
2026-02-09 15:56:02
防空警报持续!伊朗10分钟向以色列发射超5波导弹

防空警报持续!伊朗10分钟向以色列发射超5波导弹

看看新闻Knews
2026-04-02 00:27:02
2026-04-02 02:40:49
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7164文章数 20742关注度
往期回顾 全部

科技要闻

甲骨文血洗3万人,47人团队仅留3人

头条要闻

小伙扫共享单车上的码亏一套房首付 一夜白头自扇巴掌

头条要闻

小伙扫共享单车上的码亏一套房首付 一夜白头自扇巴掌

体育要闻

NBA扩军,和篮球无关?

娱乐要闻

张婉婷已决定离婚 找律师讨论婚变事宜

财经要闻

电商售械三水光针 机构倒货or假货猖獗?

汽车要闻

三电可靠 用料下本 百万公里的蔚来ES6 拆开看

态度原创

数码
旅游
教育
房产
公开课

数码要闻

小米路由器BE7000获1.1.38版本升级,新增专属网络等功能

旅游要闻

瞰中国|河北徐水:春色满园 踏青赏花

教育要闻

省政府:对就业质量不好的专业,落实红黄牌提示制度

房产要闻

产业、教育、地产…重大信号发出! 官方定调海口未来5年!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版