对话邓智航｜以「龙虾」为起点，起底从单个 Agent 到 Agentic Web 的安全重构|调用|张力|agent

分享至

安全问题不再局限模型，而是系统中的控制权之争。

作者丨郑佳美

编辑丨岑峰

OpenClaw 的爆火，让一个原本更多停留在技术圈内部的变化，突然变得具象起来。

当一个 Agent 可以跨应用执行任务、调用工具、在几乎没有人工干预的情况下完成复杂流程时，人们第一次直观地看到：AI 正在从“生成内容的工具”，转变为“参与行动的主体”。也正是在这一刻，安全问题迅速被推到前台。

但一个更值得注意的现象是，在几乎所有关于 Agent 安全的讨论中，问题的定义仍然高度集中在模型层面：输入是否被注入、输出是否越界、对齐是否失效。这种讨论路径本身并没有错，但它隐含着一个前提，即安全问题主要发生在“模型”这一单点之上。

问题在于，这个前提可能正在失效。当 Agent 不再只是响应指令，而是持续接收来自不同来源的信息、在多组件结构中做出决策、并通过工具链将决策转化为现实动作时，“安全”所指向的对象，已经不再是单一模型，而是一个由模型、记忆、工具、环境以及交互链路共同构成的系统。

在这样的系统中，风险不一定以“错误输出”的形式出现，也不一定以“瞬时失控”的方式爆发。它可能表现为决策过程中的偏移、信息在链路中的传递与放大，甚至是跨组件、跨主体之间的相互影响。

这也意味着，Agent 安全的问题，正在从“是否安全”，转向“如何被影响”。

在论文《From Secure Agentic AI to Secure Agentic Web》中，上海交通大学、上海创智学院张伟楠团队正是从这一转变出发，尝试将 Agent 安全从模型层面的鲁棒性问题，重新置于系统结构与运行机制之中进行讨论。

围绕这一问题，AI 科技评论与论文一作邓智航进行了对话。下文在不改变原意的前提下，对访谈内容进行了整理与呈现，试图还原其对于 Agent 安全问题“从模型走向系统”的整体理解。

论文链接：https://arxiv.org/pdf/2603.01564

Agent 安全，被理解错了吗？

AI 科技评论：最近 OpenClaw 的爆火，让很多人开始关注 Agent 安全，但你会发现大家讨论的重点几乎都集中在 prompt injection、越狱这些问题上，你是怎么看待这种观点的？

邓智航：我认为这其实是目前一个非常普遍的误解。现在大多数人在谈 Agent 安全的时候，还是停留在 prompt injection、越狱这些比较“表层”的问题上，本质上仍然是在关注模型输出这一层。

但实际上，Agent 已经不再是一个只生成文本的系统了。过去的 chatbot，本质上就是输入一段文本、输出一段文本，而现在的 Agent 会调用工具，会写入长期记忆，还会持续和外部环境进行交互。

在这种情况下，安全问题的重心必须发生转变，也就是要从“模型会不会说话”，转向“整个系统在开放环境中是否可控、可审计、可约束”。我认为这是目前最重要的一个视角变化。

AI 科技评论：也就是说，它的风险已经不只是“说错话”，而是会真正影响现实世界？

邓智航：可以这么理解。因为 Agent 现在具备调用工具和操作外部系统的能力，它的行为已经不再局限在生成内容这一层，而是可以直接转化为现实中的动作。比如它可以删除你的文件，可以泄露你的隐私，甚至可以在获取到一些敏感信息之后，调用邮件系统自动发送给攻击者。所以现在的问题不只是“生成是否安全”，而是它在执行层面是否安全，这个变化是非常本质的。

AI 科技评论：如果必须选一个关键因素，你觉得这种变化是由什么驱动的？很多人会说是工具调用。

邓智航：工具调用确实是一个重要因素，但如果只能选一个更核心的点，我认为是 Agent 在开放环境中的自主行动能力。工具调用本质上只是能力的一个接口，它让 Agent 可以做更多事情，但真正让安全问题发生质变的，是 Agent 开始在一个动态、复杂，甚至带有对抗性的环境中进行感知、判断和执行。

比如网页中的内容、文档中的信息、第三方服务返回的数据，这些都会进入 Agent 的决策流程，从而共同构成一个更大的风险面。所以关键不只是“能不能调用工具”，而是“在什么环境中行动，以及如何行动”。

AI 科技评论：在你们的论文中把威胁分成 prompt、environment、memory、toolchain 等不同类别，这种分类背后的共性是什么？

邓智航：如果从攻击者的角度来看，其实这些攻击有一个非常统一的本质，那就是争夺对 Agent 的决策控制权。无论是 prompt 攻击、环境注入、记忆投毒，还是工具链上的问题，它们表面上发生在不同模块，但本质上都是在影响 Agent 的理解能力和认知过程。

所以安全问题的核心，并不是某个漏洞被触发，而是 Agent 在看似正常的情况下，被悄悄带偏了。这种“控制权的转移”，是我认为最关键的共性。

AI 科技评论：你刚刚提到环境，那是不是可以理解为，外部世界本身就是 Agent 的输入？

邓智航：是的，这个理解是对的。对于人来说，网页主要是用来阅读和判断信息的，但对于 Agent 来说，它通常不会像人一样去做复杂判断，而是会把网页、文件以及工具返回的内容直接作为输入，用来影响它的任务规划和行为决策。

所以从系统安全的角度来看，我们需要把整个外部环境都视为潜在的攻击面，也就是说默认它可能是带有恶意意图的，而不是默认它是可信的。

AI 科技评论：如果有人认为，通过 system prompt 和拒答机制，已经可以解决大部分问题，你会怎么回应？

邓智航：我觉得这是远远不够的。首先，system prompt 本身就可能被篡改或者被攻击，其次，很多攻击并不是通过用户正面输入进入系统的，而是来自网页内容、工具返回，甚至是跨 Agent 的通信。

所以 system prompt 和拒答机制更多只是第一层护栏，它们很重要，但无法覆盖整个 Agent 系统的攻击面。真正可靠的安全方案，需要把工具权限控制、运行时监控、协议级校验以及持续的红队测试结合起来，从而形成一个更完整的安全体系，本质上这是一个生态级的问题。

AI 科技评论：在你们的论文中把 toolchain 风险类比为供应链问题，这个你会怎么解释？

邓智航：这个类比是比较直观的。风险不一定来自模型本身，也可能来自它依赖的第三方工具、API 或插件。比如一个被污染的工具提供方，一个返回结果不可靠的接口，或者多个看起来安全的工具在组合调用时产生联动，这些都可能导致严重的后果。所以在 Agent 系统中，工具链其实就相当于一个供应链，而安全问题也就变成了供应链安全问题。

AI 科技评论：那像 MCP 这种统一工具调用方式，一方面提升能力，一方面是否也在放大风险？

邓智航：是的，这种双重性是非常明显的。一方面，MCP 提供了统一的上下文和工具交互方式，使得不同系统之间可以更方便地协作，这确实大幅提升了 Agent 的能力。但另一方面，它作为一个统一入口，也会把权限问题、信任问题以及潜在的污染风险集中放大。

所以关键不在于要不要使用 MCP，而在于在使用这些能力的同时，是否同步设计了相应的安全机制。本质上，能力越强，对应的风险面就越大。

AI 科技评论：现在围绕 Agent 安全的讨论很多，你觉得哪些风险被高估了，哪些被低估了？

邓智航：被高估的，主要是那些容易被发现的风险，比如单轮越狱或者即时攻破，这类问题因为比较直观，所以更容易被关注。但被低估的，是一些更接近真实部署场景的问题，比如长期记忆污染、Agent 之间的传播效应，以及行为偏移。这些问题通常不会立刻爆发，也不容易被察觉，但会在长期过程中持续影响 Agent 的行为。

一个更“聪明”的攻击，不会让 Agent 当场失控，而是会慢慢改变它的偏好、信任对象和决策倾向，让它在很多看似正常的决策中逐渐偏移。我认为这种风险是更值得警惕的。

问题，不再发生在一个 Agent 上

AI 科技评论：如果 Agent 之间形成网络，会带来什么新的变化？

邓智航：一个很重要的变化是，我们原来在互联网中有一个默认前提，就是请求的另一端大概率是人，很多信任关系是建立在这个隐含假设之上的。但在 Agentic Web 中，这个前提被打破了，因为请求很可能来自另一个 Agent，甚至是多层 Agent 的委托和自动决策。

这就意味着，原来依赖常识建立的信任关系已经不成立了，必须转变为显式表达，并且需要具备可验证、可审计和可追踪的能力。

AI 科技评论：这是不是也意味着，一旦出问题，会很难追溯责任？

邓智航：是的，这是一个非常现实的问题。如果是人说错话，我们可以直接找到这个人，但如果是 Agent 出现问题，我们很难判断它是自己判断错误，还是被其他 Agent 误导，或者是某个中间环节被污染。

在这种情况下，就需要一整套审计和追溯机制，否则就会变成需要一层一层往上追，这个过程是非常困难的，有点类似于追查资金来源的链条。

AI 科技评论：那会不会出现一种攻击，不是立刻出问题，而是长期潜伏？

邓智航：我认为这种情况是非常可能的，而且概率很高。一个更成熟的攻击方式，不会马上制造一个可以被发现的事故，而是会悄悄改变 Agent 的偏好、信任对象以及行为倾向，让它在很多看似正常的微小决策中持续偏移。相比那种瞬间失控，这种长期的行为漂移其实更危险，因为它更隐蔽，也更难被检测。

AI 科技评论：那能力和安全之间的矛盾应该怎么处理？

邓智航：这是一个不可避免的张力。Agent 的能力越强，它可以访问的上下文越多、可以调用的工具越多，自主性也越高，但相应的风险也会增加。如果把权限收紧，它的能力又会受到限制。

所以问题不在于能不能消除这种张力，而在于能不能把它设计成一个可控的系统，比如通过分级授权、实时监测以及事后追溯等机制，把这种张力转化为一个可以被管理的状态。

AI 科技评论：你觉得未来两三年，Agent 安全的分水岭会出现在哪里？

邓智航：我认为关键在于，整个行业能不能把身份、授权、溯源以及运行时治理这些能力真正做成基础设施。如果这些基础设施建立起来，Agent 才有可能从“能用但危险”，走向“可扩展且可治理”。

如果只是依赖 prompt 工程或者局部的补丁式防御，一旦 Agent 大规模进入开放网络，这种方式是无法支撑的。

AI 科技评论：那这种“安全基础设施”，你觉得可能会以什么形式出现？

邓智航：具体形式还需要行业去探索，但可以做一个类比。两年前没有 MCP 的时候，大家的工具调用方式是完全不统一的，不同系统之间也很难互通。但 MCP 出现之后，通过统一协议，工具调用这一层被标准化，Agent 的能力也因此提升。

未来的安全机制，也有可能以类似“协议”的形式出现，通过统一的安全协议，让整个 Agent 生态在运行过程中更安全。

未经「AI科技评论」授权，严禁以任何方式在网页、论坛、社区进行转载！

公众号转载请先在「AI科技评论」后台留言取得授权，转载时需标注来源并插入本公众号名片。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.