AI 简讯｜重要趋势：AI安全从“模型安全”转向“智能体运行时安全”|调用|大模型|网络安全|agent|runtime

AI 简讯｜重要趋势：AI安全从“模型安全”转向“智能体运行时安全”

分享至

每周重要AI事件总结

看这篇就够了

2026年4月至5月期间，全球AI安全研究与产业界开始集中讨论一个新方向——“Agent Runtime Security（智能体运行时安全）”。随着AI Agent（智能体）从简单问答系统演进为能够自主调用工具、访问数据库、执行API、操控业务流程的“行动型AI”，传统围绕大模型本身的安全防护体系，已经难以覆盖新型风险。微软、Cisco、多家AI安全创业公司以及学术界近期密集发布相关框架、论文与产品，普遍认为AI安全正在从“模型输出安全”阶段，进入“自主执行安全”阶段。

这一趋势的核心变化在于：过去的AI主要负责“生成内容”，风险大多集中在内容生成层面，例如模型幻觉、有害输出、违规回答等；而当前的Agentic AI则开始“执行动作”，一旦AI具备文件读写、系统控制、代码执行、自动决策等能力，安全边界将从“大模型本身”转移到“Agent执行链路”。其安全问题将直接演变为真实网络攻击问题，例如：自动删除数据、批量泄露敏感信息、调用内部API、触发业务流程、执行错误交易等。

因此，业界开始提出“Zero-Trust Runtime（零信任运行时）”、“Execution Layer Security（执行层安全）”、“Action Control（行为控制）”等新概念。

当前“Agent运行时安全”研究，主要聚焦以下几个方向：

工具调用边界安全（Tool-call Boundary Security）

研究人员发现，大量攻击并不直接攻击模型，而是通过污染Agent读取的网页、文档、邮件或MCP服务返回内容，在其中嵌入恶意Prompt，从而诱导Agent执行危险操作。这类攻击被称为“间接提示注入（Indirect Prompt Injection）”。2026年4月13日发布的论文《ClawGuard》提出，在每一次工具调用之前，必须增加独立的策略校验层，对Agent行为进行实时审查与拦截。

运行时零信任（Zero-Trust Runtime）架构

微软于2026年3月19日发布“Zero Trust for AI”框架，首次将AI Agent纳入零信任体系，强调需要持续验证Agent身份、上下文、权限与行为，而非默认信任Agent执行结果。Cisco也在2026年RSAC大会期间提出“从Access Control（访问控制）走向Action Control（行为控制）”的新理念，即不仅限制Agent能访问什么，还要限制Agent能做什么。

“执行层（Execution Layer）安全”概念的快速兴起

越来越多研究认为，未来AI安全的核心不再是模型层，而是“Agent与现实系统交互的执行层”。包括数据库写入、工单创建、代码提交、权限调用、支付执行等，都可能成为新的攻击入口。多篇论文提出，应在运行时动态评估Agent行为意图，并建立可审计、可追踪、可回滚的行为链路。

MCP（Model Context Protocol）与多Agent系统的新型风险

随着Agent之间开始相互协作、共享记忆与调用外部工具，攻击者可以通过上下文供应链污染、记忆污染、Agent身份伪造等方式发动复杂攻击。业界已经开始出现Agent身份管理、Agent IAM、动态权限治理等新研究方向。

这一趋势的重要性在于，它标志着AI安全正式进入“自主系统安全”时代。从产业发展角度看，Agent运行时安全很可能成为未来两年AI安全领域最大的新增赛道之一。当前全球主要AI厂商与安全企业，正在从“模型护栏（Guardrails）”转向“运行时行为治理（Runtime Governance）”。这意味着未来AI安全产品形态可能发生重大变化：传统“检测模型输出”的方式，将逐步升级为“实时监控Agent行为链路”的动态安全体系。

此外，这一趋势也意味着AI与传统网络安全开始深度融合。未来的AI安全，不再只是算法问题，而是身份管理、零信任、访问控制、数据安全、行为审计、威胁检测等传统网络安全能力的延伸。AI Agent正在成为一种新的“数字员工”，而安全行业则必须建立针对“数字员工”的全新防护体系。

参考文献

[1] Zhao W, Li Z, Zhang P, et al. ClawGuard: Defending Against Indirect Prompt Injection Attacks in Tool-Using AI Agents[EB/OL]. arXiv preprint arXiv:2604.11790, 2026-04-14[2026-05-09].

[2] Anonymous. Agentic AI Security: Threat Modeling and Runtime Defense for Autonomous AI Systems[EB/OL]. arXiv preprint arXiv:2602.09433, 2026[2026-05-09].

[3] Anonymous. Multi-Agent System Security in the Era of MCP and Autonomous Coordination[EB/OL]. arXiv preprint arXiv:2505.19301, 2025[2026-05-09].

[4] Anonymous. Runtime Governance for Autonomous AI Agents: Toward Zero-Trust Execution Architectures[EB/OL]. arXiv preprint arXiv:2602.19555, 2026[2026-05-09].

山石网科是中国网络安全行业的技术创新领导厂商，由一批知名网络安全技术骨干于2007年创立，并以首批网络安全企业的身份，于2019年9月登陆科创板（股票简称：山石网科，股票代码：688030）。

现阶段，山石网科掌握30项自主研发核心技术，申请560多项国内外专利。山石网科于2019年起，积极布局信创领域，致力于推动国内信息技术创新，并于2021年正式启动安全芯片战略。2023年进行自研ASIC安全芯片的技术研发，旨在通过自主创新，为用户提供更高效、更安全的网络安全保障。目前，山石网科已形成了具备“全息、量化、智能、协同”四大技术特点的涉及基础设施安全、云安全、数据安全、应用安全、安全运营、工业互联网安全、信息技术应用创新、AI安全、安全服务、安全教育等10大类产品及服务，50余个行业和场景的完整解决方案。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.