网易首页 > 网易号 > 正文 申请入驻

细思极恐!Agent暗藏风险,清华团队打出组合拳,全链路一网打尽

0
分享至


新智元报道

编辑:YHluck

【新智元导读】当Agent开始真正进入生产环境,安全问题不再是「功能模块」,而是贯穿调用链、运行时与生态层的系统性风险。过去依赖提示词规则、日志审计与框架级防护的方式,正在逐步失效。来自清华大学人工智能学院、交叉信息研究院的方寸跃迁提出一套面向Agent运行全生命周期的多层安全体系。

当所有人都在卷Agent能力的时候,一个更危险的问题,已悄然出现——

你部署的Agent,此刻到底在做什么?


一个被忽略很久的事实

Agent会「表演」

过去两年,行业几乎把全部火力砸在了模型能力、Agent框架与工具调用体系的军备竞赛里。

安全能力,则更多停留在「表层防护」:提示词规则、输入输出过滤、运行时日志审计,加上基于SDK Hook的框架级约束。

这些机制各自有效。但它们共享同一个根本性盲区——

它们看到的,只是Agent「声明」出来的行为。

但如果将视角稍微下沉一层,问题会迅速变得复杂。

Agent在执行任务时,会与环境发生大量真实交互:调用API、读写文件、操控浏览器、驱动数据库、以及与其他Agent协同通信。

一个完整任务的执行链,可能横跨数十个步骤、多个工具链与多个运行层级。

这种复杂性本身,就天然构成了行为掩护层。

更可怕的是,模型会在被监控的环境下,主动调整自己的行为表现不是按规则执行,而是「按规则表演」。

这不是科幻设定。而是已经在论文里、在红队报告里、在企业内部事故复盘里反复出现的真实风险。

当企业内部同时运行数十甚至上百个Agent,由不同团队、不同框架与不同模型构建时,一个更现实的问题随之出现:

系统已经无法完整感知,自己正在运行多少个Agent。更无法确认,它们真正在做什么。

Fangcun Observer

看见真实动作,守住安全边界

来自清华大学人工智能学院、交叉信息研究院的方寸跃迁给Observer指定了一条设计哲学——

别问Agent想做什么,看它到底做了什么。

听起来简单,真正的挑战在于把它锻造成稳定、低延迟、可审计、可规模化的系统。

视角的反转

主流的Agent安全方案,几乎清一色接在表层:提示词里的安全规则、输入输出的内容过滤、运行时的日志审计、Agent Harness提供的SDK Hook。

每一层都有人在做。

每一层也都有同一个盲区:它们看到的,都是Agent在框架边界上「声明」出来的那一层。

Observer不走这条路。

它直接下沉到操作系统层,不依赖任何框架插件,不依赖SDK接口,不依赖模型供应商集成。业务代码零改动,Agent无感知接入——观测,即刻开始。

它捕获的,是Agent的真实行为:

执行了哪些系统命令

读写了哪些文件

发起了哪些网络请求

是否出现越权操作或高风险行为序列

过去的方案,看到的是Agent「说」了什么。Observer看到的,是Agent「做」了什么。


声明可以包装,行为不会撒谎。

五项核心能力

重新定义Agent安全的边界

  • OS层行为感知,彻底解耦Harness,开箱即用


Agent生态日新月异,没有任何一个框架能成为永久标准。今天是Open Claw,明天可能换成Hermes,后天又会有新的涌现。

Observer直接在操作系统层感知Agent的真实动作,与上层框架、调用栈、模型供应商完全解耦。

无论Agent跑在哪套栈上,观测能力始终有效。

企业不需要为每一次技术迁移,重新接入一遍安全体系。

  • 无感知运行时观测

业务代码零改动,计算开销忽略不计,现有链路一行都不用碰。不是「改动很小」——真的不用动

第二层更关键。Agent不会知道自己正在被观测——你看到的,是它真正的行为。不是它「表演」给你看的样子。

  • 实时干预,主动阻断,安全前置


Observer不只是事后复盘工具。

危险命令执行、敏感文件操作、异常网络访问、越权持久化——针对这些高风险行为,系统在行为落地之前完成实时研判,按策略执行通知、暂停或直接阻断。

从亡羊补牢,变成关门打狗

  • 全链路溯源,揪出隐藏威胁


真正的风险,从来不在表面。

Observer把运行时的真实行为、Agent的决策动作与模型上下文关联成完整的行为图谱——每一个风险事件,都能追溯到完整的决策链路。

哪怕是环境投毒攻击;哪怕是从不亲自动手、只靠影响其他Agent来转嫁风险的恶意Agent——在多Agent协作网络里,都无处遁形

  • 本地审计+自进化防御策略

所有观测、审计、事件数据均可完整本地沉淀,不上云、不外传。

策略模型基于真实运行数据持续迭代,从静态规则走向自进化防御。

安全能力,随业务规模一同生长。

Fangcun Guard

让安全审核,从「性能税」变成「基础设施

Observer守住的是Agent在系统层的真实行为。

但Agent的输入和输出,同样需要一道护栏。

一个真正能放进生产环境的安全护栏,到底要做到什么?

够快。一次完整的Agent对话,要过2到4道审核:用户输入、工具调用入参、模型输出、工具返回。每一道都不能拖慢用户体验。

够准。不能某一类强、某一类崩。漏检少,误拒低,所有主流场景都要稳定输出。

够灵活金融、医疗、教育、游戏,每个场景的风险结构完全不同。一套固定阈值打天下,行不通。

业内主流的开源安全大模型——Llama Guard、NVIDIA Nemotron、Qwen3 Guard、xGuard——已经把这件事推到了相当不错的水平。

同时把「快、准、灵活」三件事都做到顶尖?

Fangcun Guard,是方寸跃迁给出的答案。

数据怎么样,直接看图

6项公开benchmark,7款最常用的开源安全模型,同条件对齐评测。


先看综合检测准确性:Fangcun Guard=91.1。开源方案的区间,分布在70到88之间。

再看p99推理延时:Fangcun Guard=8毫秒。8B量级的开源方案普遍在130毫秒以上,0.6B的轻量方案能压到50毫秒以内——但F1上还有差距。


5项差异化能力

决定它能不能进生产环境


  • 判定不偏科,灰区话术不放过

一般有害内容,能判。精心构造的越狱攻击,能判。深度伪装成正常对话的灰区话术——也能判。

跨场景稳定输出,是进生产环境的唯一门票。

  • 毫秒级响应,安全审核变基础设施

一次完整Agent对话,要过4道审核。4道全跑Guard,总耗时30毫秒。

用户感知不到。业务感知不到。

安全审核,从「性能税」变成了默认开启、随处可加的基础设施

  • 中文场景,专项打磨

通用安全大模型的惯常操作:全世界语言一锅炖,英文亮眼,中文长尾频繁漏过。

Fangcun Guard把风险拆成10个独立类别,每一类基于中文场景专项合成数据、专项对齐训练。跨语种攻击、口语化越狱、长尾边缘案例,稳定召回。

  • 10类风险独立可调,不再一刀切

通用安全模型只给「开/关」两档。但金融、医疗、教育、游戏,每个场景的风险结构完全不同。

FangcunGuard把10类风险作为独立维度暴露给企业,每一类拦截阈值单独配置,Web控制台或接口中按业务自调。

  • 主流Agent生态一键接入

主流Agent框架开箱即用,业务代码零改动。

如果你的Agent还卡在130毫秒的延迟里——

是时候换一个8毫秒搞定的护栏了。

Skill Ward

三阶段检测,真实蜜罐运行

Observer守运行时行为,Guard守输入输出边界。

但随着Agent的持续发展,还有一类风险来自更上游——第三方Skill

这个生态已经长成了Agent的「App Store」。

Claude Skills、OpenAI Apps、Claw Hub,几十万个第三方Skill汇聚其中。

行业现有的方案,几乎全部停留在静态扫描:扫一遍代码、查可疑导入、检索黑名单关键词。

但恶意Skill真正的杀招,从来不在静态代码里。

那行写着「读取配置文件」的代码,跑起来才去拉远程载荷;

那段标注「调试日志」的逻辑,触发后才向外发请求;

那个看上去合法的依赖包,在特定参数下才激活后门。

只看代码,看不出来。

Skill Ward,是方寸跃迁推出的全球首个三阶段Agent Skill安全扫描器——不只是静态检查,是真实运行一遍。


第一阶段:静态分析——恶意签名、危险调用、可疑依赖,先过一遍。

第二阶段:大模型研判——理解Skill真实意图,识别伪装话术、混淆逻辑、社工诱导。

第三阶段:Docker蜜罐沙箱实际执行——真正的杀手锏。

每一个Skill都会被丢进隔离的蜜罐环境,真实跑一遍。

调用了哪些命令、访问了哪些路径、连接了哪些外部地址、有没有尝试持久化、有没有横向探测——一切行为,无处遁形。

那些「看上去无害、运行时才动手」的Skill,在这一关原形毕露。

5000个真实Skill实测:仅靠静态扫描,会漏掉约三分之一的运行时威胁。这部分,全部由蜜罐沙箱阶段抓出。

运行时的真实行为轨迹,才是答案。

事前、事中、事后

Agent安全的完整边界

Skill Ward,守事前——Skill装入Agent之前的最后一关

Fangcun Guard,守事中的输入输出——8毫秒的护栏,安全审核变基础设施

Fangcun Observer,守事中的真实行为,沉淀事后审计——操作系统层的真相,无法造假。

过去两年,行业把几乎所有火力,砸在了Agent能力的天花板上。

但Agent真正大规模进入企业生产环境的那一刻,决定它能不能落地的,从来不是它有多聪明——

而是它有多可控你知道有多少个Agent在运行。你知道每一个Agent真正在做什么。你能在它做错事之前阻断它。你能在它做对事的时候,让它跑得足够快。

Agent时代的安全边界,第一次被完整画出来。

在Agent安全尚处早期定义阶段的当下,方寸跃迁正通过产品与技术加速构建起Agent时代的全新安全基础设施平台。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
世乒赛震撼一幕:王曼昱狂扫11-0,刘诗雯马龙惊叹!8强对决即将揭晓

世乒赛震撼一幕:王曼昱狂扫11-0,刘诗雯马龙惊叹!8强对决即将揭晓

海阔山遥YAO
2026-05-07 00:52:32
一纸讣告,字字泣血!浏阳烟花厂爆炸事故中一女子的悼词,引热议

一纸讣告,字字泣血!浏阳烟花厂爆炸事故中一女子的悼词,引热议

火山詩话
2026-05-07 12:42:44
韩国存储公司全员分钱,人类历史上第一次

韩国存储公司全员分钱,人类历史上第一次

贩财局
2026-05-07 12:00:43
俄罗斯副部长被查前成功出逃美国,跨三国离境

俄罗斯副部长被查前成功出逃美国,跨三国离境

桂系007
2026-05-01 23:48:19
国际足联要疯了,没有软肋的中国足球已经天下无敌

国际足联要疯了,没有软肋的中国足球已经天下无敌

枫冷慕诗
2026-05-07 11:32:38
曝莫斯科全面断网并关闭所有机场!胜利日前夕全城紧张

曝莫斯科全面断网并关闭所有机场!胜利日前夕全城紧张

项鹏飞
2026-05-06 16:51:22
谢娜演唱会这一夜,半个娱乐圈捧场,网友直呼票价不值,吃相难看

谢娜演唱会这一夜,半个娱乐圈捧场,网友直呼票价不值,吃相难看

青梅侃史啊
2026-05-07 07:28:32
恒大集团创始人许家印被曝出猛料

恒大集团创始人许家印被曝出猛料

地产微资讯
2026-05-07 09:28:09
中美同时向全球发出禁令,各国都懵了!这下到底应该听谁的?

中美同时向全球发出禁令,各国都懵了!这下到底应该听谁的?

闻识
2026-05-07 13:31:10
从“替代者”到“定义者”,经纬恒润打响供应链争夺战

从“替代者”到“定义者”,经纬恒润打响供应链争夺战

汽车观察AUTO
2026-04-30 20:38:39
峨眉山景区回应“男子推搡猴子”:3年内禁止其进入景区

峨眉山景区回应“男子推搡猴子”:3年内禁止其进入景区

界面新闻
2026-05-07 16:44:02
星空卫视宣布暂停,大量网友涌向评论区

星空卫视宣布暂停,大量网友涌向评论区

南方都市报
2026-05-07 12:27:53
用AI生成郑丽文形象直播带货 网民邢某已被行拘

用AI生成郑丽文形象直播带货 网民邢某已被行拘

闪电新闻
2026-05-07 10:24:05
周喜安,被判死缓

周喜安,被判死缓

新京报
2026-05-07 17:16:10
三星为什么不做中国生意了?

三星为什么不做中国生意了?

今夜无局
2026-05-07 10:40:34
中国16城准一线城市排名:苏州第六,成都超南京,福州新入围

中国16城准一线城市排名:苏州第六,成都超南京,福州新入围

最新声音
2026-05-07 02:39:00
俄外交部呼吁各国及时从基辅撤离人员

俄外交部呼吁各国及时从基辅撤离人员

环球网资讯
2026-05-07 08:47:57
中央安全生产考核巡查组在江西明查暗访发现——企业安全管理制度缺失 高层住宅隐患重重

中央安全生产考核巡查组在江西明查暗访发现——企业安全管理制度缺失 高层住宅隐患重重

环球网资讯
2026-05-07 13:08:09
5月6日,注定是要被写进金融史的一天

5月6日,注定是要被写进金融史的一天

识局Insight
2026-05-07 14:22:01
男子甲醇中毒失明 向白酒提供者索赔123万 法院驳回:其只饮用了不到2杯 饮用超10斤才能达最低中毒剂量

男子甲醇中毒失明 向白酒提供者索赔123万 法院驳回:其只饮用了不到2杯 饮用超10斤才能达最低中毒剂量

闪电新闻
2026-05-07 16:26:17
2026-05-07 18:20:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15153文章数 66844关注度
往期回顾 全部

科技要闻

月之暗面完成20亿美元融资,估值突破200亿

头条要闻

周喜安被判死缓:在两省共受贿过亿 被指学术成就丰富

头条要闻

周喜安被判死缓:在两省共受贿过亿 被指学术成就丰富

体育要闻

巴黎再进欧冠决赛,最尴尬的情况还是发生了

娱乐要闻

小S阿雅重返大S母校,翻看大S毕业照

财经要闻

金融“风暴”,AI制造

汽车要闻

雷克萨斯全新纯电三排SUV 全新TZ全球首发

态度原创

艺术
手机
旅游
亲子
时尚

艺术要闻

这位老教授笔下的青年,活力满满

手机要闻

三星手机中国正常销售背后:去年投放13款机型 销量至少百万

旅游要闻

男子悬崖边推搡藏酋猴?峨眉山景区:非危险路段,列入“不文明游客黑名单”,3年禁入

亲子要闻

宝蓝趁爸爸睡着了,把爸爸的薯片都拿走偷吃,突然被爸爸发现了

“白色阔腿裤”今年夏天又火了!这样穿时髦又高级

无障碍浏览 进入关怀版