网易首页 > 网易号 > 正文 申请入驻

AI智能体也有「蜘蛛感应」,防御延时骤降至8.3%

0
分享至


新智元报道

编辑:LRST

【新智元导读】不再依赖像「安检站」一样每步必停的外部插件,首创「内源感知+分层筛选」机制,将Agent防御延时从200%+降至8.3%,安全与效率均达到SOTA级表现!

传统的Agent防御机制通常采用强制进行安全检查的方式,即在 Agent 执行的特定阶段,包括Query、Plan、Action、Observation等阶段,都强制插入外部安全检测。这种做法虽然有效,但会切断了Agent的思维流,导致严重的延时积累,成本高昂且反应迟钝。

来自上海财经大学、新加坡国立大学、卡耐基梅隆大学等高校和学术组织的研究者们联合重磅推出Spider-Sense智能体防御框架,通过两大核心技术打破了这一僵局:利用Intrinsic Risk Sensing将风险意识植入Agent认知流,实现全链路的内源性感知;配合Hierarchical Adaptive Screening机制,动态平衡向量检索与深度推理,实现威胁的自适应筛选。


论文链接:https://arxiv.org/abs/2602.05386

开源链接:https://github.com/aifinlab/Spider-Sense

基准链接:https://huggingface.co/datasets/aifinlab/S2Bench

该框架让Agent告别了被动防御,在 Mind2Web和EICU这些主流数据集上在大部分评估标准下均取得最优,在构建出的攻击数据集上实现了SOTA级的安全与效率双优表现。

Spider-Sense提出了一种变革性的思路:防御应该是内源的、选择性的,而非外挂的、强制的。

该框架赋予Agent一种维持内源性感知风险的能力。Agent 在执行任务的过程中,会自主进行内源性风险感知。

只有当Agent 「感觉」到工具输出可疑或者指令中有陷阱等异常的时侯,才会像蜘蛛侠感知到危险一样,动态触发防御机制。随后,系统通过分层自适应筛选,在效率和精度之间找到最佳平衡点。

关于Spider Sense的解释:蜘蛛侠平时总是保持放松且高效的行进状态,只有在突发危险引发「激灵」预警的瞬间,才会下意识地触发闪避或拦截动作。


核心优势与技术突破



内源性风险感知

IRS(Intrinsic Risk Sensing)赋予Agent 「原生直觉」,从「外挂监控」到「原生直觉」的进化,传统防御强制进行安全检查,笨重且迟钝。而 Spider-Sense 的灵魂——IRS,则是将安全意识通过指令微调植入 Agent 的推理逻辑中。

  • 全链路无死角感知: IRS 并不只盯着用户的输入,而是渗透在 Agent 执行任务的四个关键生命周期中:

    • Query 阶段:审视用户指令是否存在陷阱。

    • Plan 阶段:监控记忆检索和规划生成,防止记忆中毒或恶意规划。

    • Action 阶段:审计工具参数是否存在风险。

    • Observation 阶段:检查工具的返回结果,如网页内容、API 返回值等。

  • 按需触发: Agent 只有在感知到异常时,才会自主生成特定的感知信号,如 会在 Action 阶段触发。 这说明在 99% 的安全交互中,防御机制是「隐形」的,零延时损耗;只有在真正的危机时刻,它才会像蜘蛛侠的感应一样瞬间激活。


分层自适应筛选

当IRS感知到风险后,HAS(Hierarchical Adaptive Screening)就发挥作用了。

为了解决大模型推理延迟高与轻量化模型识别精度不足的问题,一旦防御被触发,系统采用分层式筛选:

  • 粗粒度检测(Coarse-grained)

    • 机制:系统维护了四个阶段的攻击向量数据库(Attack Vector Databases)。HAS将可疑内容向量化,与已知攻击模式进行余弦相似度匹配。

  • 细粒度分析(Fine-grained)

    • 机制:只有当相似度低于阈值,但又不完全安全时,系统会检索 Top-K 相关案例,并调用 LLM 进行深度对比分析。


全生命周期防护

不同于以往仅关注文本输入输出的防御,Spider-Sense 覆盖了 Agent 交互的全链路——从用户输入(Query)、内部记忆规划(Plan)、工具参数审计(Action)到观察工具调用后(Observation),无死角防御。


实验结果

兼并速度与安全

为了验证效果,研究团队构建了一个包含多场景、真实工具调用、多阶段攻击以及高质量假阳性样本的高质量基准测试集

高质量假阳性样本指那些在结构与操作模式上酷似恶意攻击、但本质意图完全无害的「高难度」测试用例,专门用于考验防御系统是否会因过度敏感而误伤合法的用户操作

在实验中,Spider-Sense展现了令人印象深刻的性能优势,特别是在处理复杂的多步Agent交互时:

  1. 极低的延迟损耗:相比于基线方法以及 Guardagent 和 AGrail 动辄 197% 到 381% 的额外时间开销,Spider-Sense 仅多了8.3%的延时。

  2. 主流数据集的表现:框架在Mind2Web和EICU这些主流数据集上展现了卓越的综合性能。除少数指标外,该方法在大部分评估标准下均取得最优。

  3. SOTA 级防御表现:在全新构建的基准测试中,Spider-Sense取得了最低的攻击成功率(ASR)

  4. 极低的误报率:实现了最低的误报率(FPR),证明了它不仅防得住,而且不会因为过度防御而打断用户的正常操作。



案例研究

一次真实的攻击拦截

看一个具体的工具返回注入攻击(Tool Return Injection)案例:

  1. 场景:一个临床分析 Agent 调用工具获取患者记录。

  2. 攻击:工具返回的内容被篡改,包含隐藏的恶意代码(import fake_module),试图诱导 Agent 执行。

  3. 感知:Agent 在 Observation(工具调用后阶段) 敏锐地感知到了工具返回值的异常,触发 信号。

  4. 筛选:首先进行数据库检索,发现与已知攻击模式相似,随即调用深度对比分析,判定该代码与上下文无关且具有危害性。

  5. 结果:Agent自主决定终止执行,攻击失败。

整个过程Agent自主完成,既没有因噎废食,也没有漏过任何蛛丝马迹。


结论与展望

内源驱动,降本增效,Spider-Sense将安全防御从「外挂监控」转变为「原生直觉」。依靠IRS和HAS两大机制,以仅8.3%的延时代价在上实现了 SOTA 级防御效果,完美解决了安全与效率的冲突。

参考资料:

https://arxiv.org/abs/2602.05386


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
这个春节,三亚彻底火了!游客8499元订的民宿被临时毁约,附近民宿涨到三四万,机票价同比翻倍!95后、00后也多起来了

这个春节,三亚彻底火了!游客8499元订的民宿被临时毁约,附近民宿涨到三四万,机票价同比翻倍!95后、00后也多起来了

每日经济新闻
2026-02-12 22:13:04
谷歌DeepMind哈萨比斯:10至15年内,人类将迎来新的黄金时代

谷歌DeepMind哈萨比斯:10至15年内,人类将迎来新的黄金时代

IT之家
2026-02-12 21:32:05
中戏再曝大瓜!网友称18级、19级考生,除名字外成绩一模一样

中戏再曝大瓜!网友称18级、19级考生,除名字外成绩一模一样

社会酱
2026-02-14 17:03:52
男子5年前买了2700克金条,近日卖出净赚近196万,“那时候金价还不到400”

男子5年前买了2700克金条,近日卖出净赚近196万,“那时候金价还不到400”

都市快报橙柿互动
2026-02-14 13:50:25
陈妍希真体面!送儿子回陈晓家过年独自返台,小星星跟爸爸一模一样

陈妍希真体面!送儿子回陈晓家过年独自返台,小星星跟爸爸一模一样

扒星人
2026-02-14 15:49:39
花小钱办大事,本赛季NBA最被低估的5大交易,直接改善球队体系

花小钱办大事,本赛季NBA最被低估的5大交易,直接改善球队体系

毒舌NBA
2026-02-14 09:42:32
春节开电车返乡血亏!充电竟比加油还贵?高速免费的红利,全被充电刺客偷光了

春节开电车返乡血亏!充电竟比加油还贵?高速免费的红利,全被充电刺客偷光了

新浪财经
2026-02-14 00:15:52
春节还剩3天,社会上却出现这个“反常现象”,今年过年大变样?

春节还剩3天,社会上却出现这个“反常现象”,今年过年大变样?

不写散文诗
2026-02-14 16:56:37
“小婉君”金铭45岁现状:个子太矮事业受挫,住北京豪宅不婚不育

“小婉君”金铭45岁现状:个子太矮事业受挫,住北京豪宅不婚不育

削桐作琴
2026-01-29 00:03:53
特朗普被日本骗后勃然大怒,美财长送中日两句话,钓鱼岛局势突变

特朗普被日本骗后勃然大怒,美财长送中日两句话,钓鱼岛局势突变

爱意随风起呀
2026-02-13 18:41:53
成都市市长暗访,发现多个问题

成都市市长暗访,发现多个问题

极目新闻
2026-02-14 17:03:13
输27分+惨遭四杀!曾经联盟的未来门面,真的要解散吗?

输27分+惨遭四杀!曾经联盟的未来门面,真的要解散吗?

体育新角度
2026-02-14 10:54:44
谁打满65场,谁就是MVP?约基奇已缺16场,077缺12场,文班缺14场

谁打满65场,谁就是MVP?约基奇已缺16场,077缺12场,文班缺14场

无术不学
2026-02-14 12:00:11
广州男子买菜偶遇双脚被截断乞丐,这竟是失踪12年的同学。

广州男子买菜偶遇双脚被截断乞丐,这竟是失踪12年的同学。

南权先生
2026-02-13 15:26:13
重磅,特斯拉汽车终于迎来“史诗级”更新!

重磅,特斯拉汽车终于迎来“史诗级”更新!

米粒说车唯一呀
2026-02-14 20:20:40
华国锋孙女华真,目前担任苏富比亚洲区副主席,此前系李云迪妻子

华国锋孙女华真,目前担任苏富比亚洲区副主席,此前系李云迪妻子

老杉说历史
2026-02-03 00:39:20
中国团队攻克难题,每公斤氢气成本不到0.7美元!

中国团队攻克难题,每公斤氢气成本不到0.7美元!

中国先进制造技术论坛
2026-02-12 14:11:09
盗采红珊瑚,31人被抓获!涉海洋生态保护执法典型案例发布

盗采红珊瑚,31人被抓获!涉海洋生态保护执法典型案例发布

上观新闻
2026-02-14 18:51:50
你敢信?一群刚从中国回去的老外,对着自家的西餐,愣是吃不了了

你敢信?一群刚从中国回去的老外,对着自家的西餐,愣是吃不了了

老谢谈史
2026-02-06 12:36:54
十年前,桑兰能成功索要18亿美金的赔偿,如今想要二胎却很困难?

十年前,桑兰能成功索要18亿美金的赔偿,如今想要二胎却很困难?

北有南栀
2026-02-07 18:05:03
2026-02-14 22:43:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14537文章数 66625关注度
往期回顾 全部

科技要闻

字节跳动官宣豆包大模型今日进入2.0阶段

头条要闻

马克龙反击"欧洲衰落"论调:所有人都应以我们为榜样

头条要闻

马克龙反击"欧洲衰落"论调:所有人都应以我们为榜样

体育要闻

最戏剧性的花滑男单,冠军为什么是他?

娱乐要闻

春晚第五次联排路透 明星积极饭撒互动

财经要闻

谁在掌控你的胃?起底百亿"飘香剂"江湖

汽车要闻

星光730新春促销开启 80天销量破2.6万台

态度原创

健康
旅游
亲子
教育
军事航空

转头就晕的耳石症,能开车上班吗?

旅游要闻

灞陵桥三国灯会刷屏全网,23天狂欢,把千年三国过成烟火大年!

亲子要闻

与其昧着良心,这糖不吃也罢!

教育要闻

有学生提了255分!离高考不到4个月了,艺考生文化课赶紧补!

军事要闻

钓鱼岛、黄岩岛、仁爱礁已充满中国年味

无障碍浏览 进入关怀版