网易首页 > 网易号 > 正文 申请入驻

AI智能体也有「蜘蛛感应」,防御延时骤降至8.3%

0
分享至

来源:市场资讯

(来源:新智元)


新智元报道

编辑:LRST

【新智元导读】不再依赖像「安检站」一样每步必停的外部插件,首创「内源感知+分层筛选」机制,将Agent防御延时从200%+降至8.3%,安全与效率均达到SOTA级表现!

传统的Agent防御机制通常采用强制进行安全检查的方式,即在 Agent 执行的特定阶段,包括Query、Plan、Action、Observation等阶段,都强制插入外部安全检测。这种做法虽然有效,但会切断了Agent的思维流,导致严重的延时积累,成本高昂且反应迟钝。

来自上海财经大学、新加坡国立大学、卡耐基梅隆大学等高校和学术组织的研究者们联合重磅推出Spider-Sense智能体防御框架,通过两大核心技术打破了这一僵局:利用Intrinsic Risk Sensing将风险意识植入Agent认知流,实现全链路的内源性感知;配合Hierarchical Adaptive Screening机制,动态平衡向量检索与深度推理,实现威胁的自适应筛选。


论文链接:https://arxiv.org/abs/2602.05386

开源链接:https://github.com/aifinlab/Spider-Sense

基准链接:https://huggingface.co/datasets/aifinlab/S2Bench

该框架让Agent告别了被动防御,在 Mind2Web和EICU这些主流数据集上在大部分评估标准下均取得最优,在构建出的攻击数据集上实现了SOTA级的安全与效率双优表现。

Spider-Sense提出了一种变革性的思路:防御应该是内源的、选择性的,而非外挂的、强制的。

该框架赋予Agent一种维持内源性感知风险的能力。Agent 在执行任务的过程中,会自主进行内源性风险感知。

只有当Agent 「感觉」到工具输出可疑或者指令中有陷阱等异常的时侯,才会像蜘蛛侠感知到危险一样,动态触发防御机制。随后,系统通过分层自适应筛选,在效率和精度之间找到最佳平衡点。

关于Spider Sense的解释:蜘蛛侠平时总是保持放松且高效的行进状态,只有在突发危险引发「激灵」预警的瞬间,才会下意识地触发闪避或拦截动作。


核心优势与技术突破

内源性风险感知

IRS(Intrinsic Risk Sensing)赋予Agent 「原生直觉」,从「外挂监控」到「原生直觉」的进化,传统防御强制进行安全检查,笨重且迟钝。而 Spider-Sense 的灵魂——IRS,则是将安全意识通过指令微调植入 Agent 的推理逻辑中。

分层自适应筛选

当IRS感知到风险后,HAS(Hierarchical Adaptive Screening)就发挥作用了。

为了解决大模型推理延迟高与轻量化模型识别精度不足的问题,一旦防御被触发,系统采用分层式筛选:

全生命周期防护

不同于以往仅关注文本输入输出的防御,Spider-Sense 覆盖了 Agent 交互的全链路——从用户输入(Query)、内部记忆规划(Plan)、工具参数审计(Action)到观察工具调用后(Observation),无死角防御。


实验结果

兼并速度与安全

为了验证效果,研究团队构建了一个包含多场景、真实工具调用、多阶段攻击以及高质量假阳性样本的高质量基准测试集

高质量假阳性样本指那些在结构与操作模式上酷似恶意攻击、但本质意图完全无害的「高难度」测试用例,专门用于考验防御系统是否会因过度敏感而误伤合法的用户操作

在实验中,Spider-Sense展现了令人印象深刻的性能优势,特别是在处理复杂的多步Agent交互时:



案例研究

一次真实的攻击拦截

看一个具体的工具返回注入攻击(Tool Return Injection)案例:

整个过程Agent自主完成,既没有因噎废食,也没有漏过任何蛛丝马迹。


结论与展望

内源驱动,降本增效,Spider-Sense将安全防御从「外挂监控」转变为「原生直觉」。依靠IRS和HAS两大机制,以仅8.3%的延时代价在上实现了 SOTA 级防御效果,完美解决了安全与效率的冲突。

参考资料:

https://arxiv.org/abs/2602.05386

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
小卡开炮全明星赛!莱昂纳德直言:这赛制根本没人想认真打

小卡开炮全明星赛!莱昂纳德直言:这赛制根本没人想认真打

体育闲话说
2026-02-15 14:19:21
30分钟15中13!张子宇无愧女篮核武 18岁2.26米宫鲁鸣用心呵护

30分钟15中13!张子宇无愧女篮核武 18岁2.26米宫鲁鸣用心呵护

颜小白的篮球梦
2026-02-15 17:25:50
奶奶的骄傲!C罗母亲晒迷你罗合照,为孙子出战U16比赛加油

奶奶的骄傲!C罗母亲晒迷你罗合照,为孙子出战U16比赛加油

懂球帝
2026-02-15 16:56:12
明朝锦衣卫的灭亡:大小头目全部遇难,一天之内便被消灭殆尽!

明朝锦衣卫的灭亡:大小头目全部遇难,一天之内便被消灭殆尽!

铭记历史呀
2026-01-31 23:08:25
你知道建设银行退休金能拿多少吗?应该是普通人的天花板了吧

你知道建设银行退休金能拿多少吗?应该是普通人的天花板了吧

蓝色海边
2026-02-15 12:35:11
中产阶级的公主梦破碎了。

中产阶级的公主梦破碎了。

微微热评
2026-02-13 22:21:29
金奈赛落幕:捷克老将夺冠,法国新秀泊雷特吸睛,日本大胜韩国败

金奈赛落幕:捷克老将夺冠,法国新秀泊雷特吸睛,日本大胜韩国败

陌识
2026-02-16 08:12:05
引发美国政坛震怒!特朗普将奥巴马夫妇恶搞成猿猴,奥巴马:“廉耻心”和“教养”已荡然无存

引发美国政坛震怒!特朗普将奥巴马夫妇恶搞成猿猴,奥巴马:“廉耻心”和“教养”已荡然无存

每日经济新闻
2026-02-15 17:17:01
看一下台独分子“吴思瑶”家庭情况及背景!

看一下台独分子“吴思瑶”家庭情况及背景!

达文西看世界
2026-02-15 19:37:44
微信推新功能 网友:刘德华可以放假了

微信推新功能 网友:刘德华可以放假了

快科技
2026-02-16 08:39:08
作家萨维亚诺炮轰马洛塔:此人让意甲不再公正,夺冠也无价值

作家萨维亚诺炮轰马洛塔:此人让意甲不再公正,夺冠也无价值

懂球帝
2026-02-16 07:57:07
又美又飒!谷爱凌170.75分第二进决赛冲冠:无惧失误微笑真甜

又美又飒!谷爱凌170.75分第二进决赛冲冠:无惧失误微笑真甜

李喜林篮球绝杀
2026-02-15 09:18:47
14亿人“生死”交给外资?若自来水和食盐被控制,后果有多严重?

14亿人“生死”交给外资?若自来水和食盐被控制,后果有多严重?

云景侃记
2026-02-04 22:34:38
被大量提问内部逻辑 谷歌Gemini遭蒸馏攻击

被大量提问内部逻辑 谷歌Gemini遭蒸馏攻击

快科技
2026-02-15 23:15:05
外资撤不走,中国拦不住,如今的中国广东,制造早已不是代工

外资撤不走,中国拦不住,如今的中国广东,制造早已不是代工

甜柠聊史
2026-01-23 14:01:57
张之臻一盘未失夺布里斯班站冠军 ATP挑战赛第4冠

张之臻一盘未失夺布里斯班站冠军 ATP挑战赛第4冠

体坛周报
2026-02-15 18:43:21
他是富二代,接替杨尚昆职务担任广东省委书记,促使广东经济腾飞

他是富二代,接替杨尚昆职务担任广东省委书记,促使广东经济腾飞

芊芊子吟
2026-01-18 07:40:06
只有中美拼命卷AI,其他国家都认命了!

只有中美拼命卷AI,其他国家都认命了!

达文西看世界
2026-02-15 19:24:50
中国专家:乌克兰兵源枯竭,战败已成定局

中国专家:乌克兰兵源枯竭,战败已成定局

俄罗斯卫星通讯社
2026-02-13 15:28:30
“换脸”前的女演员别选太惊艳,不然真女主上线,颜值根本压不住

“换脸”前的女演员别选太惊艳,不然真女主上线,颜值根本压不住

一娱三分地
2026-02-14 15:51:45
2026-02-16 09:31:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2222797文章数 5486关注度
往期回顾 全部

科技要闻

OpenAI拿下OpenClaw,承诺开源绝不动摇

头条要闻

王菲将六登春晚 还未开唱歌曲已经火了

头条要闻

王菲将六登春晚 还未开唱歌曲已经火了

体育要闻

NBA三分大赛:利拉德带伤第三次夺冠

娱乐要闻

2026央视春晚最新剧透 重量级嘉宾登场

财经要闻

2025,中国商业十大意外,黄金只排第九

汽车要闻

奔驰中国换帅:段建军离任,李德思接棒

态度原创

亲子
数码
本地
艺术
公开课

亲子要闻

“压岁钱”应该什么时候给?

数码要闻

盲测显示:音频发烧友无法分辨铜线、香蕉与湿泥传输的音频信号

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

艺术要闻

入选作品选刊 | 2026年“新生活·新风尚·新年画”美术作品展

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版