网易首页 > 网易号 > 正文 申请入驻

OpenClaw爆火背后,仅8.6%用户能察觉异常!多校联合实证

0
分享至


新智元报道

编辑:LRST

【新智元导读】OpenClaw等AI智能体爆火的同时,安全隐患也日益凸显。当智能体的工作流被悄悄篡改,用户能否及时察觉?南洋理工大学、瑞典皇家理工学院(KTH)及威廉与玛丽学院(William & Mary)联合开展了一项基于303名参与者的大规模实证研究,发现仅有8.6%的用户能在交互中感知到智能体媒介欺骗(Agent-Mediated Deception 下文简称AMD)。研究还总结了6类常见认知失效模式,并发现体验式学习可能比静态提醒更能提升用户警觉性。

从OpenClaw到Manus,AI智能体正从实验室走向千家万户。OpenClaw上线不到半年便收获超过31万GitHub星标,成为增长最快的开源AI Agent框架。与此同时,越来越多用户开始把信息检索、判断辅助甚至部分操作流程交给智能体完成。

但这种信任委托也带来了新的安全问题。近期OpenClaw就被曝出CVE-2026-25253等高危漏洞,安全审计发现512个漏洞,其中8个为严重级别,约12%的技能注册表遭恶意污染。已有研究表明,LLM 智能体在感知、记忆和工具调用等环节都可能受到干扰,例如提示注入、记忆污染或工具操纵。与直接攻击模型本身不同,这项研究关注的是:当智能体的工作流被悄悄影响后,用户能否意识到它已经出现异常行为。


由南洋理工大学(NTU)、威廉与玛丽学院(William & Mary)和瑞典皇家理工学院(KTH)联合开展的最新研究,基于研究团队自建的高保真实验平台 HAT-Lab(Human-Agent Trust Laboratory),设计了 9 个覆盖日常与专业任务的实验场景(包含类似OpenClaw的AI智能体交互),并招募 303 名参与者开展用户研究,其中约 39.3% 具备 IT技术背景。


项目主页:https://letterligo.github.io/hat-lab/

论文链接:https://arxiv.org/pdf/2602.21127

研究目标是系统评估:当智能体行为受到干扰时,用户对异常的感知能力到底有多强。

结果显示,用户对这类异常行为的感知能力整体偏弱。论文报告称,仅 8.6% 的参与者在交互过程中察觉到风险迹象,而能准确识别其背后机制的比例仅为 2.7%。即便在具备相关专业背景的人群中,表现也不一定更好;在部分高专业度任务里,专家群体反而更容易忽略异常。

研究团队进一步比较了三种常见防护方式,并分析了它们为何作用有限:

静态免责声明(Guard 1):在实验开始前提供一次性提示。结果显示,只有约 24% 的用户注意到这类提醒,而对应的风险感知率仅为 8.6%。

持续视觉提醒(Guard 2):在界面中持续提供低显著性的风险提示。这类设计比静态声明更容易被看到,但在任务驱动较强的情况下,仍然很容易被用户忽略。

交互式中断警报(Guard 3):当系统检测到可疑输出时,主动打断流程并要求用户确认。这是三者中效果最好的一种,可将风险感知率提升到 25%,但仍意味着75%的攻击成功绕过防线。

据此指出,问题并不只在技术层面。很多情况下,用户并不是完全没有检查,而是在任务压力下更关注「结果是否可用」,而不是「过程是否可信」。这使得自然语言交互、流畅反馈和连续任务体验,反而可能掩盖底层异常。

越专业,反而越容易忽略?

一个反直觉发现

一个较有意思的发现是,专业知识并不天然意味着更强的风险感知能力。研究将这一现象概括为「专家悖论」(Expert’s Paradox):在代码相关场景中,部分 IT技术背景参与者的异常感知率低于普通用户,例如某些场景下专家组为 0.0% 或 9.1%,而普通用户则达到 8.1% 或 13.5%。

研究者认为,这并不意味着专家「更差」,而是说明:当用户对任务本身较熟悉时,更容易把注意力集中在结果质量和逻辑一致性上,而较少回头核查智能体的执行过程是否可靠。换句话说,熟悉任务本身,有时反而会降低对流程异常的敏感度。


此外,论文还提到一种「准备充分的错觉」(Illusion of Preparedness)。在实验前,97.0% 的用户表示信任 AI,75.9% 表示自己会经常检查输出,96.4% 认为自己有能力识别问题;但真正进入交互后,这些主观判断与实际表现之间存在明显落差。

为什么用户会忽略异常?

检查方式本身有问题

结合日志分析与访谈,研究团队总结出 6 类容易导致用户忽略异常的认知模式:

  1. 任务聚焦隧道(Task-Focused Tunneling):认知资源过度集中于任务目标,导致对安全警示信号的完全忽略。

  2. 局部验证偏差(Partial Verification):仅对输出结果的片段或表层格式进行抽样检查,一旦通过即推定整体可信。

  3. 效用优先覆盖(Utility Override):为追求任务效率,主动抑制对潜在风险的排查意愿,将便利性置于安全性之上。

  4. 透明度悖论(Transparency Preference):系统提供的详细安全警告反而增强了用户对系统严谨性的信任,降低了实际警惕度。

  5. 算法顺从倾向(Algorithmic Adherence):基于对智能体高性能表现的观察,被动放弃独立判断权,默认算法决策的绝对正确性。

  6. 警惕性衰减(Vigilance Degradation):随着交互轮次增加及任务顺利推进,用户的风险敏感度持续下降。


这些模式并非孤立存在。研究指出,它们在真实交互中往往相互叠加:用户先因为智能体效率高而增强依赖,随后减少核查,最终逐步将判断权更多地交给系统。

提醒没用?

什么样的防护更有效

针对现有防御策略的局限,研究通过对照实验系统评估了不同机制的效果:

  • 静态免责声明(Guard 1):类似于服务条款的单次前置警告。

  • 持续性微提示(Guard 2):交互过程中嵌入的低显著性风险图标。

  • 强制性交互警报(Guard 3):检测到高危操作时触发的工作流中断与二次确认机制。


实验结果表明,静态声明的警示可见率仅约24%,实际风险感知率更低至8.6%。交互式警报虽为最有效策略,将感知率提升至25%(但准确识别率仅为17.2%),但面对精心设计的AMD攻击,其拦截率仍显不足。

更为严峻的是,复杂任务带来的认知负荷会进一步削弱防御效果。当验证需要额外投入较高认知成本时,用户往往选择忽略警报以维持任务流畅性。这说明,仅靠增加「摩擦」并不能解决问题。

相比之下,研究提出了一种更有效的路径——体验式学习。实验发现,在成功识别攻击的用户中,超过90%表示后续会更加谨慎。这种通过真实经历建立的风险认知,远比事前提醒更具持续效果。

防御范式的重构

从理论警示转向体验式演练

面对传统安全提示效果有限的困境,研究团队提出了一种全新的防御思路,即构建「安全飞行模拟器」(Security Flight Simulator)。这一理念借鉴了航空领域的训练模式,主张用户只有在受控环境中亲身体验过攻击场景,才能真正建立起对智能体风险的深刻认知,而非仅仅停留在口头警告上。


实证数据支持了这一假设:在实验中成功识别攻击的用户,超过90%表示将在后续交互中采取更谨慎的策略。这种「体验式学习」带来的行为修正效果,显著优于传统的理论警示。

作为该理念的落地原型,HAT-Lab平台让用户能在零风险环境下亲历各类AMD攻击(如模拟OpenClaw等智能体中的提示注入与工具操纵场景),从而培养出一种建设性的怀疑思维。研究显示,具备这种思维模式的用户,其风险感知能力比普通用户提升了39.5%。

真正的有效防御并非要消除所有操作摩擦让用户盲目信任,也不是设置重重障碍阻碍使用,而是引入「校准型摩擦」(Calibrated Friction)这意味着在关键决策时刻,系统会适时介入打断用户的惯性操作,激发其进行批判性思考,同时在验证成本与安全性之间找到最佳平衡点。

安全问题不在模型

在人与模型之间

该研究首次系统量化了LLM智能体场景中的人类认知脆弱性,为构建以人为核心的安全体系提供了重要基础。

HAT-Lab作为开放平台,具备良好的扩展性,可应用于医疗、金融、软件开发等高风险场景的安全评估。

随着OpenClaw等AI智能体与Web Agent的快速普及,这一问题的现实紧迫性正在迅速上升。无论是电商、内容创作还是企业数据处理,基于认知机制的防御设计都将成为刚需。

目前项目与数据集已开源,研究团队也计划持续扩展实验场景与攻击类型,覆盖更多类似OpenClaw的主流AI智能体平台,以应对未来智能体能力演进带来的新挑战。

参考资料:

https://arxiv.org/pdf/2602.21127

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
日本政府图谋出口二手武器,不断突破“红线”引担忧

日本政府图谋出口二手武器,不断突破“红线”引担忧

参考消息
2026-04-26 20:00:08
笑疯了!西安给失业人员免费培训,评论区太扎心,一点面子都不留

笑疯了!西安给失业人员免费培训,评论区太扎心,一点面子都不留

谭谈社会
2026-04-25 22:19:12
11685人涌入,连糖水铺也带火了!粤超8.8元一票难求

11685人涌入,连糖水铺也带火了!粤超8.8元一票难求

21世纪经济报道
2026-04-26 20:07:59
结束了!再见爱德华兹!NBA最惨季后赛球队

结束了!再见爱德华兹!NBA最惨季后赛球队

篮球实战宝典
2026-04-26 19:48:57
动真格了!最新5名上将被罢免了人大代表资格

动真格了!最新5名上将被罢免了人大代表资格

李昕言温度空间
2026-04-26 20:21:10
感动 丁俊晖出局后祝福赵心童:他比谁都强 看好他世锦赛破咒卫冕

感动 丁俊晖出局后祝福赵心童:他比谁都强 看好他世锦赛破咒卫冕

我爱英超
2026-04-26 22:38:31
国内多地开启五一超长假,中小学“春假+五一”最高可连休11天,新疆5月可休15天,最早放假的游客已在路上

国内多地开启五一超长假,中小学“春假+五一”最高可连休11天,新疆5月可休15天,最早放假的游客已在路上

极目新闻
2026-04-26 22:51:26
李维刚又赔光了?5分钟卖光2万斤滞销脐橙,网友:这次真怕他塌房

李维刚又赔光了?5分钟卖光2万斤滞销脐橙,网友:这次真怕他塌房

雷科技
2026-04-26 17:14:53
5月1日全国统一施行:饭局、人情往来、私下转账,均纳入严格监管

5月1日全国统一施行:饭局、人情往来、私下转账,均纳入严格监管

一口娱乐
2026-04-27 01:04:39
从武大硕士到商场导购:诬告学弟性骚扰的杨景媛,终于付出了代价

从武大硕士到商场导购:诬告学弟性骚扰的杨景媛,终于付出了代价

地理三体说
2026-04-25 22:06:06
天助穆帅:1-1大冷门,葡萄牙体育遭倒数第一逼平,落后本菲卡3分

天助穆帅:1-1大冷门,葡萄牙体育遭倒数第一逼平,落后本菲卡3分

侧身凌空斩
2026-04-27 05:38:56
被卖缅甸女大学生后续:园区同意放人,黑幕曝光,父亲觉得不对劲

被卖缅甸女大学生后续:园区同意放人,黑幕曝光,父亲觉得不对劲

云舟史策
2026-04-26 17:10:28
CBA官方:贺希宁首次当选常规赛MVP+入选一阵 成深圳队史首人

CBA官方:贺希宁首次当选常规赛MVP+入选一阵 成深圳队史首人

醉卧浮生
2026-04-26 20:25:45
一场114-93的大逆转,让狼、掘绝望,雷霆开始慌了!马刺彻底崛起

一场114-93的大逆转,让狼、掘绝望,雷霆开始慌了!马刺彻底崛起

毒舌NBA
2026-04-27 07:13:29
为什么先救万斯?枪击发生后,万斯比特朗普先撤离引质疑

为什么先救万斯?枪击发生后,万斯比特朗普先撤离引质疑

新京报
2026-04-26 15:41:36
重磅:曝欧尔班准备出逃!和寡头转移资金离开匈牙利

重磅:曝欧尔班准备出逃!和寡头转移资金离开匈牙利

项鹏飞
2026-04-26 22:31:02
上海地铁互殴最新后续!双双被行拘,客服发声,知情人曝更多细节

上海地铁互殴最新后续!双双被行拘,客服发声,知情人曝更多细节

爱写的樱桃
2026-04-26 21:38:12
文班27分4断7帽!19分逆转夺赛点,克林根被打到弃用,杨瀚森上场

文班27分4断7帽!19分逆转夺赛点,克林根被打到弃用,杨瀚森上场

你的篮球频道
2026-04-27 06:21:13
来真的了?外媒发现:055当着日本航母的面,发射了鹰击20!

来真的了?外媒发现:055当着日本航母的面,发射了鹰击20!

小莜读史
2026-04-26 23:23:12
男子从内地偷运51公斤盒饭回澳门,被海关查获

男子从内地偷运51公斤盒饭回澳门,被海关查获

极目新闻
2026-04-26 20:33:46
2026-04-27 07:51:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15071文章数 66810关注度
往期回顾 全部

科技要闻

打1折!DeepSeek输入缓存降价

头条要闻

高市用双语表态:得知特朗普总统安然无恙 我如释重负

头条要闻

高市用双语表态:得知特朗普总统安然无恙 我如释重负

体育要闻

森林狼3比1掘金:逆境中杀出了多孙穆?!

娱乐要闻

仅次《指环王》的美剧,有第二季

财经要闻

事关新就业群体,中办、国办发文

汽车要闻

预售19.38万元起 哈弗猛龙PLUS七座版亮相

态度原创

数码
本地
艺术
亲子
军事航空

数码要闻

机构预测:苹果今年将成全球第三大笔记本厂商

本地新闻

云游中国|逛世界风筝都 留学生探秘中国传统文化

艺术要闻

72米舞台被拆!华晨宇这次玩文旅,翻车了!

亲子要闻

爸爸买的餐椅太好了,早知道早买了#餐椅 #宝宝板凳 #宝宝吃饭 #宝妈推荐

军事要闻

伊朗总统:不会在压力、威胁下进行谈判

无障碍浏览 进入关怀版