OpenClaw爆火背后，仅8.6%用户能察觉异常！多校联合实证|算法|实验|智能体|工作流|电子表格

OpenClaw爆火背后，仅8.6%用户能察觉异常！多校联合实证

2026-04-17 21:12:11　来源: 新智元

北京举报

分享至

新智元报道

编辑：LRST

【新智元导读】OpenClaw等AI智能体爆火的同时，安全隐患也日益凸显。当智能体的工作流被悄悄篡改，用户能否及时察觉？南洋理工大学、瑞典皇家理工学院（KTH）及威廉与玛丽学院（William & Mary）联合开展了一项基于303名参与者的大规模实证研究，发现仅有8.6%的用户能在交互中感知到智能体媒介欺骗（Agent-Mediated Deception 下文简称AMD）。研究还总结了6类常见认知失效模式，并发现体验式学习可能比静态提醒更能提升用户警觉性。

从OpenClaw到Manus，AI智能体正从实验室走向千家万户。OpenClaw上线不到半年便收获超过31万GitHub星标，成为增长最快的开源AI Agent框架。与此同时，越来越多用户开始把信息检索、判断辅助甚至部分操作流程交给智能体完成。

但这种信任委托也带来了新的安全问题。近期OpenClaw就被曝出CVE-2026-25253等高危漏洞，安全审计发现512个漏洞，其中8个为严重级别，约12%的技能注册表遭恶意污染。已有研究表明，LLM 智能体在感知、记忆和工具调用等环节都可能受到干扰，例如提示注入、记忆污染或工具操纵。与直接攻击模型本身不同，这项研究关注的是：当智能体的工作流被悄悄影响后，用户能否意识到它已经出现异常行为。

由南洋理工大学（NTU）、威廉与玛丽学院（William & Mary）和瑞典皇家理工学院（KTH）联合开展的最新研究，基于研究团队自建的高保真实验平台 HAT-Lab（Human-Agent Trust Laboratory），设计了 9 个覆盖日常与专业任务的实验场景（包含类似OpenClaw的AI智能体交互），并招募 303 名参与者开展用户研究，其中约 39.3% 具备 IT技术背景。

项目主页：https://letterligo.github.io/hat-lab/

论文链接：https://arxiv.org/pdf/2602.21127

研究目标是系统评估：当智能体行为受到干扰时，用户对异常的感知能力到底有多强。

结果显示，用户对这类异常行为的感知能力整体偏弱。论文报告称，仅 8.6% 的参与者在交互过程中察觉到风险迹象，而能准确识别其背后机制的比例仅为 2.7%。即便在具备相关专业背景的人群中，表现也不一定更好；在部分高专业度任务里，专家群体反而更容易忽略异常。

研究团队进一步比较了三种常见防护方式，并分析了它们为何作用有限：

静态免责声明（Guard 1）：在实验开始前提供一次性提示。结果显示，只有约 24% 的用户注意到这类提醒，而对应的风险感知率仅为 8.6%。

持续视觉提醒（Guard 2）：在界面中持续提供低显著性的风险提示。这类设计比静态声明更容易被看到，但在任务驱动较强的情况下，仍然很容易被用户忽略。

交互式中断警报（Guard 3）：当系统检测到可疑输出时，主动打断流程并要求用户确认。这是三者中效果最好的一种，可将风险感知率提升到 25%，但仍意味着75%的攻击成功绕过防线。

据此指出，问题并不只在技术层面。很多情况下，用户并不是完全没有检查，而是在任务压力下更关注「结果是否可用」，而不是「过程是否可信」。这使得自然语言交互、流畅反馈和连续任务体验，反而可能掩盖底层异常。

越专业，反而越容易忽略？

一个反直觉发现

一个较有意思的发现是，专业知识并不天然意味着更强的风险感知能力。研究将这一现象概括为「专家悖论」（Expert’s Paradox）：在代码相关场景中，部分 IT技术背景参与者的异常感知率低于普通用户，例如某些场景下专家组为 0.0% 或 9.1%，而普通用户则达到 8.1% 或 13.5%。

研究者认为，这并不意味着专家「更差」，而是说明：当用户对任务本身较熟悉时，更容易把注意力集中在结果质量和逻辑一致性上，而较少回头核查智能体的执行过程是否可靠。换句话说，熟悉任务本身，有时反而会降低对流程异常的敏感度。

此外，论文还提到一种「准备充分的错觉」（Illusion of Preparedness）。在实验前，97.0% 的用户表示信任 AI，75.9% 表示自己会经常检查输出，96.4% 认为自己有能力识别问题；但真正进入交互后，这些主观判断与实际表现之间存在明显落差。

为什么用户会忽略异常？

检查方式本身有问题

结合日志分析与访谈，研究团队总结出 6 类容易导致用户忽略异常的认知模式：

任务聚焦隧道（Task-Focused Tunneling）：认知资源过度集中于任务目标，导致对安全警示信号的完全忽略。
局部验证偏差（Partial Verification）：仅对输出结果的片段或表层格式进行抽样检查，一旦通过即推定整体可信。
效用优先覆盖（Utility Override）：为追求任务效率，主动抑制对潜在风险的排查意愿，将便利性置于安全性之上。
透明度悖论（Transparency Preference）：系统提供的详细安全警告反而增强了用户对系统严谨性的信任，降低了实际警惕度。
算法顺从倾向（Algorithmic Adherence）：基于对智能体高性能表现的观察，被动放弃独立判断权，默认算法决策的绝对正确性。
警惕性衰减（Vigilance Degradation）：随着交互轮次增加及任务顺利推进，用户的风险敏感度持续下降。

这些模式并非孤立存在。研究指出，它们在真实交互中往往相互叠加：用户先因为智能体效率高而增强依赖，随后减少核查，最终逐步将判断权更多地交给系统。

提醒没用？

什么样的防护更有效

针对现有防御策略的局限，研究通过对照实验系统评估了不同机制的效果：

静态免责声明（Guard 1）：类似于服务条款的单次前置警告。
持续性微提示（Guard 2）：交互过程中嵌入的低显著性风险图标。
强制性交互警报（Guard 3）：检测到高危操作时触发的工作流中断与二次确认机制。

实验结果表明，静态声明的警示可见率仅约24%，实际风险感知率更低至8.6%。交互式警报虽为最有效策略，将感知率提升至25%（但准确识别率仅为17.2%），但面对精心设计的AMD攻击，其拦截率仍显不足。

更为严峻的是，复杂任务带来的认知负荷会进一步削弱防御效果。当验证需要额外投入较高认知成本时，用户往往选择忽略警报以维持任务流畅性。这说明，仅靠增加「摩擦」并不能解决问题。

相比之下，研究提出了一种更有效的路径——体验式学习。实验发现，在成功识别攻击的用户中，超过90%表示后续会更加谨慎。这种通过真实经历建立的风险认知，远比事前提醒更具持续效果。

防御范式的重构

从理论警示转向体验式演练

面对传统安全提示效果有限的困境，研究团队提出了一种全新的防御思路，即构建「安全飞行模拟器」（Security Flight Simulator）。这一理念借鉴了航空领域的训练模式，主张用户只有在受控环境中亲身体验过攻击场景，才能真正建立起对智能体风险的深刻认知，而非仅仅停留在口头警告上。

实证数据支持了这一假设：在实验中成功识别攻击的用户，超过90%表示将在后续交互中采取更谨慎的策略。这种「体验式学习」带来的行为修正效果，显著优于传统的理论警示。

作为该理念的落地原型，HAT-Lab平台让用户能在零风险环境下亲历各类AMD攻击（如模拟OpenClaw等智能体中的提示注入与工具操纵场景），从而培养出一种建设性的怀疑思维。研究显示，具备这种思维模式的用户，其风险感知能力比普通用户提升了39.5%。

真正的有效防御并非要消除所有操作摩擦让用户盲目信任，也不是设置重重障碍阻碍使用，而是引入「校准型摩擦」（Calibrated Friction）这意味着在关键决策时刻，系统会适时介入打断用户的惯性操作，激发其进行批判性思考，同时在验证成本与安全性之间找到最佳平衡点。

安全问题不在模型

在人与模型之间

该研究首次系统量化了LLM智能体场景中的人类认知脆弱性，为构建以人为核心的安全体系提供了重要基础。

HAT-Lab作为开放平台，具备良好的扩展性，可应用于医疗、金融、软件开发等高风险场景的安全评估。

随着OpenClaw等AI智能体与Web Agent的快速普及，这一问题的现实紧迫性正在迅速上升。无论是电商、内容创作还是企业数据处理，基于认知机制的防御设计都将成为刚需。

目前项目与数据集已开源，研究团队也计划持续扩展实验场景与攻击类型，覆盖更多类似OpenClaw的主流AI智能体平台，以应对未来智能体能力演进带来的新挑战。

参考资料：

https://arxiv.org/pdf/2602.21127

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.