![]()
(来源:麻省理工科技评论)
AI 智能体在使用过程中存在诸多风险。
例如,即便仅局限在聊天窗口内,大语言模型也会出现错误,表现出不当行为。一旦它们配备网页浏览器、电子邮箱等可与外界交互的工具,这些错误带来的后果会严重得多。
这或许能解释,为何首款实现突破的大语言模型个人助手并非出自头部 AI 实验室,而是由独立软件工程师彼得・斯坦伯格(Peter Steinberger)研发。2025 年 11 月,斯坦伯格将这款名为 OpenClaw 的工具上传至 GitHub 平台,今年 1 月末,该项目迅速走红。
OpenClaw 依托现有大语言模型,让用户打造定制化的个人助手。对部分用户而言,这意味着要提交海量个人数据,包括所有的邮件记录与硬盘内容,这一情况让安全专家深感担忧。OpenClaw 带来的安全风险范围极广,过去几周涌现的相关安全分析博客文章,普通人可能需要近一周时间才能全部读完。中国政府已公开发布警告,提示 OpenClaw 存在安全漏洞
针对这些担忧,斯坦伯格在 X 平台发文称,非技术人员不应使用该软件。他并未回应本文的置评请求。但市场对 OpenClaw 提供的功能需求明确,且这类需求并非只存在于能自主完成软件安全检测的人群中。所有希望涉足个人助手领域的 AI 企业,都需研发保障用户数据安全的系统。企业需要借鉴智能体安全前沿研究的相关技术方案。
OpenClaw 本质上是为大语言模型配备的机械外骨骼。用户可任选一款大语言模型作为核心驱动,这款模型会获得更强的记忆能力,还能自主设定并定期重复执行任务。与头部 AI 企业推出的智能体产品不同,OpenClaw 智能体支持全天候运行,用户可通过 WhatsApp 或其他即时通讯软件与其交互。这意味着它能成为超强能力的个人助手,每天早晨用定制待办事项提醒用户,在用户工作时规划假期,空闲时开发新应用。
但这种强大能力也伴随相应风险。用户若想让 AI 个人助手管理收件箱,就需要授予其邮箱访问权限,其中包含所有敏感信息;用户若想让助手代为购物,就需要提供信用卡信息;用户若想让助手在电脑上完成编写代码等任务,就需要授予其本地文件访问权限。
这类权限会引发多种问题。第一种是 AI 助手自身出现操作失误,曾有用户的 Google Antigravity 编程智能体清空了其整个硬盘。第二种是黑客通过常规黑客工具入侵智能体,窃取敏感数据或运行恶意代码。OpenClaw 走红的几周内,安全研究人员已发现大量此类漏洞,缺乏安全意识的用户会因此面临风险。
这两类风险都有应对方法。部分用户选择在独立电脑或云端运行 OpenClaw 智能体,避免硬盘数据被清空,其他漏洞可通过成熟的安全技术修复。
但本文采访的专家,重点关注一种更隐蔽的安全风险,即提示词注入。提示词注入本质是对大语言模型的劫持。攻击者只需在大语言模型可能浏览的网页发布恶意文本或图片,或将这类内容发送至模型读取的邮箱,就能操控模型按照自己的指令行动。
若这款大语言模型拥有用户隐私信息的访问权限,后果会十分严重。多伦多大学电气与计算机工程教授尼古拉斯・帕佩诺(Nicolas Papernot)表示,使用 OpenClaw 这类工具,就像把钱包交给街上的陌生人。头部 AI 企业能否放心推出个人助手产品,关键在于其抵御此类攻击的防护能力。
需要明确的是,提示词注入目前尚未引发重大安全事故,至少没有公开的相关报道。但如今互联网上已有数十万 OpenClaw 智能体运行,提示词注入会成为网络罪犯更青睐的攻击手段。帕佩诺表示,这类工具会促使恶意攻击者将目标转向更广泛的人群。
提示词注入这一概念,由知名大语言模型博主西蒙・威利森(Simon Willison)在 2022 年提出,仅比 ChatGPT 发布早数月。早在当时就可预见,大语言模型普及后,会带来全新的安全漏洞。大语言模型无法区分用户指令与执行指令所需的数据,邮件、网页搜索结果等内容,在模型看来都只是文本。
因此攻击者若在邮件中嵌入几句话,被大语言模型误认为用户指令,就能操控模型执行任何操作。
提示词注入是棘手的难题,短期内难以彻底解决。加州大学伯克利分校计算机科学教授 Dawn Song 表示,目前业内尚未找到一劳永逸的防御方案。但众多学术团队正在研究该问题,已提出多种策略,未来有望实现 AI Agent 的安全应用。
从技术角度来说,当前使用 OpenClaw 可避免提示词注入风险,只需断开其网络连接。但禁止 OpenClaw 读取邮件、管理日程、开展网络调研,会丧失 AI Agent 的核心使用价值。防御提示词注入的关键,是在阻止模型被劫持的同时,保留其正常工作的能力。
第一种策略是训练大语言模型,使其忽略提示词注入。大语言模型研发的核心环节为后期训练,研发人员会让具备文本生成能力的模型,通过合理应答获得正向反馈,应答失误则接受负向反馈,逐步成为实用的助手。
这类正向与负向反馈是象征性的,大语言模型会像动物一样从中学习。通过这一过程,可训练模型拒绝执行特定的提示词注入指令。
但这一过程需要把握平衡。若过度训练模型拒绝注入指令,模型也会拒绝用户的合理请求。大语言模型的行为本身存在随机性,即便经过高效训练,能抵御提示词注入,偶尔仍会出现失误。
第二种方法是在提示词注入攻击到达大语言模型前进行拦截。通常会使用专用的检测模型,判断传输至目标模型的数据是否包含注入内容。但近期研究显示,即便性能最优的检测模型,也无法识别部分类型的提示词注入攻击。
第三种策略更为复杂。该方案并非通过检测输入内容是否存在注入来管控数据,而是制定规则约束模型的输出行为,避免模型执行有害操作。
这类防御方式的部分规则十分简单。例如限定模型仅能向预先审核的邮箱地址发送邮件,就能避免用户信用卡信息被泄露给攻击者。但这类规则会限制模型完成诸多实用任务,比如代为调研并联系潜在的职业人脉。
杜克大学电气与计算机工程教授 Neil Gong 表示,难点在于如何精准制定这类规则,这需要在实用性与安全性之间做出平衡。
从更广泛的层面来看,整个智能体领域都在权衡这一平衡。智能体需要达到何种安全标准,才能兼顾实用性与安全性,专家对此观点不一。Song 创办的 Virtue AI 公司研发智能体安全平台,她认为当前已能安全部署人工智能个人助手。但 Gong 表示,行业尚未达到这一水平。
即便人工智能智能体尚未能完全抵御提示词注入,仍有多种方法降低风险。部分技术方案也可应用于 OpenClaw。上周在旧金山举办的首届 ClawCon 活动上,斯坦伯格宣布已聘请安全人员参与该工具的研发。目前 OpenClaw 仍存在安全漏洞,但这并未打消众多热衷用户的使用热情。
乔治・皮克特(George Pickett)是 OpenClaw GitHub 仓库的志愿维护者,也是该工具的爱好者。他采取了多项安全措施保障使用安全,在云端运行工具,避免硬盘被误删,同时设置防护机制,防止他人接入自己的智能助手。
但他并未采取专门措施防范提示词注入。他知晓这一风险,却未看到相关攻击事件的报道。皮克特表示,或许这种想法很不明智,但自己不太可能成为首个被攻击的目标。
https://www.technologyreview.com/2026/02/11/1132768/is-a-secure-ai-assistant-possible/
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.