![]()
新智元报道
编辑:LRST
【新智元导读】最新综述首次系统探讨LLM控制机器人的安全威胁、防御机制与未来挑战,指出LLM的具身鸿沟导致其在物理空间可能执行危险动作,而现有防御体系存在逻辑与物理脱节等问题。
具身智能正在经历从实验室走向真实世界的范式转移。
大语言模型(LLM)赋予了机器人强大的逻辑推理与任务规划能力,但安全风险也随之单纯的「语义毒性」演变为真实的物理破坏。
最近,悉尼大学和德克萨斯大学圣安东尼奥分校联合发表了最新系统性综述 ,首次深入探讨了 LLM 控制下机器人的安全威胁、防御机制及未来挑战。
![]()
论文链接:https://arxiv.org/html/2601.02377v1
核心挑战:物理属性缺失的「具身鸿沟」
LLM控制机器人的底层困境在于具身鸿沟 (Embodiment Gap),传统的 LLM 安全机制聚焦于文本输出的合规性,具身智能则面临着「乱执行」的物理风险。
LLM具备卓越的抽象推理能力,却缺乏对物理定律和传感器数据的本质理解,这种脱节导致系统可能在口头拒绝恶意指令的同时,依然在物理空间执行了危险动作。
为了系统性应对这一挑战,研究团队构建了目前该领域最全的攻击与防御全景分类学:
![]()
具身智能安全攻击与防御全景分类
具身层面攻击分类学:三大向量
研究团队系统性地提出了针对具身智能的攻击分类方法 :
具身越狱 (Jailbreaking):利用提示词工程绕过安全过滤器 。攻击的关键在于确保恶意指令同时具备逻辑可执行性与物理约束适配性 。
后门攻击 (Backdoor):在模型中预埋特定触发器 。特定的环境视觉特征(如路边的小狗)可能诱发系统产生异常的控制指令 。
提示词注入 (Prompt Injection):通过污染感知层数据实施攻击 。伪造的 LiDAR 信息或中间人攻击能直接篡改机器人的高层决策逻辑 。
防御困境:碎片化与语义真空
目前的防御体系在逻辑保障与物理保障之间存在明显的断裂 。
![]()
fig2. LLM 控制机器人的多层防御体系
逻辑与物理脱节:传统形式化方法(如 Safety Chip)能提供符号层面的逻辑验证,却难以覆盖复杂的连续动力学环境 。
状态相关性:机器人的安全性具有极强的状态相关性 。相同的动作在不同物理语境(如平地 vs 悬崖边)下的安全性截然不同,静态内容过滤器无法理解这种动态语境 。
多模态风险:当文字、图像、传感器数据交织在一起,单一的防御手段已不再可行 。
未来路线图
构建具身安全基石
研究团队提出了三位一体的防御演进方向 :
环境感知的安全对齐:研究重心需从文本语义对齐转向物理后果的预测与对齐 。
全生命周期防御框架:构建涵盖模型训练、供应链审计、运行时监控及形式化验证的闭环体系 。
标准化基准测试:呼吁行业建立统一的评估标准,论文梳理了AGENTSAFE、EIRAD以及SafeAgentBench等前沿基准,用于量化长时程环境下的系统稳健性 。
安全性不再是具身智能的附加组件,而是行业建立信任的底层基石 。
参考资料:
https://arxiv.org/html/2601.02377
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.