北京大学打造机器人"超级大脑":让AI学会在复杂任务中避免"幻觉"|积木|实验|真实世界

北京大学打造机器人"超级大脑":让AI学会在复杂任务中避免"幻觉"

2026-01-14 16:42:46　来源: 至顶AI实验室

北京举报

分享至

说到机器人AI，你可能会想到那些能够完成简单任务的智能助手。但是，当面对需要多个步骤、持续几分钟甚至更长时间的复杂任务时，现有的AI往往会"犯糊涂"——它们会误以为自己已经完成了某个步骤，实际上却还差得很远。这种现象被研究人员称为"阶段幻觉"。北京大学的刘泽廷、杨子达、张泽宇和唐昊等研究团队在2025年11月发表的这项研究中，提出了一个名为EvoVLA的创新框架，专门解决这个棘手问题，论文编号为arXiv:2511.16166v1。

当前的视觉-语言-行动模型就像是一个急于交作业的学生，总是想走捷径。比如在搭建积木桥的任务中，AI可能看到积木稍微靠近了一点，就认为自己已经成功把积木放到了正确位置，实际上积木可能还悬在半空中。这种"自欺欺人"的行为严重影响了机器人在复杂任务中的表现。

研究团队深入分析了这个问题的根源。他们发现，现有的AI评估系统就像是一个过于宽松的老师，很容易被表面现象蒙蔽。AI通过视觉信息来判断任务完成程度时，往往会被一些浅层的视觉线索误导，比如物体之间的大致位置关系，而忽略了真正重要的细节，如物体是否真正接触、是否稳定放置等。

为了解决这个问题，北京大学团队设计了一套三重保护机制，就像给机器人装上了一套精密的"质量检查系统"。

第一个保护机制叫做"阶段对齐奖励"，这就像是为AI配备了一个更加严格和细心的考官。传统的评估方法只会问"你完成了吗？"，而新方法会同时问三个问题："你真的完成了吗？你是否只是看起来完成了？你是否犯了常见的错误？"研究团队利用先进的Gemini大模型来生成这些"刁钻"的问题，迫使AI真正理解任务的每个细节。这种方法特别巧妙的地方在于，它会创造一些"诱导性陷阱"，比如在搭积木任务中，如果AI只是把积木放到了目标积木旁边而不是上面，系统就会立即察觉到这种"差一点点"的错误。

第二个保护机制被称为"基于姿态的物体探索"，这个机制关注的不是画面看起来怎么样，而是物体之间的真实空间关系。想象一下，如果你闭着眼睛去摸索桌子上的物品，你依然能够通过触觉和空间感知来判断物品的相对位置。这个机制让AI学会了类似的技能——它会关注机器人手爪与目标物体之间的精确距离、角度和接触状态，而不是仅仅依赖视觉上的"看起来差不多"。

第三个保护机制是"长期记忆系统"，这就像给AI装上了一个智能的笔记本。在执行长期任务时，AI需要记住之前做了什么、现在在哪个步骤、下一步应该做什么。但是，如果把所有信息都记下来，就像记流水账一样，重要信息反而会被埋没。新系统会智能地选择和保存最关键的信息，同时过滤掉无关紧要的细节。更重要的是，它还会根据当前的情况来调节对过往经验的信任程度。

为了验证这套系统的效果，研究团队设计了一个名为"Discoverse-L"的测试平台，包含三种不同复杂程度的任务。最简单的是堆叠积木任务，需要18个步骤；中等难度的是将小球放入杯子再移动到盘子上，需要19个步骤；最复杂的是搭建积木桥，需要多达74个步骤，要求机器人先放置两根横梁形成桥的结构，然后在中间填充多个积木块。

实验结果显示，EvoVLA系统的表现令人惊喜。在平均成功率方面，新系统达到了69.2%，比之前最好的系统高出10.2个百分点。更重要的是，"阶段幻觉"的发生率从38.5%大幅降低到14.8%，几乎减少了三分之二。这意味着AI现在能够更准确地判断自己是否真正完成了每个步骤，而不是自欺欺人。

在学习效率方面，新系统也表现优异。它只需要6×10^5个环境步骤就能达到50%的成功率，而传统系统需要9×10^5个步骤，相当于提高了1.5倍的学习效率。这就像是一个学生不仅学得更好，而且学得更快。

研究团队还进行了真实机器人的测试，使用AIRBOT-Play平台验证系统在现实世界中的表现。他们测试了四种不同的任务：搭建积木桥、堆叠积木、放置物体到杯子中，以及一个全新的组装任务（堆叠四个杯子并将香蕉形物体插入最后一个杯子）。结果显示，EvoVLA在真实环境中的平均成功率达到54.6%，比对比系统高出11.0个百分点，证明了从仿真到真实环境的良好迁移能力。

为了深入理解每个组件的贡献，研究团队进行了详细的分解分析。他们发现，"困难负样本"机制贡献了2.8个百分点的成功率提升和7.3个百分点的幻觉率降低；时间平滑处理贡献了1.9个百分点的成功率提升和7.8个百分点的幻觉率降低；长期记忆机制贡献了2.4个百分点的成功率提升和3.9个百分点的幻觉率降低；而基于姿态的探索机制贡献了3.1个百分点的成功率提升和4.7个百分点的幻觉率降低。

研究团队还进行了大量的敏感性分析，确保系统的稳定性。他们发现，关键参数在合理范围内变化时，系统性能保持稳定。例如，CLIP阈值在0.65到0.75之间变化时，成功率只有±0.5个百分点的波动；内在奖励权重在0.3到0.9之间变化时，性能差异在±2.4个百分点以内。

这项研究的技术创新不仅仅体现在单个组件上，更重要的是这些组件之间的协同效应。阶段对齐奖励提供了精确的任务级反馈，基于姿态的探索提供了几何层面的理解，而长期记忆系统则确保了历史信息的有效利用。这三者结合起来，形成了一个强大的、能够避免"阶段幻觉"的智能系统。

从实际应用的角度来看，这项研究为机器人在复杂环境中执行长期任务开辟了新的可能性。在制造业中，机器人可能需要完成复杂的装配任务；在家庭环境中，机器人可能需要进行多步骤的清洁或整理工作；在医疗领域，手术机器人可能需要执行精密的多步骤操作。EvoVLA的成功表明，我们正在朝着真正智能的、能够处理复杂长期任务的机器人系统迈进。

当然，这项研究也存在一些局限性。首先，系统对于6D物体姿态的依赖意味着需要准确的物体追踪能力，这在某些复杂环境中可能是一个挑战。其次，从仿真到真实环境的迁移虽然表现良好，但仍需要进一步的系统性真实世界评估。此外，基于视频的阶段发现过程虽然减少了人工验证的需要，但仍然依赖于演示的多样性和提示的质量。

研究团队计划将相关的训练和评估代码、阶段字典以及RLDS格式的轨迹数据公开发布，这将为后续研究提供宝贵的资源。他们还提供了完整的超参数设置，确保实验的可重现性。

这项研究的意义远远超出了技术本身。它向我们展示了一种新的思路：通过模拟人类的质疑和验证过程，我们可以让AI变得更加可靠和准确。就像人类在学习复杂技能时会不断自我检查和修正一样，EvoVLA让机器人学会了"三思而后行"，而不是匆忙下结论。

展望未来，这种技术可能会被应用到更多领域。在自动驾驶中，它可以帮助车辆更好地理解复杂的交通场景；在智能家居中，它可以让设备更准确地响应复杂的用户指令；在工业自动化中，它可以提高生产线的可靠性和效率。

说到底，EvoVLA代表了AI发展的一个重要里程碑。它不仅解决了一个具体的技术问题，更重要的是，它展示了如何让AI变得更加"自省"和"谨慎"。在追求AI能力不断提升的同时，确保AI的可靠性和准确性同样重要。北京大学团队的这项研究为我们指明了一个方向：通过精巧的技术设计，我们可以让AI在变得更强大的同时，也变得更加值得信赖。

Q&A

Q1：什么是EvoVLA系统？

A：EvoVLA是北京大学团队开发的一个机器人AI框架，专门解决机器人在执行复杂长期任务时的"阶段幻觉"问题。它通过三重保护机制让机器人能够更准确地判断任务完成情况，避免自欺欺人的错误。

Q2：阶段幻觉是什么问题？

A：阶段幻觉是指机器人AI误以为自己已经完成了某个任务步骤，实际上却还差得很远。比如在搭积木时，AI可能认为积木已经放好了，但实际上积木还悬在半空中，这会严重影响复杂任务的完成。

Q3：EvoVLA相比传统系统有多大改进？

A：EvoVLA在平均成功率上达到69.2%，比最好的对比系统高出10.2个百分点。更重要的是，阶段幻觉率从38.5%降低到14.8%，学习效率提高了1.5倍。在真实机器人测试中，成功率也比对比系统高出11个百分点。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.