网易首页 > 网易号 > 正文 申请入驻

北京大学打造机器人"超级大脑":让AI学会在复杂任务中避免"幻觉"

0
分享至


说到机器人AI,你可能会想到那些能够完成简单任务的智能助手。但是,当面对需要多个步骤、持续几分钟甚至更长时间的复杂任务时,现有的AI往往会"犯糊涂"——它们会误以为自己已经完成了某个步骤,实际上却还差得很远。这种现象被研究人员称为"阶段幻觉"。北京大学的刘泽廷、杨子达、张泽宇和唐昊等研究团队在2025年11月发表的这项研究中,提出了一个名为EvoVLA的创新框架,专门解决这个棘手问题,论文编号为arXiv:2511.16166v1。

当前的视觉-语言-行动模型就像是一个急于交作业的学生,总是想走捷径。比如在搭建积木桥的任务中,AI可能看到积木稍微靠近了一点,就认为自己已经成功把积木放到了正确位置,实际上积木可能还悬在半空中。这种"自欺欺人"的行为严重影响了机器人在复杂任务中的表现。

研究团队深入分析了这个问题的根源。他们发现,现有的AI评估系统就像是一个过于宽松的老师,很容易被表面现象蒙蔽。AI通过视觉信息来判断任务完成程度时,往往会被一些浅层的视觉线索误导,比如物体之间的大致位置关系,而忽略了真正重要的细节,如物体是否真正接触、是否稳定放置等。

为了解决这个问题,北京大学团队设计了一套三重保护机制,就像给机器人装上了一套精密的"质量检查系统"。

第一个保护机制叫做"阶段对齐奖励",这就像是为AI配备了一个更加严格和细心的考官。传统的评估方法只会问"你完成了吗?",而新方法会同时问三个问题:"你真的完成了吗?你是否只是看起来完成了?你是否犯了常见的错误?"研究团队利用先进的Gemini大模型来生成这些"刁钻"的问题,迫使AI真正理解任务的每个细节。这种方法特别巧妙的地方在于,它会创造一些"诱导性陷阱",比如在搭积木任务中,如果AI只是把积木放到了目标积木旁边而不是上面,系统就会立即察觉到这种"差一点点"的错误。

第二个保护机制被称为"基于姿态的物体探索",这个机制关注的不是画面看起来怎么样,而是物体之间的真实空间关系。想象一下,如果你闭着眼睛去摸索桌子上的物品,你依然能够通过触觉和空间感知来判断物品的相对位置。这个机制让AI学会了类似的技能——它会关注机器人手爪与目标物体之间的精确距离、角度和接触状态,而不是仅仅依赖视觉上的"看起来差不多"。

第三个保护机制是"长期记忆系统",这就像给AI装上了一个智能的笔记本。在执行长期任务时,AI需要记住之前做了什么、现在在哪个步骤、下一步应该做什么。但是,如果把所有信息都记下来,就像记流水账一样,重要信息反而会被埋没。新系统会智能地选择和保存最关键的信息,同时过滤掉无关紧要的细节。更重要的是,它还会根据当前的情况来调节对过往经验的信任程度。

为了验证这套系统的效果,研究团队设计了一个名为"Discoverse-L"的测试平台,包含三种不同复杂程度的任务。最简单的是堆叠积木任务,需要18个步骤;中等难度的是将小球放入杯子再移动到盘子上,需要19个步骤;最复杂的是搭建积木桥,需要多达74个步骤,要求机器人先放置两根横梁形成桥的结构,然后在中间填充多个积木块。

实验结果显示,EvoVLA系统的表现令人惊喜。在平均成功率方面,新系统达到了69.2%,比之前最好的系统高出10.2个百分点。更重要的是,"阶段幻觉"的发生率从38.5%大幅降低到14.8%,几乎减少了三分之二。这意味着AI现在能够更准确地判断自己是否真正完成了每个步骤,而不是自欺欺人。

在学习效率方面,新系统也表现优异。它只需要6×10^5个环境步骤就能达到50%的成功率,而传统系统需要9×10^5个步骤,相当于提高了1.5倍的学习效率。这就像是一个学生不仅学得更好,而且学得更快。

研究团队还进行了真实机器人的测试,使用AIRBOT-Play平台验证系统在现实世界中的表现。他们测试了四种不同的任务:搭建积木桥、堆叠积木、放置物体到杯子中,以及一个全新的组装任务(堆叠四个杯子并将香蕉形物体插入最后一个杯子)。结果显示,EvoVLA在真实环境中的平均成功率达到54.6%,比对比系统高出11.0个百分点,证明了从仿真到真实环境的良好迁移能力。

为了深入理解每个组件的贡献,研究团队进行了详细的分解分析。他们发现,"困难负样本"机制贡献了2.8个百分点的成功率提升和7.3个百分点的幻觉率降低;时间平滑处理贡献了1.9个百分点的成功率提升和7.8个百分点的幻觉率降低;长期记忆机制贡献了2.4个百分点的成功率提升和3.9个百分点的幻觉率降低;而基于姿态的探索机制贡献了3.1个百分点的成功率提升和4.7个百分点的幻觉率降低。

研究团队还进行了大量的敏感性分析,确保系统的稳定性。他们发现,关键参数在合理范围内变化时,系统性能保持稳定。例如,CLIP阈值在0.65到0.75之间变化时,成功率只有±0.5个百分点的波动;内在奖励权重在0.3到0.9之间变化时,性能差异在±2.4个百分点以内。

这项研究的技术创新不仅仅体现在单个组件上,更重要的是这些组件之间的协同效应。阶段对齐奖励提供了精确的任务级反馈,基于姿态的探索提供了几何层面的理解,而长期记忆系统则确保了历史信息的有效利用。这三者结合起来,形成了一个强大的、能够避免"阶段幻觉"的智能系统。

从实际应用的角度来看,这项研究为机器人在复杂环境中执行长期任务开辟了新的可能性。在制造业中,机器人可能需要完成复杂的装配任务;在家庭环境中,机器人可能需要进行多步骤的清洁或整理工作;在医疗领域,手术机器人可能需要执行精密的多步骤操作。EvoVLA的成功表明,我们正在朝着真正智能的、能够处理复杂长期任务的机器人系统迈进。

当然,这项研究也存在一些局限性。首先,系统对于6D物体姿态的依赖意味着需要准确的物体追踪能力,这在某些复杂环境中可能是一个挑战。其次,从仿真到真实环境的迁移虽然表现良好,但仍需要进一步的系统性真实世界评估。此外,基于视频的阶段发现过程虽然减少了人工验证的需要,但仍然依赖于演示的多样性和提示的质量。

研究团队计划将相关的训练和评估代码、阶段字典以及RLDS格式的轨迹数据公开发布,这将为后续研究提供宝贵的资源。他们还提供了完整的超参数设置,确保实验的可重现性。

这项研究的意义远远超出了技术本身。它向我们展示了一种新的思路:通过模拟人类的质疑和验证过程,我们可以让AI变得更加可靠和准确。就像人类在学习复杂技能时会不断自我检查和修正一样,EvoVLA让机器人学会了"三思而后行",而不是匆忙下结论。

展望未来,这种技术可能会被应用到更多领域。在自动驾驶中,它可以帮助车辆更好地理解复杂的交通场景;在智能家居中,它可以让设备更准确地响应复杂的用户指令;在工业自动化中,它可以提高生产线的可靠性和效率。

说到底,EvoVLA代表了AI发展的一个重要里程碑。它不仅解决了一个具体的技术问题,更重要的是,它展示了如何让AI变得更加"自省"和"谨慎"。在追求AI能力不断提升的同时,确保AI的可靠性和准确性同样重要。北京大学团队的这项研究为我们指明了一个方向:通过精巧的技术设计,我们可以让AI在变得更强大的同时,也变得更加值得信赖。

Q&A

Q1:什么是EvoVLA系统?

A:EvoVLA是北京大学团队开发的一个机器人AI框架,专门解决机器人在执行复杂长期任务时的"阶段幻觉"问题。它通过三重保护机制让机器人能够更准确地判断任务完成情况,避免自欺欺人的错误。

Q2:阶段幻觉是什么问题?

A:阶段幻觉是指机器人AI误以为自己已经完成了某个任务步骤,实际上却还差得很远。比如在搭积木时,AI可能认为积木已经放好了,但实际上积木还悬在半空中,这会严重影响复杂任务的完成。

Q3:EvoVLA相比传统系统有多大改进?

A:EvoVLA在平均成功率上达到69.2%,比最好的对比系统高出10.2个百分点。更重要的是,阶段幻觉率从38.5%降低到14.8%,学习效率提高了1.5倍。在真实机器人测试中,成功率也比对比系统高出11个百分点。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
太狂妄!越南媒体:5大优势让越南有希望击败中国U23!

太狂妄!越南媒体:5大优势让越南有希望击败中国U23!

邱泽云
2026-01-18 17:29:00
老道士揭秘:家中这三样东西消失,一定是被人借运了!千万要小心

老道士揭秘:家中这三样东西消失,一定是被人借运了!千万要小心

古怪奇谈录
2026-01-05 11:32:51
亡国灭种,断子绝孙?欧洲反华先锋立陶宛,正在从地图上消失

亡国灭种,断子绝孙?欧洲反华先锋立陶宛,正在从地图上消失

安珈使者啊
2026-01-15 14:32:17
炒猪肉时,瘦肉总是柴,干硬嚼不动,教你一招,像豆腐一样嫩滑,没牙的老人都能吃

炒猪肉时,瘦肉总是柴,干硬嚼不动,教你一招,像豆腐一样嫩滑,没牙的老人都能吃

美食格物
2026-01-16 18:47:36
“火云邪神”梁小龙去世,享年77岁;出生于广东中山,与李小龙、成龙、狄龙并称为“四小龙”

“火云邪神”梁小龙去世,享年77岁;出生于广东中山,与李小龙、成龙、狄龙并称为“四小龙”

新民晚报
2026-01-18 16:52:49
浙江一男子新婚发现妻子是二婚,丈夫怒提离婚

浙江一男子新婚发现妻子是二婚,丈夫怒提离婚

行走的知识库
2026-01-18 11:59:55
聂卫平葬礼!小23岁妻子站首位送别,名下有多家企业,后半生无忧

聂卫平葬礼!小23岁妻子站首位送别,名下有多家企业,后半生无忧

鋭娱之乐
2026-01-18 20:23:39
1949年,大批山东干部南下,多数终生未归,他们任务是什么?

1949年,大批山东干部南下,多数终生未归,他们任务是什么?

掠影后有感
2026-01-18 14:17:18
对话挖出古剑上交博物馆男子:工作忙挖出10天后才交 博物馆多次提醒注意安全

对话挖出古剑上交博物馆男子:工作忙挖出10天后才交 博物馆多次提醒注意安全

红星新闻
2026-01-17 15:57:21
柯志恩态度反转!高雄7万人投票出炉 郑丽文形势大好 卢秀燕失算了

柯志恩态度反转!高雄7万人投票出炉 郑丽文形势大好 卢秀燕失算了

朗威游戏说
2026-01-19 04:45:54
江苏大一女生开养老院,无人入住却有近400名客户,员工全是60后

江苏大一女生开养老院,无人入住却有近400名客户,员工全是60后

法老不说教
2026-01-16 23:26:38
杨瀚森机会又来了!罗威格兰特今日大概率缺阵 阿夫迪亚有望复出

杨瀚森机会又来了!罗威格兰特今日大概率缺阵 阿夫迪亚有望复出

罗说NBA
2026-01-19 06:00:38
川普对哈梅内伊谩骂发出死亡威胁,“不要和川普总统耍把戏”

川普对哈梅内伊谩骂发出死亡威胁,“不要和川普总统耍把戏”

移光幻影
2026-01-18 15:37:29
不等、不搬、不接!2026年第一批整治特惠单乘客的网约车司机出现了,总结下来就三个字:不惯着!

不等、不搬、不接!2026年第一批整治特惠单乘客的网约车司机出现了,总结下来就三个字:不惯着!

网约车观察室
2026-01-18 10:53:40
“治港败类”曾荫权:治理香港7年,为何却在卸任后,获刑20个月

“治港败类”曾荫权:治理香港7年,为何却在卸任后,获刑20个月

卷史
2025-09-15 11:50:59
聂卫平追悼会!大儿子仍未改姓,棺木覆盖党旗,妻子花圈摆在中间

聂卫平追悼会!大儿子仍未改姓,棺木覆盖党旗,妻子花圈摆在中间

裕丰娱间说
2026-01-18 12:12:33
81岁老人被送养老院,悄悄清空700万股票账户,2个月后女儿傻眼了

81岁老人被送养老院,悄悄清空700万股票账户,2个月后女儿傻眼了

兰姐说故事
2025-06-17 10:00:07
只散步不行!全球国际专家力荐:“铁三角”运动组合更长寿

只散步不行!全球国际专家力荐:“铁三角”运动组合更长寿

猫大夫医学科普
2026-01-11 06:53:12
改变一个孩子最有效的手段,不是讲道理、发脾气,而是这几件事

改变一个孩子最有效的手段,不是讲道理、发脾气,而是这几件事

木言观
2026-01-14 11:47:34
故事:86年我去相亲,丈母娘让我和大姐睡一屋,那晚我难以忘怀

故事:86年我去相亲,丈母娘让我和大姐睡一屋,那晚我难以忘怀

青青会讲故事
2025-03-01 14:05:29
2026-01-19 06:23:00
至顶AI实验室 incentive-icons
至顶AI实验室
一个专注于探索生成式AI前沿技术及其应用的实验室。
1159文章数 155关注度
往期回顾 全部

科技要闻

AI大事!马斯克:索赔9300亿元

头条要闻

特朗普建"联合国"自任主席 邀60国加入仅1国接受

头条要闻

特朗普建"联合国"自任主席 邀60国加入仅1国接受

体育要闻

21年后,中国男足重返亚洲四强

娱乐要闻

香港武打演员梁小龙去世:享年77

财经要闻

BBA,势败如山倒

汽车要闻

又一次闷声干大事,奇瑞进入2.0 AI+时代

态度原创

亲子
游戏
健康
家居
公开课

亲子要闻

文咏珊带助理游曼谷,生娃3个多月瘦出“排骨胸”,不像母乳喂养

《GTA6》两大主角开场任务泄露 60%的建筑可进去

血常规3项异常,是身体警报!

家居要闻

岁月柔情 现代品质轻奢

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版