网易首页 > 网易号 > 正文 申请入驻

脚踏实地"的机器人导航新方法,让AI助手像人类一样边思考边行动

0
分享至


这项由上海AI实验室牵头,联合香港大学、浙江大学、清华大学等多家知名学府共同完成的重要研究,发表于2025年12月。研究团队提出了名为DualVLN的双系统视觉语言导航模型,这是该领域首个采用"快慢结合"架构的基础模型。有兴趣深入了解的读者可以通过论文编号arXiv:2512.08186v1查询完整论文。

机器人导航听起来很简单,就像我们日常走路一样自然。但实际上,让一个机器人理解"走到厨房拿杯水"这样的指令,并准确执行,比我们想象的要复杂得多。就好比让一个从未出过门的人,仅凭别人的口述描述就要找到一个陌生地方一样困难。

传统的机器人导航就像一个过分谨慎的新手司机,每走一步都要停下来仔细思考很久,动作既机械又缓慢。这种做法在实验室里也许还行,但在现实世界中就显得笨拙不堪。当有人突然从拐角走出来,或者路上临时出现障碍物时,这样的机器人往往来不及反应,要么撞上去,要么彻底卡住不知所措。

上海AI实验室的研究团队意识到这个问题的根源在于,现有的机器人导航系统把"思考"和"行动"硬生生绑在了一起。就像让一个人一边下棋思考复杂战略,一边还要快速精准地移动棋子一样,两个完全不同性质的任务被强行塞进了同一个"大脑"里。这样做的结果就是思考变慢了,行动也变僵硬了。

研究团队提出的解决方案相当巧妙,他们设计了一个双系统架构,就像人类大脑中的"理性思考"和"直觉反应"两套系统一样。第一套系统负责深度思考和规划,就像我们计划一次旅行时会仔细研究地图、考虑路线一样,工作节奏相对较慢但很全面。第二套系统则负责快速反应和精确执行,就像我们走路时自动避开路上的石头一样,动作迅速而流畅。

更具体地说,第一套系统是基于大型视觉语言模型构建的全局规划器。这个系统就像一位经验丰富的导游,能够理解复杂的语言指令,观察周围环境,然后在图像中指出下一步应该去的具体位置。它的工作频率是每秒2次,虽然不算快,但足够进行深度思考和准确规划。

第二套系统则是一个轻量级的扩散变换器策略网络。这个系统就像一位技艺精湛的车手,能够根据导游的指示,快速生成平滑的行进轨迹,同时灵活避开路上的各种障碍。它的工作频率高达每秒30次,确保机器人的动作始终保持流畅自然。

这种设计的精妙之处在于两个系统的协调配合。第一套系统不仅会指出具体的像素坐标作为目标点,还会提供丰富的隐含信息,帮助第二套系统更好地理解当前的任务环境。这就好比导游不仅会说"往那边走",还会补充一些背景信息,让车手能够做出更明智的驾驶决策。

为了验证这套系统的效果,研究团队进行了大规模的测试。他们不仅在仿真环境中进行了全面评估,还在真实世界中用不同类型的机器人进行了验证,包括轮式机器人、四足机器人和人形机器人。测试结果相当令人惊喜。

在标准的VLN-CE基准测试中,DualVLN的成功率达到了64.3%,比之前最好的方法提升了约8个百分点。更重要的是,在需要物理控制的VLN-PE测试中,这套系统表现出了很强的迁移能力,即使没有专门的训练,也能取得51.6%的成功率。

考虑到现实世界的复杂性,研究团队还特别设计了一个名为Social-VLN的新基准测试。这个测试模拟了机器人在人群中导航的场景,会有多个人形智能体在路径上活动,考验机器人的社交感知和动态避障能力。在这个更加困难的测试中,DualVLN依然保持了37.2%的成功率,同时将人体碰撞率控制在35.4%的较低水平。

真实世界的测试更是令人印象深刻。研究团队在办公室、食堂、街道、便利店等各种环境中测试了这套系统,机器人展现出了令人满意的适应能力。它能够准确选择目标点,规划安全的行进路线,在杂乱的环境中平稳穿行,甚至能够处理楼梯和动态行人等复杂情况。更值得注意的是,这套系统在不同类型的机器人平台上都表现出了良好的通用性,尽管相机高度、振动情况和运动特性各不相同。

研究团队还进行了详细的分析实验,探讨了系统各个组成部分的作用。他们发现,如果去掉分阶段训练,让两个系统同时学习,第一套系统的泛化能力会明显下降,第二套系统的学习速度也会变慢。如果只使用明确的像素目标而不加入隐含的语义信息,系统的整体表现也会有所下降。这些发现验证了设计选择的合理性。

特别有趣的是,研究团队还分析了系统对像素目标预测错误的容忍度。他们发现,第二套系统对于方向正确但位置略有偏差的目标点有很强的容错能力,能够自动调整生成合理的行进轨迹。但如果目标点的方向完全错误,或者指向了不可通行的区域,系统就会出现明显的性能下降。这说明了两个系统之间良好协调的重要性。

从数据使用效率的角度来看,这套双系统架构也展现出了很好的特性。第一套系统需要大量多样化的数据来训练其语言理解和视觉推理能力,这符合大型模型的特点。而第二套系统的任务相对简单,只需要少量的目标导向数据就能达到不错的效果。实验表明,即使只使用1%的数据,第二套系统就已经能够取得竞争性的表现。

这项研究的意义远不止于技术层面的突破。它为未来的智能导航系统提供了一个全新的设计思路。通过将复杂的导航任务分解为理解规划和执行控制两个相对独立的子任务,不仅提高了系统的性能和效率,也增强了整个系统的可解释性和可维护性。

在实际应用中,这种设计架构有着广阔的前景。比如在服务机器人领域,这样的系统能够让机器人更自然地理解和执行人类的指令,在家庭、医院、酒店等环境中提供更好的服务。在自动驾驶领域,类似的思路也可能带来性能上的突破,让车辆在复杂的交通环境中做出更智能的决策。

当然,这套系统也还有一些限制和改进空间。目前的第一套系统主要依赖视觉信息进行推理,在光线不佳或视野受限的情况下可能会受到影响。第二套系统虽然能够有效避障,但在面对完全未知的障碍类型时,其泛化能力仍有待提升。社交导航基准测试也显示,在复杂的人群环境中,系统的成功率还有较大的提升空间。

说到底,这项研究代表了机器人导航领域的一次重要进步。它不仅在技术上实现了突破,更重要的是提供了一种新的思考方式。通过模仿人类"边思考边行动"的自然模式,让机器人变得更加智能和灵活。这种进步意味着我们离真正实用的智能机器人又近了一步,未来的机器人助手将能够更好地理解我们的需求,更自然地融入我们的生活。

对于普通人来说,这项技术的发展可能会在不久的将来改变我们与机器人的互动方式。我们不再需要使用复杂的指令或者预设的路径点,而是可以像对待朋友一样,用自然语言告诉机器人我们的需求。机器人也将能够在各种复杂的环境中自如地活动,真正成为我们生活和工作中的得力助手。

Q&A

Q1:DualVLN双系统导航模型是如何工作的?

A:DualVLN采用两套协调工作的系统,第一套系统像导游一样负责理解指令和规划路线,每秒工作2次进行深度思考,第二套系统像车手一样负责快速执行和避障,每秒工作30次确保动作流畅。两个系统通过像素目标和隐含信息进行配合。

Q2:这个导航系统比传统方法有什么优势?

A:相比传统的一体化导航系统,DualVLN在VLN-CE测试中成功率达到64.3%,提升约8个百分点。更重要的是它能实时响应动态环境,避免了传统系统动作僵硬、反应迟钝的问题,在真实世界测试中表现出很强的适应性。

Q3:DualVLN导航系统能在哪些场景中使用?

A:系统已在办公室、食堂、街道、便利店等多种环境中验证有效,可适用于轮式、四足和人形等不同类型机器人。未来可应用于家庭服务机器人、医院导诊机器人、酒店服务机器人等场景,让机器人能够理解自然语言指令并自主导航。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
哈梅内伊遇害,“中东火药桶”彻底引爆,连锁反应正逐渐显现

哈梅内伊遇害,“中东火药桶”彻底引爆,连锁反应正逐渐显现

上观新闻
2026-03-01 12:28:31
阿丹:我赶上最后几趟航班撤离伊朗,现在已与俱乐部断联

阿丹:我赶上最后几趟航班撤离伊朗,现在已与俱乐部断联

懂球帝
2026-03-01 07:40:47
寿命延长40倍?Cell:高剂量维生素B3(NR),逆转致死性代谢缺陷

寿命延长40倍?Cell:高剂量维生素B3(NR),逆转致死性代谢缺陷

时光派健康抗衰
2026-02-27 17:52:58
内塔尼亚胡:诸多迹象显示哈梅内伊已“不在人世”

内塔尼亚胡:诸多迹象显示哈梅内伊已“不在人世”

财联社
2026-03-01 03:39:04
2026江苏省大学排名出炉:南大跌至全国第7,河海退步,江南第11

2026江苏省大学排名出炉:南大跌至全国第7,河海退步,江南第11

Delete丨CC
2026-03-01 14:06:59
中国男篮100-93逆转中国台北,朱俊龙19分,胡金秋15+6,陈盈骏26分

中国男篮100-93逆转中国台北,朱俊龙19分,胡金秋15+6,陈盈骏26分

懂球帝
2026-03-01 18:07:52
携程算是踢到钢板了

携程算是踢到钢板了

虎嗅APP
2026-03-01 17:00:07
对越还击战中的那些叛徒,主动投敌行径令人不齿,最终的结局无不大快人心

对越还击战中的那些叛徒,主动投敌行径令人不齿,最终的结局无不大快人心

老杉说历史
2026-02-06 12:59:08
50℃高温锁住国运!电不够水没有,印度的未来,彻底没希望了?

50℃高温锁住国运!电不够水没有,印度的未来,彻底没希望了?

霁寒飘雪
2026-03-01 12:08:06
14亿人都不会忘却!揭开核酸大王张核子的真面具:权力变现大公

14亿人都不会忘却!揭开核酸大王张核子的真面具:权力变现大公

大鱼简科
2026-02-07 09:52:29
7枚导弹击中德黑兰核心区 哈梅内伊安全转移 伊朗称反击致200名美军死伤

7枚导弹击中德黑兰核心区 哈梅内伊安全转移 伊朗称反击致200名美军死伤

南方都市报
2026-03-01 07:05:11
大马士革飞往上海机票涨至382万元?知情人士:可能是供应商误操作

大马士革飞往上海机票涨至382万元?知情人士:可能是供应商误操作

每日经济新闻
2026-02-28 20:33:18
背刺中国,出卖孟晚舟的真凶被挖出来后,如今遭到了哪些报应

背刺中国,出卖孟晚舟的真凶被挖出来后,如今遭到了哪些报应

来科点谱
2026-02-18 07:08:08
92岁台湾老兵回重庆寻亲,下飞机后却怒斥子女:这不还是台北

92岁台湾老兵回重庆寻亲,下飞机后却怒斥子女:这不还是台北

海佑讲史
2026-02-28 21:19:37
新疆哈密市伊州区发生3.0级地震,震源深度10千米

新疆哈密市伊州区发生3.0级地震,震源深度10千米

界面新闻
2026-03-01 19:54:18
没指望了,公司生产线全停,员工放假!

没指望了,公司生产线全停,员工放假!

黯泉
2026-02-28 22:26:15
以色列已经告诉世界:日本若敢拥有核武器,美国并不会第一个翻脸

以色列已经告诉世界:日本若敢拥有核武器,美国并不会第一个翻脸

八斗小先生
2025-12-26 09:33:27
确认参赛!941万美金战场,郑钦文携新帅出征,首战即考验?

确认参赛!941万美金战场,郑钦文携新帅出征,首战即考验?

卿子书
2026-03-01 09:25:20
西安通报贠笑冬被查,陕西商人举报其决策致1.5亿国有资金流失

西安通报贠笑冬被查,陕西商人举报其决策致1.5亿国有资金流失

记录刘杰
2026-03-01 17:29:32
无锡二院!你要火了!

无锡二院!你要火了!

无锡eTV全媒体
2026-03-01 11:46:51
2026-03-01 20:11:00
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7389文章数 553关注度
往期回顾 全部

科技要闻

小米超跑概念车全球首秀!杀入顶豪俱乐部

头条要闻

中国游客遭遇航班熔断 转机四趟耗时48小时回国

头条要闻

中国游客遭遇航班熔断 转机四趟耗时48小时回国

体育要闻

火箭输给热火:乌度卡又输斯波教练

娱乐要闻

《江山为聘》:吴谨言陈哲远燃炸朝堂

财经要闻

中东局势升级 如何影响A股、黄金和原油

汽车要闻

理想汽车2月交付26421辆 历史累计交付超159万辆

态度原创

教育
时尚
艺术
本地
房产

教育要闻

2026高考500分以下,重点关注这8所大学,就业堪比211!

普通人穿衣不需要太复杂!颜色恰当、搭配和谐,高级又耐看

艺术要闻

2025年第二届少儿美术教师作品展 | 油画选刊

本地新闻

津南好·四时总相宜

房产要闻

滨江九小也来了!集齐海侨北+哈罗、寰岛...江东教育要炸了!

无障碍浏览 进入关怀版