网易首页 > 网易号 > 正文 申请入驻

脚踏实地"的机器人导航新方法,让AI助手像人类一样边思考边行动

0
分享至


这项由上海AI实验室牵头,联合香港大学、浙江大学、清华大学等多家知名学府共同完成的重要研究,发表于2025年12月。研究团队提出了名为DualVLN的双系统视觉语言导航模型,这是该领域首个采用"快慢结合"架构的基础模型。有兴趣深入了解的读者可以通过论文编号arXiv:2512.08186v1查询完整论文。

机器人导航听起来很简单,就像我们日常走路一样自然。但实际上,让一个机器人理解"走到厨房拿杯水"这样的指令,并准确执行,比我们想象的要复杂得多。就好比让一个从未出过门的人,仅凭别人的口述描述就要找到一个陌生地方一样困难。

传统的机器人导航就像一个过分谨慎的新手司机,每走一步都要停下来仔细思考很久,动作既机械又缓慢。这种做法在实验室里也许还行,但在现实世界中就显得笨拙不堪。当有人突然从拐角走出来,或者路上临时出现障碍物时,这样的机器人往往来不及反应,要么撞上去,要么彻底卡住不知所措。

上海AI实验室的研究团队意识到这个问题的根源在于,现有的机器人导航系统把"思考"和"行动"硬生生绑在了一起。就像让一个人一边下棋思考复杂战略,一边还要快速精准地移动棋子一样,两个完全不同性质的任务被强行塞进了同一个"大脑"里。这样做的结果就是思考变慢了,行动也变僵硬了。

研究团队提出的解决方案相当巧妙,他们设计了一个双系统架构,就像人类大脑中的"理性思考"和"直觉反应"两套系统一样。第一套系统负责深度思考和规划,就像我们计划一次旅行时会仔细研究地图、考虑路线一样,工作节奏相对较慢但很全面。第二套系统则负责快速反应和精确执行,就像我们走路时自动避开路上的石头一样,动作迅速而流畅。

更具体地说,第一套系统是基于大型视觉语言模型构建的全局规划器。这个系统就像一位经验丰富的导游,能够理解复杂的语言指令,观察周围环境,然后在图像中指出下一步应该去的具体位置。它的工作频率是每秒2次,虽然不算快,但足够进行深度思考和准确规划。

第二套系统则是一个轻量级的扩散变换器策略网络。这个系统就像一位技艺精湛的车手,能够根据导游的指示,快速生成平滑的行进轨迹,同时灵活避开路上的各种障碍。它的工作频率高达每秒30次,确保机器人的动作始终保持流畅自然。

这种设计的精妙之处在于两个系统的协调配合。第一套系统不仅会指出具体的像素坐标作为目标点,还会提供丰富的隐含信息,帮助第二套系统更好地理解当前的任务环境。这就好比导游不仅会说"往那边走",还会补充一些背景信息,让车手能够做出更明智的驾驶决策。

为了验证这套系统的效果,研究团队进行了大规模的测试。他们不仅在仿真环境中进行了全面评估,还在真实世界中用不同类型的机器人进行了验证,包括轮式机器人、四足机器人和人形机器人。测试结果相当令人惊喜。

在标准的VLN-CE基准测试中,DualVLN的成功率达到了64.3%,比之前最好的方法提升了约8个百分点。更重要的是,在需要物理控制的VLN-PE测试中,这套系统表现出了很强的迁移能力,即使没有专门的训练,也能取得51.6%的成功率。

考虑到现实世界的复杂性,研究团队还特别设计了一个名为Social-VLN的新基准测试。这个测试模拟了机器人在人群中导航的场景,会有多个人形智能体在路径上活动,考验机器人的社交感知和动态避障能力。在这个更加困难的测试中,DualVLN依然保持了37.2%的成功率,同时将人体碰撞率控制在35.4%的较低水平。

真实世界的测试更是令人印象深刻。研究团队在办公室、食堂、街道、便利店等各种环境中测试了这套系统,机器人展现出了令人满意的适应能力。它能够准确选择目标点,规划安全的行进路线,在杂乱的环境中平稳穿行,甚至能够处理楼梯和动态行人等复杂情况。更值得注意的是,这套系统在不同类型的机器人平台上都表现出了良好的通用性,尽管相机高度、振动情况和运动特性各不相同。

研究团队还进行了详细的分析实验,探讨了系统各个组成部分的作用。他们发现,如果去掉分阶段训练,让两个系统同时学习,第一套系统的泛化能力会明显下降,第二套系统的学习速度也会变慢。如果只使用明确的像素目标而不加入隐含的语义信息,系统的整体表现也会有所下降。这些发现验证了设计选择的合理性。

特别有趣的是,研究团队还分析了系统对像素目标预测错误的容忍度。他们发现,第二套系统对于方向正确但位置略有偏差的目标点有很强的容错能力,能够自动调整生成合理的行进轨迹。但如果目标点的方向完全错误,或者指向了不可通行的区域,系统就会出现明显的性能下降。这说明了两个系统之间良好协调的重要性。

从数据使用效率的角度来看,这套双系统架构也展现出了很好的特性。第一套系统需要大量多样化的数据来训练其语言理解和视觉推理能力,这符合大型模型的特点。而第二套系统的任务相对简单,只需要少量的目标导向数据就能达到不错的效果。实验表明,即使只使用1%的数据,第二套系统就已经能够取得竞争性的表现。

这项研究的意义远不止于技术层面的突破。它为未来的智能导航系统提供了一个全新的设计思路。通过将复杂的导航任务分解为理解规划和执行控制两个相对独立的子任务,不仅提高了系统的性能和效率,也增强了整个系统的可解释性和可维护性。

在实际应用中,这种设计架构有着广阔的前景。比如在服务机器人领域,这样的系统能够让机器人更自然地理解和执行人类的指令,在家庭、医院、酒店等环境中提供更好的服务。在自动驾驶领域,类似的思路也可能带来性能上的突破,让车辆在复杂的交通环境中做出更智能的决策。

当然,这套系统也还有一些限制和改进空间。目前的第一套系统主要依赖视觉信息进行推理,在光线不佳或视野受限的情况下可能会受到影响。第二套系统虽然能够有效避障,但在面对完全未知的障碍类型时,其泛化能力仍有待提升。社交导航基准测试也显示,在复杂的人群环境中,系统的成功率还有较大的提升空间。

说到底,这项研究代表了机器人导航领域的一次重要进步。它不仅在技术上实现了突破,更重要的是提供了一种新的思考方式。通过模仿人类"边思考边行动"的自然模式,让机器人变得更加智能和灵活。这种进步意味着我们离真正实用的智能机器人又近了一步,未来的机器人助手将能够更好地理解我们的需求,更自然地融入我们的生活。

对于普通人来说,这项技术的发展可能会在不久的将来改变我们与机器人的互动方式。我们不再需要使用复杂的指令或者预设的路径点,而是可以像对待朋友一样,用自然语言告诉机器人我们的需求。机器人也将能够在各种复杂的环境中自如地活动,真正成为我们生活和工作中的得力助手。

Q&A

Q1:DualVLN双系统导航模型是如何工作的?

A:DualVLN采用两套协调工作的系统,第一套系统像导游一样负责理解指令和规划路线,每秒工作2次进行深度思考,第二套系统像车手一样负责快速执行和避障,每秒工作30次确保动作流畅。两个系统通过像素目标和隐含信息进行配合。

Q2:这个导航系统比传统方法有什么优势?

A:相比传统的一体化导航系统,DualVLN在VLN-CE测试中成功率达到64.3%,提升约8个百分点。更重要的是它能实时响应动态环境,避免了传统系统动作僵硬、反应迟钝的问题,在真实世界测试中表现出很强的适应性。

Q3:DualVLN导航系统能在哪些场景中使用?

A:系统已在办公室、食堂、街道、便利店等多种环境中验证有效,可适用于轮式、四足和人形等不同类型机器人。未来可应用于家庭服务机器人、医院导诊机器人、酒店服务机器人等场景,让机器人能够理解自然语言指令并自主导航。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
外交部发言人反问日媒:“你见过有人未经允许持刀进入使馆与大使交谈的先例吗?”

外交部发言人反问日媒:“你见过有人未经允许持刀进入使馆与大使交谈的先例吗?”

环球网资讯
2026-03-25 15:39:26
曝张雪峰在苏州举办葬礼,生前最后一次直播,趴桌子上身体已不适

曝张雪峰在苏州举办葬礼,生前最后一次直播,趴桌子上身体已不适

180视角
2026-03-25 16:58:57
语出惊人!摩根大通CEO戴蒙称,伊朗战争长期来看是好事!为什么这样说?

语出惊人!摩根大通CEO戴蒙称,伊朗战争长期来看是好事!为什么这样说?

王爷说图表
2026-03-25 18:51:12
张雪峰突然去世!博士妻子李丽婧饱受非议上热搜,或面临3个选择

张雪峰突然去世!博士妻子李丽婧饱受非议上热搜,或面临3个选择

火山詩话
2026-03-25 16:14:23
俄乌战争四年多,回头看看他们当初说的假话

俄乌战争四年多,回头看看他们当初说的假话

涛哥锐评
2026-03-26 17:47:45
“中园石化”被立案调查

“中园石化”被立案调查

每日经济新闻
2026-03-25 11:13:18
黄仁勋呼吁所有人使用AI提升自己:大学生毕业时都要成AI专家

黄仁勋呼吁所有人使用AI提升自己:大学生毕业时都要成AI专家

快科技
2026-03-24 22:46:04
炸裂!张雪峰遗产分配爆出大瓜

炸裂!张雪峰遗产分配爆出大瓜

互联网品牌官
2026-03-26 12:21:26
中美卫星导航用户数量悬殊:GPS用户数超60亿,中国北斗令人意外

中美卫星导航用户数量悬殊:GPS用户数超60亿,中国北斗令人意外

混沌录
2026-03-18 23:54:31
五枚导弹,拦下四枚,就那漏网的一枚,不偏不倚,正好砸中…

五枚导弹,拦下四枚,就那漏网的一枚,不偏不倚,正好砸中…

福建平子
2026-03-25 10:14:49
A股:上午冲到3937后再跳水,种种迹象表明,A股或迎更大调整行情?

A股:上午冲到3937后再跳水,种种迹象表明,A股或迎更大调整行情?

股市皆大事
2026-03-26 12:17:48
欧洲芯片巨头官宣:我已在中国大陆,制造40nm芯片了

欧洲芯片巨头官宣:我已在中国大陆,制造40nm芯片了

互联网.乱侃秀
2026-03-25 09:45:10
2-0晋级八强!中国女网15岁新星连续爆冷真猛:下一轮对决王曦雨

2-0晋级八强!中国女网15岁新星连续爆冷真猛:下一轮对决王曦雨

李喜林篮球绝杀
2026-03-26 17:04:26
释永信“开光”真相大白,过程不堪入目,易中天也有牵扯

释永信“开光”真相大白,过程不堪入目,易中天也有牵扯

寻墨阁
2026-03-25 11:39:10
突发!上海最大商场砸的62亿悬了!

突发!上海最大商场砸的62亿悬了!

新浪财经
2026-03-26 00:14:57
台积电突然断供?直接甩出“稀土”,外媒:这才是真正的杀手锏!

台积电突然断供?直接甩出“稀土”,外媒:这才是真正的杀手锏!

瑛派儿老黄
2026-03-24 18:56:06
稳居西部第二!马刺三大年轻核心,已成联盟无解难题!

稳居西部第二!马刺三大年轻核心,已成联盟无解难题!

田先生篮球
2026-03-26 14:23:29
抗炎才能抗癌!哈佛大学《自然》重磅:炎症会在身体留下长期记忆,显著增加未来患癌风险

抗炎才能抗癌!哈佛大学《自然》重磅:炎症会在身体留下长期记忆,显著增加未来患癌风险

医诺维
2026-03-26 17:00:54
北院裁定17年六个月,柯文哲去向已明,黄国昌说到做到,绿营急了

北院裁定17年六个月,柯文哲去向已明,黄国昌说到做到,绿营急了

爱看剧的阿峰
2026-03-26 16:32:02
伊朗重要人事任命,释放强烈信号!

伊朗重要人事任命,释放强烈信号!

斐君观点
2026-03-25 21:08:16
2026-03-26 19:27:00
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7746文章数 556关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

原正部级刘慧被开除党籍:结交政治骗子 匿名诬告他人

头条要闻

原正部级刘慧被开除党籍:结交政治骗子 匿名诬告他人

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

本地
家居
亲子
时尚
公开课

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

家居要闻

傍海而居 静观蝴蝶海

亲子要闻

上海美华妇儿医院"康复中心"完成全面升级并正式焕新启幕

皮衣+裙,高级到炸

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版