网易首页 > 网易号 > 正文 申请入驻

港大用AI视频生成技术让机器人拥有"透视眼":首次实现超视野导航

0
分享至


这项由香港大学研究团队主导的突破性研究于2026年2月发表在计算机视觉顶级期刊上,论文编号为arXiv:2602.05827v1。该研究首次将视频生成技术引入机器人导航领域,让机器人能够在看不见目标的情况下成功找到目的地,这在夜晚等复杂环境中表现尤为出色。

想象一下,当你在一个陌生的购物中心寻找洗手间时,即使看不到目标,你也能凭借经验和常识大概推断出它可能在哪个方向。现在,香港大学的研究团队成功让机器人也具备了这种"透视"能力。他们开发的SparseVideoNav系统,能让机器人仅凭简单的指令,就能在完全陌生的环境中找到远处看不见的目标。

传统的机器人导航就像让一个近视眼的人在没有眼镜的情况下找路,它们只能依靠当前看到的景象做决定,结果经常在死胡同里打转,或者在看不清远处目标时原地打圈。更麻烦的是,现有的机器人需要非常详细的步骤指令,比如"向前走三步,然后左转,再走两步,然后右转找到红色的椅子"。这种方式在实际生活中显然不现实,因为人类更习惯给出简单的指令,比如"去找个椅子坐下"。

研究团队发现,问题的根源在于现有的机器人"目光短浅"。它们在学习时只能看到未来4到8步的情况,就像只能看到眼前一两米的近视眼一样。当遇到需要长远规划的任务时,这些机器人就会表现出两种典型的失败模式:要么因为看不清远处的目标而不断改变方向,像无头苍蝇一样乱转;要么一走进死胡同就以为到了路的尽头,直接放弃继续寻找。

为了解决这个问题,研究团队决定另辟蹊径。他们注意到视频生成模型有一个独特的优势:这些模型天生就具备预测长时间未来画面的能力。就像一个经验丰富的导演能够想象出一个场景接下来会如何发展一样,视频生成模型经过大量视频训练后,已经学会了如何根据当前画面和语言描述来预测未来可能出现的场景。

不过,研究团队并没有直接照搬现有的视频生成技术。他们发现,为导航生成连续不断的视频画面其实是一种浪费,就像看电影时不需要关注每一帧的细微变化,只需要抓住关键剧情节点一样。基于这个洞察,他们创新性地提出了"稀疏视频生成"的概念。

稀疏视频生成就像制作电影预告片一样,不是展现每一秒的画面,而是选择最关键的几个时刻来展示故事的发展轨迹。具体来说,系统会预测未来20秒内8个关键时间点的画面,比如第1秒、第2秒、第5秒、第8秒等等。这些关键画面就像导航路线上的几个重要路标,能够指引机器人朝着正确的方向前进。

研究团队将整个训练过程比作培养一个优秀向导的四个阶段。第一阶段是让系统学会"看图说话",也就是根据当前看到的景象来预测接下来可能出现的画面。第二阶段是注入"记忆力",让系统能够记住之前走过的路,避免重复犯错。第三阶段是提升"反应速度",通过一种叫做扩散蒸馏的技术,让系统能够更快地生成预测画面。第四阶段是学会"行动规划",根据预测的未来画面来决定具体应该如何移动。

为了训练这个系统,研究团队做了一件前所未有的事情:他们收集了140小时的真实世界导航视频数据。这个数据规模在该领域是史无前例的。为了确保视频质量,他们使用了专业的防抖相机,并且所有视频都经过了精心的人工标注和处理。

在实际测试中,SparseVideoNav的表现令人印象深刻。研究团队在六个不同的真实环境中进行了测试,包括室内的房间和实验室、户外的庭院和公园,以及最具挑战性的夜晚场景。在需要寻找看不见目标的任务中,SparseVideoNav的成功率达到了25%,这是传统方法成功率的2.5倍。特别值得一提的是,在所有传统方法都完全失效的夜晚环境中,SparseVideoNav仍然能够保持17.5%的成功率。

更令人惊喜的是,SparseVideoNav在一些极具挑战性的场景中表现出了出色的适应能力。比如在狭窄的坡道、倾斜度很高的山坡,甚至是死胡同等复杂地形中,它都能找到正确的路径。这种能力很大程度上归功于它能够"预见"未来的特殊本领。

从技术角度来看,SparseVideoNav还解决了一个重要的实用性问题:速度。传统的视频生成方法需要几十秒甚至几分钟才能生成足够长的视频序列,这在现实应用中是不可接受的。而SparseVideoNav通过稀疏生成策略,将推理时间压缩到了不到1秒,比未优化的方法快了27倍。

研究团队还发现了一些有趣的现象。比如,SparseVideoNav即使在训练时没有遇到过动态行人的场景,在实际部署时却能自动学会避开迎面而来的行人。这说明它不仅学会了基本的导航技能,还具备了一定的举一反三能力。

另外,传统的机器人导航系统往往对相机高度非常敏感,换个高度就可能完全失效。但SparseVideoNav展现出了很强的鲁棒性,即使相机高度从训练时的1米降到50厘米,它依然能够正常工作。

当然,这项技术也还存在一些限制。研究团队坦诚地指出,目前的数据规模虽然在该领域是最大的,但相比于互联网上的海量视频数据,仍然有不小的差距。未来如果能够融合更多来源的数据,比如YouTube视频和仿真环境数据,系统的性能还有进一步提升的空间。

从实用性角度来看,虽然SparseVideoNav已经能够实现实时运行,但其推理速度相比于传统的语言模型方法还是稍慢一些。研究团队表示,这个问题可以通过进一步的优化技术来解决,比如加速蒸馏和模型量化等方法。

这项研究的意义远不止于机器人导航本身。它展示了一种全新的思路:将生成式AI的预测能力与具体的任务需求相结合。这种思路可能会启发更多领域的创新,比如自动驾驶、智能家居、甚至是虚拟现实等。

说到底,SparseVideoNav最大的贡献在于让机器人第一次具备了类似人类的"想象力"。它能够基于当前的情况和经验,想象出接下来可能遇到的场景,并据此做出明智的决策。这种能力让机器人从"按图索骥"的被动执行者,变成了能够"深谋远虑"的主动探索者。

归根结底,这项研究向我们展示了一个充满可能性的未来:机器人不再需要详细的操作手册,而是能够理解简单的人类指令,并通过自己的"想象"来完成复杂的任务。当你对家里的机器人助手说"去厨房给我拿个苹果"时,它不会茫然地问"厨房在哪里?苹果在哪个位置?",而是能够主动找到厨房,搜索苹果,并成功完成任务。这种智能化的交互方式,将让人工智能真正融入我们的日常生活。

Q&A

Q1:SparseVideoNav是什么技术?

A:SparseVideoNav是香港大学开发的机器人导航技术,它首次将视频生成AI引入导航领域。这个系统能让机器人预测未来20秒内8个关键时刻的画面,就像给机器人装上了"透视眼",让它能在看不见目标的情况下也能成功找到目的地。

Q2:稀疏视频生成跟普通视频生成有什么不同?

A:稀疏视频生成就像制作电影预告片,不生成每一帧画面,而是只生成关键时刻的画面。比如预测未来20秒内的第1、2、5、8秒等8个关键节点,这样既能提供足够的导航指引,又能大大提升生成速度,比传统方法快27倍。

Q3:这项技术在现实中表现如何?

A:在真实环境测试中,SparseVideoNav在超视野导航任务中的成功率达到25%,是传统方法的2.5倍。更重要的是,它在所有传统方法都失效的夜晚环境中仍能保持17.5%的成功率,并且能够应对死胡同、狭窄坡道等复杂地形。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一个人情商能低到什么程度?网友:我故意找茬都说不出这话

一个人情商能低到什么程度?网友:我故意找茬都说不出这话

夜深爱杂谈
2026-01-28 18:14:00
笑不活了!用一张“没娃”的照片证明你有孩子,评论区直接封神

笑不活了!用一张“没娃”的照片证明你有孩子,评论区直接封神

辣妈当小小
2026-01-15 09:03:26
“投资开始过山海关”,许昆林主政下的辽宁发生了什么?

“投资开始过山海关”,许昆林主政下的辽宁发生了什么?

忠哥说天下
2026-02-03 18:50:16
巴黎与王嘉尔联名推“马年”特别球衣,下轮法甲将有望上身

巴黎与王嘉尔联名推“马年”特别球衣,下轮法甲将有望上身

懂球帝
2026-02-15 01:09:53
为什么许多年轻人不喜欢回农村过年了?网友:过不好,别人看不起

为什么许多年轻人不喜欢回农村过年了?网友:过不好,别人看不起

夜深爱杂谈
2026-02-14 20:15:46
2-1,意甲第18掀翻意甲第6,紫百合终结4场不胜,保级希望陡增

2-1,意甲第18掀翻意甲第6,紫百合终结4场不胜,保级希望陡增

侧身凌空斩
2026-02-14 23:53:48
敢拦就开战?美国给“台独”递刀,中方:公海销毁没商量

敢拦就开战?美国给“台独”递刀,中方:公海销毁没商量

华山穹剑
2026-01-19 21:32:59
“后坐力”太大!闫学晶又被爆出猛料,她和儿子已经一个也跑不了

“后坐力”太大!闫学晶又被爆出猛料,她和儿子已经一个也跑不了

来科点谱
2026-01-22 08:53:11
台湾军事专家谢寒冰终于说了实话:“武统、和统都没戏了

台湾军事专家谢寒冰终于说了实话:“武统、和统都没戏了

百态人间
2026-01-15 16:33:12
真的恼火,这种事情第二天直接约出来揍一顿就好了

真的恼火,这种事情第二天直接约出来揍一顿就好了

没有偏旁的常庆
2025-12-24 08:23:32
日本的苦日子,还在后面

日本的苦日子,还在后面

六爷阿旦
2026-01-20 17:07:06
为什么很多家庭一到过年就吵架?网友:婚姻好不好,过个年就知道

为什么很多家庭一到过年就吵架?网友:婚姻好不好,过个年就知道

另子维爱读史
2026-02-14 20:29:50
陈百祥称自己每场直播收入超8位数,“这简直是天文数字,就站在那里说四五句话”

陈百祥称自己每场直播收入超8位数,“这简直是天文数字,就站在那里说四五句话”

潇湘晨报
2026-01-23 12:09:10
郭德纲一家四口亮相,王惠绿发超200斤,郭汾阳抢花麒麟

郭德纲一家四口亮相,王惠绿发超200斤,郭汾阳抢花麒麟

鱼语昱雨轩
2026-02-14 21:01:14
“上班跟进了窑子一样”,毕业生吐槽单位要求起花名,尊严都没了

“上班跟进了窑子一样”,毕业生吐槽单位要求起花名,尊严都没了

妍妍教育日记
2025-11-28 19:06:30
8000元相亲餐男子尿遁逃单!女子被迫买单,婚介甩锅:与我们无关

8000元相亲餐男子尿遁逃单!女子被迫买单,婚介甩锅:与我们无关

今朝牛马
2026-02-01 21:14:04
上海警方:女子为吸粉引流,用AI生成发布上海嘉闵线施工区发生地面塌陷的虚假信息,已被行拘

上海警方:女子为吸粉引流,用AI生成发布上海嘉闵线施工区发生地面塌陷的虚假信息,已被行拘

环球网资讯
2026-02-14 09:52:08
退休后女儿催我去北京带娃,饭桌上女婿突然开口:妈,您来可以

退休后女儿催我去北京带娃,饭桌上女婿突然开口:妈,您来可以

匹夫来搞笑
2026-01-30 15:22:45
又一亚洲国家冬奥零金,14日奖牌榜爆冷,中国队排第几?

又一亚洲国家冬奥零金,14日奖牌榜爆冷,中国队排第几?

民哥台球解说
2026-02-14 07:54:53
国家出手,中戏大佬接连投案!举报人再添猛料,遭殃的不止闫学晶

国家出手,中戏大佬接连投案!举报人再添猛料,遭殃的不止闫学晶

观察者海风
2026-02-14 15:12:30
2026-02-15 03:23:00
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7288文章数 550关注度
往期回顾 全部

科技要闻

字节跳动官宣豆包大模型今日进入2.0阶段

头条要闻

泽连斯基:冲突可以结束 但首先要结束得体面

头条要闻

泽连斯基:冲突可以结束 但首先要结束得体面

体育要闻

最戏剧性的花滑男单,冠军为什么是他?

娱乐要闻

春晚第五次联排路透 明星积极饭撒互动

财经要闻

谁在掌控你的胃?起底百亿"飘香剂"江湖

汽车要闻

星光730新春促销开启 80天销量破2.6万台

态度原创

旅游
本地
亲子
艺术
健康

旅游要闻

文旅业者勿因一时之利砸了长期饭碗

本地新闻

下一站是嘉禾望岗,请各位乘客做好哭泣准备

亲子要闻

宝妈花500元买童装,上身却像“回村参加喜宴”,童装越贵越土?

艺术要闻

你绝对想不到!百大美女竟然在中国当辣妈!

转头就晕的耳石症,能开车上班吗?

无障碍浏览 进入关怀版