哈喽,大家好,今天小墨这篇科技解析,就带大家聚焦浙大团队的重磅研究,把人类当 “特殊机器人” 采集数据,底层空间感知技术究竟如何破解机器人训练难题?
现在人形机器人越来越受关注,但想让它们自主干活,先得解决一个关键问题,怎么精准“看懂”周围环境?
浙大研究员彭思达在“世界模型”分论坛上,分享了通用空间感知技术的研究成果,不仅破解了这个难题,还提出了用人类行为数据训练机器人的新思路。
![]()
![]()
机器人“看懂”世界难在哪
机器人要自己行动,得具备三个基础“感知能力”,一是知道自己在哪(相机定位)。
二是清楚和周围物体的距离(深度估计),三是能察觉物体动不动(物体运动估计)。
这三项能力就像机器人的“眼睛和大脑”,是它避开障碍、抓起东西、规划路线的关键前提。
![]()
目前行业有两个难解决的问题,一是复杂环境下感知不准,比如白天黑夜交替、热成像和普通画面混用的场景,传统技术容易“失灵”,导致机器人“迷路”。
二是训练数据不够用,仿真数据和真实世界有差距,人工操控采集的数据又没法大规模获取。
彭思达团队正是瞄准这两个问题,一边优化底层感知技术,一边找新的训练数据获取方式。
但目前行业有两个绕不开的难题,复杂环境下“看不清”,比如白天黑夜切换、热成像和普通画面混用的场景,传统技术容易出错,导致机器人“迷路”。
![]()
训练数据不够用,仿真数据和真实世界有差距,人工操控采集的数据又没法大规模获取,拖累技术进步。
![]()
给机器人装上“高清感知眼”
在相机定位上,传统方法在纹理少、视角偏差大的场景下容易失效。
在“知道自己在哪”(相机定位)方面,传统方法在纹理少、视角偏的场景下容易失效。
团队用大模型替代传统方式,解决了这个问题,后来推出的MatchAnything技术更厉害,能实现红外和可见光、卫星和无人机图像的精准匹配,就算无人机夏天拍的卫星图、冬天去工作也能对应上,大大提升了遥感和自动驾驶的可靠性。
![]()
针对技术落地的问题,团队还优化了流程,让三维重建更精准。
在“判断距离”(深度估计)方面,团队解决了行业通病,物体边缘判断不准的“飞点”问题。
通过优化模型,能精准识别到远处叶片的细节,还借鉴语言提示词的思路,让雷达数据辅助判断绝对深度,提升机器人抓取成功率。
后续技术还解决了三维重建的裂痕问题,让机器人能完成抓线缆这样的精细活。
在此基础上他们还借鉴语言提示词技术,让雷达数据作为“参考”输入模型,实现了绝对深度输出,提升了机器人抓取成功率。
![]()
后续的InfiniDepth方法,还解决了三维重建的裂痕问题,让机器人能完成抓取线缆这样的精细活。
![]()
把人类当“老师”,解决数据匮乏
除了技术优化,团队还有个大胆想法:人类本身就是“最厉害的机器人”,有完整的身体和成熟的行为模式。
如果能通过感知技术,把人类日常行动的数据记录下来,就能直接用来训练机器人,从根源上解决数据不够的问题。
为了精准记录人类行为,团队研发了三维跟踪技术。
![]()
和传统的二维跟踪容易丢目标不同,它能把图像还原到三维空间,跟踪更稳定,让“用人类数据练机器人”的想法能落地。
这些技术已经能用到多个领域,自动驾驶中,帮车辆更好地应对复杂路况,减少极端天气事故。
遥感领域,让无人机精准匹配地形,助力测绘和灾害监测;工业场景里,提升机器人抓取、装配的精度,推动智能制造。
这些成果离不开浙大在相关领域的积累,团队研发的开源工具还获得了2024年相关行业奖项。
![]()
底层空间感知技术是机器人变智能的关键。
彭思达团队的研究,既解决了机器人“看不清”的问题,又找到了新的训练方法,为机器人商业化指明了方向。
未来随着技术落地,机器人会更精准灵活地融入生活,浙大等科研机构的深耕也会助力中国在这一领域保持优势。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.