最近Insta360研究团队拉着加州大学圣地亚哥分校、武汉大学这些名校,捣鼓出个叫DAP的新东西,全称DepthAnyPanoramas。
听名字挺玄乎,说白了就是让机器能把360度全景图的“深浅远近”看得明明白白,这事儿以前可没这么靠谱过。
咱们平时看全景图,知道哪儿是墙哪儿是窗,但机器不行,它得靠“深度估计”算出每个点离镜头多远。
![]()
这技术对机器人导航、自动驾驶、VR这些领域来说,简直是“眼睛”级别的存在。
可之前这“眼睛”总出问题,要么数据不够用,要么模型看啥都模糊。
搞不清为啥以前全景深度估计总卡壳?说白了就是数据太少,模型没见过世面。
以前学术界玩这个,手里就几万张标注好的全景图,跟抱着一小碗饭想喂饱壮汉似的,模型学出来能靠谱吗?
DAP团队一上来就瞄准了这个死穴。
![]()
他们觉得,数据量上不去,啥模型都白搭。
于是硬生生把数据量干到了200万量级,差不多是以前的100倍。
这里面既有Structured3D这类现成的“营养餐”,也有新找来的“家常菜”,反正就是要让模型见够世面。
数据多了,新问题又来了,200万张图里,190万张都没标过深度,总不能让人一张张画吧?人工标注一张全景深度图,成本比买个新手机还高。
DAP团队想了个巧招搞“三阶段伪标签精炼”,简单说就是让模型自己给自己出题、改作业。
![]()
第一阶段先拿少量精准的合成数据(比如Structured3D)当“教材”,让模型学明白“深度”到底是个啥物理概念,就像先教孩子认尺子上的刻度。
第二阶段换“练习题”,用190万张没标签的图让模型试着标深度,再用个“深度质量判别器”当“老师”,挑出60万张标得还行的,相当于从一堆草稿里选出能看的作业。
第三阶段把这些“精选作业”和原来的“教材”混在一起,让模型再学一遍,这下模型总算“吃饱喝足”,见过的场景多了,自然不容易犯迷糊。
![]()
光有数据还不够,模型本身也得聪明。
DAP用了个叫DINOv3的“大脑”当骨干,这玩意儿提取图像特征特别准,就像给模型配了个高清显微镜,远处的树叶纹理、家具边角都能看得清清楚楚。
最绝的是“动态距离掩码”这招。
全景图里近处的人和远处的山,深度差异能差几十倍,模型很容易顾此失彼。
DAP就给模型装了个“变焦眼镜”,看近处时聚焦细节,看远处时调整比例,不管多远多近,深度算得都靠谱。
![]()
测试的时候效果挺惊艳。
以前模型看远处的山,总像打了马赛克,天空还老被算成“离镜头很近”,闹笑话。
DAP出来后,山脉轮廓清清楚楚,天空也知道是“无限远”,复杂家具的纹理都能分毫不差。
有同行说,这相当于给全景深度估计装了个“矫正眼镜”,一下子不“散光”了。
这技术要是落地了,用处可大了去。
![]()
自动驾驶的摄像头能看得更广更准,以前转弯时看不到的盲区,现在360度全景深度一扫,哪有行人哪有障碍物,门儿清。
机器人进仓库搬东西,再也不会因为看不清货架深度撞翻箱子。
VR游戏里的场景也会更真实,你伸手去够虚拟桌子,距离感跟现实中一模一样,不会摸空。
更关键的是DAP团队把代码和模型全开源了。
现在项目页面已经上线,谁想用都能拿去改。
![]()
搞研究的不用再从零开始攒数据、搭模型,企业想做全景深度应用,直接拿过来就能用。
这波操作挺圈粉,毕竟技术进步从来不是关起门来搞的。
以前总有人说全景深度估计是“空间智能的硬骨头”,数据少、泛化差,怎么啃都啃不动。
DAP这波操作,相当于直接端出了个“高压锅”,200万数据当“火”,三阶段精炼当“菜谱”,硬生生把这骨头炖烂了。
现在空间智能圈都在传,DAP可能是今年最重要的技术突破之一。
![]()
它不光解决了老问题,还搭了个“全景视觉基座”,以后不管是搞自动驾驶还是机器人,都能站在这基座上往上盖楼。
说不定过两年咱们玩VR游戏,戴个眼镜就能摸到虚拟世界的桌子,那时候可得感谢DAP这波神操作。
这技术到底能火多久?不好说。
但至少现在看来,全景深度估计总算从“摸黑走路”,变成“开着导航狂奔”了。
![]()
对咱们普通人来说,以后生活里的智能设备越来越“聪明”,背后可能就有DAP的一份功劳。
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.