网易首页 > 网易号 > 正文 申请入驻

在机器人眼中,玻璃并不存在

0
分享至

玩了十几年 3D 扫描,老问题一直没解决:透明、反光的东西,扫不出来,机器人看不见


前段时间新到了一台新的 3D 扫描设备 Revopoint MetroY,想看看新设备能不能好点,试了几样东西,emmmmm....还是那个样


比如我这个对讲机,透明玻璃罩,扫出来只剩后面的屏幕,罩子本身消失了


Hytera 对讲机,你值得拥有 玻璃罩子,你拥有不了一点

如果显示器会反光,那就直接空白了


比如这个小玩意儿 你就获得了这个 Mesh 一下更清晰:屏幕整块都丢了

玻璃瓶稍微好一点,但也缺了不少


Cocia 巧克力奶,山姆有售 看角度,有时候能捡回来一点

Revopoint MetroY 这玩意儿还不便宜,但该有的问题,是个个都在,反正也不知道啥时候能解决

也是在前段时间找方案的时候,和蚂蚁那边聊到他们在做一个东西,叫 LingBot-Depth,大致上能解决这些问题,方法就是:AI 补全

思路有点反直觉:把「测不准」的地方当作训练材料,让 AI 能够理解这些看不清的东西(思路很类似 Bert,这个后面讲)

在用了这个模型之后,机器人能稳定抓起透明玻璃杯、反光不锈钢杯


左边原始深度图,透明物体大片缺失;右边补全后,机器人能抓了

而这个东西,今天也正式开源了,这里来说道说道


https://github.com/robbyant/lingbot-depth?tab=readme-ov-file 老问题了

说回前文,最早开始玩 3D,还得追溯到 14 年的时候, Google 发布 Project Tango,这是一个空间感知平台,手机或平板上集成了深度传感器、摄像头、IMU


Project Tango

当时,第一时间搞了一台开发机,当时觉得这玩意要改变世界,结果扫自己家客厅,落地窗的位置是一个长方形的虚空

后来呢...Google 2017 年底宣布停止支持,2018 年 3 月正式关闭

我怀疑他们自己也扫不明白办公室的玻璃幕墙

如果强行算的话,我最早用上的3D 设备是 Kinect。不过我当时只是弄来玩舞力全开啥的,还没想到可以来开发

再往后,看到有些开发者朋友,拿它做一些交互应用,但碰到透明、反光、吸光的材质,深度图上直接出洞,而窗户经常是个窟窿


Kinect

以前的 Xbox 还有 Kinect,现在咋就没了

RealSense 用的是红外结构光,透明物体同样会造成深度缺失。比如拍桌面,透明塑料盒大面积丢数据

iPhone 的 LiDAR 好一点,但镜面和类镜面表面还是个坎


https://developer.apple.com/documentation/avfoundation/capturing-depth-using-the-lidar-camera

它的原理是往外发激光脉冲,测光往返的时间来算距离
但镜面和类镜面表面还是个坎

光打上去,直接被弹到别的方向去了,很少能散射回接收器

扫描 App 的教程都会写:尽量避开镜子和高反光表面

比如我现在在厨房,用水龙头往锅里倒水,会发现水的部分被完全忽视了


软件是 Record3D:其实锅里,有半锅水了

再比如,如果去拍摄鱼缸,会发现玻璃缸的位置全是空洞,鱼倒是有几条,飘在虚空里

等等...是不是能拿这玩意儿去钓鱼...这个真没去试...钓鱼佬狂喜

然后,换了不知道多少设备,反正透明、反光的东西,特别容易出问题

为什么会这样

市面上的深度相机,测距原理大概有这么几种

ToF(飞行时间)

就是发一束光出去,测它飞回来用了多久,算出距离,然后算出来它的 3D 结构,苹果各种设备的 LiDAR(激光雷达)就是这个原理

结构光

投射一个已知的图案(比如点阵)到物体上,看图案怎么变形,反推深度,早期的 Kinect、Face ID 用的都是这个

双目

靠左右两个摄像头拍到的画面做匹配,通过视差算距离,有的纯靠物体表面本身的纹理,比如 ZED 系列

有的会主动往外打红外纹理来增加匹配点,比如 RealSense D 系列、Orbbec Gemini


深度感知的几种方式 共同的弱点

当知道了原理,就很自然的能明白为啥镜面、透明的物品,测 3D 总是崩:

  • • 透明的东西,光穿过去了,反射信号弱或者跑偏

  • • 镜面的东西,光弹到别处去了

  • • 纯色无纹理的表面,双目匹配找不到对应点


结果呢...就是深度图上出现缺失、噪声、错误的深度值,有时候是一片黑,有时候是乱跳的数据

对人来说无所谓,眼睛看一眼就知道那是玻璃杯,但机器人就不行了,需要精确的三维坐标,不然干不了一点活

一个思路:用「测不准」当训练素材

以前的做法,就是绕开这个问题
用更贵的传感器多传感器融合、或者干脆限制使用场景

但 AI 时代了,总是可以有点新的思路:既然这些「测不准」的区域是真实存在的,为什么不拿来当学习材料?

这个方法叫 Masked Depth Modeling,简称 MDM

大家都是经历过九年义务教育的优秀人才,熟悉古诗词鉴赏套路和英语完形填空的解题方法

当你在试卷里看到:「衬衣的价格是___
根据脑补,你就会知道要填「九磅十五便士

深度图也一样,根据周围的深度值和彩色图的内容,可以推断空的地方大概是多远


MDM训练示意
MDM 训练流程:把缺失的深度当作「填空题」

BERT 的训练方式就是这样,随机挡住一些词,让模型猜
相当于老师出卷子,随便挑几个空让学生填

MDM 也是填空题,但出题方式不一样

  • • 深度相机测不准的地方,必考

  • • 测得不太稳的地方,大概率考

如果这些还凑不够一张卷子,再从测得准的地方随机挑一些
最后一张卷子大概有 60% 到 90% 是空

这样训练出来的模型,既会做难题,也会做简单题
深度相机哪里容易测不准,它就重点练哪里

搞点数据

做深度学习,数据是关键
(当然,做啥数据都是关键)

深度数据比普通图片难搞得多,需要专门的相机采集

现有的公开数据集还有个问题
大多是精心挑选的「好」数据,深度图很完整,没什么缺失

MDM 需要的,偏偏是带着缺失的数据
越多真实的「烂数据」,对它越有用


于是,蚂蚁联合奥比中光采集了一批真实数据,然后也制作了很多高质量合成数据

真实数据:210 万张

用 3D 打印做了一个采集支架,能挂不同型号的深度相机

包括主动双目的(RealSense、Orbbec)和被动双目的(ZED)


采集设备长这样,一个支架挂多个相机,很朴实

蚂蚁的这次数据采集和效果验证,是和奥比中光合作的,这是国内做 3D 视觉的头部公司,很多人手上的深度相机可能就是他们的 Gemini 330 系列


为了收集这些数据,他们派人跑了住宅、办公室、商场、健身房、博物馆、停车场、医院、机场候机厅,总共二十多种场景

合成数据:100 万张

在 Blender 里用 3D 模型渲染,关键是要模拟「不完美」
你没看错,这里主动制造不完美,去复现真实相机的失效模式

这里的做法,就是渲染的时候故意用传统的立体匹配算法去算深度

加上 700 万的公开数据集,总共 1000 万张用于训练

最终的结果,就是....成功让 AI 学会了识别这些透明、反光物体


效果怎么样

下面这些内容,都来自技术报告


https://github.com/Robbyant/lingbot-depth/blob/main/tech-report.pdf 深度补全

在几个标准数据集上测,按难度分了四档:
从简单的随机遮挡,到极端的大面积缺失

LingBot-Depth 在所有档位上都是最好的
室内数据集上,「极端」档位的误差比第二名低 40% 以上


效果对比 输入、真值、其他方法、LingBot-Depth 视频深度

只用图片训练,没有用视频,但模型在视频上表现出了时序一致性

拿着相机在玻璃大堂、健身房、水族馆隧道这些场景里走

原始深度图大片缺失,补全后的深度图则填上了空洞,帧与帧之间还很连贯


机器人抓取

这是最实际的应用

测试物体:不锈钢杯、透明玻璃杯、透明收纳盒、玩具车

物体

原始深度

补全后

不锈钢杯

13/20

17/20

透明玻璃杯

12/20

16/20

玩具车

9/20

16/20

透明收纳盒

抓不了

10/20

这里得说一下,透明收纳盒用原始深度完全抓不了,因为深度图上它大面积缺失

用 LingBot-Depth 补全后,成功率 50%;
50% 听起来不高,但之前是 0%
从「完全不行」到「一半能成」,质变


左边原始深度(透明物体大片缺失),右边补全后的深度 最后

本项目的代码、模型权重现已全部开源,而训练数据也将于近期开源x

  • • 代码:

  • https://github.com/robbyant/lingbot-depth

  • • 权重:

  • https://huggingface.co/robbyant/lingbot-depth

做具身和视觉的团队,可以直接拿来用,很利好具身了

另外:奥比中光也将基于 LingBot-Depth 推出新一代深度相机

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美国最近给咱们的歼-20算了笔账,结果让不少人惊掉了下巴

美国最近给咱们的歼-20算了笔账,结果让不少人惊掉了下巴

安安说
2026-01-27 11:32:25
美媒:斯塔默称,英国不必在美国和中国之间做选择,“忽视中国是不明智之举”

美媒:斯塔默称,英国不必在美国和中国之间做选择,“忽视中国是不明智之举”

环球网资讯
2026-01-27 09:58:11
可控核聚变,有明确订单的十家公司

可控核聚变,有明确订单的十家公司

核电那些事
2026-01-26 20:49:48
钱再多有什么用?51岁百亿影帝黄渤近况曝光,给年轻人们提了个醒

钱再多有什么用?51岁百亿影帝黄渤近况曝光,给年轻人们提了个醒

林雁飞
2026-01-27 12:31:08
阿根廷2002韩日世界杯阵容这么豪华 为啥3场2球4分!小组赛就出局

阿根廷2002韩日世界杯阵容这么豪华 为啥3场2球4分!小组赛就出局

体坛八点半的那些事儿
2026-01-26 19:48:30
张雨绮被实名举报代孕、插足婚姻,据称已退出辽宁春晚;前夫袁巴元前妻时隔1年公布警方调查结果

张雨绮被实名举报代孕、插足婚姻,据称已退出辽宁春晚;前夫袁巴元前妻时隔1年公布警方调查结果

大风新闻
2026-01-26 09:51:06
沉默24小时后,卡尼终于发声,否认与中国签协议,美财长得寸进尺

沉默24小时后,卡尼终于发声,否认与中国签协议,美财长得寸进尺

肖兹探秘说
2026-01-27 18:25:23
410次开房记录流出:央企“女老虎”陶荔芳,背后还有多少同伙

410次开房记录流出:央企“女老虎”陶荔芳,背后还有多少同伙

深度报
2025-12-14 22:36:54
倒退千年?塔利班立法承认“奴隶”身份

倒退千年?塔利班立法承认“奴隶”身份

桂系007
2026-01-27 03:18:11
郭包肉 | 首次授衔秘闻:张宗逊为何仅获授上将军衔?

郭包肉 | 首次授衔秘闻:张宗逊为何仅获授上将军衔?

郭包肉八世
2026-01-24 18:12:56
开国上将许世友之孙:中国首位火箭军女博士,长相俊美,为人低调

开国上将许世友之孙:中国首位火箭军女博士,长相俊美,为人低调

文史达观
2026-01-15 14:50:48
“宁可台湾不长草,也要解放台湾岛”、“和平不会从天上掉下来”

“宁可台湾不长草,也要解放台湾岛”、“和平不会从天上掉下来”

安安说
2026-01-27 11:14:30
张兰不听劝,又晒孙子孙女,小玥儿太像大S,外套7000元 个子很高

张兰不听劝,又晒孙子孙女,小玥儿太像大S,外套7000元 个子很高

有范又有料
2026-01-27 15:42:10
4岁儿子被拐3年后,母亲上街被畸形儿乞丐拉住,看到他指甲后愣住

4岁儿子被拐3年后,母亲上街被畸形儿乞丐拉住,看到他指甲后愣住

罪案洞察者
2025-10-13 11:17:44
身价百亿,坐拥北京一条街,出门私人飞机,京圈顶级富婆天团来了

身价百亿,坐拥北京一条街,出门私人飞机,京圈顶级富婆天团来了

不写散文诗
2026-01-26 23:24:02
“把这种视频发网上,真是好妈”,女儿的尊严被扒的一丝不剩

“把这种视频发网上,真是好妈”,女儿的尊严被扒的一丝不剩

蝴蝶花雨话教育
2026-01-26 12:05:11
爸爸怀疑女儿用纸巾擦头发暴力打砸

爸爸怀疑女儿用纸巾擦头发暴力打砸

观威海
2026-01-27 10:18:02
就在今天!申京打破尘封46年纪录,登顶火箭队史第一

就在今天!申京打破尘封46年纪录,登顶火箭队史第一

篮球大视野
2026-01-27 17:16:47
房价全线下跌,这回是统计局数据

房价全线下跌,这回是统计局数据

曹多鱼的财经世界
2026-01-26 14:18:12
中央考核巡查组专家,现场拆穿负责人狡辩

中央考核巡查组专家,现场拆穿负责人狡辩

新京报政事儿
2026-01-27 10:56:56
2026-01-27 19:23:00
赛博禅心
赛博禅心
拜AI古佛,修赛博禅心
273文章数 22关注度
往期回顾 全部

科技要闻

马化腾3年年会讲话透露了哪些关键信息

头条要闻

在盒马买鲜百合被误送成水仙球 祖孙二人误食中毒送医

头条要闻

在盒马买鲜百合被误送成水仙球 祖孙二人误食中毒送医

体育要闻

冒充职业球员,比赛规则还和对手现学?

娱乐要闻

张雨绮被曝代孕,春晚被拒,代言跑路

财经要闻

多地对垄断行业"近亲繁殖"出手了

汽车要闻

标配华为乾崑ADS 4/鸿蒙座舱5 华境S体验车下线

态度原创

时尚
健康
旅游
手机
家居

降温了!羽绒服这样穿显瘦又时髦

耳石脱落为何让人天旋地转+恶心?

旅游要闻

江西新余:梅开俏枝头 梅香绕古村

手机要闻

荣耀MagicOS悬浮导航升级为悬浮球,可自定义点击、长按等交互

家居要闻

现代古典 中性又显韵味

无障碍浏览 进入关怀版