网易首页 > 网易号 > 正文 申请入驻

谷歌深夜大招!机器人学会看仪表盘干活,成功率飙升300%

0
分享至


机器人前瞻(公众号:robot_pro)
作者 许丽思
编辑 漠影

智东西4月15日报道,昨天深夜,谷歌推出Gemini Robotics-ER 1.6。

去年9月,谷歌发布Gemini Robotics-ER 1.5。时隔半年多,谷歌机器人模型终于迎来一次大升级。

Gemini Robotics-ER 1.6能够让机器人以前所未有的精度理解周围环境,在多项关键推理能力上进行了升级,包括视觉与空间理解、任务规划以及任务完成判断。它可以作为机器人的高层推理模型,原生调用Google Search、VLA以及其他第三方自定义功能,自主完成复杂作业任务。

谷歌提到,与Gemini Robotics-ER 1.5和Gemini 3.0 Flash相比,Gemini Robotics-ER 1.6在空间与物理推理能力上都有明显提升,尤其是在点位定位、计数和任务成功判断等方面。

与此同时,Gemini Robotics-ER 1.6还新增了一项能力——仪表读数,这使机器人能够读取复杂的压力表和液位观察窗等设备。该功能是谷歌与波士顿动力合作开发的,特别适合用于高精度工业任务。

如图,在指向与计数任务上,Gemini Robotics-ER 1.6的成功率为80%;在单视角成功检测任务中,其成功率为90%;在多视角成功检测任务中,其成功率为84%;在结合Agentic Vision的仪表读数任务中,其成功率达到93%,相比Gemini Robotics-ER 1.523%的成功率,飙升了300%。


即日起,开发者就可以通过Gemini API和Google AI Studio使用Gemini Robotics-ER 1.6。

一、升级点位定位和多视角推理能力,提升机器人干活自主性

点位定位是具身推理模型的一项基础能力,可以让模型实现不同类型的推理任务,包括空间推理、关系逻辑、运动推理、约束理解等。

Gemini Robotics-ER 1.6可以把点位作为中间推理步骤,来完成更复杂的任务。它可以先通过点位来计数图像中的物体,或者通过识别关键位置,再结合数学计算提高尺寸或距离估算的准确性。

如图,Gemini Robotics-ER 1.6知道什么时候该指出目标、什么时候不该乱指。它能正确识别图中有2把锤子、1把剪刀、1把油漆刷、6把钳子,以及一组园艺工具。对于图中并不存在的手推车和电钻,它也不会错误标注。

相比之下,Gemini Robotics-ER 1.5就没法正确识别锤子和油漆刷的数量,完全漏掉了剪刀,还会产生幻觉,指出了并不存在的手推车,钳子的定位精度也较差。

Gemini 3.0 Flash的表现已经比较接近Gemini Robotics-ER 1.6,但在钳子的处理上还不够理想。

Gemini Robotics-ER 1.6还提升了多视角推理能力,能够更好地理解多路摄像头画面以及它们之间的关系,即便在动态变化或存在遮挡的环境中,也能保持较高的判断能力。

Gemini Robotics-ER 1.6可以综合多个摄像头视角的信息,判断“把蓝色笔放进黑色笔筒”这一任务是否已经完成。

像这样的任务成功判断(Success Detection)是机器人实现自主性的关键一环,因为它决定了机器人在执行任务过程中,是应该重新尝试一次,还是可以进入下一步。

二、仪表识别成功率达93%,机器人可执行设备巡检任务

工业厂区遍布温度计、压力表、化学液位观测窗等各类精密仪器,需要长期持续监测。想要解决真实工业场景中这些复杂难题,就必须让机器人学会仪器读数识别。

Gemini Robotics-ER 1.6让机器人能够读懂多种仪表,包括圆形压力表、垂直液位计以及现代数字读数设备。

读取仪表并不是简单的识别任务,而是一个复杂的视觉推理过程。系统必须精确感知多种视觉元素,例如指针、液位、容器边界、刻度线等,并理解它们之间的关系。

液位观察窗为例,模型需要结合相机拍摄角度带来的畸变,估算液体实际填充了多少。对于压力表,系统还需要读取并理解文字标注的单位;有些表盘甚至有多根指针,对应不同的小数位,必须综合后才能得出正确读数。

依托仪器读数识别与升级后的任务推理能力,波士顿动力的Spot四足机器人可以实现全自主巡检,独立感知、理解并应对各类工业实景挑战。


Gemini Robotics-ER 1.6之所以能够实现高精度仪表读数,是因为它使用了Agentic Vision技术,也就是把视觉推理与代码执行结合起来。

具体来说,模型会先采取一系列中间步骤:比如先放大图像,更清楚地观察仪表细节;再通过点位标注和代码执行估算比例与区间,最终得到精确读数,并结合世界知识理解其含义。


在仪表读数任务上,四种模型的成功率依次提升:Gemini Robotics-ER 1.5成功率为23%;Gemini 3.0 Flash成功率为67%;Gemini Robotics-ER 1.6成功率为86%;Gemini Robotics-ER 1.6(启用 agentic vision)成功率为93%。


结语:机器人走入现实应用,还需要具备足够安全性

在机器人规模化落地民用与工业场景的当下,安全性早已和智能化、自主性同等重要,成为制约具身智能落地的核心门槛。

谷歌称,Gemini Robotics-ER 1.6不仅在环境感知、空间推理、工业仪表识别等核心能力全面进阶,更完成了安全能力的系统性升级,也是其目前安全表现最优的机器人专用模型。

在对抗性空间推理任务中,Gemini Robotics-ER 1.6对Gemini安全策略的遵守程度优于此前所有版本。同时,Gemini Robotics-ER 1.6在遵守物理安全约束方面也有明显提升。

比如,在涉及点位输出的任务中,它能更安全地判断哪些物体可以被机械夹爪抓取,哪些不能碰,从而满足夹持器限制或材料约束,比如“不要处理液体”“不要抓取超过20公斤的物体”等。

谷歌还测试了模型在文本和视频场景中识别安全隐患的能力,测试依据来自真实世界的伤害事故报告。在这些任务中,Gemini Robotics-ER 1.6相比Gemini 3.0 Flash也有所提升:文本场景提升6%,视频场景提升10%,说明它在识别潜在伤害风险方面更加准确。


对具身智能而言,真正决定机器人能否走出实验室、走进大规模真实场景的,除了更强的大脑,还需要每一次感知、判断与动作背后,都足够安全可靠。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
乌克兰无人艇的不对称作战,曾以小博大,击沉俄黑海舰队军舰

乌克兰无人艇的不对称作战,曾以小博大,击沉俄黑海舰队军舰

网易新闻出品
2026-04-23 23:34:48
十二星座2026年4月28号运势:关注人际关系

十二星座2026年4月28号运势:关注人际关系

YAO叔星座
2026-04-27 21:03:52
芬兰空军学员驾飞机空中画巨型不雅图案 遭军方谴责、网友抨击

芬兰空军学员驾飞机空中画巨型不雅图案 遭军方谴责、网友抨击

环球趣闻分享
2026-04-24 13:10:17
赤身被吊在房梁上,下体被插上铜棒通电,遗照却一直被日寇供奉着

赤身被吊在房梁上,下体被插上铜棒通电,遗照却一直被日寇供奉着

芳芳历史烩
2026-03-17 22:06:40
心梗去世的人越来越多?医生再次强调:宁可打打牌,也别做这6事

心梗去世的人越来越多?医生再次强调:宁可打打牌,也别做这6事

医学科普汇
2026-04-27 19:55:08
有没有人敢爆自己的瓜?网友:确定玩这么大吗?

有没有人敢爆自己的瓜?网友:确定玩这么大吗?

夜深爱杂谈
2026-02-18 20:55:58
饶毅:中国产出的科学垃圾,绝对数量和比例都世界第一

饶毅:中国产出的科学垃圾,绝对数量和比例都世界第一

生物学霸
2026-03-29 17:09:59
澳大利亚外长黄英贤将访华

澳大利亚外长黄英贤将访华

界面新闻
2026-04-27 15:07:35
“崩老头”现象:00后如何收割中年男性

“崩老头”现象:00后如何收割中年男性

流苏晚晴
2026-04-25 16:31:35
弟弟生意失败找我借150万,我正准备转账,7岁的儿子突然说:爸爸,婶婶刚在朋友圈说她们全家明天要去环球旅行

弟弟生意失败找我借150万,我正准备转账,7岁的儿子突然说:爸爸,婶婶刚在朋友圈说她们全家明天要去环球旅行

可读
2026-04-27 20:44:42
湾湾知名主播建国分析汪小菲马筱梅现状——离婚的号角或已吹响了

湾湾知名主播建国分析汪小菲马筱梅现状——离婚的号角或已吹响了

小椰的奶奶
2026-04-16 20:33:22
仅剩2000万人?比乌克兰投降更可怕的事情是,再打可能亡国灭种了

仅剩2000万人?比乌克兰投降更可怕的事情是,再打可能亡国灭种了

牛牛叨史
2025-11-05 14:11:53
“性商教母”,又退出了

“性商教母”,又退出了

凤凰网财经
2026-04-27 20:40:45
直屏刚火 苹果带头重返四曲屏时代 网友:潮流果真是一个轮回

直屏刚火 苹果带头重返四曲屏时代 网友:潮流果真是一个轮回

快科技
2026-04-25 19:54:03
兵败如山倒?多家日企撤离中国,中日制造迎来大反转

兵败如山倒?多家日企撤离中国,中日制造迎来大反转

章幃户外
2026-04-16 19:19:40
何小鹏发文:恭喜小鹏P7挑战吉尼斯世界纪录成功,73.594公里连续漂移,是对P7底盘与三电技术的一次扎实验证;雷军转发表示祝贺

何小鹏发文:恭喜小鹏P7挑战吉尼斯世界纪录成功,73.594公里连续漂移,是对P7底盘与三电技术的一次扎实验证;雷军转发表示祝贺

潇湘晨报
2026-04-27 11:22:10
1-1!穆帅争二利好:葡体爆冷+差前二3分,本菲卡后3场全胜进欧冠

1-1!穆帅争二利好:葡体爆冷+差前二3分,本菲卡后3场全胜进欧冠

体育知多少
2026-04-27 06:04:21
省长低调去行政大厅办事,被窗口人员呵斥:没号就滚,谁都得排队

省长低调去行政大厅办事,被窗口人员呵斥:没号就滚,谁都得排队

红豆讲堂
2026-02-26 13:20:04
不用等金价跌了!2026这波行情,跟10年前走得一模一样

不用等金价跌了!2026这波行情,跟10年前走得一模一样

牛锅巴小钒
2026-04-28 00:16:28
《鬼吹灯》反复提到公元前841年,这一年发生了什么?竟如此重要

《鬼吹灯》反复提到公元前841年,这一年发生了什么?竟如此重要

抽象派大师
2026-04-27 01:20:46
2026-04-28 03:19:00
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
11701文章数 117048关注度
往期回顾 全部

科技要闻

DeepSeek V4上线三天,第一批实测出来了

头条要闻

坐在特朗普身边亲历枪击案的女记者 身份非常不一般

头条要闻

坐在特朗普身边亲历枪击案的女记者 身份非常不一般

体育要闻

人类马拉松"破二"新纪元,一场跑鞋军备竞赛

娱乐要闻

黄杨钿甜为“耳环风波”出镜道歉:谣言已澄清

财经要闻

Meta 140亿收购Manus遭中国发改委否决

汽车要闻

不那么小众也可以 smart的路会越走越宽

态度原创

游戏
家居
房产
公开课
军事航空

《AC黑旗》重制版新增专属剧情!原版编剧亲自执笔

家居要闻

江景风格 流动的秩序

房产要闻

信号!海南商业版图,迎来大变局!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗外长折返伊斯兰堡内情披露

无障碍浏览 进入关怀版