网易首页 > 网易号 > 正文 申请入驻

谷歌把"看表"这件事,做成了机器人最难的考试

0
分享至

凌晨三点的化工厂里,一只四足机器人在管道间穿行。它停在一排压力表前,摄像头微微对焦——不是拍照上传等人类判断,而是当场读出指针位置,判断是否正常。

这听起来像科幻片里的场景,但波士顿动力的Spot机器狗已经能做到。真正让它"看懂"仪表的,是谷歌DeepMind刚发布的一个新模型。而这件事的有趣之处在于:读表,可能是机器人领域被低估最难的任务之一。


为什么"看表"比下棋更难

人类觉得读温度计、压力表是本能。但对AI来说,这是多重认知任务的叠加。

首先是指针识别。模拟仪表没有统一格式——有的表盘是圆形,有的是半圆;刻度可能顺时针也可能逆时针;指针颜色、粗细、长度各异。更麻烦的是视角问题:机器人站在地面仰视,和维修工平视,看到的指针位置完全不同。

其次是语义理解。表盘上除了数字,还有单位(MPa、℃、PSI)、警戒色标、品牌标识。模型得知道"红色区域"代表危险,"绿色"代表正常,而不是单纯识别颜色块。

最棘手的是推理链条。看到一个压力表读数"2.5 MPa",机器人需要结合设备类型、运行时段、历史数据,判断这是正常波动还是异常警报。这种"看到→理解→决策"的闭环,正是谷歌所说的"具身推理"(embodied reasoning)。

波士顿动力在官方博客里提到,工业巡检需要的"复杂视觉推理",包括同时处理多根指针、液位高度、容器边界、刻度标记和文字信息。这不像人脸识别有标准化数据集,每个工厂的仪表布局都可能不同。

谷歌的解法:给机器人一双"会思考的眼睛"

4月14日发布的Gemini Robotics-ER 1.6模型,核心升级是一个叫"智能体视觉"(agentic vision)的能力。

这个名字有点抽象。拆解来看,它做了两件事:

第一,把视觉推理和代码执行结合起来。模型看到仪表图像后,会生成一段分析代码,在"视觉草稿本"(visual scratchpad)上逐步拆解——先定位表盘区域,再识别刻度,最后判断指针位置。这种显式的中间步骤,让错误可追溯、可修正。

第二,多视角推理。同一个仪表,机器人可能从正面、侧面、仰视多个角度拍摄。新模型能融合这些视角,消除单张图片的遮挡和畸变。

数据很直观:在仪表读取任务上,旧版Gemini Robotics-ER 1.5的准确率是23%,新版跳到98%。作为参照,今年1月发布的Gemini 3.0 Flash(同样具备智能体视觉)只有67%。

甚至不带智能体视觉的基础版,也有86%的准确率。这说明即使没有动态代码生成,单纯改进视觉编码器也能大幅提升表现。

谷歌DeepMind把这套系统定位为"机器人的高级推理模型"——不只是识别物体,而是规划并执行任务。这和传统机器人视觉的区别,类似于"看到苹果"和"判断苹果熟没熟、要不要摘"的差距。

波士顿动力的测试场:现代汽车的工厂

技术发布背后,是两家公司的长期合作。波士顿动力的母公司是现代汽车集团,这给了它们天然的工业测试场景。

Spot机器狗已经在现代的汽车工厂里巡逻。它的工作包括检查设备运行状态、记录仪表读数、发现异常及时上报。这些任务听起来重复枯燥,但恰恰是工厂运维的刚需——人类巡检员夜班疲劳、漏检、误读的情况并不罕见。

更值得关注的是人形机器人Atlas的进展。波士顿动力同时测试四足和双足机器人在工业设施中的表现,暗示这套视觉系统可能跨平台复用。毕竟,无论是机器狗还是人形机器人,"看懂仪表"的认知模块是通用的。

工业场景对机器人有特殊吸引力:环境结构化、任务明确、容错率低但可接受渐进优化。比起家庭服务机器人要处理的开敞世界,工厂是更现实的商业化起点。

一个被忽略的技术信号

这次升级有个细节值得玩味:谷歌把"智能体视觉"从Gemini 3.0 Flash下放到专门的机器人模型,而不是直接让通用大模型包办一切。

这反映了一种产品思路的分化。通用视觉模型(如GPT-4V、Gemini Pro)追求广度,能聊艺术史也能看X光片;但机器人需要深度——在特定物理任务上达到人类级可靠性。23%到98%的跃升,说明垂直优化仍有巨大空间。

另一个信号是多模态融合的方式。传统机器人视觉是"感知→决策→执行"的流水线:摄像头拍图,送云端识别,返回指令,电机执行。延迟和断网都是致命问题。

新模型的"视觉草稿本"机制,把部分推理过程本地化。机器人可以边移动边分析,不需要每张图都回传服务器。这对工业部署意味着更低的网络依赖和更高的实时性。

谷歌DeepMind在公告中强调,Gemini Robotics-ER 1.6是"为与物理环境交互而设计的具身推理"模型。这个定位区别于纯软件的智能体,也区别于传统的工业机器人编程。

竞争格局:谁在做"机器人的大脑"

这个赛道正在快速拥挤。OpenAI的机器人团队虽然解散又重组,但GPT-4V的多模态能力仍在被第三方机器人公司集成。Meta的RoboAgent项目走学术开源路线。国内,智元机器人、宇树科技等公司在硬件端发力,也在自研感知算法。

谷歌的优势在于"全栈":从底层芯片(TPU)、基础模型(Gemini)、机器人专用优化(Robotics-ER),到投资/合作的硬件厂商(波士顿动力、Apptronik)。这种垂直整合,让它能快速把实验室成果转化为可部署的解决方案。

波士顿动力的选择也很务实。它曾经坚持纯运动控制,拒绝外部AI;但近年明显转向开放合作。Spot机器狗已经支持第三方软件栈,这次深度绑定谷歌的视觉模型,是战略转型的延续。

一个有趣的对比:特斯拉的Optimus人形机器人,走的是"端到端"路线——视觉输入直接映射到电机输出,模仿人类神经系统的反应速度。谷歌+波士顿动力的方案更分层:高层推理(Gemini)+中层规划+底层控制(Spot的原生运动算法)。哪种更优,可能取决于具体任务对延迟和可解释性的要求。

商业化的时间线

98%的实验室准确率,不等于工厂里的稳定表现。光照变化、灰尘遮挡、仪表老化,都会让实际性能打折扣。

但工业客户对"不完美"有一定容忍度。如果机器人能自动标记置信度低的读数,推送给人类复核,整体效率仍然提升。关键是把"机器能做的"和"必须人来做"的边界划清楚。

波士顿动力的商业模式也在演变。Spot早期以租赁为主,单台年费数万美元,主要卖给研究机构和技术先锋。加入视觉巡检能力后,目标客群扩展到制造业运维部门,合同金额和周期都可能放大。

现代汽车集团的内部场景,既是试验田也是展示窗口。如果Spot能在现代工厂证明ROI(投资回报率),这套方案可以向整个汽车行业复制——而汽车工厂正是工业机器人最成熟、预算最充足的市场。

更长远的想象:从"读表"到"理解"

仪表读取是工业视觉的"窄门"。攻克它,意味着机器人获得了可泛化的物理世界理解能力。

同样的技术栈,可以迁移到:识别设备上的异常振动(结合视觉和音频)、判断管道腐蚀程度、甚至阅读手写维修记录。这些任务的共同点是:非结构化输入、需要领域知识、容错率低。

谷歌DeepMind提到的"视觉检查窗"(sight glass)应用很有代表性。这是化工、能源行业的常见装置——一个透明窗口,让人类窥视罐体或管道内部。机器人现在能透过它判断液位、气泡、沉淀物状态,相当于替代了老师傅的经验眼力。

再往远看,"具身推理"的终极目标,是让机器人在从未见过的环境中,也能基于物理常识做出合理判断。比如看到阀门漏水,能推断上游可能超压;看到仪表读数异常,能关联到最近的生产批次调整。

这种因果推理能力,目前的模型还远未具备。但从23%到98%的进步说明,在限定领域内,数据驱动的优化仍然空间巨大。

一个待解的问题

当机器人能准确读取98%的仪表,剩下的2%会发生什么?

工业安全领域有个概念叫"异常检测的悖论":系统越擅长识别正常状态,对真正罕见的危险信号反而越迟钝——因为训练数据里,"正常"样本压倒性地多。

这2%的失误,可能恰好对应着从未发生过的故障模式。而人类巡检员的价值,恰恰在于能凭直觉识别"哪里不对劲",即使说不出具体原因。

谷歌和波士顿动力的方案,是把低置信度判断交给人类兜底。但这种分工是否可持续?当机器人承担越来越多巡检任务,人类操作员的技能会退化还是进化?工厂愿意为一个" mostly autonomous"的系统支付多少溢价?

这些问题没有标准答案。但可以确定的是,"看懂仪表"这个看似微小的里程碑,正在重新定义人机协作的边界——不是机器人替代人类,而是双方各自承担最适合的认知负荷。

下一次走进工厂,看到机器狗在管道间停下、抬头、凝视那些斑驳的表盘时,我们或许该意识到:它看的不是数字,而是一个关于"理解"的全新协议正在成型。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
世锦赛32强落位:2场中国德比!丁俊晖vs吉尔伯特 央视直播附赛程

世锦赛32强落位:2场中国德比!丁俊晖vs吉尔伯特 央视直播附赛程

球场没跑道
2026-04-16 16:08:40
民进党,极有可能在下一届台湾地区选举后,成为长期一家独大政党

民进党,极有可能在下一届台湾地区选举后,成为长期一家独大政党

李橑在北漂
2026-04-02 10:22:26
法国要“将不义之财归还中国”?先冷静......文物回家没你想得那么容易

法国要“将不义之财归还中国”?先冷静......文物回家没你想得那么容易

新民周刊
2026-04-16 15:02:54
交警提醒:新交规落地,高速143km/h不扣分,龟速行车直接扣3分!

交警提醒:新交规落地,高速143km/h不扣分,龟速行车直接扣3分!

复转这些年
2026-04-14 12:14:50
国务院决定:免去戴建业澳门特别行政区政府经济财政司司长职务

国务院决定:免去戴建业澳门特别行政区政府经济财政司司长职务

上观新闻
2026-04-16 10:56:22
班主任猥亵女孩已被刑拘,官方将对相关单位和责任人追责问责

班主任猥亵女孩已被刑拘,官方将对相关单位和责任人追责问责

极目新闻
2026-04-16 18:56:52
毛焦尔喊话乌克兰恢复“友谊”管道运行

毛焦尔喊话乌克兰恢复“友谊”管道运行

环球网资讯
2026-04-17 06:39:04
以色列遭20枚火箭弹精准打击,内塔尼亚胡紧急下令

以色列遭20枚火箭弹精准打击,内塔尼亚胡紧急下令

梦想的现实
2026-04-17 06:33:30
好莱坞风流往事:沃伦体力太好,一天数次求欢,让麦当娜欲罢不能

好莱坞风流往事:沃伦体力太好,一天数次求欢,让麦当娜欲罢不能

钱小刀娱乐
2026-04-15 15:40:52
湖人队传闻:温德霍斯特暗示詹姆斯可能在自由球员市场回归

湖人队传闻:温德霍斯特暗示詹姆斯可能在自由球员市场回归

好火子
2026-04-17 05:45:33
陈丕显的夫人有多漂亮?1953年在上海的留影,才貌双全英气十足

陈丕显的夫人有多漂亮?1953年在上海的留影,才貌双全英气十足

老范谈史
2026-04-16 20:25:17
美股全线下挫!苹果、英伟达、特斯拉齐跌,中概股逆势上涨,阿里、百度强势回暖

美股全线下挫!苹果、英伟达、特斯拉齐跌,中概股逆势上涨,阿里、百度强势回暖

趣味萌宠的日常
2026-04-17 02:58:33
《经济学人》:日本“汽车帝国”的寒冬

《经济学人》:日本“汽车帝国”的寒冬

帮宁工作室
2026-04-16 18:51:42
向太哭诉:三个孩子废了俩,天天做梦发财,全家只靠向佐一个人养

向太哭诉:三个孩子废了俩,天天做梦发财,全家只靠向佐一个人养

阿废冷眼观察所
2026-04-17 02:57:02
收拾完伊朗,下一个轮到中国?中方送出5个字,断了特朗普的念想

收拾完伊朗,下一个轮到中国?中方送出5个字,断了特朗普的念想

春之寞陌
2026-04-17 02:52:21
英媒放言赵心童世锦赛将止步八强:墨菲会终结中国军团并最终夺冠

英媒放言赵心童世锦赛将止步八强:墨菲会终结中国军团并最终夺冠

杨华评论
2026-04-17 01:16:06
毛焦尔新官上任,第一把火先烧到中国,对华称呼改变,目的太明显

毛焦尔新官上任,第一把火先烧到中国,对华称呼改变,目的太明显

娱乐圈的笔娱君
2026-04-16 16:25:43
产能排到2028!光模块海外加速扩产  8大唯一性设备龙头量价齐升

产能排到2028!光模块海外加速扩产 8大唯一性设备龙头量价齐升

元芳说投资
2026-04-16 06:30:16
10投全中0失误!约基奇40分掀翻文班

10投全中0失误!约基奇40分掀翻文班

茅塞盾开本尊
2026-04-16 15:18:27
24岁抗癌博主“徐平安”确诊黑色素瘤晚期不到一年去世,其母亲刚因胃癌离世,17岁弟弟发声

24岁抗癌博主“徐平安”确诊黑色素瘤晚期不到一年去世,其母亲刚因胃癌离世,17岁弟弟发声

极目新闻
2026-04-16 10:16:08
2026-04-17 07:11:00
碳基打工人
碳基打工人
坐标北京,靠咖啡续命,靠小红书下饭的普通人类。
1533文章数 15关注度
往期回顾 全部

科技要闻

赵明:智驾之战,看谁在大模型上更高效

头条要闻

特朗普:伊朗已同意几乎所有要求

头条要闻

特朗普:伊朗已同意几乎所有要求

体育要闻

皇马拜仁踢出名局,但最抢镜的还是他

娱乐要闻

丝芭传媒创始人王子杰去世,享年63岁

财经要闻

海尔与医美女王互撕 换血抗衰谁的生意?

汽车要闻

空间大五个乘客都满意?体验岚图泰山X8

态度原创

艺术
亲子
数码
手机
公开课

艺术要闻

这 4 个红底黑字,藏着毛主席给一位普通母亲的最高赞誉,看完泪目

亲子要闻

儿子认字还可以吧? 董路的微博视频

数码要闻

荣耀史上最短发布会,发布荣耀史上最强MagicBook数字系列

手机要闻

OPPO Find X10:8000mAh超大电池+双2亿影像,中屏机皇实锤!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版