谷歌把"看表"这件事，做成了机器人最难的考试|仪表|机器狗|智能体|真实世界|知名企业|波士顿动力

谷歌把"看表"这件事，做成了机器人最难的考试

2026-04-16 08:11:06　来源: 碳基打工人

北京举报

分享至

凌晨三点的化工厂里，一只四足机器人在管道间穿行。它停在一排压力表前，摄像头微微对焦——不是拍照上传等人类判断，而是当场读出指针位置，判断是否正常。

这听起来像科幻片里的场景，但波士顿动力的Spot机器狗已经能做到。真正让它"看懂"仪表的，是谷歌DeepMind刚发布的一个新模型。而这件事的有趣之处在于：读表，可能是机器人领域被低估最难的任务之一。

为什么"看表"比下棋更难

人类觉得读温度计、压力表是本能。但对AI来说，这是多重认知任务的叠加。

首先是指针识别。模拟仪表没有统一格式——有的表盘是圆形，有的是半圆；刻度可能顺时针也可能逆时针；指针颜色、粗细、长度各异。更麻烦的是视角问题：机器人站在地面仰视，和维修工平视，看到的指针位置完全不同。

其次是语义理解。表盘上除了数字，还有单位（MPa、℃、PSI）、警戒色标、品牌标识。模型得知道"红色区域"代表危险，"绿色"代表正常，而不是单纯识别颜色块。

最棘手的是推理链条。看到一个压力表读数"2.5 MPa"，机器人需要结合设备类型、运行时段、历史数据，判断这是正常波动还是异常警报。这种"看到→理解→决策"的闭环，正是谷歌所说的"具身推理"（embodied reasoning）。

波士顿动力在官方博客里提到，工业巡检需要的"复杂视觉推理"，包括同时处理多根指针、液位高度、容器边界、刻度标记和文字信息。这不像人脸识别有标准化数据集，每个工厂的仪表布局都可能不同。

谷歌的解法：给机器人一双"会思考的眼睛"

4月14日发布的Gemini Robotics-ER 1.6模型，核心升级是一个叫"智能体视觉"（agentic vision）的能力。

这个名字有点抽象。拆解来看，它做了两件事：

第一，把视觉推理和代码执行结合起来。模型看到仪表图像后，会生成一段分析代码，在"视觉草稿本"（visual scratchpad）上逐步拆解——先定位表盘区域，再识别刻度，最后判断指针位置。这种显式的中间步骤，让错误可追溯、可修正。

第二，多视角推理。同一个仪表，机器人可能从正面、侧面、仰视多个角度拍摄。新模型能融合这些视角，消除单张图片的遮挡和畸变。

数据很直观：在仪表读取任务上，旧版Gemini Robotics-ER 1.5的准确率是23%，新版跳到98%。作为参照，今年1月发布的Gemini 3.0 Flash（同样具备智能体视觉）只有67%。

甚至不带智能体视觉的基础版，也有86%的准确率。这说明即使没有动态代码生成，单纯改进视觉编码器也能大幅提升表现。

谷歌DeepMind把这套系统定位为"机器人的高级推理模型"——不只是识别物体，而是规划并执行任务。这和传统机器人视觉的区别，类似于"看到苹果"和"判断苹果熟没熟、要不要摘"的差距。

波士顿动力的测试场：现代汽车的工厂

技术发布背后，是两家公司的长期合作。波士顿动力的母公司是现代汽车集团，这给了它们天然的工业测试场景。

Spot机器狗已经在现代的汽车工厂里巡逻。它的工作包括检查设备运行状态、记录仪表读数、发现异常及时上报。这些任务听起来重复枯燥，但恰恰是工厂运维的刚需——人类巡检员夜班疲劳、漏检、误读的情况并不罕见。

更值得关注的是人形机器人Atlas的进展。波士顿动力同时测试四足和双足机器人在工业设施中的表现，暗示这套视觉系统可能跨平台复用。毕竟，无论是机器狗还是人形机器人，"看懂仪表"的认知模块是通用的。

工业场景对机器人有特殊吸引力：环境结构化、任务明确、容错率低但可接受渐进优化。比起家庭服务机器人要处理的开敞世界，工厂是更现实的商业化起点。

一个被忽略的技术信号

这次升级有个细节值得玩味：谷歌把"智能体视觉"从Gemini 3.0 Flash下放到专门的机器人模型，而不是直接让通用大模型包办一切。

这反映了一种产品思路的分化。通用视觉模型（如GPT-4V、Gemini Pro）追求广度，能聊艺术史也能看X光片；但机器人需要深度——在特定物理任务上达到人类级可靠性。23%到98%的跃升，说明垂直优化仍有巨大空间。

另一个信号是多模态融合的方式。传统机器人视觉是"感知→决策→执行"的流水线：摄像头拍图，送云端识别，返回指令，电机执行。延迟和断网都是致命问题。

新模型的"视觉草稿本"机制，把部分推理过程本地化。机器人可以边移动边分析，不需要每张图都回传服务器。这对工业部署意味着更低的网络依赖和更高的实时性。

谷歌DeepMind在公告中强调，Gemini Robotics-ER 1.6是"为与物理环境交互而设计的具身推理"模型。这个定位区别于纯软件的智能体，也区别于传统的工业机器人编程。

竞争格局：谁在做"机器人的大脑"

这个赛道正在快速拥挤。OpenAI的机器人团队虽然解散又重组，但GPT-4V的多模态能力仍在被第三方机器人公司集成。Meta的RoboAgent项目走学术开源路线。国内，智元机器人、宇树科技等公司在硬件端发力，也在自研感知算法。

谷歌的优势在于"全栈"：从底层芯片（TPU）、基础模型（Gemini）、机器人专用优化（Robotics-ER），到投资/合作的硬件厂商（波士顿动力、Apptronik）。这种垂直整合，让它能快速把实验室成果转化为可部署的解决方案。

波士顿动力的选择也很务实。它曾经坚持纯运动控制，拒绝外部AI；但近年明显转向开放合作。Spot机器狗已经支持第三方软件栈，这次深度绑定谷歌的视觉模型，是战略转型的延续。

一个有趣的对比：特斯拉的Optimus人形机器人，走的是"端到端"路线——视觉输入直接映射到电机输出，模仿人类神经系统的反应速度。谷歌+波士顿动力的方案更分层：高层推理（Gemini）+中层规划+底层控制（Spot的原生运动算法）。哪种更优，可能取决于具体任务对延迟和可解释性的要求。

商业化的时间线

98%的实验室准确率，不等于工厂里的稳定表现。光照变化、灰尘遮挡、仪表老化，都会让实际性能打折扣。

但工业客户对"不完美"有一定容忍度。如果机器人能自动标记置信度低的读数，推送给人类复核，整体效率仍然提升。关键是把"机器能做的"和"必须人来做"的边界划清楚。

波士顿动力的商业模式也在演变。Spot早期以租赁为主，单台年费数万美元，主要卖给研究机构和技术先锋。加入视觉巡检能力后，目标客群扩展到制造业运维部门，合同金额和周期都可能放大。

现代汽车集团的内部场景，既是试验田也是展示窗口。如果Spot能在现代工厂证明ROI（投资回报率），这套方案可以向整个汽车行业复制——而汽车工厂正是工业机器人最成熟、预算最充足的市场。

更长远的想象：从"读表"到"理解"

仪表读取是工业视觉的"窄门"。攻克它，意味着机器人获得了可泛化的物理世界理解能力。

同样的技术栈，可以迁移到：识别设备上的异常振动（结合视觉和音频）、判断管道腐蚀程度、甚至阅读手写维修记录。这些任务的共同点是：非结构化输入、需要领域知识、容错率低。

谷歌DeepMind提到的"视觉检查窗"（sight glass）应用很有代表性。这是化工、能源行业的常见装置——一个透明窗口，让人类窥视罐体或管道内部。机器人现在能透过它判断液位、气泡、沉淀物状态，相当于替代了老师傅的经验眼力。

再往远看，"具身推理"的终极目标，是让机器人在从未见过的环境中，也能基于物理常识做出合理判断。比如看到阀门漏水，能推断上游可能超压；看到仪表读数异常，能关联到最近的生产批次调整。

这种因果推理能力，目前的模型还远未具备。但从23%到98%的进步说明，在限定领域内，数据驱动的优化仍然空间巨大。

一个待解的问题

当机器人能准确读取98%的仪表，剩下的2%会发生什么？

工业安全领域有个概念叫"异常检测的悖论"：系统越擅长识别正常状态，对真正罕见的危险信号反而越迟钝——因为训练数据里，"正常"样本压倒性地多。

这2%的失误，可能恰好对应着从未发生过的故障模式。而人类巡检员的价值，恰恰在于能凭直觉识别"哪里不对劲"，即使说不出具体原因。

谷歌和波士顿动力的方案，是把低置信度判断交给人类兜底。但这种分工是否可持续？当机器人承担越来越多巡检任务，人类操作员的技能会退化还是进化？工厂愿意为一个" mostly autonomous"的系统支付多少溢价？

这些问题没有标准答案。但可以确定的是，"看懂仪表"这个看似微小的里程碑，正在重新定义人机协作的边界——不是机器人替代人类，而是双方各自承担最适合的认知负荷。

下一次走进工厂，看到机器狗在管道间停下、抬头、凝视那些斑驳的表盘时，我们或许该意识到：它看的不是数字，而是一个关于"理解"的全新协议正在成型。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

谷歌把"看表"这件事，做成了机器人最难的考试

赵明：智驾之战，看谁在大模型上更高效

特朗普：伊朗已同意几乎所有要求

特朗普：伊朗已同意几乎所有要求

皇马拜仁踢出名局，但最抢镜的还是他

丝芭传媒创始人王子杰去世，享年63岁

海尔与医美女王互撕 换血抗衰谁的生意？

空间大五个乘客都满意?体验岚图泰山X8

态度原创

这 4 个红底黑字，藏着毛主席给一位普通母亲的最高赞誉，看完泪目

儿子认字还可以吧？ 董路的微博视频

荣耀史上最短发布会，发布荣耀史上最强MagicBook数字系列

OPPO Find X10：8000mAh超大电池+双2亿影像，中屏机皇实锤！

海尔与医美女王互撕换血抗衰谁的生意？

儿子认字还可以吧？董路的微博视频