凌晨三点的化工厂里,一只四足机器人在管道间穿行。它停在一排压力表前,摄像头微微对焦——不是拍照上传等人类判断,而是当场读出指针位置,判断是否正常。
这听起来像科幻片里的场景,但波士顿动力的Spot机器狗已经能做到。真正让它"看懂"仪表的,是谷歌DeepMind刚发布的一个新模型。而这件事的有趣之处在于:读表,可能是机器人领域被低估最难的任务之一。
![]()
为什么"看表"比下棋更难
人类觉得读温度计、压力表是本能。但对AI来说,这是多重认知任务的叠加。
首先是指针识别。模拟仪表没有统一格式——有的表盘是圆形,有的是半圆;刻度可能顺时针也可能逆时针;指针颜色、粗细、长度各异。更麻烦的是视角问题:机器人站在地面仰视,和维修工平视,看到的指针位置完全不同。
其次是语义理解。表盘上除了数字,还有单位(MPa、℃、PSI)、警戒色标、品牌标识。模型得知道"红色区域"代表危险,"绿色"代表正常,而不是单纯识别颜色块。
最棘手的是推理链条。看到一个压力表读数"2.5 MPa",机器人需要结合设备类型、运行时段、历史数据,判断这是正常波动还是异常警报。这种"看到→理解→决策"的闭环,正是谷歌所说的"具身推理"(embodied reasoning)。
波士顿动力在官方博客里提到,工业巡检需要的"复杂视觉推理",包括同时处理多根指针、液位高度、容器边界、刻度标记和文字信息。这不像人脸识别有标准化数据集,每个工厂的仪表布局都可能不同。
谷歌的解法:给机器人一双"会思考的眼睛"
4月14日发布的Gemini Robotics-ER 1.6模型,核心升级是一个叫"智能体视觉"(agentic vision)的能力。
这个名字有点抽象。拆解来看,它做了两件事:
第一,把视觉推理和代码执行结合起来。模型看到仪表图像后,会生成一段分析代码,在"视觉草稿本"(visual scratchpad)上逐步拆解——先定位表盘区域,再识别刻度,最后判断指针位置。这种显式的中间步骤,让错误可追溯、可修正。
第二,多视角推理。同一个仪表,机器人可能从正面、侧面、仰视多个角度拍摄。新模型能融合这些视角,消除单张图片的遮挡和畸变。
数据很直观:在仪表读取任务上,旧版Gemini Robotics-ER 1.5的准确率是23%,新版跳到98%。作为参照,今年1月发布的Gemini 3.0 Flash(同样具备智能体视觉)只有67%。
甚至不带智能体视觉的基础版,也有86%的准确率。这说明即使没有动态代码生成,单纯改进视觉编码器也能大幅提升表现。
谷歌DeepMind把这套系统定位为"机器人的高级推理模型"——不只是识别物体,而是规划并执行任务。这和传统机器人视觉的区别,类似于"看到苹果"和"判断苹果熟没熟、要不要摘"的差距。
波士顿动力的测试场:现代汽车的工厂
技术发布背后,是两家公司的长期合作。波士顿动力的母公司是现代汽车集团,这给了它们天然的工业测试场景。
Spot机器狗已经在现代的汽车工厂里巡逻。它的工作包括检查设备运行状态、记录仪表读数、发现异常及时上报。这些任务听起来重复枯燥,但恰恰是工厂运维的刚需——人类巡检员夜班疲劳、漏检、误读的情况并不罕见。
更值得关注的是人形机器人Atlas的进展。波士顿动力同时测试四足和双足机器人在工业设施中的表现,暗示这套视觉系统可能跨平台复用。毕竟,无论是机器狗还是人形机器人,"看懂仪表"的认知模块是通用的。
工业场景对机器人有特殊吸引力:环境结构化、任务明确、容错率低但可接受渐进优化。比起家庭服务机器人要处理的开敞世界,工厂是更现实的商业化起点。
一个被忽略的技术信号
这次升级有个细节值得玩味:谷歌把"智能体视觉"从Gemini 3.0 Flash下放到专门的机器人模型,而不是直接让通用大模型包办一切。
这反映了一种产品思路的分化。通用视觉模型(如GPT-4V、Gemini Pro)追求广度,能聊艺术史也能看X光片;但机器人需要深度——在特定物理任务上达到人类级可靠性。23%到98%的跃升,说明垂直优化仍有巨大空间。
另一个信号是多模态融合的方式。传统机器人视觉是"感知→决策→执行"的流水线:摄像头拍图,送云端识别,返回指令,电机执行。延迟和断网都是致命问题。
新模型的"视觉草稿本"机制,把部分推理过程本地化。机器人可以边移动边分析,不需要每张图都回传服务器。这对工业部署意味着更低的网络依赖和更高的实时性。
谷歌DeepMind在公告中强调,Gemini Robotics-ER 1.6是"为与物理环境交互而设计的具身推理"模型。这个定位区别于纯软件的智能体,也区别于传统的工业机器人编程。
竞争格局:谁在做"机器人的大脑"
这个赛道正在快速拥挤。OpenAI的机器人团队虽然解散又重组,但GPT-4V的多模态能力仍在被第三方机器人公司集成。Meta的RoboAgent项目走学术开源路线。国内,智元机器人、宇树科技等公司在硬件端发力,也在自研感知算法。
谷歌的优势在于"全栈":从底层芯片(TPU)、基础模型(Gemini)、机器人专用优化(Robotics-ER),到投资/合作的硬件厂商(波士顿动力、Apptronik)。这种垂直整合,让它能快速把实验室成果转化为可部署的解决方案。
波士顿动力的选择也很务实。它曾经坚持纯运动控制,拒绝外部AI;但近年明显转向开放合作。Spot机器狗已经支持第三方软件栈,这次深度绑定谷歌的视觉模型,是战略转型的延续。
一个有趣的对比:特斯拉的Optimus人形机器人,走的是"端到端"路线——视觉输入直接映射到电机输出,模仿人类神经系统的反应速度。谷歌+波士顿动力的方案更分层:高层推理(Gemini)+中层规划+底层控制(Spot的原生运动算法)。哪种更优,可能取决于具体任务对延迟和可解释性的要求。
商业化的时间线
98%的实验室准确率,不等于工厂里的稳定表现。光照变化、灰尘遮挡、仪表老化,都会让实际性能打折扣。
但工业客户对"不完美"有一定容忍度。如果机器人能自动标记置信度低的读数,推送给人类复核,整体效率仍然提升。关键是把"机器能做的"和"必须人来做"的边界划清楚。
波士顿动力的商业模式也在演变。Spot早期以租赁为主,单台年费数万美元,主要卖给研究机构和技术先锋。加入视觉巡检能力后,目标客群扩展到制造业运维部门,合同金额和周期都可能放大。
现代汽车集团的内部场景,既是试验田也是展示窗口。如果Spot能在现代工厂证明ROI(投资回报率),这套方案可以向整个汽车行业复制——而汽车工厂正是工业机器人最成熟、预算最充足的市场。
更长远的想象:从"读表"到"理解"
仪表读取是工业视觉的"窄门"。攻克它,意味着机器人获得了可泛化的物理世界理解能力。
同样的技术栈,可以迁移到:识别设备上的异常振动(结合视觉和音频)、判断管道腐蚀程度、甚至阅读手写维修记录。这些任务的共同点是:非结构化输入、需要领域知识、容错率低。
谷歌DeepMind提到的"视觉检查窗"(sight glass)应用很有代表性。这是化工、能源行业的常见装置——一个透明窗口,让人类窥视罐体或管道内部。机器人现在能透过它判断液位、气泡、沉淀物状态,相当于替代了老师傅的经验眼力。
再往远看,"具身推理"的终极目标,是让机器人在从未见过的环境中,也能基于物理常识做出合理判断。比如看到阀门漏水,能推断上游可能超压;看到仪表读数异常,能关联到最近的生产批次调整。
这种因果推理能力,目前的模型还远未具备。但从23%到98%的进步说明,在限定领域内,数据驱动的优化仍然空间巨大。
一个待解的问题
当机器人能准确读取98%的仪表,剩下的2%会发生什么?
工业安全领域有个概念叫"异常检测的悖论":系统越擅长识别正常状态,对真正罕见的危险信号反而越迟钝——因为训练数据里,"正常"样本压倒性地多。
这2%的失误,可能恰好对应着从未发生过的故障模式。而人类巡检员的价值,恰恰在于能凭直觉识别"哪里不对劲",即使说不出具体原因。
谷歌和波士顿动力的方案,是把低置信度判断交给人类兜底。但这种分工是否可持续?当机器人承担越来越多巡检任务,人类操作员的技能会退化还是进化?工厂愿意为一个" mostly autonomous"的系统支付多少溢价?
这些问题没有标准答案。但可以确定的是,"看懂仪表"这个看似微小的里程碑,正在重新定义人机协作的边界——不是机器人替代人类,而是双方各自承担最适合的认知负荷。
下一次走进工厂,看到机器狗在管道间停下、抬头、凝视那些斑驳的表盘时,我们或许该意识到:它看的不是数字,而是一个关于"理解"的全新协议正在成型。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.