从"看得见"到"能干活"，机器人的下一步是拥有触觉|动作|视觉|光场|传感器

分享至

来源：市场资讯

（来源：DeepTech深科技）

在强光环境下拿起一个玻璃杯，这个动作对人类来说几近本能，但对机器人而言，“看到玻璃杯”和“拿起玻璃杯”的过程却充满挑战。

因为玻璃过于干净透明，即便是人类或者动物，不仔细辨认有时也会一头撞上去。对依赖视觉感知的机器人来说，这类物体更是难以辨别。透明材质带来的透射与折射、强光环境下的反射与局部过曝，都会干扰视觉系统对物体边界、位置和姿态的识别与定位。

更大的考验还在触碰的瞬间。抓取过程中，机器人必须实现精确的力控：既要施加足够的握持力防止滑落，又要避免用力过大而压碎脆弱的玻璃。也就是说，强光下抓起玻璃杯的简单动作，不仅是视觉问题，更是感知与物理交互能力的综合挑战。

这暴露了当下具身智能技术落地的一大瓶颈：机器人或许已经能“看得见”，但却“摸不准”。

类似的例子还有在插拔精密接头、抓取易碎物品等操作场景中，仅依靠视觉的机器人仍然表现不佳。一方面，当机器人手指与物体接触后，物体被遮挡，无法观测接触面的状态变化；另一方面，视觉系统难以获取物体的材质、软硬度、滑移趋势等关键物理信息，而这些信息对于实现稳定、精准的操作至关重要。

因此，业内已有共识：要让机器人真正“能干活”，必须在视觉之外补齐另一项关键能力——触觉感知。通过为机器人配备高分辨率的触觉传感器，使其在接触物体时实时获取力度、纹理、形变等多模态信息，才能让具身智能构建起“看见－触摸－调整”的完整操作闭环。

走在这条路上的其中一员，就是“戴盟机器人”。

这家初创公司孵化于香港科技大学的研究团队，由港科大机器人研究院创始院长王煜教授与其学生段江哗博士联合创办；以视触觉为技术核心，致力于以触觉与灵巧操作智能推动机器人走向通用。创立不到两年，戴盟机器人已连续完成多轮融资，累计金额达数亿元人民币，刷新了触觉传感领域天使轮融资的最高纪录。

“触觉感知正从可选能力走向智能标配，直接决定机器人能不能干活、能不能干好活。”段江哗告诉 DeepTech，“今年，具身智能将正式告别炫技，进入以工程能力和商业落地为唯一检验标准的实战阶段。谁能先完成从物理世界数据感知、采集、学习到商业落地的闭环，谁就有机会定义下一阶段的行业格局。”

那么，在即将到来的实战阶段，视触觉传感器作为“具身智能上游的上游”前景如何？在纯视觉技术不断进步的背景下，触觉感知的价值又是否会被削弱？

带着这些问题，我们与戴盟机器人 CEO 段江哗进行了一次深入对话。

以下是对话内容，有所增删，但未更改原意。

DeepTech：为什么当初戴盟机器人决定切入触觉感知这一方向？

段江哗：我和联合创始人王煜教授此前长期从事机器人操作（robotics manipulation）研究。在实际操作中，我们发现许多对人类而言非常简单的任务：比如打一个蝴蝶结、用勺子舀出容器中的物体等动作，对机器人却极具挑战。

这背后根本原因在于，仅靠视觉无法解决接触后的状态感知问题。一旦夹爪与物体接触，视觉常被遮挡，而传统机器人又缺乏有效的触觉反馈，导致操作失败率很高。因此我们意识到，要真正提升机器人的精细操作能力，除了视觉提供的位置和姿态信息外，还必须引入高信息密度的触觉感知，尤其是在接触发生后的实时反馈。

DeepTech：与传统的压阻式或电容式触觉传感器相比，你们所采用的技术路线核心优势体现在哪里？

段江哗：研究显示，人类单个手指表面分布着约 1,800 至 2,500 个机械感受器，构成了极高密度的感知网络。更重要的是，人手在操作中能同时获取多达 12 种模态的触觉信息，包括纹理、轮廓、硬度、接触力大小等。这两个关键指标——高分辨率（每指数千感知点）和多模态感知能力，成为我们评估技术路线的核心标准。

而在我们刚开始研究的时候，市面上几乎所有商用触觉传感器都无法同时满足这两点。传统阵列式传感器受限于物理布线：要在几平方厘米的手指面积内集成上千个传感点，不仅布线极其复杂，而且连线越多，越容易在反复接触中断裂，导致可靠性差、成本高、难以量产。

于是我们决定回归第一性原理：什么样的物理机制能同时实现高分辨率、多模态、高耐用性和低成本？

最终，我们选择了视触觉（vision-based tactile sensing）路线。这种方案不依赖密集布线的电极阵列，而是通过光学成像捕捉接触面硅胶层的形变图像，再结合算法解算出多种触觉模态。理论上，其分辨率仅受限于相机像素，可轻松超越人类指尖的感知密度；由于没有易损电路，寿命可达数百万次操作循环，远高于传统方案。

DeepTech：目前这套触觉系统所实现的感知能力具体能支持机器人完成哪些高精度任务？能否举一些实际的应用场景或例子？

段江哗：首先需要澄清一个常见误解：机器人的任务精度，并不完全由某一个传感器的精度所决定。用一个简单的例子来理解，把一瓶水递到手里，你未必能准确说出它具体重多少克，误差可能很大；但这并不妨碍你轻松拧开瓶盖、用钥匙开门，甚至完成更精细的动作。人类之所以能做到，是因为我们的动作并不是依赖“绝对测量值”，而是依赖不断的感知反馈与协调配合。

机器人也是一样。真正决定任务效果的，是整个系统的协同能力：机械结构的稳定性、运动控制的精度、视觉识别与定位的准确性、整机标定的一致性，以及算法的实时调整能力，缺一不可。

在这个体系中，触觉并不是单独“决定最终精度”的那个因素，但它承担着关键角色，为系统提供实时、灵敏的接触反馈。当机器人真正“碰到”物体时，触觉能及时告诉它力是否过大、是否发生滑动、是否需要微调，从而让整个闭环控制更加稳定、更加细腻。

具体到我们的传感器，它有两项尤为突出的核心性能：力感知灵敏度和空间分辨率。它可以感知最小 0.01 牛的力，仅 1 克力的微小接触就能被识别。空间分辨能力则达到 0.01 毫米（10 微米），两个微小凸起之间哪怕相距只有 10 微米，传感器也能将它们区分开。这比人类手指尖的分辨率高出了约 300 倍。成年人指尖的空间分辨率通常为 2-4 毫米，比如纸币上盲文标记的间距通常设计在 3 毫米以上，正是出于对人手指尖分辨率的考虑。

传感器的高灵敏度与高分辨率，不仅带来了更精细的触觉成像能力，也为微结构识别、精密装配和复杂接触分析提供了更大的技术空间。

DeepTech：这种超细粒度的感知能力，在实际应用中能带来哪些具体价值？

段江哗：首先是精密装配。比如在插针、对准孔位或拧微型螺丝时，哪怕出现极其微弱的“卡顿”或阻力变化（可能只有几毫牛的差异），系统也能立即捕捉。这使得机器人可以在不依赖视觉的情况下，自主调整姿态或力度，避免损坏零件或装配失败。

其次是表面质量检测。比如经验丰富的老师傅常通过手摸判断零件表面是否平整、有无细微毛刺或加工瑕疵。我们的触觉系统同样能实现这一点，不仅能识别宏观缺陷，还能感知亚毫米级的纹理变化、粗糙度差异，甚至材料软硬程度。这对高端制造、质检自动化非常有价值。

还有材质的辨识与分类。比如在柔性物体操作中，机器人可通过触觉区分皮革、织物、硅胶等不同材质。这在服装分拣、奢侈品鉴定或人机协作场景中尤为重要。用户常说“手感不一样”，背后其实是触觉多模态信息（如弹性、摩擦系数、纹理）的综合判断。

总的来说，我们的触觉系统并非追求“绝对测量精度”，而是提供足够细腻、稳定且多维的感知输入，让机器人具备类似人类“手感”的直觉式操作能力。这才是实现真正灵巧操作的关键。

DeepTech：既然已经有了视触觉技术基础，为什么戴盟机器人没有选择直接做灵巧手？

段江哗：在人类的进化体系中，手之所以成为最具代表性的操作器官，并不仅仅因为其结构形态，更在于触觉所构建的精细反馈能力。无论是五指灵巧手还是二指夹爪，本质上都只是执行终端；真正决定操作质量的，是感知系统，尤其是触觉。

在机器人领域亦然。结构设计可以不断优化，但如果缺乏高质量触觉反馈，精细操作就难以稳定实现。正因如此，在具身智能的发展过程中，触觉长期被视为关键短板之一。当前触觉技术被列入国家 35 项“卡脖子”核心技术清单，与算力芯片并列产业两大硬件瓶颈。戴盟选择专注触觉赛道，既是对自身技术长板的聚焦，更是对行业短板的战略性补位。

这种路径本质上是一种技术杠杆策略。如果只做一款机械手，所能覆盖的应用场景是有限的；但若为数十甚至上百家企业提供触觉解决方案，触觉能力就可以嵌入到成千上万台设备中，进入更广泛的工业、服务和特种等场景。相比单一产品，这种“底层能力赋能”模式所释放的产业影响力与商业价值更具乘数效应。

从更宏观的角度看，具身智能不会由单一企业垂直整合完成，而更可能沿着专业化分工的方向演进。算力、传感、执行机构、整机系统与应用场景将形成清晰的生态。我们希望在这一体系中，牢牢占据“触觉底座”的关键生态位，成为不可替代的基础能力提供者。

基于这一判断，今年我们将以触觉数据为核心切入口，构建从数据采集、模型训练到应用部署的完整闭环体系。通过持续沉淀触觉数据资产与算法能力，为具身智能提供稳定、可扩展的触觉基础设施，让机器人在真实世界中的操作能力向通用化迈进。

DeepTech：相比目前主流的三色光方案，戴盟坚持采用单色光路线，其底层逻辑是什么？

段江哗：在我们创业之前，国际上最知名的方案来自 MIT 孵化的 GelSight 公司。他们用红、绿、蓝三色光照射硅胶表面，配合彩色相机捕捉接触时微米级的光场变化，从而还原接触区域的形貌和力学信息。这套方法在学术研究和纹理检测中表现不错，但十多年来始终没能大规模落地工业场景。

而我们的系统用单色光源提供均匀照明，真正承载信息的是硅胶下方预设的一套高对比度编码图案。当物体接触导致硅胶形变时，图案随之扭曲，黑白相机高速捕捉这一变化，再通过算法解算出力、纹理、滑动等多维感知信号。

这个看似简单的改变，实际上绕开了三色光方案的多个硬伤。比如，RGB 系统出厂时需要精密标定三种光源的一致性，但 LED 在长期使用中光强会漂移，导致光场失配，时间一长，力估计或纹理重建就会不准，往往得重新校准。而单色光没有颜色通道差异，光场极其稳定，几乎不需要维护标定。

同时，彩色相机数据量大、算力需求高，典型帧率只有 20–30 Hz，还容易发热。我们用黑白相机，不仅数据量大幅降低，处理速度也能提升到 120 Hz 以上，满足机器人实时控制的需求，整机功耗和温升也显著下降。

更重要的是工程可靠性。我们在硅胶材料和结构上做了大量迭代，把传感器寿命从传统方案的约 1,000 次循环提升到 500 万次以上。加上单色光源和黑白相机都是成熟、低成本的工业元器件，整套系统更容易量产、更耐恶劣环境。

在性能上，我们的有效分辨率达到 384×288，无论正压力还是切向力的感知精度，都明显优于现有三色光方案。

DeepTech：刚才提到硅胶材料，很多人第一反应可能是：它会不会容易磨损或老化？你们有没有做过完整的生命周期测试？维护成本是否过高？

段江哗：对触觉传感器而言，无论采用何种技术路线，使用寿命始终是行业共性难题。设备一旦故障，实验即刻中断，直接延误研发进度。所以耐用性不是可选项，而是底线。

因此，我们在产品定义阶段就建立了非常严苛的寿命测试体系。目前戴盟的视触觉传感器是全球首个通过 500 万次按压循环测试并获得认证的产品。

我们也曾有过“让软体永远不坏”的想法，但很快意识到，这在物理世界几乎不可能实现。材料总会老化，形变累积到一定程度，性能就会随之衰减。于是我们调整了思路，确保在预期寿命内稳定可靠，超出寿命后的更换足够简单、足够便宜。

实际上产品最易磨损的就是外层的硅胶接触面。我们把它设计成标准化、可快速拆卸的模块，成本很低——就像汽车的雨刮器，不用换整个电机，只换前面的胶条；也像医用注射器，针头用完就换，主体重复使用。

这个接触层由硅胶和内部编码图案构成，制造工艺成熟，单件成本可控。更换时只需拧下几颗螺丝，装上新模块即可，无需重新标定或复杂调试，因为图案是一致的，系统能自动识别。

在实际部署中，客户通常根据使用频率制定维护计划。很多工厂本来就有定期停机检修的节奏，把触觉模块更换纳入其中，几乎不增加额外负担。

DeepTech：对话开始我们提到纯视觉方案，现在也有不少团队在提升它的频率和精度。如果未来纯视觉在这些方面取得突破，触觉传感器是否还有存在的必要？你们怎么看？

段江哗：在人类的感知系统里，视觉和触觉从来不是互相替代的关系，而是互补的。举个最简单的例子：你从裤兜里掏手机或钥匙，根本不需要低头看——手一伸进去，靠触觉就能准确找到并拿出来。这是因为口袋是封闭空间，视觉完全失效，只能依赖触觉完成操作。

机器人也一样。有些任务没有触觉就根本做不了，比如插拔精密接头、对齐卡扣、拧紧微小螺丝——这些动作中，接触力的细微变化决定了成败，而视觉无法提供这种反馈。

还有一些任务，没有触觉也能做，但效率很低。比如折衣服：现在有些机器人能折，但动作慢、容易掉。因为它们只能等衣服真的滑落了，用摄像头看到后才反应。而有了触觉，系统能在衣服“即将滑落”的瞬间就感知到并调整夹力，效率和成功率都会大幅提升。所以，触觉不是“有可无的补充”，而是在视觉受限、需要精细力控、或追求高效可靠操作的场景中，不可或缺的能力。

DeepTech：您是否认为未来还可能出现更好的技术？

段江哗：技术演进肯定没有终局，只能说商业落地存在“最优解”。

从当前的工程实践来看，视触觉传感器（Vision-based Tactile Sensor）无疑是综合优势最明显的路径。它处于高信息密度、耐用性与量产成本之间的最佳平衡点，是目前构建触觉智能、推动机器人从“演示”走向“实干”的首选方案。当然，我们也要始终对前沿技术保持敏锐的探索，但在可预见的周期内，视触觉技术的工程优势我相信难以被撼动。

更重要的是，今年具身智能行业竞争逻辑正在发生质变。不再是单纯比拼谁的技术点更“新”，而是比拼谁能构建完整、可复制的体系能力。触觉感知正从过去的“锦上添花”变为“智能标配”，它直接决定了机器人“能不能干活”以及“能不能干好活”。

因此，真正的胜负已不在于单一产品的参数之争，而在于谁能率先跑通“物理世界数据感知—采集—学习—商业落地”的完整闭环。谁先完成这一闭环，谁就有机会定义下一阶段的行业格局。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.