机器人学狗读心术？读懂手势和语言，成功率竟高达89%！|艾薇|人工智能|人机交互|布朗大学

机器人学狗读心术？读懂手势和语言，成功率竟高达89%！

分享至

你有没有想过，未来的家用机器人助手，其实正在向狗学习？

布朗大学的研究人员开发了一种新方法，让机器人同时理解人类的语言指令和手势动作，在杂乱环境中找到目标物体的成功率高达89%。这项研究将在3月17日于苏格兰爱丁堡举行的国际人机交互会议上正式发布。

听起来有点奇怪，但这项研究的关键灵感来源之一，确实是狗。

狗是地球上解读人类手势能力最强的动物之一，甚至超越了人类近亲黑猩猩。布朗大学认知与心理科学副教授达芙娜·布克斯鲍姆长期研究人与狗之间的沟通模式，她的实验室发现，狗能够极其精准地跟随人类的眼神和指向动作，理解人类想传达的意图。

这个发现让机器人研究者眼前一亮。既然机器人助手面临的核心挑战之一，就是如何理解人类模糊的指示，那么“狗是怎么做到的”就成了一个值得深挖的问题。

布克斯鲍姆说：“我们在布朗犬类实验室的研究揭示了狗在与人类沟通中有多么复杂精妙，它们解决的许多合作问题，正是我们希望机器人解决的。”

具体来说，这个模型将目标物体的可能位置，定义在一条从眼睛经过肘部延伸至手腕的连线所形成的锥形区域内。艾薇·何解释说：“我们发现，人类在指向某物时，眼神凝视方向会与手指方向对齐，所以从眼睛到手腕的连线，是判断指向目标相当准确的近似方式。”

这个听起来简单的洞见，背后其实解决了一个机器人领域长期存在的难题。

传统机器人系统在面对杂乱场景时，很容易“过度自信”，仅凭不完整的视觉信息就匆忙锁定错误目标，或者相反，因为不确定性太大而直接卡壳。研究团队采用了一种名为POMDP（部分可观察马尔可夫决策过程）的数学框架，让机器人能够在不确定状态下持续推理，追踪自己对世界的认知置信度，并随着新信息的输入不断更新判断。

更重要的是，POMDP允许机器人主动选择“有助于获取更多信息的行动”，比如挪动位置获得更好视角，而不是在信息不完整时强行做出决定。

艾薇·何随后将这套手势概率模型与视觉语言模型（VLM）结合起来。视觉语言模型是当前人工智能领域的热门工具，能够同时理解图像内容和自然语言描述。

两者融合的结果，是一套既能听懂“帮我拿那个红色的杯子”，又能理解“就是那个，那个”加上一个手指动作的机器人规划系统。

实验在实验室的真实场景中进行，研究人员让一台四足机器人在散落着各种物体的空间里执行寻物任务。结果显示，仅依靠语言指令时，机器人的成功率明显低于双模态结合；而同时使用手势和语言的系统，成功率达到89%，远超任何单一输入方式。

这个数字在机器人领域意义重大，因为“杂乱真实环境”向来是机器人感知能力的噩梦。

布朗大学计算机科学副教授埃莉·帕夫利克评价说：“拥抱我们对人类自然沟通方式的认知，并建立与这些人类倾向和行为直觉相契合的系统，才是正确的前进道路。”

对这支团队而言，89%只是一个起点。

参与项目的麻省理工学院博士后Jason Liu表示，未来目标是让人类可以通过语言、手势、眼神凝视乃至动作演示等多种方式，与机器人助手进行流畅自然的交互，就像跟一个熟练的人类助手打交道一样。

这个方向的深远意义在于，它不是在试图让人类适应机器，而是在让机器学会理解人类本来就习惯的表达方式。当机器人开始学着像狗一样读懂主人的眼神，人机协作的门槛，才真正开始降低。

声明：个人原创，仅供参考

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.