学术分享丨Science Robotics 封面论文：类人面部机器人的真实唇动学习|动作|人工智能|人机交互|真实世界|science robotics

学术分享丨Science Robotics 封面论文：类人面部机器人的真实唇动学习

分享至

唇动在人类交流中占据着至关重要的地位，在对话过程中能吸引近一半的视觉注意力。然而，传统类人机器人往往难以实现唇音同步，导致唇动显得僵硬且缺乏生命力。

本文介绍了一项发表于《Science Robotics》的封面论文研究，该研究通过设计高自由度的机器人面部硬件与自监督学习框架，成功解决了这一难题。机器人搭载 10 自由度的柔性硅胶唇动机构，结合变分自编码器（VAE）与面部动作 Transformer（FAT）的自监督学习 pipeline，能够直接从语音音频中自主推断出真实的唇动轨迹，不仅在视觉连贯性上超越了传统方法，还实现了 11 种语言的唇音同步泛化。这项技术为提升人机交互的自然度、跨越 “恐怖谷效应” 提供了新路径，同时也引发了关于技术伦理的思考。

一、引言：为什么机器人的 “唇动” 如此重要？

当我们与他人交谈时，不仅在倾听声音，更在观察唇动 —— 这种听觉与视觉的结合是人类自然交流的本能模式。研究表明，在嘈杂环境中，人们对说话者唇部的注视时间会高达 50%-55%，唇动信息能显著提升语言理解的准确性。反之，若唇动与声音不同步，会让人产生强烈的不适感，这正是类人机器人面临的 “恐怖谷效应” 的核心原因之一：即便拥有逼真的外形，僵硬的唇动也会让机器人显得 “没有灵魂”，降低人们的信任与交流意愿。

传统机器人唇动技术面临两大瓶颈：一是机械结构局限，多数机器人仅能实现简单的下巴开合，缺乏还原人类复杂唇动的自由度；二是控制方法僵化，依赖手动预设唇动规则或语音 - 动作映射，不仅耗时耗力，还无法适应不同语言、不同说话者的表达习惯。而这项新研究通过硬件创新与人工智能算法的结合，为这两个难题提供了系统性的解决方案。

二、核心突破：硬件与算法的双重创新
1、10 自由度的 “柔性嘴唇”：机器人的面部硬件革命

要实现真实唇动，首先需要突破机械结构的限制。研究团队设计的类人机器人面部，核心亮点是一套 10 自由度的唇动驱动机构，搭配柔性硅胶皮肤，完美复刻了人类唇部的复杂运动能力：

唇角由两组堆叠电机控制，形成二维运动空间，既能内收也能外凸，可完成嘟嘴等复杂表情，还能实现发音所需的紧密闭唇动作；上唇与下唇采用独立垂直驱动，上唇下降时会向外翻转，模仿发 “w”“r”“u” 等音时的撅嘴动作，下唇上升时则通过自适应旋转轴保持与上唇的贴合；创新采用磁性快拆连接器，将硅胶皮肤与机械结构精准对齐，不仅方便皮肤更换与维护，还解决了传统拉线驱动机器人校准繁琐、迭代效率低的问题。

此外，机器人眼球内置高清 RGB 摄像头，底座搭载边缘计算设备，配合麦克风与扬声器，实现了视觉感知、语音交互与唇动控制的低延迟协同，为实时人机对话奠定了硬件基础。这套机构能精准复现 24 个辅音和 16 个元音对应的唇形，涵盖了人类语言发音的核心唇动模式。

2、自监督学习：让机器人自主 “学会” 唇动

解决了硬件问题，更关键的是让机器人 “知道” 不同声音该对应什么样的唇动。研究团队摒弃了传统手动预设规则的思路，设计了一套自监督学习框架，让机器人通过 “自主探索” 掌握唇音同步规律：

数据收集：机器人的 “咿呀学语”学习初期，机器人会进行 “电机咿呀学语”—— 在 10 自由度范围内随机做出各种唇动，同时通过摄像头记录唇形画面，与对应的电机控制指令配对，形成初始数据集。这一过程无需人工标注，完全由机器人自主完成，高效积累了丰富的唇动样本。

VAE 编码：搭建真实与合成唇动的 “桥梁”为了让机器人能从任意语音中生成唇动，研究团队引入了变分自编码器（VAE）。首先通过文本转语音（TTS）生成目标音频，再用 Wav2Lip 算法生成对应的合成唇动视频；随后训练 VAE 模型，将真实机器人的唇动画面与合成视频都映射到同一个 “潜在特征空间”，形成统一的唇动特征表示。这一步解决了 “数字合成唇动” 与 “物理机器人唇动” 之间的差异问题，让模型能理解不同唇形的本质特征。

FAT 模型：生成平滑连贯的唇动指令面部动作 Transformer（FAT）是实现实时同步的核心。它接收 VAE 输出的唇动潜在特征，同时结合前两帧的电机指令，通过 Transformer 的编码器 - 解码器结构预测后续的电机控制信号。这种设计能捕捉唇动的时间连续性，避免了唇动的卡顿或突变，确保了从一个音到另一个音的平滑过渡 —— 比如发 “between” 时，从 “b” 的闭唇到 “ee” 的展唇再到 “n” 的齿龈接触，整个过程自然流畅。

三、实验结果：更真实、更多能的唇动同步
1、超越传统方法的自然度

研究团队将新方法与 5 种传统基线方法（包括基于面部特征匹配、基于音频幅度的下巴运动、时间偏移干扰、随机指令等）进行了对比。通过计算真实唇动与理想唇动的均方误差（MSE），新方法的 MSE 值仅为 0.0118-0.0140，远低于传统方法（最低为 0.2966，最高达 0.8276）。在人类主观评价中，62.5% 的参与者更偏好新方法生成的唇动，认为其更接近人类自然表达，有效缓解了 “恐怖谷效应”。

2、多语言与多场景的泛化能力

令人惊喜的是，该系统展现出强大的泛化能力。尽管训练数据以英语为主，但它能完美适配法语、日语、韩语、中文、俄语、阿拉伯语等 11 种语言，包括音系结构差异极大的语言（如希伯来语的辅音丛、中文的声调相关唇动）。实验表明，非英语语言的唇动同步误差与英语基本处于同一范围，且能适应不同性别、年龄的声音（如女性语音与老年男性语音）。此外，机器人还能完成歌曲演唱的唇动同步，进一步验证了其对复杂音频的适配性。

四、应用前景与伦理思考
1、解锁多元人机交互场景

这项技术的落地将极大拓展机器人的应用边界：

教育领域：在语言教学中，机器人可通过精准唇动展示发音细节，帮助学习者纠正口型，提升语言学习效率；
养老服务：为认知衰退的老年人提供陪伴交流时，自然的唇动能增强信任感与情感连接，减少孤独感；
跨语言沟通：在多语言场景（如机场、国际会议）中，机器人可实时转换语言并同步唇动，打破视觉 - 听觉的沟通障碍。

2、不可忽视的伦理风险

随着机器人的交互越来越自然，潜在的伦理问题也值得警惕：高度拟人化的唇动可能让用户（尤其是儿童、老年人或认知障碍者）过度信任机器人，甚至产生情感依赖；若被恶意利用，可能通过虚假唇动与语音结合实现欺诈。因此，在技术推广的同时，需要建立相应的伦理规范，明确机器人的 “工具属性”，避免情感操纵风险。

五、未来展望

尽管这项技术已取得重大突破，但仍有提升空间：未来可通过增加唇动自由度、扩大训练数据的语言覆盖范围与场景深度，进一步提升唇动的细腻度；同时可引入 “预启动唇动” 机制 —— 人类说话时会提前 80-300ms 调整唇形，若能让机器人学习这一特性，将彻底消除残余的同步延迟。

结语

类人机器人的终极目标是实现与人类的自然交互，而真实的唇动同步正是这一旅程中的关键一步。这项研究通过硬件创新与人工智能的深度融合，不仅让机器人 “会说话”，更让机器人 “会用嘴唇说话”，极大地拉近了人机之间的距离。随着技术的不断迭代，我们有理由相信，类人机器人将逐渐跨越 “恐怖谷”，成为教育、医疗、服务等领域中值得信赖的伙伴，同时在伦理规范的护航下，实现技术发展与人类福祉的共赢。

本文由CAAI认知系统与信息处理专委会供稿

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.