唇动在人类交流中占据着至关重要的地位,在对话过程中能吸引近一半的视觉注意力。然而,传统类人机器人往往难以实现唇音同步,导致唇动显得僵硬且缺乏生命力。
![]()
本文介绍了一项发表于《Science Robotics》的封面论文研究,该研究通过设计高自由度的机器人面部硬件与自监督学习框架,成功解决了这一难题。机器人搭载 10 自由度的柔性硅胶唇动机构,结合变分自编码器(VAE)与面部动作 Transformer(FAT)的自监督学习 pipeline,能够直接从语音音频中自主推断出真实的唇动轨迹,不仅在视觉连贯性上超越了传统方法,还实现了 11 种语言的唇音同步泛化。这项技术为提升人机交互的自然度、跨越 “恐怖谷效应” 提供了新路径,同时也引发了关于技术伦理的思考。
![]()
一、引言:为什么机器人的 “唇动” 如此重要?
当我们与他人交谈时,不仅在倾听声音,更在观察唇动 —— 这种听觉与视觉的结合是人类自然交流的本能模式。研究表明,在嘈杂环境中,人们对说话者唇部的注视时间会高达 50%-55%,唇动信息能显著提升语言理解的准确性。反之,若唇动与声音不同步,会让人产生强烈的不适感,这正是类人机器人面临的 “恐怖谷效应” 的核心原因之一:即便拥有逼真的外形,僵硬的唇动也会让机器人显得 “没有灵魂”,降低人们的信任与交流意愿。
传统机器人唇动技术面临两大瓶颈:一是机械结构局限,多数机器人仅能实现简单的下巴开合,缺乏还原人类复杂唇动的自由度;二是控制方法僵化,依赖手动预设唇动规则或语音 - 动作映射,不仅耗时耗力,还无法适应不同语言、不同说话者的表达习惯。而这项新研究通过硬件创新与人工智能算法的结合,为这两个难题提供了系统性的解决方案。
二、核心突破:硬件与算法的双重创新
1、10 自由度的 “柔性嘴唇”:机器人的面部硬件革命
要实现真实唇动,首先需要突破机械结构的限制。研究团队设计的类人机器人面部,核心亮点是一套 10 自由度的唇动驱动机构,搭配柔性硅胶皮肤,完美复刻了人类唇部的复杂运动能力:
唇角由两组堆叠电机控制,形成二维运动空间,既能内收也能外凸,可完成嘟嘴等复杂表情,还能实现发音所需的紧密闭唇动作;上唇与下唇采用独立垂直驱动,上唇下降时会向外翻转,模仿发 “w”“r”“u” 等音时的撅嘴动作,下唇上升时则通过自适应旋转轴保持与上唇的贴合;创新采用磁性快拆连接器,将硅胶皮肤与机械结构精准对齐,不仅方便皮肤更换与维护,还解决了传统拉线驱动机器人校准繁琐、迭代效率低的问题。
此外,机器人眼球内置高清 RGB 摄像头,底座搭载边缘计算设备,配合麦克风与扬声器,实现了视觉感知、语音交互与唇动控制的低延迟协同,为实时人机对话奠定了硬件基础。这套机构能精准复现 24 个辅音和 16 个元音对应的唇形,涵盖了人类语言发音的核心唇动模式。
2、自监督学习:让机器人自主 “学会” 唇动
解决了硬件问题,更关键的是让机器人 “知道” 不同声音该对应什么样的唇动。研究团队摒弃了传统手动预设规则的思路,设计了一套自监督学习框架,让机器人通过 “自主探索” 掌握唇音同步规律:
数据收集:机器人的 “咿呀学语”学习初期,机器人会进行 “电机咿呀学语”—— 在 10 自由度范围内随机做出各种唇动,同时通过摄像头记录唇形画面,与对应的电机控制指令配对,形成初始数据集。这一过程无需人工标注,完全由机器人自主完成,高效积累了丰富的唇动样本。
VAE 编码:搭建真实与合成唇动的 “桥梁”为了让机器人能从任意语音中生成唇动,研究团队引入了变分自编码器(VAE)。首先通过文本转语音(TTS)生成目标音频,再用 Wav2Lip 算法生成对应的合成唇动视频;随后训练 VAE 模型,将真实机器人的唇动画面与合成视频都映射到同一个 “潜在特征空间”,形成统一的唇动特征表示。这一步解决了 “数字合成唇动” 与 “物理机器人唇动” 之间的差异问题,让模型能理解不同唇形的本质特征。
FAT 模型:生成平滑连贯的唇动指令面部动作 Transformer(FAT)是实现实时同步的核心。它接收 VAE 输出的唇动潜在特征,同时结合前两帧的电机指令,通过 Transformer 的编码器 - 解码器结构预测后续的电机控制信号。这种设计能捕捉唇动的时间连续性,避免了唇动的卡顿或突变,确保了从一个音到另一个音的平滑过渡 —— 比如发 “between” 时,从 “b” 的闭唇到 “ee” 的展唇再到 “n” 的齿龈接触,整个过程自然流畅。
![]()
三、实验结果:更真实、更多能的唇动同步
1、超越传统方法的自然度
研究团队将新方法与 5 种传统基线方法(包括基于面部特征匹配、基于音频幅度的下巴运动、时间偏移干扰、随机指令等)进行了对比。通过计算真实唇动与理想唇动的均方误差(MSE),新方法的 MSE 值仅为 0.0118-0.0140,远低于传统方法(最低为 0.2966,最高达 0.8276)。在人类主观评价中,62.5% 的参与者更偏好新方法生成的唇动,认为其更接近人类自然表达,有效缓解了 “恐怖谷效应”。
2、多语言与多场景的泛化能力
令人惊喜的是,该系统展现出强大的泛化能力。尽管训练数据以英语为主,但它能完美适配法语、日语、韩语、中文、俄语、阿拉伯语等 11 种语言,包括音系结构差异极大的语言(如希伯来语的辅音丛、中文的声调相关唇动)。实验表明,非英语语言的唇动同步误差与英语基本处于同一范围,且能适应不同性别、年龄的声音(如女性语音与老年男性语音)。此外,机器人还能完成歌曲演唱的唇动同步,进一步验证了其对复杂音频的适配性。
四、应用前景与伦理思考
1、解锁多元人机交互场景
这项技术的落地将极大拓展机器人的应用边界:
- 教育领域:在语言教学中,机器人可通过精准唇动展示发音细节,帮助学习者纠正口型,提升语言学习效率;
- 养老服务:为认知衰退的老年人提供陪伴交流时,自然的唇动能增强信任感与情感连接,减少孤独感;
- 跨语言沟通:在多语言场景(如机场、国际会议)中,机器人可实时转换语言并同步唇动,打破视觉 - 听觉的沟通障碍。
2、不可忽视的伦理风险
随着机器人的交互越来越自然,潜在的伦理问题也值得警惕:高度拟人化的唇动可能让用户(尤其是儿童、老年人或认知障碍者)过度信任机器人,甚至产生情感依赖;若被恶意利用,可能通过虚假唇动与语音结合实现欺诈。因此,在技术推广的同时,需要建立相应的伦理规范,明确机器人的 “工具属性”,避免情感操纵风险。
五、未来展望
尽管这项技术已取得重大突破,但仍有提升空间:未来可通过增加唇动自由度、扩大训练数据的语言覆盖范围与场景深度,进一步提升唇动的细腻度;同时可引入 “预启动唇动” 机制 —— 人类说话时会提前 80-300ms 调整唇形,若能让机器人学习这一特性,将彻底消除残余的同步延迟。
结语
类人机器人的终极目标是实现与人类的自然交互,而真实的唇动同步正是这一旅程中的关键一步。这项研究通过硬件创新与人工智能的深度融合,不仅让机器人 “会说话”,更让机器人 “会用嘴唇说话”,极大地拉近了人机之间的距离。随着技术的不断迭代,我们有理由相信,类人机器人将逐渐跨越 “恐怖谷”,成为教育、医疗、服务等领域中值得信赖的伙伴,同时在伦理规范的护航下,实现技术发展与人类福祉的共赢。
本文由CAAI认知系统与信息处理专委会供稿
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.