网易首页 > 网易号 > 正文 申请入驻

学术分享丨Science Robotics 封面论文:类人面部机器人的真实唇动学习

0
分享至

唇动在人类交流中占据着至关重要的地位,在对话过程中能吸引近一半的视觉注意力。然而,传统类人机器人往往难以实现唇音同步,导致唇动显得僵硬且缺乏生命力。


本文介绍了一项发表于《Science Robotics》的封面论文研究,该研究通过设计高自由度的机器人面部硬件与自监督学习框架,成功解决了这一难题。机器人搭载 10 自由度的柔性硅胶唇动机构,结合变分自编码器(VAE)与面部动作 Transformer(FAT)的自监督学习 pipeline,能够直接从语音音频中自主推断出真实的唇动轨迹,不仅在视觉连贯性上超越了传统方法,还实现了 11 种语言的唇音同步泛化。这项技术为提升人机交互的自然度、跨越 “恐怖谷效应” 提供了新路径,同时也引发了关于技术伦理的思考。


一、引言:为什么机器人的 “唇动” 如此重要?

当我们与他人交谈时,不仅在倾听声音,更在观察唇动 —— 这种听觉与视觉的结合是人类自然交流的本能模式。研究表明,在嘈杂环境中,人们对说话者唇部的注视时间会高达 50%-55%,唇动信息能显著提升语言理解的准确性。反之,若唇动与声音不同步,会让人产生强烈的不适感,这正是类人机器人面临的 “恐怖谷效应” 的核心原因之一:即便拥有逼真的外形,僵硬的唇动也会让机器人显得 “没有灵魂”,降低人们的信任与交流意愿。

传统机器人唇动技术面临两大瓶颈:一是机械结构局限,多数机器人仅能实现简单的下巴开合,缺乏还原人类复杂唇动的自由度;二是控制方法僵化,依赖手动预设唇动规则或语音 - 动作映射,不仅耗时耗力,还无法适应不同语言、不同说话者的表达习惯。而这项新研究通过硬件创新与人工智能算法的结合,为这两个难题提供了系统性的解决方案。

二、核心突破:硬件与算法的双重创新
1、10 自由度的 “柔性嘴唇”:机器人的面部硬件革命

要实现真实唇动,首先需要突破机械结构的限制。研究团队设计的类人机器人面部,核心亮点是一套 10 自由度的唇动驱动机构,搭配柔性硅胶皮肤,完美复刻了人类唇部的复杂运动能力:

  • 唇角由两组堆叠电机控制,形成二维运动空间,既能内收也能外凸,可完成嘟嘴等复杂表情,还能实现发音所需的紧密闭唇动作;上唇与下唇采用独立垂直驱动,上唇下降时会向外翻转,模仿发 “w”“r”“u” 等音时的撅嘴动作,下唇上升时则通过自适应旋转轴保持与上唇的贴合;创新采用磁性快拆连接器,将硅胶皮肤与机械结构精准对齐,不仅方便皮肤更换与维护,还解决了传统拉线驱动机器人校准繁琐、迭代效率低的问题。

此外,机器人眼球内置高清 RGB 摄像头,底座搭载边缘计算设备,配合麦克风与扬声器,实现了视觉感知、语音交互与唇动控制的低延迟协同,为实时人机对话奠定了硬件基础。这套机构能精准复现 24 个辅音和 16 个元音对应的唇形,涵盖了人类语言发音的核心唇动模式。

2、自监督学习:让机器人自主 “学会” 唇动

解决了硬件问题,更关键的是让机器人 “知道” 不同声音该对应什么样的唇动。研究团队摒弃了传统手动预设规则的思路,设计了一套自监督学习框架,让机器人通过 “自主探索” 掌握唇音同步规律:

数据收集:机器人的 “咿呀学语”学习初期,机器人会进行 “电机咿呀学语”—— 在 10 自由度范围内随机做出各种唇动,同时通过摄像头记录唇形画面,与对应的电机控制指令配对,形成初始数据集。这一过程无需人工标注,完全由机器人自主完成,高效积累了丰富的唇动样本。

VAE 编码:搭建真实与合成唇动的 “桥梁”为了让机器人能从任意语音中生成唇动,研究团队引入了变分自编码器(VAE)。首先通过文本转语音(TTS)生成目标音频,再用 Wav2Lip 算法生成对应的合成唇动视频;随后训练 VAE 模型,将真实机器人的唇动画面与合成视频都映射到同一个 “潜在特征空间”,形成统一的唇动特征表示。这一步解决了 “数字合成唇动” 与 “物理机器人唇动” 之间的差异问题,让模型能理解不同唇形的本质特征。

FAT 模型:生成平滑连贯的唇动指令面部动作 Transformer(FAT)是实现实时同步的核心。它接收 VAE 输出的唇动潜在特征,同时结合前两帧的电机指令,通过 Transformer 的编码器 - 解码器结构预测后续的电机控制信号。这种设计能捕捉唇动的时间连续性,避免了唇动的卡顿或突变,确保了从一个音到另一个音的平滑过渡 —— 比如发 “between” 时,从 “b” 的闭唇到 “ee” 的展唇再到 “n” 的齿龈接触,整个过程自然流畅。


三、实验结果:更真实、更多能的唇动同步
1、超越传统方法的自然度

研究团队将新方法与 5 种传统基线方法(包括基于面部特征匹配、基于音频幅度的下巴运动、时间偏移干扰、随机指令等)进行了对比。通过计算真实唇动与理想唇动的均方误差(MSE),新方法的 MSE 值仅为 0.0118-0.0140,远低于传统方法(最低为 0.2966,最高达 0.8276)。在人类主观评价中,62.5% 的参与者更偏好新方法生成的唇动,认为其更接近人类自然表达,有效缓解了 “恐怖谷效应”。

2、多语言与多场景的泛化能力

令人惊喜的是,该系统展现出强大的泛化能力。尽管训练数据以英语为主,但它能完美适配法语、日语、韩语、中文、俄语、阿拉伯语等 11 种语言,包括音系结构差异极大的语言(如希伯来语的辅音丛、中文的声调相关唇动)。实验表明,非英语语言的唇动同步误差与英语基本处于同一范围,且能适应不同性别、年龄的声音(如女性语音与老年男性语音)。此外,机器人还能完成歌曲演唱的唇动同步,进一步验证了其对复杂音频的适配性。

四、应用前景与伦理思考
1、解锁多元人机交互场景

这项技术的落地将极大拓展机器人的应用边界:

  • 教育领域:在语言教学中,机器人可通过精准唇动展示发音细节,帮助学习者纠正口型,提升语言学习效率;
  • 养老服务:为认知衰退的老年人提供陪伴交流时,自然的唇动能增强信任感与情感连接,减少孤独感;
  • 跨语言沟通:在多语言场景(如机场、国际会议)中,机器人可实时转换语言并同步唇动,打破视觉 - 听觉的沟通障碍。

2、不可忽视的伦理风险

随着机器人的交互越来越自然,潜在的伦理问题也值得警惕:高度拟人化的唇动可能让用户(尤其是儿童、老年人或认知障碍者)过度信任机器人,甚至产生情感依赖;若被恶意利用,可能通过虚假唇动与语音结合实现欺诈。因此,在技术推广的同时,需要建立相应的伦理规范,明确机器人的 “工具属性”,避免情感操纵风险。

五、未来展望

尽管这项技术已取得重大突破,但仍有提升空间:未来可通过增加唇动自由度、扩大训练数据的语言覆盖范围与场景深度,进一步提升唇动的细腻度;同时可引入 “预启动唇动” 机制 —— 人类说话时会提前 80-300ms 调整唇形,若能让机器人学习这一特性,将彻底消除残余的同步延迟。

结语

类人机器人的终极目标是实现与人类的自然交互,而真实的唇动同步正是这一旅程中的关键一步。这项研究通过硬件创新与人工智能的深度融合,不仅让机器人 “会说话”,更让机器人 “会用嘴唇说话”,极大地拉近了人机之间的距离。随着技术的不断迭代,我们有理由相信,类人机器人将逐渐跨越 “恐怖谷”,成为教育、医疗、服务等领域中值得信赖的伙伴,同时在伦理规范的护航下,实现技术发展与人类福祉的共赢。

本文由CAAI认知系统与信息处理专委会供稿

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
R级恐怖片都能上了?这周院线能好点吗

R级恐怖片都能上了?这周院线能好点吗

桃桃淘电影
2026-01-19 10:15:07
汪东兴提反对意见,邓公起身质问:为什么你每次开会都唱反调?

汪东兴提反对意见,邓公起身质问:为什么你每次开会都唱反调?

瀚霖学史
2025-10-24 09:04:10
火箭取得两连胜,赛后还有5个好消息1个坏消息,亚当斯伤情出炉

火箭取得两连胜,赛后还有5个好消息1个坏消息,亚当斯伤情出炉

邹维体育
2026-01-19 10:30:35
项立刚反对学英语,送儿子去美国留学咋说?这是骗谁呢?

项立刚反对学英语,送儿子去美国留学咋说?这是骗谁呢?

读鬼笔记
2026-01-17 20:01:04
为何说年龄超过72岁的人:即便身体健康,也没有多少来日方长?

为何说年龄超过72岁的人:即便身体健康,也没有多少来日方长?

健康科普365
2025-12-21 08:05:10
《镖人》预告片,这阵容不得100亿!

《镖人》预告片,这阵容不得100亿!

喜欢历史的阿繁
2026-01-19 12:07:43
茅台价格跌破1499元,黄牛退场经销商无奈割肉,神酒何以失宠?

茅台价格跌破1499元,黄牛退场经销商无奈割肉,神酒何以失宠?

特特农村生活
2026-01-19 00:49:04
公然支持乱港分子,诋毁爱国人士,香港这家商业巨头如今下场凄惨

公然支持乱港分子,诋毁爱国人士,香港这家商业巨头如今下场凄惨

素衣读史
2026-01-17 17:07:58
新加坡媒体锐评呆呆杀猪宴,15字一针见血,直戳每一个中国人心坎

新加坡媒体锐评呆呆杀猪宴,15字一针见血,直戳每一个中国人心坎

林雁飞
2026-01-18 17:26:43
1955年,毛主席接见西藏女活佛桑顶·多吉帕姆:不要怕民主改革

1955年,毛主席接见西藏女活佛桑顶·多吉帕姆:不要怕民主改革

大运河时空
2026-01-19 08:20:03
超级骗子刘特佐,如何掏空一个国家?肥头大耳却能泡遍女明星?

超级骗子刘特佐,如何掏空一个国家?肥头大耳却能泡遍女明星?

午夜故事会
2024-07-08 10:57:49
央媒发文痛批,这代被“数字泔水”喂养的孩子,正集体得“脑雾”

央媒发文痛批,这代被“数字泔水”喂养的孩子,正集体得“脑雾”

新东方
2026-01-16 17:37:02
梁小龙去世

梁小龙去世

新京报政事儿
2026-01-18 17:24:21
中方通知日本,血债必须偿还,解放军已上场,外交部也跟进行动

中方通知日本,血债必须偿还,解放军已上场,外交部也跟进行动

铁锤简科
2026-01-19 12:57:21
中方缴清会费后,美国另立联合国,入群费69亿,古特雷斯态度坚决

中方缴清会费后,美国另立联合国,入群费69亿,古特雷斯态度坚决

谛听骨语本尊
2026-01-19 12:28:41
非洲杯夺冠!17岁小孩哥哭成泪人:短短1年集齐6冠 人生赢家

非洲杯夺冠!17岁小孩哥哭成泪人:短短1年集齐6冠 人生赢家

叶青足球世界
2026-01-19 11:13:05
约会聚餐,和王楚钦传绯闻?谁注意陈幸同表态,好友删除动态

约会聚餐,和王楚钦传绯闻?谁注意陈幸同表态,好友删除动态

乐聊球
2026-01-19 11:25:20
吃瓜!山东女子王晓迪 包养事件曝光 跪地求原谅视频引爆网络

吃瓜!山东女子王晓迪 包养事件曝光 跪地求原谅视频引爆网络

没有偏旁的常庆
2026-01-19 06:05:03
爷爷误将火锅燃料当水冲感冒药,孙子喝下后多器官衰竭进ICU!父亲崩溃:心都碎了

爷爷误将火锅燃料当水冲感冒药,孙子喝下后多器官衰竭进ICU!父亲崩溃:心都碎了

潇湘晨报
2026-01-18 21:55:40
碰就毁一生!2026卖淫嫖娼6条刑事红线,最低5年起步

碰就毁一生!2026卖淫嫖娼6条刑事红线,最低5年起步

古装影视解说阿凶
2026-01-18 11:01:17
2026-01-19 13:40:49
中国人工智能学会
中国人工智能学会
中国人工智能学会网易官方账号
3828文章数 1489关注度
往期回顾 全部

科技要闻

这一仗必须赢!马斯克死磕芯片"9个月一更"

头条要闻

罗永浩被禁言后首亮相 现身B站颁奖典礼获年度新人奖

头条要闻

罗永浩被禁言后首亮相 现身B站颁奖典礼获年度新人奖

体育要闻

21年后,中国男足重返亚洲四强

娱乐要闻

离婚三年,孙怡董子健首次公开互动

财经要闻

公章争夺 家族反目 双星为何从顶端跌落?

汽车要闻

徐军:冲击百万销量,零跑一直很清醒

态度原创

艺术
房产
亲子
时尚
本地

艺术要闻

有一种美,叫做中国园林!

房产要闻

封关刚刚满月,海南真爆了!三亚房价,涨幅冲上全国第三!

亲子要闻

年轻妈妈每月省2000定投,孩子十八岁时教育金已自动攒好

50+女人的穿搭封神技巧来了,抓准这4点,轻松穿出简约高级感

本地新闻

云游内蒙|黄沙与碧波撞色,乌海天生会“混搭”

无障碍浏览 进入关怀版