网易首页 > 网易号 > 正文 申请入驻

人脸机器人登上Science Robotics封面:用AI教会仿生人脸机器人「开口说话」

0
分享至

来源:市场资讯

(来源:机器之心)


胡宇航(网名 “U 航”),毕业于美国哥伦比亚大学,博士学位,首形科技创始人。长期专注于机器人自主学习的研究工作。研究成果发表于《Nature Machine Intelligence》,《Science Robotics》等国际顶级期刊。致力于赋予机器人 “自我模型” 能力,即构建对自身物理结构与运动的内部表征,使机器人能够更好地理解自身,并适应多变的形态、环境与任务。在仿生人机交互方向,他提出融合语音、视觉与动作的情绪理解与表达一体化系统,为机器人提供更加自然的交互能力。通过自监督学习机制,他的方法使机器人在无需人工干预的情况下不断提升人机互动质量,朝着具备终身学习能力的智能体不断迈进。


论文地址:https://www.science.org/doi/10.1126/scirobotics.adx3017

曾发表论文:

  • Hu, Yuhang, et al. "Human-robot facial coexpression." Science Robotics 9.88 (2024): eadi4724.

  • Hu, Yuhang, Jiong Lin, and Hod Lipson. "Teaching robots to build simulations of themselves." Nature Machine Intelligence (2025): 1-11.

  • https://mp.weixin.qq.com/s/HdnbBweZseTjMedyWHDLSg

2026 年 1 月 15 日,一项来自美国哥伦比亚大学工程学院的突破性研究正式发表于《Science Robotics》,并登上期刊封面。该研究展示了一项全新的机器人技术:一台具备仿生面部结构的人形机器人,通过深度学习实现与语音和歌曲同步的真实唇部运动。它能跟着人类的语言精准张合嘴唇,甚至,能跟着音乐唱歌。标志着人形机器人在人类最丰富的交流通道之一唇部表达上,迈出了突破性一步。

为什么 “嘴唇” 如此重要?

研究显示,在面对面的交流中,人类将近一半的注意力集中在唇部运动上。我们或许能容忍机器人走路笨拙、手部动作僵硬,但哪怕极其轻微的不自然面部表情,都会立刻引发本能的不适。这正是著名的 “恐怖谷”。

长期以来,即便是最先进的人形机器人,在 “说话” 时也只能做出类似木偶的张合动作 —— 如果它们有脸的话。但这一次,情况正在发生改变。

一个会自主学习表情的机器人

在这项研究中,研究团队打造了一张高度仿生的机器人面孔:

在一层柔性硅胶皮肤之下,隐藏着 20 余个微型电机,能够快速、安静且协同地驱动唇部形变。


图 2. 机器人唇形硬件结构。(A)面部机器人设计概览,重点展示了人机交互关键组件:包括扬声器、麦克风、高清摄像模块,以及用于固定柔软硅胶面皮的磁吸式快拆连接器。该连接器能实现面皮的精准定位,并通过推拉双向运动驱动硅胶面皮,完成说话时所需的复杂唇部动作。(B)搭载柔软硅胶面皮的人形机器人外观展示。其底座内部集成有边缘计算设备。(C)唇部驱动系统特写,展示上唇、下唇与唇角连接器分别对应固定于相应唇部支架。柔软可替换的面皮通过磁吸连接器固定,可便捷拆卸以进行维护或个性化调整。

随后,机器人被 “带到镜子前”…

就像一个第一次对着镜子学做表情的孩子,机器人通过观察自己面部在不同电机驱动下的变化,构建 Facial Action Transformer (FAT) 模型,逐渐学会如何控制自己的脸(机器人自我建模 Robotic Self-modeling)。研究团队将这一过程称为一种 “视觉 — 动作” 的自监督学习。


图 3. 机器人能实现的口型及其对应音标展示。该机器人展示了再现关键英语音标的能力,例如爆破音(/p/ 和 /b/)、双唇音(/m/)以及圆唇元音(/u/ 和 /o/)。通过独立控制上唇、下唇及嘴角,每帧图像均捕捉到其实现的典型唇部运动效果。这些数据为机器人在说话时实现正确的唇形匹配奠定了基础。

依靠纯声音驱动嘴形动作

接着,机器人通过观看合成的机器人视频(通过 Wav2Lip)在不同语音语料(由 TTS 和 ChatGPT 生成)的真实唇部变化,进一步学习声音与唇部运动之间的对应关系。最终,这两种能力被整合在一起 —— 机器人得以将收到的声音信号,直接转化为连续、自然的唇部运动。无需理解语义,机器人已经能 “对得上口型”。


图 4. 机器人唇形同步的自监督学习框架。 (A) 数据收集阶段:机器人通过与语音相关的随机指令自主生成数据集,利用 RGB 摄像头捕捉广泛的唇部运动,以获取 3D 唇形数据。(B) 部署过程:始于来自 ChatGPT 的文本输入,文本被转换为音频,随后利用 Wav2Lip 技术合成机器人视频。利用真实机器人视频及其对应指令,训练由编码器和解码器(VAE)组成的机器人逆向变换器,以生成平滑、准确、可供真实机器人执行的电机指令。

多语言能力

研究团队测试了机器人在多种语言、不同语音环境甚至歌曲中的表现。结果显示,即使在复杂的语音节奏下,机器人也能完成连贯的唇部同步,甚至演唱来自其 AI 生成的曲目。

机器人多语言口型对齐能力


图 5. 多语言唇语同步性能量化表现。x 轴标签下方标注的样本量 n 对应每种语言的测试句子视频帧数。结果表明,所有非英语语言的同步误差均保持在英语误差范围内,显示出稳健的跨语言泛化能力。

当然,这还不是终点。研究者坦言,像 “B” 这类需要完全闭唇的音,以及 “W” 这类涉及明显撮唇的发音,仍然存在挑战。但关键在于 —— 这是一种可以随着学习持续进化的能力,而不是写死的规则。

跨越恐怖谷的 “缺失环节”

在研究者看来,面部表情 —— 尤其是唇部的自然运动,正是长期以来机器人能力中的 “缺失环节”。“当前的人形机器人更多关注行走和抓取,但凡是需要与人面对面交流的场景,面部表达同样关键。”

随着人形机器人逐渐进入娱乐、教育、医疗、陪护等高度依赖情感沟通的领域,一张温暖、自然、可信的‘脸’将不再是加分项,而是入场券。经济学家预测,未来十年全球或将制造超过十亿台人形机器人进入人们的生活场景。而几乎可以确定的是 —— 它们不可能都没有脸。

从实验室走向现实

这项封面研究,不仅是一次学术突破,也展示了中国学者在国际人形机器人领域具备独特的创新能力。

第一作者胡宇航博士表示,当唇部同步能力与对话型大模型结合时,机器人与人类之间的连接将发生质变。“我们交流中有大量情感信息并不在语言本身,而在面部和身体语言中。机器人正在开始触碰这条通道。”

当机器人真正学会像人一样 “说话” 和 “表达”,

恐怖谷,正在被一步步填平。

人类与机器人的信任和情感,将会迎来新的篇章。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
36年前陈宝国主演的盗墓恐怖片!尺度大到少儿不宜

36年前陈宝国主演的盗墓恐怖片!尺度大到少儿不宜

释凡电影
2025-08-14 09:33:19
太阳X级耀斑爆发 20至21日可能出现较强地磁活动

太阳X级耀斑爆发 20至21日可能出现较强地磁活动

新京报
2026-01-19 11:12:15
非洲杯决赛大戏:马内劝回全队 卜拉欣故意丢点?

非洲杯决赛大戏:马内劝回全队 卜拉欣故意丢点?

体坛周报
2026-01-19 09:42:12
申花队员:盖伊太知道怎么用身体,拉唐能和大家想一块去

申花队员:盖伊太知道怎么用身体,拉唐能和大家想一块去

懂球帝
2026-01-19 14:49:30
神仙打架!十部电影扎堆2026春节档,周星驰两部作品成焦点

神仙打架!十部电影扎堆2026春节档,周星驰两部作品成焦点

影唠安利社
2026-01-17 10:05:38
释小龙不再隐瞒!坦言亲父身份,难怪多年不拍戏资产却超十亿

释小龙不再隐瞒!坦言亲父身份,难怪多年不拍戏资产却超十亿

以茶带书
2026-01-15 13:07:47
果敢四大家族残害中国人14年,因一神秘女子失踪遭同盟军清剿

果敢四大家族残害中国人14年,因一神秘女子失踪遭同盟军清剿

真实故事汇
2024-10-05 11:35:24
贝克汉姆和贝嫂没向儿媳道歉,儿子表示:你们以后别跟我联系了

贝克汉姆和贝嫂没向儿媳道歉,儿子表示:你们以后别跟我联系了

小书生吃瓜
2026-01-15 17:46:37
厦门最大的国企,干亏损了

厦门最大的国企,干亏损了

拾遗地
2026-01-19 10:38:44
遭到中方拒绝后,欧盟内部终于意识到:中国已经不把他们放在眼里

遭到中方拒绝后,欧盟内部终于意识到:中国已经不把他们放在眼里

亿通电子游戏
2026-01-19 11:44:17
老蒋曾说:亡于日本为亡国奴,亡于共产党,则为奴亦不可得

老蒋曾说:亡于日本为亡国奴,亡于共产党,则为奴亦不可得

老范谈史
2026-01-05 21:19:06
梁小龙本可以安享晚年!生前脸色蜡黄 仍大口喝白酒,离世早有征兆

梁小龙本可以安享晚年!生前脸色蜡黄 仍大口喝白酒,离世早有征兆

东方不败然多多
2026-01-19 11:40:19
唏嘘啊,千亿资金走了

唏嘘啊,千亿资金走了

隔壁老投
2026-01-19 14:36:15
1-0!米兰20轮不败仍距国米3分 800万新援登场3分钟绝杀+加盟首球

1-0!米兰20轮不败仍距国米3分 800万新援登场3分钟绝杀+加盟首球

我爱英超
2026-01-19 06:17:49
卡里克首签锁定!曼联 2000 万报价顶级巨星 重返英超只差签字

卡里克首签锁定!曼联 2000 万报价顶级巨星 重返英超只差签字

奶盖熊本熊
2026-01-19 04:47:22
美国国父杰斐逊,曾与 14 岁黑奴育有六子却至死否认,直到两百年后,当年的真相才被查证揭晓

美国国父杰斐逊,曾与 14 岁黑奴育有六子却至死否认,直到两百年后,当年的真相才被查证揭晓

源溯历史
2026-01-13 00:28:21
北上广深,培训机构已经很难招到新生了

北上广深,培训机构已经很难招到新生了

金哥说新能源车
2026-01-19 11:52:31
聂卫平一天能喝4斤白酒,女儿愿帮其戒酒,儿子却直接改姓孔!

聂卫平一天能喝4斤白酒,女儿愿帮其戒酒,儿子却直接改姓孔!

荷兰豆爱健康
2026-01-19 05:48:39
Nature重磅!孩子长不高,竟是这个常见食物吃多了?

Nature重磅!孩子长不高,竟是这个常见食物吃多了?

医学界
2026-01-17 23:20:24
75岁刘晓庆再拍武则天,还演少女!1天睡4小时,手机壳印着她本人

75岁刘晓庆再拍武则天,还演少女!1天睡4小时,手机壳印着她本人

头号电影院
2026-01-18 14:23:30
2026-01-19 15:20:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2057573文章数 5289关注度
往期回顾 全部

科技要闻

这一仗必须赢!马斯克死磕芯片"9个月一更"

头条要闻

委代总统最新发声:将继续发展石油和天然气产业

头条要闻

委代总统最新发声:将继续发展石油和天然气产业

体育要闻

21年后,中国男足重返亚洲四强

娱乐要闻

离婚三年,孙怡董子健首次公开互动

财经要闻

公章争夺 家族反目 双星为何从顶端跌落?

汽车要闻

徐军:冲击百万销量,零跑一直很清醒

态度原创

本地
教育
数码
房产
军事航空

本地新闻

云游内蒙|黄沙与碧波撞色,乌海天生会“混搭”

教育要闻

“文字素描”写作营招募 | 告别流水账!掌握核心逻辑,筑牢写作根基

数码要闻

9850X3D将至 主板该怎么搭

房产要闻

封关刚刚满月,海南真爆了!三亚房价,涨幅冲上全国第三!

军事要闻

古美关系高度紧张 古巴启动"战争状态"

无障碍浏览 进入关怀版