网易首页 > 网易号 > 正文 申请入驻

人脸机器人登上Science Robotics封面:AI教会仿生机器人开口说话

0
分享至



胡宇航(网名 “U 航”),毕业于美国哥伦比亚大学,博士学位,首形科技创始人。长期专注于机器人自主学习的研究工作。研究成果发表于《Nature Machine Intelligence》,《Science Robotics》等国际顶级期刊。致力于赋予机器人 “自我模型” 能力,即构建对自身物理结构与运动的内部表征,使机器人能够更好地理解自身,并适应多变的形态、环境与任务。在仿生人机交互方向,他提出融合语音、视觉与动作的情绪理解与表达一体化系统,为机器人提供更加自然的交互能力。通过自监督学习机制,他的方法使机器人在无需人工干预的情况下不断提升人机互动质量,朝着具备终身学习能力的智能体不断迈进。



论文地址:https://www.science.org/doi/10.1126/scirobotics.adx3017

曾发表论文:

  • Hu, Yuhang, et al. "Human-robot facial coexpression." Science Robotics 9.88 (2024): eadi4724.
  • Hu, Yuhang, Jiong Lin, and Hod Lipson. "Teaching robots to build simulations of themselves." Nature Machine Intelligence (2025): 1-11.
  • https://mp.weixin.qq.com/s/HdnbBweZseTjMedyWHDLSg

2026 年 1 月 15 日,一项来自美国哥伦比亚大学工程学院的突破性研究正式发表于《Science Robotics》,并登上期刊封面。该研究展示了一项全新的机器人技术:一台具备仿生面部结构的人形机器人,通过深度学习实现与语音和歌曲同步的真实唇部运动。它能跟着人类的语言精准张合嘴唇,甚至,能跟着音乐唱歌。标志着人形机器人在人类最丰富的交流通道之一唇部表达上,迈出了突破性一步。

为什么 “嘴唇” 如此重要?

研究显示,在面对面的交流中,人类将近一半的注意力集中在唇部运动上。我们或许能容忍机器人走路笨拙、手部动作僵硬,但哪怕极其轻微的不自然面部表情,都会立刻引发本能的不适。这正是著名的 “恐怖谷”。

长期以来,即便是最先进的人形机器人,在 “说话” 时也只能做出类似木偶的张合动作 —— 如果它们有脸的话。但这一次,情况正在发生改变。

一个会自主学习表情的机器人

在这项研究中,研究团队打造了一张高度仿生的机器人面孔:

在一层柔性硅胶皮肤之下,隐藏着20 余个微型电机,能够快速、安静且协同地驱动唇部形变。



图 2. 机器人唇形硬件结构。(A)面部机器人设计概览,重点展示了人机交互关键组件:包括扬声器、麦克风、高清摄像模块,以及用于固定柔软硅胶面皮的磁吸式快拆连接器。该连接器能实现面皮的精准定位,并通过推拉双向运动驱动硅胶面皮,完成说话时所需的复杂唇部动作。(B)搭载柔软硅胶面皮的人形机器人外观展示。其底座内部集成有边缘计算设备。(C)唇部驱动系统特写,展示上唇、下唇与唇角连接器分别对应固定于相应唇部支架。柔软可替换的面皮通过磁吸连接器固定,可便捷拆卸以进行维护或个性化调整。

随后,机器人被 “带到镜子前”…

就像一个第一次对着镜子学做表情的孩子,机器人通过观察自己面部在不同电机驱动下的变化,构建 Facial Action Transformer (FAT) 模型,逐渐学会如何控制自己的脸(机器人自我建模 Robotic Self-modeling)。研究团队将这一过程称为一种 “视觉 — 动作” 的自监督学习



图 3. 机器人能实现的口型及其对应音标展示。该机器人展示了再现关键英语音标的能力,例如爆破音(/p/ 和 /b/)、双唇音(/m/)以及圆唇元音(/u/ 和 /o/)。通过独立控制上唇、下唇及嘴角,每帧图像均捕捉到其实现的典型唇部运动效果。这些数据为机器人在说话时实现正确的唇形匹配奠定了基础。

依靠纯声音驱动嘴形动作

接着,机器人通过观看合成的机器人视频(通过 Wav2Lip)在不同语音语料(由 TTS 和 ChatGPT 生成)的真实唇部变化,进一步学习声音与唇部运动之间的对应关系。最终,这两种能力被整合在一起 —— 机器人得以将收到的声音信号,直接转化为连续、自然的唇部运动。无需理解语义,机器人已经能 “对得上口型”。



图 4. 机器人唇形同步的自监督学习框架。 (A) 数据收集阶段:机器人通过与语音相关的随机指令自主生成数据集,利用 RGB 摄像头捕捉广泛的唇部运动,以获取 3D 唇形数据。(B) 部署过程:始于来自 ChatGPT 的文本输入,文本被转换为音频,随后利用 Wav2Lip 技术合成机器人视频。利用真实机器人视频及其对应指令,训练由编码器和解码器(VAE)组成的机器人逆向变换器,以生成平滑、准确、可供真实机器人执行的电机指令。

多语言能力

研究团队测试了机器人在多种语言、不同语音环境甚至歌曲中的表现。结果显示,即使在复杂的语音节奏下,机器人也能完成连贯的唇部同步,甚至演唱来自其 AI 生成的曲目。

机器人多语言口型对齐能力



图 5. 多语言唇语同步性能量化表现。x 轴标签下方标注的样本量 n 对应每种语言的测试句子视频帧数。结果表明,所有非英语语言的同步误差均保持在英语误差范围内,显示出稳健的跨语言泛化能力。

当然,这还不是终点。研究者坦言,像 “B” 这类需要完全闭唇的音,以及 “W” 这类涉及明显撮唇的发音,仍然存在挑战。但关键在于 ——这是一种可以随着学习持续进化的能力,而不是写死的规则。

跨越恐怖谷的 “缺失环节”

在研究者看来,面部表情 —— 尤其是唇部的自然运动,正是长期以来机器人能力中的 “缺失环节”。“当前的人形机器人更多关注行走和抓取,但凡是需要与人面对面交流的场景,面部表达同样关键。”

随着人形机器人逐渐进入娱乐、教育、医疗、陪护等高度依赖情感沟通的领域,一张温暖、自然、可信的‘脸’将不再是加分项,而是入场券。经济学家预测,未来十年全球或将制造超过十亿台人形机器人进入人们的生活场景。而几乎可以确定的是 —— 它们不可能都没有脸。

从实验室走向现实

这项封面研究,不仅是一次学术突破,也展示了中国学者在国际人形机器人领域具备独特的创新能力。

第一作者胡宇航博士表示,当唇部同步能力与对话型大模型结合时,机器人与人类之间的连接将发生质变。“我们交流中有大量情感信息并不在语言本身,而在面部和身体语言中。机器人正在开始触碰这条通道。”

当机器人真正学会像人一样 “说话” 和 “表达”,

恐怖谷,正在被一步步填平。

人类与机器人的信任和情感,将会迎来新的篇章。



特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
从高管到送外卖,一个985硕士的10次滑落

从高管到送外卖,一个985硕士的10次滑落

最人物
2026-01-14 15:35:35
东方电气,再签880亿订单!

东方电气,再签880亿订单!

投研邦V
2026-01-15 19:45:38
远离造神陷阱,官媒揭开杀猪宴呆呆妹真实处境,令人担心的事发生

远离造神陷阱,官媒揭开杀猪宴呆呆妹真实处境,令人担心的事发生

法老不说教
2026-01-14 14:43:04
李在明面见高市,绝口不提日本扩军,反提一个问题,与中国相关

李在明面见高市,绝口不提日本扩军,反提一个问题,与中国相关

博览历史
2026-01-14 22:03:46
抵达北京的那一刻,听到接机人员的身份,加总理突然走不动路了

抵达北京的那一刻,听到接机人员的身份,加总理突然走不动路了

时时有聊
2026-01-15 20:11:52
太冒险!除骑马,贺娇龙宣传新疆棉,坐吊床升到胡杨林上空100米

太冒险!除骑马,贺娇龙宣传新疆棉,坐吊床升到胡杨林上空100米

火山诗话
2026-01-15 13:25:33
39岁江疏影热舞撩人!蓝衫棕裤遮不住好身材,妩媚一笑秒杀少女?

39岁江疏影热舞撩人!蓝衫棕裤遮不住好身材,妩媚一笑秒杀少女?

娱乐领航家
2026-01-15 23:00:03
曾泽生在朝鲜战场立大功后回京见毛主席,为何被问得汗流浃背?

曾泽生在朝鲜战场立大功后回京见毛主席,为何被问得汗流浃背?

睡前讲故事
2025-12-26 13:52:54
伊朗外长:政府已完全掌控局面 局势已平静

伊朗外长:政府已完全掌控局面 局势已平静

新华社
2026-01-15 10:00:06
A股:从明天起,历史或将惊人相似!A股核弹级别主升浪正在蓄势待发

A股:从明天起,历史或将惊人相似!A股核弹级别主升浪正在蓄势待发

股市皆大事
2026-01-15 16:33:39
俄男子把1岁儿子3次浸入冰水中,当天气温零下30℃,网民批评该行为是对孩子的残酷实验

俄男子把1岁儿子3次浸入冰水中,当天气温零下30℃,网民批评该行为是对孩子的残酷实验

观威海
2026-01-15 10:38:04
美国军火商洛马公司因没缴纳中方开出990亿罚单,后果竟如此严重

美国军火商洛马公司因没缴纳中方开出990亿罚单,后果竟如此严重

百态人间
2025-12-13 16:07:09
缅甸发生多起中国公民卷入涉外婚姻骗局或非法务工纠纷案件,中使领馆提醒

缅甸发生多起中国公民卷入涉外婚姻骗局或非法务工纠纷案件,中使领馆提醒

界面新闻
2026-01-15 19:52:34
又涨停了,3个半月股价翻8.6倍,“光伏第一妖股”凭什么?

又涨停了,3个半月股价翻8.6倍,“光伏第一妖股”凭什么?

钛媒体APP
2026-01-15 19:46:08
今年第1号台风生成!深圳下周将迎“断崖式”降温

今年第1号台风生成!深圳下周将迎“断崖式”降温

鲁中晨报
2026-01-15 21:07:05
受够了AI脱衣?新《古墓丽影》劳拉演员宣布推特删号

受够了AI脱衣?新《古墓丽影》劳拉演员宣布推特删号

游民星空
2026-01-14 12:13:11
小米Air完全对标苹果 内部判定无市场已取消

小米Air完全对标苹果 内部判定无市场已取消

PChome电脑之家
2026-01-13 10:29:52
旅行者一号已经飞了半个世纪,为什么还能和地球保持联系?

旅行者一号已经飞了半个世纪,为什么还能和地球保持联系?

观察宇宙
2026-01-11 22:48:30
最新 | 大张伟天津演唱会有变!

最新 | 大张伟天津演唱会有变!

天津生活通
2026-01-15 11:24:03
闫学晶事件迎来反转!林傲霏中戏毕业照曝光,中戏欺骗了所有考生

闫学晶事件迎来反转!林傲霏中戏毕业照曝光,中戏欺骗了所有考生

阿纂看事
2026-01-14 16:41:41
2026-01-15 23:28:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12126文章数 142536关注度
往期回顾 全部

科技要闻

阿里最狠的一次“自我革命”

头条要闻

车主称4S店只卖套餐不给单换:刹车油线下价是线上3倍

头条要闻

车主称4S店只卖套餐不给单换:刹车油线下价是线上3倍

体育要闻

聂卫平:黑白棋盘上的凡人棋圣

娱乐要闻

传奇棋圣聂卫平离世,网友集体悼念

财经要闻

央行再次结构性降息0.25个百分点

汽车要闻

吉利帝豪/缤越推冠军一口价 起售价4.88万

态度原创

亲子
本地
手机
旅游
军事航空

亲子要闻

艾登在学校遇到烦恼,同学说他不是中国人不乐意了,杰森支了一招

本地新闻

云游内蒙|黄沙与碧波撞色,乌海天生会“混搭”

手机要闻

红魔高管预热新机:所有跟进风扇的友商都欠红魔一句感谢

旅游要闻

人文经济激活消费新动能|重庆鲁祖庙传统风貌区:百年老街区蝶变烟火新潮地

军事要闻

美国已正式开始出售委内瑞拉石油

无障碍浏览 进入关怀版