网易首页 > 网易号 > 正文 申请入驻

人脸机器人登上Science Robotics封面:AI教会仿生机器人开口说话

0
分享至



胡宇航(网名 “U 航”),毕业于美国哥伦比亚大学,博士学位,首形科技创始人。长期专注于机器人自主学习的研究工作。研究成果发表于《Nature Machine Intelligence》,《Science Robotics》等国际顶级期刊。致力于赋予机器人 “自我模型” 能力,即构建对自身物理结构与运动的内部表征,使机器人能够更好地理解自身,并适应多变的形态、环境与任务。在仿生人机交互方向,他提出融合语音、视觉与动作的情绪理解与表达一体化系统,为机器人提供更加自然的交互能力。通过自监督学习机制,他的方法使机器人在无需人工干预的情况下不断提升人机互动质量,朝着具备终身学习能力的智能体不断迈进。



论文地址:https://www.science.org/doi/10.1126/scirobotics.adx3017

曾发表论文:

  • Hu, Yuhang, et al. "Human-robot facial coexpression." Science Robotics 9.88 (2024): eadi4724.
  • Hu, Yuhang, Jiong Lin, and Hod Lipson. "Teaching robots to build simulations of themselves." Nature Machine Intelligence (2025): 1-11.
  • https://mp.weixin.qq.com/s/HdnbBweZseTjMedyWHDLSg

2026 年 1 月 15 日,一项来自美国哥伦比亚大学工程学院的突破性研究正式发表于《Science Robotics》,并登上期刊封面。该研究展示了一项全新的机器人技术:一台具备仿生面部结构的人形机器人,通过深度学习实现与语音和歌曲同步的真实唇部运动。它能跟着人类的语言精准张合嘴唇,甚至,能跟着音乐唱歌。标志着人形机器人在人类最丰富的交流通道之一唇部表达上,迈出了突破性一步。

为什么 “嘴唇” 如此重要?

研究显示,在面对面的交流中,人类将近一半的注意力集中在唇部运动上。我们或许能容忍机器人走路笨拙、手部动作僵硬,但哪怕极其轻微的不自然面部表情,都会立刻引发本能的不适。这正是著名的 “恐怖谷”。

长期以来,即便是最先进的人形机器人,在 “说话” 时也只能做出类似木偶的张合动作 —— 如果它们有脸的话。但这一次,情况正在发生改变。

一个会自主学习表情的机器人

在这项研究中,研究团队打造了一张高度仿生的机器人面孔:

在一层柔性硅胶皮肤之下,隐藏着20 余个微型电机,能够快速、安静且协同地驱动唇部形变。



图 2. 机器人唇形硬件结构。(A)面部机器人设计概览,重点展示了人机交互关键组件:包括扬声器、麦克风、高清摄像模块,以及用于固定柔软硅胶面皮的磁吸式快拆连接器。该连接器能实现面皮的精准定位,并通过推拉双向运动驱动硅胶面皮,完成说话时所需的复杂唇部动作。(B)搭载柔软硅胶面皮的人形机器人外观展示。其底座内部集成有边缘计算设备。(C)唇部驱动系统特写,展示上唇、下唇与唇角连接器分别对应固定于相应唇部支架。柔软可替换的面皮通过磁吸连接器固定,可便捷拆卸以进行维护或个性化调整。

随后,机器人被 “带到镜子前”…

就像一个第一次对着镜子学做表情的孩子,机器人通过观察自己面部在不同电机驱动下的变化,构建 Facial Action Transformer (FAT) 模型,逐渐学会如何控制自己的脸(机器人自我建模 Robotic Self-modeling)。研究团队将这一过程称为一种 “视觉 — 动作” 的自监督学习



图 3. 机器人能实现的口型及其对应音标展示。该机器人展示了再现关键英语音标的能力,例如爆破音(/p/ 和 /b/)、双唇音(/m/)以及圆唇元音(/u/ 和 /o/)。通过独立控制上唇、下唇及嘴角,每帧图像均捕捉到其实现的典型唇部运动效果。这些数据为机器人在说话时实现正确的唇形匹配奠定了基础。

依靠纯声音驱动嘴形动作

接着,机器人通过观看合成的机器人视频(通过 Wav2Lip)在不同语音语料(由 TTS 和 ChatGPT 生成)的真实唇部变化,进一步学习声音与唇部运动之间的对应关系。最终,这两种能力被整合在一起 —— 机器人得以将收到的声音信号,直接转化为连续、自然的唇部运动。无需理解语义,机器人已经能 “对得上口型”。



图 4. 机器人唇形同步的自监督学习框架。 (A) 数据收集阶段:机器人通过与语音相关的随机指令自主生成数据集,利用 RGB 摄像头捕捉广泛的唇部运动,以获取 3D 唇形数据。(B) 部署过程:始于来自 ChatGPT 的文本输入,文本被转换为音频,随后利用 Wav2Lip 技术合成机器人视频。利用真实机器人视频及其对应指令,训练由编码器和解码器(VAE)组成的机器人逆向变换器,以生成平滑、准确、可供真实机器人执行的电机指令。

多语言能力

研究团队测试了机器人在多种语言、不同语音环境甚至歌曲中的表现。结果显示,即使在复杂的语音节奏下,机器人也能完成连贯的唇部同步,甚至演唱来自其 AI 生成的曲目。

机器人多语言口型对齐能力



图 5. 多语言唇语同步性能量化表现。x 轴标签下方标注的样本量 n 对应每种语言的测试句子视频帧数。结果表明,所有非英语语言的同步误差均保持在英语误差范围内,显示出稳健的跨语言泛化能力。

当然,这还不是终点。研究者坦言,像 “B” 这类需要完全闭唇的音,以及 “W” 这类涉及明显撮唇的发音,仍然存在挑战。但关键在于 ——这是一种可以随着学习持续进化的能力,而不是写死的规则。

跨越恐怖谷的 “缺失环节”

在研究者看来,面部表情 —— 尤其是唇部的自然运动,正是长期以来机器人能力中的 “缺失环节”。“当前的人形机器人更多关注行走和抓取,但凡是需要与人面对面交流的场景,面部表达同样关键。”

随着人形机器人逐渐进入娱乐、教育、医疗、陪护等高度依赖情感沟通的领域,一张温暖、自然、可信的‘脸’将不再是加分项,而是入场券。经济学家预测,未来十年全球或将制造超过十亿台人形机器人进入人们的生活场景。而几乎可以确定的是 —— 它们不可能都没有脸。

从实验室走向现实

这项封面研究,不仅是一次学术突破,也展示了中国学者在国际人形机器人领域具备独特的创新能力。

第一作者胡宇航博士表示,当唇部同步能力与对话型大模型结合时,机器人与人类之间的连接将发生质变。“我们交流中有大量情感信息并不在语言本身,而在面部和身体语言中。机器人正在开始触碰这条通道。”

当机器人真正学会像人一样 “说话” 和 “表达”,

恐怖谷,正在被一步步填平。

人类与机器人的信任和情感,将会迎来新的篇章。



特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
阿里和DeepSeek谈崩?最新回应来了,他俩根本就没有谈!

阿里和DeepSeek谈崩?最新回应来了,他俩根本就没有谈!

大白聊IT
2026-05-10 14:36:51
38岁梅西获评9.4分+加冕官方MVP:一球两助攻,率队4-2大胜而归

38岁梅西获评9.4分+加冕官方MVP:一球两助攻,率队4-2大胜而归

侧身凌空斩
2026-05-10 03:13:34
美国突曝海量UFO文件!中国三大经典UFO事件:萧山机场真相颠覆!

美国突曝海量UFO文件!中国三大经典UFO事件:萧山机场真相颠覆!

大稻网络科技
2026-05-09 09:29:34
他俩是唯一给文章送花篮的夫妻,结婚28年,如今有一双报恩的儿女

他俩是唯一给文章送花篮的夫妻,结婚28年,如今有一双报恩的儿女

观察鉴娱
2026-05-10 11:00:48
虎父无犬女!曹德旺女儿罕见现身,不与哥哥争家产,不是美国国籍

虎父无犬女!曹德旺女儿罕见现身,不与哥哥争家产,不是美国国籍

白面书誏
2026-05-09 14:49:29
美国不讲关系?特朗普这届班子的人情世故,狠抽了“精美们”的脸

美国不讲关系?特朗普这届班子的人情世故,狠抽了“精美们”的脸

壹只灰鸽子
2026-05-10 14:25:00
选址是关键!江西三甲新院区为何冰火两重天

选址是关键!江西三甲新院区为何冰火两重天

坠入二次元的海洋
2026-05-10 09:54:27
伊朗外长的专机刚飞赴北京,以色列就触碰中方红线,中国强烈谴责

伊朗外长的专机刚飞赴北京,以色列就触碰中方红线,中国强烈谴责

浮光惊掠影
2026-05-10 14:22:15
火箭交易计划披露!不卖杜兰特+将追另一名超巨 愿为字母哥卖申京

火箭交易计划披露!不卖杜兰特+将追另一名超巨 愿为字母哥卖申京

锅子篮球
2026-05-09 22:27:40
人活多久,看排汗就知道?寿命长的人,出汗一般有这5个特征!

人活多久,看排汗就知道?寿命长的人,出汗一般有这5个特征!

医学科普汇
2026-04-22 16:58:38
荒唐!一博主力挺FIFA开价合理,问题出在中国只允许央视一家谈判

荒唐!一博主力挺FIFA开价合理,问题出在中国只允许央视一家谈判

小徐讲八卦
2026-05-10 08:31:43
53岁邓亚萍近况曝光!嫁给林志刚婚姻幸福,如今儿子成为她的骄傲

53岁邓亚萍近况曝光!嫁给林志刚婚姻幸福,如今儿子成为她的骄傲

代军哥哥谈娱乐
2026-05-10 09:27:19
谭德塞前往特内里费岛 呼吁冷静对待邮轮疫情

谭德塞前往特内里费岛 呼吁冷静对待邮轮疫情

环球网资讯
2026-05-10 07:06:07
大伯出狱全家没人接,我开车去接他,他偷偷塞我一张卡说有1200万

大伯出狱全家没人接,我开车去接他,他偷偷塞我一张卡说有1200万

千秋文化
2026-05-09 20:08:48
我今年65岁,存款20万,每月退休工资3000,到底能不能安享晚年?

我今年65岁,存款20万,每月退休工资3000,到底能不能安享晚年?

烙任情感
2026-05-09 10:54:10
国安5将缺席训练!大牌外援下半程将复出,俱乐部夏窗或签新前锋

国安5将缺席训练!大牌外援下半程将复出,俱乐部夏窗或签新前锋

体坛鉴春秋
2026-05-10 12:36:59
60岁以上老人,手里存款只要高于这3个数,养老从此不愁了

60岁以上老人,手里存款只要高于这3个数,养老从此不愁了

猫叔东山再起
2026-05-09 10:15:08
深夜!美联储,加息大消息!

深夜!美联储,加息大消息!

证券时报
2026-05-10 00:08:40
台电新Logo由“绿友友”96万元得标,网红揭重点:百万以内无需招标

台电新Logo由“绿友友”96万元得标,网红揭重点:百万以内无需招标

海峡导报社
2026-05-10 11:12:08
荣毅仁千金嫁进澳门富豪家,叶帅交代廖承志:问问周总理意见

荣毅仁千金嫁进澳门富豪家,叶帅交代廖承志:问问周总理意见

浩渺青史
2026-05-09 01:51:32
2026-05-10 15:11:01
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12957文章数 142647关注度
往期回顾 全部

科技要闻

DeepSeek融资,改写所有人的估值

头条要闻

中国在德7名精英组群性侵女性手段残忍 群主哈工大毕业

头条要闻

中国在德7名精英组群性侵女性手段残忍 群主哈工大毕业

体育要闻

詹姆斯生涯第6次0-3困境:今年会被横扫吗

娱乐要闻

大S女儿玥儿开通账号,用烟花缅怀母亲

财经要闻

白酒大逃杀

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

亲子
家居
数码
房产
公开课

亲子要闻

小叔子比老公小28岁,整天就知道粘着我

家居要闻

菁英人居 全能豪宅

数码要闻

铭瑄新板,小身材大能量?

房产要闻

低价甩卖!海口这个地标商业,无人接盘!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版