网易首页 > 网易号 > 正文 申请入驻

机器人国际顶刊封面:用AI教会仿生人脸机器人“开口说话”

0
分享至

可能很多人刷到过一位名为“U航”博主(真名:胡宇航)的视频,他研发的仿生机器人视频在各大平台迅速走红,播放量累计过亿。许多网友直呼作品已近乎跨越“恐怖谷”。

2026年1月14日,仿生机器人脸Emo登上《Science Robotics》开年第一期期刊封面,这项成果同样出自胡宇航之手。



公开资料显示,这是胡宇航博士在读期间发表的第三篇顶级子刊论文(前两篇分别发表于2024年的《Science Robotics》与2025年的《Nature Machine Intelligence》)。他的研究聚焦于机器人自主学习与自我建模,并由此创立了“首形科技”,相继获得多家顶级投资机构的青睐。



  • Hu, Yuhang, et al. "Human-robot facial coexpression."Science Robotics9.88 (2024): eadi4724.
  • Hu, Yuhang, Jiong Lin, and Hod Lipson. "Teaching robots to build simulations of themselves."Nature Machine Intelligence(2025): 1-11.





*胡宇航(网名“U航”),毕业于美国哥伦比亚大学,博士学位,首形科技创始人。长期专注于机器人自主学习的研究工作。研究成果发表于《Nature Machine Intelligence》,《Science Robotics》等国际顶级期刊。

致力于赋予机器人“自我模型”能力,即构建对自身物理结构与运动的内部表征,使机器人能够更好地理解自身,并适应多变的形态、环境与任务。在仿生人机交互方向,他提出融合语音、视觉与动作的情4绪理解与表达一体化系统,为机器人提供更加自然的交互能力。通过自监督学习机制,他的方法使机器人在无需人工干预的情况下不断提升人机互动质量,朝着具备终身学习能力的智能体不断迈进。

从实验室的突破到产业的萌芽,胡宇航与他的首形科技,正将前沿的学术探索推向人形机器人的核心挑战。

▍让人形机器人拥有能张嘴说话的脸

在生成式AI 赋予了机器人“大脑”之后,一个尴尬的物理鸿沟始终存在:我们拥有了能吟诗作赋的 ChatGPT,但承载它的载体——人形机器人,在开口说话时依然像个蹩脚的腹语表演者。

此次胡宇航博士团队在顶级期刊《Science Robotics》上发表最新的封面论文,展示了一种全新的软硬件解决方案:让人形机器人拥有能张嘴说话的脸。

该研究提出了一种基于Facial Action Transformer (FAT)的自监督学习框架,配合高自由度的柔性机械结构,首次实现了机器人唇部运动对任意语音流的“零样本”实时生成。



用于机器人唇形同步的FAT 模型架构。该模型采用独特的双路输入设计来保证动作的连贯性:左侧的Transformer 编码器负责“回顾过去”,处理历史时刻的电机指令,从而捕捉动作的时间连贯性;右侧的Transformer 解码器则负责“展望目标”,接收来自 VAE 的视觉特征数据,告诉机器人当下和未来应该呈现什么口型。两者结合后,模型能精准预测出当前所需的电机控制信号。这种架构不仅实现了声音与唇形的高度同步,还有效消除了机械抖动,确保了从一个口型过渡到下一个口型的平滑自然。


中间图:机器人通过摄像头采集进行学习。


硬件重构:拥有10自由度的嘴

长期以来,机器人面部表情僵硬的核心原因在于机械结构的匮乏。传统的刚性连杆难以模拟人类面部肌肉极其复杂的形变。

该团队摒弃了传统的线驱动结构,设计了一套10个自由度(全脸25-DoF)的专用唇部驱动机制。这套机制被精巧地埋藏在一层可快拆的柔性硅胶“皮肤”之下。多点协同驱动:包括上唇、下唇、嘴角以及下颌。

这种机械设计使得机器人能够物理实现闭唇音(如/p/、/b/)、圆唇音(如/u/)以及复杂的撮唇动作,为算法提供了物理层面的执行基础。



机器人面部硬件系统架构。(A) 系统概览与交互组件:展示了集成的扬声器、麦克风及高清摄像头模块。重点在于磁吸式快拆连接器,该机构不仅能精准定位柔性硅胶皮肤,还能传递推拉双向动力,是实现复杂唇形动作的关键。(B) 机器人实体外观:覆盖柔性皮肤后的拟人化形态,其底座内部集成了用于实时处理的边缘计算单元Nvidia Jetson AGX。(C) 唇部驱动机构特写:详示了上唇、下唇及嘴角的连接器布局。通过磁吸接口与支架连接的设计,使得柔性皮肤可以轻松拆卸,便于日常维护或更换个性化面容。

算法核心:从“数字世界”到“物理现实”的跨越

如何让这10 个电机精准配合一段从未听过的音频?研究团队没有采用传统的“基于规则”的编程(即手动写死‘听到A音发B动作’),而是让机器人“自我观察”。

团队构建了一个闭环的自监督学习管线(Self-supervised Learning Pipeline)

1.从虚拟到现实(Sim-to-Real):系统首先利用Wav2Lip 等算法,将音频转化为数字视频(Synthesized Video)。这相当于机器人在脑海中构想“如果我完美说话应该长什么样”,类似今天世界模型(World model),让机器人生成未来的画面。

2.视觉编码(VAE):利用变分自编码器(VAE),将这些视觉图像压缩为高维的“潜变量(Latent Vectors)”。

3.动作生成(Transformer):这是最关键的一步。Facial Action Transformer (FAT) 充当了翻译官,它接收音频信号和视觉潜变量,直接预测出物理电机所需的运动指令。

这一过程不仅不需要人工标注数据,还让机器人具备了自我纠错能力——通过对比摄像头拍摄的自己(Real Robot)和脑海中的完美构想(Synthesized),不断优化电机控制策略。

性能验证:跨越语言的通用性

实验数据显示,该系统的唇形同步误差显著低于传统的音频振幅驱动方法。

更为惊人的是其泛化能力。尽管训练数据有限,但这台机器人展示了惊人的语言适应性。在未针对特定语言进行微调的情况下,它成功实现了包括中文、日语、俄语、希伯来语在内的11 种语言的唇形同步。甚至当输入一段 AI 生成的歌曲时,机器人也能跟随旋律和歌词,生成流畅的演唱动作。这意味着,该系统捕捉到了人类发音与面部肌肉协同的底层物理规律,而非简单的死记硬背。



多语言唇形同步性能的量化评估:图中展示了不同语言环境下的同步误差表现。X轴标签下方标注的n值代表每种语言测试样本的视频总帧数。统计结果显示,所有非英语语言的同步误差均未超出英语(基准)的误差范围,不仅验证了模型在不同语音特性下的稳定性,也证实了其具备显著的跨语言泛化能力(Cross-lingual Generalization)。

结语:具身智能的微表情时代

胡宇航博士等人的这项工作,标志着人形机器人正在从“文本自然交互”迈向“丰富情感交互”的新阶段。

当大语言模型解决了“说什么”,这项技术解决了“怎么说”。在未来,随着人形机器人和多模态大模型技术的进一步突破,我们或许将不再只是通过屏幕与游戏角色/电影明星/AI交互。那张在物理世界中生动、细腻、能与你产生眼神与情感共鸣的脸,将成为人机共存时代最标准的情感接口。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
火爆冲突3人被驱逐!同曦狂胜送四川21连败 郭昊文祝铭震均20分

火爆冲突3人被驱逐!同曦狂胜送四川21连败 郭昊文祝铭震均20分

醉卧浮生
2026-01-30 21:31:28
中央委员孙绍骋落马!中纪委新年首月已打下7“虎”

中央委员孙绍骋落马!中纪委新年首月已打下7“虎”

上观新闻
2026-01-30 12:09:11
金晨肇事逃逸更多细节曝光!疑似医务工作者透露:车祸前刚做鼻子

金晨肇事逃逸更多细节曝光!疑似医务工作者透露:车祸前刚做鼻子

社会酱
2026-01-30 19:48:11
李亚鹏没想到,刚捐100万的李国庆,又官宣重大决定:拿出5000万

李亚鹏没想到,刚捐100万的李国庆,又官宣重大决定:拿出5000万

李健政观察
2026-01-30 15:19:00
1-2!U17国足热身赛遭乌兹别克逆转,张伯霖闪击,邝兆镭失误送礼

1-2!U17国足热身赛遭乌兹别克逆转,张伯霖闪击,邝兆镭失误送礼

我爱英超
2026-01-30 21:38:38
五盘鏖战胜出!德约终结辛纳澳网19连胜,第38次跻身大满贯决赛

五盘鏖战胜出!德约终结辛纳澳网19连胜,第38次跻身大满贯决赛

全景体育V
2026-01-30 22:33:10
沃什胜出!特朗普为何提名他任美联储主席?对市场有何影响?

沃什胜出!特朗普为何提名他任美联储主席?对市场有何影响?

澎湃新闻
2026-01-30 20:25:35
谁供油,谁挨罚!特朗普宣布国家紧急状态,要切断古巴“石油生命线”

谁供油,谁挨罚!特朗普宣布国家紧急状态,要切断古巴“石油生命线”

上观新闻
2026-01-30 20:09:04
东风风行品牌正式登陆埃及市场 构建北非汽车产业新格局

东风风行品牌正式登陆埃及市场 构建北非汽车产业新格局

好车说事
2026-01-28 09:27:25
"性商第一人"周媛被立案调查!9.9引流变现2400万,恐不只尺度大

"性商第一人"周媛被立案调查!9.9引流变现2400万,恐不只尺度大

派大星纪录片
2026-01-30 18:07:40
预计明日凌晨3-6点,美伊大战会正式开启,理由如下

预计明日凌晨3-6点,美伊大战会正式开启,理由如下

今日马说
2026-01-30 23:26:19
爆iPhone 18 Pro将首搭星链卫星通信,无需额外硬件实现“无死角”联网

爆iPhone 18 Pro将首搭星链卫星通信,无需额外硬件实现“无死角”联网

环球网资讯
2026-01-30 15:14:07
金晨通报来了!本人承认开车出事后离开就医,晒受伤照力证没骗保

金晨通报来了!本人承认开车出事后离开就医,晒受伤照力证没骗保

萌神木木
2026-01-30 18:14:29
他年纪轻轻财富自由,背地里性虐成狂。打坏女人隆胸假体,叫她换硅胶的,更耐打..

他年纪轻轻财富自由,背地里性虐成狂。打坏女人隆胸假体,叫她换硅胶的,更耐打..

英国那些事儿
2026-01-29 23:25:43
官媒怒批!吴京新片《镖人》未映先爆雷,30人8个头衔太荒唐!

官媒怒批!吴京新片《镖人》未映先爆雷,30人8个头衔太荒唐!

史行途
2026-01-30 09:43:04
官宣!国足U23队长徐彬正式加盟狼队,以租借形式征战本赛季剩余联赛

官宣!国足U23队长徐彬正式加盟狼队,以租借形式征战本赛季剩余联赛

小星球探索
2026-01-30 18:18:29
东风风行品牌正式登陆埃及市场 构建北非汽车产业新格局

东风风行品牌正式登陆埃及市场 构建北非汽车产业新格局

万象车事
2026-01-28 09:32:46
保命还是保饭碗?5万种中成药强制退市!是要毁了中医还是救中医

保命还是保饭碗?5万种中成药强制退市!是要毁了中医还是救中医

李将平老师
2026-01-29 14:58:04
突发,全线大跌!

突发,全线大跌!

魏家东
2026-01-30 13:20:50
警方通报金晨交通事故,否认网传骗保,金晨发声道歉公开受伤照片

警方通报金晨交通事故,否认网传骗保,金晨发声道歉公开受伤照片

扒虾侃娱
2026-01-30 18:06:46
2026-01-31 00:40:49
机器人大讲堂 incentive-icons
机器人大讲堂
立德机器人平台,是一个集媒体品牌、智库咨询、投资孵化、引智招商为一体的机器人垂直领域服务平台
6219文章数 4574关注度
往期回顾 全部

科技要闻

意念控制机器人不是科幻 1-2年就落地

头条要闻

特朗普警告称中英、中加合作是"危险的" 外交部回应

头条要闻

特朗普警告称中英、中加合作是"危险的" 外交部回应

体育要闻

“假赌黑”的子弹,还要再飞一会儿吗?

娱乐要闻

警方通报金晨交通事故,否认网传骗保

财经要闻

水贝惊雷:揭秘杰我睿百亿黄金赌局的背后

汽车要闻

合资品牌首搭800V/5C快充 东风日产NX8将于3、4月上市

态度原创

时尚
旅游
本地
健康
公开课

今日热点:《闪灵》今日上映;保险公司确认金晨方曾放弃索赔……

旅游要闻

“先回家再出游” 火了!春节错峰旅行,省钱还不挤

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

耳石症分类型,症状大不同

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版