网易首页 > 网易号 > 正文 申请入驻

哥大博士让机器人脸告别“面瘫”,看视频学会11门语言

0
分享至

你是否想过,当人类面对面交流时,我们的注意力更多地被放在哪里?

第一直觉或许是眼睛。它们是心灵的窗户,能够传达出细微而生动的情感。科学研究也证实的确如此,在日常对话中,我们会频繁地注视对方的眼睛来捕捉情绪信号。

不过,当环境变得嘈杂时,情况就有所不同了。研究表明,在噪音环境下,人们会将 50%-55% 的注意力转向对话者的嘴唇,倾向于通过唇形来辅助理解对方在说什么。

这也解释了为什么即便是目前最先进的人形机器人,仍然让人在和它们面对面交流时感到不适。我们可以容忍它们笨拙的步态,甚至僵硬的手势,但当一张接近人类的面孔无法自然地活动时,就会生发出一丝诡异感。这就是机器人领域著名的"恐怖谷效应"——越接近人类却又不够完美的机器,反而会引发更强烈的排斥感。

在致力机器人如何跨越“恐怖谷”效应的道路上,首形科技是积极的拓路者之一。这家由哥伦比亚大学博士胡宇航创立的初创公司,自成立起便选择了一条与众不同的技术路径:不追求机器人在运动或操作能力上的极致性能,而是聚焦于赋予它们具有情绪表达能力的面部。过去一年多,这一方向为他们赢得了多轮融资,并且收获了社交媒体和市场的广泛关注。


图 | 胡宇航与人脸机器人 Emo (来源:受访者)

1 月 15 日,Science Robotics 封面刊发了胡宇航团队关于 Emo 面部机器人的研究,展示了其如何通过学习实现与语音、歌曲同步的唇部运动,这也是 Science Robotics 首次将人脸机器人刊登在封面。这项工作源于他在哥伦比亚大学的博士研究,也是他近两年在 Science 和 Nature 子刊上发表的第三篇论文。


(来源:Science Robotics)

嘴唇运动被低估的复杂性

“嘴唇是人们交互过程中动作最多的部位, 也是机器人从表情自然到交互自然非常重要的门槛。”胡宇航告诉 DeepTech,嘴唇运动的复杂性远超多数人的想象,甚至超出了机器人研究者此前的认知。

从技术角度看,这种复杂性首先体现在驱动机制上。与眉毛等单一方向运动的面部特征不同,嘴唇由多个肌肉群驱动,运动过程中存在频繁的接触与分离。同时,嘴唇对时间精度极为敏感,还需同步承载语言、情感与社交信号。胡宇航指出:“这使得嘴唇运动的建模从根本上超越了参数化控制,成为一个高维、非线性、强闭环的生成式形变问题。”


(来源:论文)

既然如此,面对如此复杂的任务,如何客观衡量机器人嘴唇运动的“真实性”呢?

胡宇航团队在论文中提出了一种创新方法:使用合成参考视频作为理想同步基准,在 VAE 编码器的潜空间中计算机器人嘴唇运动与参考视频之间的距离。该指标能够刻画整体嘴型动态与时序结构的偏差,避免了依赖易受噪声干扰的二维关键点。由此,研究者获得了一个客观的度量标准,可以在连续语音与多语言场景下评估音频-视觉同步误差。

这可以说是创新的一步。因为此前,机器人领域对嘴唇同步的尝试主要依赖手工预定义的运动规则和固定的音素-视位映射表。简单来说,就是为每个音素设计一套固定嘴型,再让机器人机械执行。

但这种方法存在明显的局限。胡宇航列举了几个关键问题:首先,同一音素的发声速度会因说话人、场景或情绪而异。例如,一个人在激动和平静状态下说出的“好”,虽然音素相同,但嘴唇运动的幅度、速度和形态可能截然不同。其次,在多语言、歌唱或方言等场景中,基于音素设计规则需要投入巨大的手工工作量。更关键的是,当机器人硬件升级时,所有动作几乎都要重新编排,难以复用。

此外,这种规则方法还隐含了一个假设:音素与嘴型之间存在着稳定、一对一的映射关系。但这显然与真实人类发音机制并不相符。实际上,同一音素的嘴唇运动在不同说话人、语速、情绪和语境下都存在显著差异,其时序、幅度和形态高度连续且上下文相关。

将这种连续性强行离散化为固定规则,必然丢失大量信息。规则方法也无法建模嘴唇作为软体器官所具有的非线性、并行驱动和跨时间依赖特性,最终只能生成“正确但僵硬”的嘴型序列。

相比之下,数据驱动方法能够从真实人类与机器人发音数据中学习复杂的统计规律与隐含约束。胡宇航表示:“这从根本上突破了规则方法在泛化性、可扩展性和自然性上的瓶颈。”

想要更像人,机器人需要“照镜子”

为了让机器人更精准地复刻学习人类的嘴唇动作,胡宇航团队巧妙地设计了两阶段“自监督学习系统”(Self-Supervised Learning, SSL):第一阶段,机器人通过“照镜子”建立自我模型;第二阶段,它观看人类视频学习嘴唇运动规律。


图 | 用于机器人唇部同步的自监督学习框架(来源:论文)

“两阶段设计的核心原因在于机器人与人类在外观、结构和运动约束上的本质差异。”胡宇航解释道。若跳过第一阶段,直接让机器人模仿人类视频,将不可避免地学习到大量自身硬件无法执行的形变模式,例如人类皮肤的滑移、唇齿细节或肌肉驱动方式。这些错误映射最终会导致机器人动作失真、抖动或被系统性削弱。

第一阶段的“照镜子”训练,目的并非学习表情本身,而是让模型明确“哪些运动在自身硬件与软体结构下是可实现的”。通过随机生成数千个面部表情并观察镜中反馈,系统建立起从视觉变化到自身可控空间的映射关系,为后续学习提供物理可行性的约束。

在具备自我模型的基础上,第二阶段引入人类视频的作用变得清晰:机器人学习人类嘴唇运动的统计规律与高层时序结构,并通过自我模型将这些规律投射到自身可执行的动作空间中。“这本质上是先解决‘我是谁、我能怎么动’,再解决‘人类是如何动的’。”胡宇航说。该策略有效避免了跨形态直接模仿带来的域错配问题,是实现自然、稳定且可泛化嘴唇运动的关键前提。


图 | 团队机器人 Emo 照镜子(来源:胡宇航)

出色的跨语言泛化能力

实验结果展示了这套系统的出色泛化能力:它能在 11 种语言中实现自然的嘴唇同步,包括英语、法语、日语、韩语、西班牙语、意大利语、德语、俄语、中文、希伯来语和阿拉伯语。


图 | 多语言口型同步性能的测试结果(来源:论文)

这种神奇的"跨语言"能力从何而来?胡宇航解释道:“系统并未学习语言或音素本身,而是学习了人类发音过程中更底层的肌肉运动模式。”在两阶段自监督框架下,模型首先熟悉机器人自身嘴唇能做出哪些动作;随后在观看人类视频时,它不再关注具体是哪种语言、哪个发音,而是去捕捉声音节奏与嘴唇动作之间那些跨越语言边界的共性规律。

“这些关系在不同语言中表现为高度一致的运动模式,比如张合节律、闭合-释放结构、过渡速度等。”换句话说,虽然各种语言的发音规则千差万别,但人类嘴唇的运动方式终究受限于相同的生理结构。正因如此,系统学到的是声音与动作之间更本质的对应关系,使它能够自然地适应多种语言,甚至应对不同的语速和说话风格。

尽管成果显著,胡宇航坦言系统仍面临技术挑战,其中最典型的是硬辅音(如 /b/、/p/、/m/、/w/)的处理。这些音素之所以棘手,不仅因为发音速度快,更因为它们同时涉及多重难以精确建模的约束条件。

以 /b/、/p/、/m/ 为例,发这几个音时,嘴唇需要在极短时间内完成“闭合—保持—释放”这一连串动作。闭合不够紧或时机稍有偏差,人耳立刻就能察觉异样。而 /w/ 更为复杂,不仅要求双唇闭拢,还需要嘴唇前突、形成圆形,同时配合口腔形状的连续变化。胡宇航补充,这意味着模型必须在毫秒级时间精度下,协调多个高度耦合的自由度,同时应对软体接触、非线性阻尼以及电机带宽限制等物理因素。

与元音或软辅音那种平滑渐变的动作不同,硬辅音更像是一种"开关式"的动作——既有连续的运动轨迹,又有瞬间的接触切换。这恰恰是当前数据驱动模型最容易出错、机器人执行难度最高的地方。

从实验结果来看,当前方法在一些极端语音场景下表现欠佳,比如语速极快、多人同时说话、歌唱中的颤音,以及情绪激动时的表达。胡宇航认为,这反映了方法的本质边界:"模型主要学习的是典型对话语境下声学时序与嘴唇运动之间的关系。"一旦输入偏离日常对话的范畴,系统性能便会下降。

不过他也指出,这些失效案例恰恰为未来研究指明了方向:“这也为我们引入更丰富的对话与语音场景提供了思路。”随着训练数据的丰富和模型能力的提升,这些边界场景的处理能力有望逐步改善。

在采访最后,DeepTech 问及这项技术是否会从唇部动作扩展到整个面部表情系统。

“会的。”胡宇航给出肯定回答,“我们团队的最终目标,是实现完整的类人交互。”如何协调唇部动作与眼神、眉毛等其他面部要素,形成统一而细腻的情感表达,正是团队下一步要攻克的方向。这不仅是技术上的自然延伸,更是对人机交互本质的深度探索。当机器人能够用整张脸来表达和理解情绪时,它与人类的关系将发生更深刻的转变。

论文地址:DOI: 10.1126/scirobotics.adx3017

营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
上海人大代表诸正伟火了,取消不必要黄实线,说到老百姓心坎里了

上海人大代表诸正伟火了,取消不必要黄实线,说到老百姓心坎里了

小陆搞笑日常
2026-02-08 13:43:33
美国风流总统:一天没女人就头疼,葬礼上半数女宾客与他有染

美国风流总统:一天没女人就头疼,葬礼上半数女宾客与他有染

小熊侃史
2025-12-31 11:54:10
徐志胜的脱口秀小剧场陷入困境,合伙人卖房坚持,年亏损远超80万

徐志胜的脱口秀小剧场陷入困境,合伙人卖房坚持,年亏损远超80万

离离言几许
2026-02-09 10:43:53
河北搜爆器入户排查烟花爆竹,搜到没收罚款

河北搜爆器入户排查烟花爆竹,搜到没收罚款

记录刘杰
2026-02-09 14:38:41
蒋超良,再被点名

蒋超良,再被点名

新京报政事儿
2026-02-08 11:08:58
金刻羽教授的粉红色世界,该破裂了

金刻羽教授的粉红色世界,该破裂了

黔有虎
2026-02-02 11:04:54
头部金店紧急调整回购规则,节假日不能卖金了

头部金店紧急调整回购规则,节假日不能卖金了

21世纪经济报道
2026-02-08 07:15:39
6中1,7中1!佩林卡都知道这人不堪大用,可火箭非要头铁再试试

6中1,7中1!佩林卡都知道这人不堪大用,可火箭非要头铁再试试

移动挡拆
2026-02-09 05:40:21
中国谷歌是个伪命题

中国谷歌是个伪命题

版面之外
2026-02-08 00:11:57
雨雪马上到,涉及全市大部

雨雪马上到,涉及全市大部

半岛晨报
2026-02-09 15:54:53
冲到东部第一!哈登影响力真大,美媒看好骑士,还要引进字母老詹

冲到东部第一!哈登影响力真大,美媒看好骑士,还要引进字母老詹

巴叔GO聊体育
2026-02-09 16:07:10
丈夫王晓玉也没想到,临近年关,75岁刘晓庆竟还能发笔“横财”

丈夫王晓玉也没想到,临近年关,75岁刘晓庆竟还能发笔“横财”

林轻吟
2026-02-08 11:27:28
徐江:中超国内标王是杨希,成都为拜合拉木掏了600万+100万浮动

徐江:中超国内标王是杨希,成都为拜合拉木掏了600万+100万浮动

懂球帝
2026-02-09 14:25:14
罕见!25年来第一次,中国退居全球第三,背后信号很不寻常

罕见!25年来第一次,中国退居全球第三,背后信号很不寻常

芳芳历史烩
2026-01-23 19:42:45
兰州化工学校强奸杀人碎尸案,年仅21岁的女学生不幸遇害

兰州化工学校强奸杀人碎尸案,年仅21岁的女学生不幸遇害

陇史荟王文元
2026-02-08 17:59:34
女演员回应曝光片酬后登上热搜:演完这8天,可能一年都接不到戏

女演员回应曝光片酬后登上热搜:演完这8天,可能一年都接不到戏

韩小娱
2026-02-09 12:00:58
暂停了,无锡著名大酒店

暂停了,无锡著名大酒店

无锡eTV全媒体
2026-02-09 16:15:03
赵丽颖挺孕肚疑怀二胎!冯妈送上珠宝,冯绍峰放下工作陪伴左右

赵丽颖挺孕肚疑怀二胎!冯妈送上珠宝,冯绍峰放下工作陪伴左右

八卦王者
2026-02-09 16:47:35
加仓!资金大幅涌入这些方向

加仓!资金大幅涌入这些方向

新浪财经
2026-02-09 07:21:40
房价从25000跌到2700,几代积蓄被掏空

房价从25000跌到2700,几代积蓄被掏空

诗词中国
2026-02-07 19:32:18
2026-02-09 19:24:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16242文章数 514598关注度
往期回顾 全部

科技要闻

马斯克终于想通了:先去月球“刷经验”

头条要闻

爱泼斯坦案亚裔受害者:首次见他就与2人发生关系

头条要闻

爱泼斯坦案亚裔受害者:首次见他就与2人发生关系

体育要闻

创中国冬奥最佳战绩!19岁速滑新星含泪向天拉勾

娱乐要闻

李亚鹏暂停直播:将投入嫣然医院工作

财经要闻

沪深北交易所优化再融资 释放3个信号

汽车要闻

长安将搭钠电池 好比汽车要装柴油机?

态度原创

教育
旅游
本地
数码
公开课

教育要闻

家长必看:中产家庭应该怎么规划孩子的留学教育?

旅游要闻

2月15日至23日,烟台所有国有景区实行首道门票半价优惠

本地新闻

围观了北京第一届黑色羽绒服大赛,我笑疯了

数码要闻

全球首次!HBM4大规模量产出货:NVIDIA首发 黄仁勋成最大赢家

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版