![]()
当你看到某个东西表现得像人类但实际上不是人类时,那种令人不安的感觉仍然是机器人技术中的一个重大问题——特别是对于那些被设计成看起来和说话都像我们的机器人。
这种奇特的感觉被称为恐怖谷效应。机器人专家努力跨越这个谷底的一种方法是让机器人的嘴唇动作与其声音相匹配。上周三,哥伦比亚大学宣布了一项研究,深入探讨新一代机器人面部如何更真实地说话。
参与这项研究的哥伦比亚大学工程学教授霍德·利普森告诉CNET,机器人之所以"令人不安"的一个主要原因是它们说话时不像我们那样移动嘴唇。"我们的目标是解决这个在机器人技术中被忽视的问题,"利普森说。
这项研究正值围绕家用和工作场所机器人的热潮不断升温。例如,在本月早些时候的2026年国际消费电子展上,CNET看到了一系列设计用于与人互动的机器人。从最新的波士顿动力Atlas机器人到像叠衣服机器人这样的家用机器人,甚至还有专为环境研究设计的龟形机器人,都在这个世界最大的科技展上亮相。如果以CES为指标,2026年可能是消费级机器人技术的重要一年。
其中最重要的是那些拥有身体、面部和模仿我们皮肤的合成皮肤的仿人机器人。CES展会包括来自Realbotix的类人机器人,它们可以在信息台工作或为人类提供安慰,以及来自Lovense的关系机器人,配备了能够"记住"亲密对话的人工智能。
但是嘴唇动作和语音之间哪怕是瞬间的不匹配,都可能意味着一台你能产生情感依恋的机器和一台只不过是令人不安的电子动画装置之间的区别。
因此,如果人们要接受仿人机器人在日常生活中与我们"共同生活",最好是它们在说话时不会让我们感到轻微的不适。
唇语同步机器人
为了制造具有人类面部并能像我们一样说话的机器人,机器人的嘴唇必须与其语音音频仔细同步。哥伦比亚研究团队开发了一种技术,通过专注于语言声音的方式来帮助机器人嘴部像我们一样移动。
首先,团队构建了一个仿人机器人面部,具有能够以减少恐怖谷效应的方式说话和唱歌的嘴部。这个由硅胶皮肤制成的机器人面部具有用于复杂嘴唇动作的磁性连接器。这使得面部能够形成覆盖24个辅音和16个元音的嘴唇形状。
为了匹配嘴唇动作与语音,他们设计了一个"学习管道"来收集嘴唇动作的视觉数据。AI模型使用这些数据进行训练,然后为电机命令生成参考点。接下来,"面部动作Transformer"将电机命令转换为与音频同步的嘴部动作。
使用这个框架,这个名为Emo的机器人面部能够用多种语言"说话",包括训练中未包含的语言,如法语、中文和阿拉伯语。诀窍在于该框架分析语言的声音,而不是声音背后的含义。
"我们通过训练一个直接从音频到嘴唇动作的模型来避免特定语言的问题,"利普森说。"没有语言概念。"
为什么机器人需要面部和嘴唇
人类与机器人合作已经很长时间了,但它们一直看起来像机器,而不是人——装配线上无实体的、看起来非常机械的手臂,或者在我们厨房地板上四处移动的厚重圆盘形扫地机器人。
然而,随着聊天机器人背后的AI大语言模型变得更加普及,科技公司正在努力教机器人如何实时使用语言与我们交流。
有一个完整的研究领域叫做人机交互,研究机器人应该如何在物理和社会层面与人类共存。2024年,柏林的一项使用157名参与者的研究发现,机器人通过语言交流表达同理心和情感的能力对于与人类有效互动至关重要。另一项2024年来自意大利的研究发现,在处理装配等复杂任务时,主动语音对人机协作很重要。
如果我们要在家庭和工作中依赖机器人,我们需要能够像彼此交谈一样与它们对话。利普森说,在未来,唇语同步机器人的研究对于任何需要与人互动的仿人机器人都会很有用。
也很容易想象一个仿人机器人与我们完全相同的未来。利普森说,仔细的设计可以确保人们理解他们在与机器人而不是人类交谈。一个例子是要求仿人机器人拥有蓝色皮肤,利普森说,"这样它们就不会被误认为是人类。"
Q&A
Q1:什么是恐怖谷效应?为什么机器人会产生这种效应?
A:恐怖谷效应是指当你看到某个东西表现得像人类但实际上不是人类时产生的令人不安的感觉。机器人产生这种效应的主要原因是它们说话时不像人类那样移动嘴唇,导致人们感到不适。
Q2:哥伦比亚大学的Emo机器人是如何实现唇语同步的?
A:Emo机器人使用硅胶皮肤和磁性连接器实现复杂嘴唇动作,能形成24个辅音和16个元音的嘴唇形状。通过"学习管道"收集视觉数据,AI模型训练后生成电机命令参考点,再由"面部动作Transformer"将命令转换为与音频同步的嘴部动作。
Q3:为什么仿人机器人需要具备自然的语言交流能力?
A:随着AI大语言模型普及,机器人需要实时语言交流能力。研究表明,机器人通过语言表达同理心和情感对有效人机互动至关重要,主动语音在复杂任务协作中也很重要。如果要在家庭和工作中依赖机器人,就需要像人与人之间那样自然对话。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.