网易首页 > 网易号 > 正文 申请入驻

Meta Reality Labs首次实现实时虚拟人空间感知对话

0
分享至


这项由Meta Reality Labs团队完成的突破性研究发表于2026年,论文编号为arXiv:2602.18432v1,有兴趣深入了解的读者可以通过该编号查询完整论文。这项名为SARAH(Spatially Aware Real-time Agentic Humans)的研究首次让虚拟AI角色具备了真正的空间感知能力,能够在实时对话中自然地面向用户、跟随用户移动,并根据个人偏好调节眼神接触强度。

当我们在VR环境中与虚拟角色对话时,你是否注意到一个尴尬的现象?无论你走到哪里,那个虚拟角色都像个木头人一样直愣愣地盯着前方,完全不理会你的存在。即便你绕到它身后,它依然固执地保持原来的姿势,仿佛你是个隐形人。这种毫无生气的表现瞬间就打破了沉浸感,让人感觉自己在和一台冰冷的机器对话,而不是一个真正的交流伙伴。

要知道,在现实生活中,人与人的对话是一场精妙的空间舞蹈。当朋友在房间里走动时,我们会自然地转身面向他们;当对话变得亲密时,我们会靠得更近;当需要表达专注时,我们会增加眼神接触;而在某些文化背景下,人们可能更倾向于避免过多的直视。这些微妙的身体语言构成了人际交往的基础,让对话变得生动而有意义。

然而,目前的虚拟角色生成技术就像是只会背台词的演员,它们能够根据语音内容做出相应的手势和表情,但完全不知道观众坐在哪里。这种局限性源于一个根本问题:现有的AI模型主要专注于单人场景,只考虑说话者本身的动作,而忽略了对话的另一方。即使少数能处理双人对话的系统,也假设参与者始终保持固定位置,面对面坐着,就像视频通话一样。

Meta Reality Labs的研究团队意识到,要让虚拟角色真正融入我们的世界,就必须教会它们"察言观色"——不仅要理解语言内容,还要感知用户的空间位置,并据此调整自己的行为。这就像培训一个优秀的服务员,不仅要会听懂客人的需求,还要时刻留意客人的位置,适时调整自己的站位和注意力方向。

研究团队面临的挑战可以比作制作一部需要实时互动的舞台剧。传统的AI生成方法就像拍电影,可以反复拍摄、后期制作,有充足的时间来完善每一个镜头。但实时对话系统更像现场直播的舞台表演,演员必须在没有彩排的情况下,根据观众的即时反应调整自己的表演,而且不能有任何延迟。

为了解决这个复杂问题,研究团队开发了一套全新的技术架构,就像设计了一个拥有敏锐观察力和快速反应能力的智能管家。这个系统能够同时处理三种输入信息:用户的空间位置(通过头部追踪获得)、双方的语音对话内容,以及用户偏好的眼神接触程度。基于这些信息,系统能够实时生成既符合对话内容又考虑空间关系的全身动作。

整个技术方案的核心思想是"学习与控制分离"。研究团队发现,与其试图直接训练一个能够处理所有情况的超级模型,不如让AI先从大量真实对话数据中学习人们的自然行为模式,包括各种眼神接触习惯——从热情的直视到礼貌的回避。然后在实际应用时,通过一个轻量级的引导机制,根据用户的个人偏好微调这些行为。

这种设计哲学就像培训一个有经验的社交高手。首先,这个人需要通过观察大量的社交场合,学会什么是"正常"的社交行为——在什么情况下应该保持眼神接触,什么时候应该转身面向说话的人,如何在移动中保持优雅的姿态。然后,当面对具体的交流对象时,再根据对方的性格特点和文化背景,适当调整自己的行为风格。

技术实现上,研究团队采用了一种创新的分层架构。底层是一个因果变分自编码器,负责将复杂的人体动作压缩成更易于处理的数字表示,同时保证能够实时处理而不需要"预知未来"。这就像一个速记员,能够将复杂的会议内容快速转换成简洁的笔记,既保留了核心信息,又便于后续处理。

在这个压缩层之上,研究团队部署了一个基于流匹配模型的生成器。这个组件负责根据用户位置和对话内容生成相应的动作序列。流匹配技术的巧妙之处在于,它能够从随机噪声开始,逐步"雕琢"出符合要求的动作,就像一个雕塑家从一块粗糙的石料中雕刻出精美的艺术品。

为了确保生成的动作既自然又物理合理,研究团队还开发了一种全新的人体动作表示方法。传统方法通常使用关节角度来描述人体姿态,但这种方法容易产生歧义——同一个手部位置可能对应多种不同的关节配置。新方法直接使用三维空间中的位置坐标,就像用GPS定位一样精确,避免了转换过程中的误差累积。

眼神控制是这项技术的一大亮点。研究团队设计了一个简单而有效的眼神评分机制,通过计算虚拟角色的朝向与用户位置之间的角度关系,得出一个从-1到1的分数。分数接近1表示直视用户,接近-1表示背对用户,0则表示侧身。用户可以在对话过程中随时调整这个参数,就像调节音响的音量旋钮一样简单直观。

这种设计的优雅之处在于,它不是强制虚拟角色始终盯着用户看,而是在保持自然行为变化的基础上,温和地引导视线朝向用户偏好的方向。这就像一个善解人意的朋友,既能够给你足够的关注,又不会让你感到压迫或不自在。

研究团队在一个名为Embody 3D的大型数据集上训练和测试了他们的系统。这个数据集包含了约50小时的真实对话录像,覆盖了各种话题和社交场景,参与者可以自由移动和互动,而不是像传统数据集那样保持固定姿势。这为AI系统提供了丰富的学习素材,让它能够理解人们在真实对话中的空间行为模式。

测试结果令人印象深刻。新系统生成的动作质量达到了目前最先进的水平,同时运行速度超过每秒300帧,比现有的非实时方法快了三倍。更重要的是,即使在因果约束下(不能预知用户的未来动作),系统依然能够准确地朝向用户,表现出良好的空间感知能力。

从实用角度来看,这项技术的影响是深远的。在VR游戏中,玩家可以与NPC进行更加自然的对话,不再需要站在固定位置才能获得良好的交互体验。在远程会议和社交应用中,虚拟化身能够更好地模拟真实的社交互动,增强用户的临场感。在教育培训领域,虚拟导师可以像真正的老师一样关注每个学生的动向,提供更加个性化的指导。

当然,这项技术也面临一些挑战和限制。由于训练数据的偏差,系统在处理某些不常见的空间配置或行为模式时可能表现不佳。目前的版本主要支持双人对话,要扩展到多人场景还需要进一步的技术改进。此外,除了眼神接触之外,其他行为特征(如手势风格、移动模式)暂时还不能进行细粒度控制。

尽管存在这些局限性,这项研究无疑代表了虚拟人技术的一个重要里程碑。它不仅解决了一个长期困扰该领域的技术难题,更重要的是为我们展示了AI系统如何能够更好地理解和模拟人类的社交行为。随着技术的进一步发展,我们有理由相信,未来的虚拟角色将变得更加智能和贴心,成为我们数字生活中真正的伙伴。

研究团队已经将这项技术部署到实际的VR系统中,证明了其在真实环境下的可行性。用户可以在VR空间中自由移动,与虚拟角色进行流畅的对话,享受前所未有的沉浸式体验。这标志着我们距离科幻电影中那些智能、贴心的AI助手又近了一步。

说到底,这项研究的真正价值不仅在于技术本身的突破,更在于它为人机交互开辟了新的可能性。当虚拟角色能够像真人一样感知我们的存在、理解我们的需求、适应我们的偏好时,数字世界与现实世界之间的界限将变得更加模糊。这不仅会改变我们与AI系统的交互方式,也可能重新定义我们对于"陪伴"和"交流"的理解。

Q&A

Q1:SARAH系统是如何实现虚拟角色的空间感知能力的?

A:SARAH系统通过追踪用户头部位置获得空间信息,结合双方的语音对话内容,使用创新的分层AI架构实时生成动作。系统底层用变分自编码器压缩动作数据,上层用流匹配模型生成符合空间关系的自然动作,让虚拟角色能够面向用户并跟随其移动。

Q2:用户可以控制虚拟角色的眼神接触程度吗?

A:可以。SARAH系统设计了眼神评分机制,用户可以实时调整-1到1之间的参数来控制眼神接触强度。1表示直视用户,-1表示背对用户,0表示侧身。系统会在保持自然行为的基础上,温和地引导虚拟角色的视线朝向用户偏好的方向。

Q3:这项技术在实际应用中的表现如何?

A:测试显示SARAH系统运行速度超过每秒300帧,比现有非实时方法快三倍,同时保持了最先进的动作质量。研究团队已将技术部署到实际VR系统中,用户可以自由移动与虚拟角色对话,获得流畅的沉浸式体验,适用于VR游戏、远程会议和教育培训等场景。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
猛批华为“韬定律”是学术造假,杨学志到底什么来头?

猛批华为“韬定律”是学术造假,杨学志到底什么来头?

数字财经智库
2026-06-02 11:36:16
何猷君婚礼四房成员照曝光,何超盈带女出席,何猷亨现场高歌助兴

何猷君婚礼四房成员照曝光,何超盈带女出席,何猷亨现场高歌助兴

好贤观史记
2026-06-03 14:17:32
汉密尔顿开低趴别克:爽翻了!第一次亲眼见

汉密尔顿开低趴别克:爽翻了!第一次亲眼见

日常碎碎念啊
2026-06-03 01:14:35
31岁乌克兰宝妈6次止步法网8强!怒批俄罗斯:昨晚我们有人被炸死

31岁乌克兰宝妈6次止步法网8强!怒批俄罗斯:昨晚我们有人被炸死

风过乡
2026-06-03 06:39:12
津媒谈津门虎队遭错漏判:保级形势被人为恶化,非常令人遗憾

津媒谈津门虎队遭错漏判:保级形势被人为恶化,非常令人遗憾

懂球帝
2026-06-03 08:29:11
叙利亚,为什么没人再提了?

叙利亚,为什么没人再提了?

民间胡扯老哥
2026-05-22 06:48:12
敲定个人协议!皇马 1.2 亿草签恩佐 穆帅携4大新援亮相

敲定个人协议!皇马 1.2 亿草签恩佐 穆帅携4大新援亮相

球事百科吖
2026-06-03 17:32:43
难以置信!36岁老外携四口之家舍弃美国生活,定居深圳常住

难以置信!36岁老外携四口之家舍弃美国生活,定居深圳常住

不写散文诗
2026-06-03 13:24:35
周杰伦与黄晓明合照秀肌肉,黄晓明:周董这手臂肌肉确实牛

周杰伦与黄晓明合照秀肌肉,黄晓明:周董这手臂肌肉确实牛

韩小娱
2026-06-03 16:18:35
22岁男子入室杀害前女友,曾称“你不过是长得漂亮,你凭啥?”

22岁男子入室杀害前女友,曾称“你不过是长得漂亮,你凭啥?”

中国新闻周刊
2026-06-02 18:00:54
央视直播乒乓球时间表:6月3日CCTV节目单!王楚钦再创国乒新纪录

央视直播乒乓球时间表:6月3日CCTV节目单!王楚钦再创国乒新纪录

胡一舸南游y
2026-06-03 13:58:04
南天门计划更新!两天内,世界见识到了:美国的无能,中国的高明

南天门计划更新!两天内,世界见识到了:美国的无能,中国的高明

离离言几许
2026-06-02 18:06:38
北欧海盗来了,哈兰德发布维京装束风格自拍为世界杯出征造势

北欧海盗来了,哈兰德发布维京装束风格自拍为世界杯出征造势

懂球帝
2026-06-02 20:28:06
女技师漂亮,打赏她300块小费,小伙被拘留

女技师漂亮,打赏她300块小费,小伙被拘留

阿振观点
2026-06-02 08:59:32
云南一博士生实名举报导师,对话录音曝光,导师声称:我只有一项国自然,你得自己掏钱做实验

云南一博士生实名举报导师,对话录音曝光,导师声称:我只有一项国自然,你得自己掏钱做实验

生物学霸
2026-06-01 17:18:39
奥运冠军张家齐为啥跑广东找全红婵哥哥摘荔枝,背后原因让人破防

奥运冠军张家齐为啥跑广东找全红婵哥哥摘荔枝,背后原因让人破防

书写传奇
2026-06-03 15:58:21
79年我军通讯被越军全程监控,一个温州兵的方言,让越军监听瘫痪

79年我军通讯被越军全程监控,一个温州兵的方言,让越军监听瘫痪

睡前讲故事
2026-05-14 09:29:12
越南:若晚五天撤退,谅山的守兵将被全部消灭,最后是啥结果

越南:若晚五天撤退,谅山的守兵将被全部消灭,最后是啥结果

磊子讲史
2026-01-22 10:53:33
伊朗媒体发布穆杰塔巴照片:怀抱孩童,面带微笑

伊朗媒体发布穆杰塔巴照片:怀抱孩童,面带微笑

澎湃新闻
2026-06-02 23:04:02
为什么男人都喜欢看女人的胸部?并非色眯眯,早就被镶嵌在基因里

为什么男人都喜欢看女人的胸部?并非色眯眯,早就被镶嵌在基因里

宇宙时空
2026-06-03 13:52:38
2026-06-03 20:19:00
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
8615文章数 564关注度
往期回顾 全部

科技要闻

传DeepSeek融资意向500亿:腾讯投100亿

头条要闻

民警驾车致1死1残获刑1年2个月 女伤者刚试管有了胚胎

头条要闻

民警驾车致1死1残获刑1年2个月 女伤者刚试管有了胚胎

体育要闻

选择中国品牌的库里,和他们的巨大野心

娱乐要闻

官方痛批乱象 刘涛郑恺等艺人遭点名

财经要闻

AI,开始偷懒了?

汽车要闻

专访蒋平:安全不做高低配 长安要让安全技术普惠

态度原创

亲子
本地
数码
时尚
公开课

亲子要闻

“托举孩子进山姆”为何惹众怒?

本地新闻

用杨柳青年画的方式,打开天津

数码要闻

全球首款UWB 8K键盘登场!CHERRY XTRFY K63W Pro发布

休闲T恤舒适感极佳,夏天必不可少!轻轻松松拿捏日常的造型

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版