网易首页 > 网易号 > 正文 申请入驻

Meta Reality Labs首次实现实时虚拟人空间感知对话

0
分享至

来源:市场资讯

(来源:科技行者)


这项由Meta Reality Labs团队完成的突破性研究发表于2026年,论文编号为arXiv:2602.18432v1,有兴趣深入了解的读者可以通过该编号查询完整论文。这项名为SARAH(Spatially Aware Real-time Agentic Humans)的研究首次让虚拟AI角色具备了真正的空间感知能力,能够在实时对话中自然地面向用户、跟随用户移动,并根据个人偏好调节眼神接触强度。

当我们在VR环境中与虚拟角色对话时,你是否注意到一个尴尬的现象?无论你走到哪里,那个虚拟角色都像个木头人一样直愣愣地盯着前方,完全不理会你的存在。即便你绕到它身后,它依然固执地保持原来的姿势,仿佛你是个隐形人。这种毫无生气的表现瞬间就打破了沉浸感,让人感觉自己在和一台冰冷的机器对话,而不是一个真正的交流伙伴。

要知道,在现实生活中,人与人的对话是一场精妙的空间舞蹈。当朋友在房间里走动时,我们会自然地转身面向他们;当对话变得亲密时,我们会靠得更近;当需要表达专注时,我们会增加眼神接触;而在某些文化背景下,人们可能更倾向于避免过多的直视。这些微妙的身体语言构成了人际交往的基础,让对话变得生动而有意义。

然而,目前的虚拟角色生成技术就像是只会背台词的演员,它们能够根据语音内容做出相应的手势和表情,但完全不知道观众坐在哪里。这种局限性源于一个根本问题:现有的AI模型主要专注于单人场景,只考虑说话者本身的动作,而忽略了对话的另一方。即使少数能处理双人对话的系统,也假设参与者始终保持固定位置,面对面坐着,就像视频通话一样。

Meta Reality Labs的研究团队意识到,要让虚拟角色真正融入我们的世界,就必须教会它们"察言观色"——不仅要理解语言内容,还要感知用户的空间位置,并据此调整自己的行为。这就像培训一个优秀的服务员,不仅要会听懂客人的需求,还要时刻留意客人的位置,适时调整自己的站位和注意力方向。

研究团队面临的挑战可以比作制作一部需要实时互动的舞台剧。传统的AI生成方法就像拍电影,可以反复拍摄、后期制作,有充足的时间来完善每一个镜头。但实时对话系统更像现场直播的舞台表演,演员必须在没有彩排的情况下,根据观众的即时反应调整自己的表演,而且不能有任何延迟。

为了解决这个复杂问题,研究团队开发了一套全新的技术架构,就像设计了一个拥有敏锐观察力和快速反应能力的智能管家。这个系统能够同时处理三种输入信息:用户的空间位置(通过头部追踪获得)、双方的语音对话内容,以及用户偏好的眼神接触程度。基于这些信息,系统能够实时生成既符合对话内容又考虑空间关系的全身动作。

整个技术方案的核心思想是"学习与控制分离"。研究团队发现,与其试图直接训练一个能够处理所有情况的超级模型,不如让AI先从大量真实对话数据中学习人们的自然行为模式,包括各种眼神接触习惯——从热情的直视到礼貌的回避。然后在实际应用时,通过一个轻量级的引导机制,根据用户的个人偏好微调这些行为。

这种设计哲学就像培训一个有经验的社交高手。首先,这个人需要通过观察大量的社交场合,学会什么是"正常"的社交行为——在什么情况下应该保持眼神接触,什么时候应该转身面向说话的人,如何在移动中保持优雅的姿态。然后,当面对具体的交流对象时,再根据对方的性格特点和文化背景,适当调整自己的行为风格。

技术实现上,研究团队采用了一种创新的分层架构。底层是一个因果变分自编码器,负责将复杂的人体动作压缩成更易于处理的数字表示,同时保证能够实时处理而不需要"预知未来"。这就像一个速记员,能够将复杂的会议内容快速转换成简洁的笔记,既保留了核心信息,又便于后续处理。

在这个压缩层之上,研究团队部署了一个基于流匹配模型的生成器。这个组件负责根据用户位置和对话内容生成相应的动作序列。流匹配技术的巧妙之处在于,它能够从随机噪声开始,逐步"雕琢"出符合要求的动作,就像一个雕塑家从一块粗糙的石料中雕刻出精美的艺术品。

为了确保生成的动作既自然又物理合理,研究团队还开发了一种全新的人体动作表示方法。传统方法通常使用关节角度来描述人体姿态,但这种方法容易产生歧义——同一个手部位置可能对应多种不同的关节配置。新方法直接使用三维空间中的位置坐标,就像用GPS定位一样精确,避免了转换过程中的误差累积。

眼神控制是这项技术的一大亮点。研究团队设计了一个简单而有效的眼神评分机制,通过计算虚拟角色的朝向与用户位置之间的角度关系,得出一个从-1到1的分数。分数接近1表示直视用户,接近-1表示背对用户,0则表示侧身。用户可以在对话过程中随时调整这个参数,就像调节音响的音量旋钮一样简单直观。

这种设计的优雅之处在于,它不是强制虚拟角色始终盯着用户看,而是在保持自然行为变化的基础上,温和地引导视线朝向用户偏好的方向。这就像一个善解人意的朋友,既能够给你足够的关注,又不会让你感到压迫或不自在。

研究团队在一个名为Embody 3D的大型数据集上训练和测试了他们的系统。这个数据集包含了约50小时的真实对话录像,覆盖了各种话题和社交场景,参与者可以自由移动和互动,而不是像传统数据集那样保持固定姿势。这为AI系统提供了丰富的学习素材,让它能够理解人们在真实对话中的空间行为模式。

测试结果令人印象深刻。新系统生成的动作质量达到了目前最先进的水平,同时运行速度超过每秒300帧,比现有的非实时方法快了三倍。更重要的是,即使在因果约束下(不能预知用户的未来动作),系统依然能够准确地朝向用户,表现出良好的空间感知能力。

从实用角度来看,这项技术的影响是深远的。在VR游戏中,玩家可以与NPC进行更加自然的对话,不再需要站在固定位置才能获得良好的交互体验。在远程会议和社交应用中,虚拟化身能够更好地模拟真实的社交互动,增强用户的临场感。在教育培训领域,虚拟导师可以像真正的老师一样关注每个学生的动向,提供更加个性化的指导。

当然,这项技术也面临一些挑战和限制。由于训练数据的偏差,系统在处理某些不常见的空间配置或行为模式时可能表现不佳。目前的版本主要支持双人对话,要扩展到多人场景还需要进一步的技术改进。此外,除了眼神接触之外,其他行为特征(如手势风格、移动模式)暂时还不能进行细粒度控制。

尽管存在这些局限性,这项研究无疑代表了虚拟人技术的一个重要里程碑。它不仅解决了一个长期困扰该领域的技术难题,更重要的是为我们展示了AI系统如何能够更好地理解和模拟人类的社交行为。随着技术的进一步发展,我们有理由相信,未来的虚拟角色将变得更加智能和贴心,成为我们数字生活中真正的伙伴。

研究团队已经将这项技术部署到实际的VR系统中,证明了其在真实环境下的可行性。用户可以在VR空间中自由移动,与虚拟角色进行流畅的对话,享受前所未有的沉浸式体验。这标志着我们距离科幻电影中那些智能、贴心的AI助手又近了一步。

说到底,这项研究的真正价值不仅在于技术本身的突破,更在于它为人机交互开辟了新的可能性。当虚拟角色能够像真人一样感知我们的存在、理解我们的需求、适应我们的偏好时,数字世界与现实世界之间的界限将变得更加模糊。这不仅会改变我们与AI系统的交互方式,也可能重新定义我们对于"陪伴"和"交流"的理解。

Q&A

Q1:SARAH系统是如何实现虚拟角色的空间感知能力的?

A:SARAH系统通过追踪用户头部位置获得空间信息,结合双方的语音对话内容,使用创新的分层AI架构实时生成动作。系统底层用变分自编码器压缩动作数据,上层用流匹配模型生成符合空间关系的自然动作,让虚拟角色能够面向用户并跟随其移动。

Q2:用户可以控制虚拟角色的眼神接触程度吗?

A:可以。SARAH系统设计了眼神评分机制,用户可以实时调整-1到1之间的参数来控制眼神接触强度。1表示直视用户,-1表示背对用户,0表示侧身。系统会在保持自然行为的基础上,温和地引导虚拟角色的视线朝向用户偏好的方向。

Q3:这项技术在实际应用中的表现如何?

A:测试显示SARAH系统运行速度超过每秒300帧,比现有非实时方法快三倍,同时保持了最先进的动作质量。研究团队已将技术部署到实际VR系统中,用户可以自由移动与虚拟角色对话,获得流畅的沉浸式体验,适用于VR游戏、远程会议和教育培训等场景。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
3亿烟民都供不起了?亏损原因是?有员工10年公积金高达96万?

3亿烟民都供不起了?亏损原因是?有员工10年公积金高达96万?

猫叔东山再起
2026-02-25 12:20:03
历史上唯一一位“女状元”,白天处理政务,晚上沦为玩物

历史上唯一一位“女状元”,白天处理政务,晚上沦为玩物

谈史论天地
2026-02-23 10:39:15
她在非诚勿扰上站五年,爆灯无数却不牵手,最终被主持人赶下台

她在非诚勿扰上站五年,爆灯无数却不牵手,最终被主持人赶下台

琴声飞扬
2026-02-22 15:21:45
11岁男童在福建一服务区被撞身亡!肇事新能源汽车,竟成舆论焦点

11岁男童在福建一服务区被撞身亡!肇事新能源汽车,竟成舆论焦点

火山詩话
2026-02-24 19:18:04
美国华人直言:中国手机扫码支付是最不智能的发明!

美国华人直言:中国手机扫码支付是最不智能的发明!

阿伧说事
2026-01-20 12:53:01
回顾:四川一男子阴茎撕裂入院,9天后复查结果如何了

回顾:四川一男子阴茎撕裂入院,9天后复查结果如何了

新时代的两性情感
2026-02-23 18:01:52
女子乘坐动车上厕所时 不慎冲走50g金手链 铁路人员回应

女子乘坐动车上厕所时 不慎冲走50g金手链 铁路人员回应

闪电新闻
2026-02-24 15:53:21
西湖大学打了谁的脸?外籍学生学费35万一年,国内学生仅6千元

西湖大学打了谁的脸?外籍学生学费35万一年,国内学生仅6千元

妍妍教育日记
2026-02-24 18:35:18
一箱油可横跨北美 本田新型小飞机卖爆:购买意向达产能10倍

一箱油可横跨北美 本田新型小飞机卖爆:购买意向达产能10倍

快科技
2026-02-24 08:21:03
恭喜曼联!重现“德赫亚+罗梅罗”豪华配置,红魔迎门将青春风暴

恭喜曼联!重现“德赫亚+罗梅罗”豪华配置,红魔迎门将青春风暴

体坛鉴春秋
2026-02-25 13:54:29
伊能静称靠生酮饮食半年瘦到86斤,媒体:有风险

伊能静称靠生酮饮食半年瘦到86斤,媒体:有风险

红星新闻
2026-02-25 11:59:25
72万个充电桩,年入40亿,常州夫妇边赚钱边收割,如今要上市了

72万个充电桩,年入40亿,常州夫妇边赚钱边收割,如今要上市了

毒sir财经
2026-02-22 10:38:14
广东宏远又有好消息,球队再签强力大外援,朱芳雨眼光真是独到

广东宏远又有好消息,球队再签强力大外援,朱芳雨眼光真是独到

宏远小师哥
2026-02-25 12:12:57
终于,苹果官方支持测网速了!

终于,苹果官方支持测网速了!

花果科技
2026-02-25 11:53:50
春节返工高速大堵车,成都女子搭顺风车至广州耗时42小时,坐到腿部肿胀病情复发

春节返工高速大堵车,成都女子搭顺风车至广州耗时42小时,坐到腿部肿胀病情复发

极目新闻
2026-02-24 18:14:46
预测升到13亿!《镖人》逆袭续订第二部,吴京还有3部大片待上映

预测升到13亿!《镖人》逆袭续订第二部,吴京还有3部大片待上映

得得电影
2026-02-24 17:11:06
征服中年女人的最快方法:不是一直聊天,而是“禁果效应”

征服中年女人的最快方法:不是一直聊天,而是“禁果效应”

荷兰豆爱健康
2026-02-25 10:41:38
王毅亲自坐镇APEC,台当局也派人到场,看见大陆4个字,认清现实

王毅亲自坐镇APEC,台当局也派人到场,看见大陆4个字,认清现实

通文知史
2026-02-24 13:55:05
“我就是她取精生子的工具”清华学霸哭诉,撕开了女富豪的遮羞布

“我就是她取精生子的工具”清华学霸哭诉,撕开了女富豪的遮羞布

北纬的咖啡豆
2026-02-20 19:12:17
中国连发11号12号公告,日本叫嚣对等制裁,两招反击,高市增兵

中国连发11号12号公告,日本叫嚣对等制裁,两招反击,高市增兵

墨羽怪谈
2026-02-25 12:59:02
2026-02-25 14:36:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2255597文章数 5528关注度
往期回顾 全部

科技要闻

台积电市值破2万亿美元,翻倍只用了16个月

头条要闻

老人被大狗撕咬骨折住进ICU 犬主付1000元后驾车离开

头条要闻

老人被大狗撕咬骨折住进ICU 犬主付1000元后驾车离开

体育要闻

曝雄鹿计划今夏追小卡 字母哥渴望与其并肩作战

娱乐要闻

撒贝宁到沈阳跑亲戚 老婆李白模特身材

财经要闻

春节档"开门黑" 电影票少卖了7000万张

汽车要闻

750km超长续航 2026款小鹏X9纯电版将于3月2日上市

态度原创

房产
本地
时尚
教育
公开课

房产要闻

330万人涌入!春节全国楼市,第一个卖爆的区域出现了!

本地新闻

津南好·四时总相宜

普通人穿衣别太老气横秋!这些穿搭给你灵感,保暖耐看两不误

教育要闻

中央民族大学2026年美术类专业复试考场安排

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版