网易首页 > 网易号 > 正文 申请入驻

首次第一视角视频与人体动作同步生成!新框架攻克两大技术壁垒

0
分享至

闻乐 发自 凹非寺
量子位 | 公众号 QbitAI

AI生成第三视角视频已经驾轻就熟,但第一视角生成却仍然“不熟”。

为此,新加坡国立大学、南洋理工大学、香港科技大学与上海人工智能实验室联合发布EgoTwin首次实现了第一视角视频与人体动作的联合生成

一举攻克了视角-动作对齐因果耦合两大瓶颈,为可穿戴计算、AR及具身智能打开落地新入口。



EgoTwin 是一个基于扩散模型的框架,能够以视角一致且因果连贯的方式联合生成第一人称视角视频和人体动作。

生成的视频可以通过从人体动作推导出的相机位姿,借助 3D 高斯点渲染(3D Gaussian Splatting)提升到三维场景中。



下面具体来看。

第一视角视频与人体动作同步生成
核心挑战:第一视角生成的“两难困境”

第一视角视频的本质是人体动作驱动的视觉记录——头部运动决定相机的位置与朝向,全身动作则影响身体姿态与周围场景变化。

二者之间存在内在的耦合关系,无法被单独分离。传统视频生成方法难以适配这一特性,主要面临两大难题:

  1. 视角对齐难题
    生成视频中的相机轨迹,必须与人体动作推导的头部轨迹精准匹配。但现有方法多依赖预设相机参数生成视频,而第一视角的相机轨迹并非外部给定,而是由穿戴者头部动作内生决定,需要二者同步生成以保证对齐。
  2. 因果交互难题
    每一时序的视觉画面为人体动作提供空间上下文(如“看到门把手”引导伸手动作),而新生成的动作又会改变后续视觉帧(如“开门”导致门的状态与相机朝向变化)。这种“观察-动作”的闭环依赖,要求模型捕捉二者随时间的因果关联。
三大创新破解核心难题



△EgoTwin能同时生成“第一视角的场景视频”和“匹配的人体动作”

为解决上述挑战,EgoTwin基于扩散Transformer架构,构建了“文本-视频-动作”三模态的联合生成框架,通过三大关键设计实现突破两大难题。

三通道架构是指动作分支仅覆盖文本与视频分支下半部分的层数。

每个通道均配备独立的tokenizer与Transformer模块,并以相同颜色标示跨通道共享的权重。



下图展示了“文本-视频-动作”三个模态的双向因果注意力交互机制。



创新1:以头部为中心的动作表征,让视角对齐“一目了然”

传统人体动作表征以身体根部为中心,头部姿态需通过人体运动学计算推导,容易造成误差累计。

EgoTwin提出以头部为中心的动作表征,直接将动作锚定在头部关节,实现与第一视角观测精准对齐:



创新2:控制论启发的交互机制,捕捉因果关联“动态闭环”

借鉴控制论中“观察-动作”反馈循环原理,EgoTwin在注意力机制中加入结构化掩码,实现了视频与动作之间的双向因果交互:

  • 视频 tokens 仅关注前序动作 tokens:体现“当前视觉画面由过去动作产生”;
  • 动作 tokens 同时关注当前与后续视频 tokens:实现“基于场景变化推断动作”;
  • 初始姿态与初始视觉帧允许双向注意力,保证生成序列的起点一致性。

这种设计避免了“全局一致但帧级错位”的问题,实现细粒度时序同步。

创新3:视频动作联合的异步扩散训练框架,平衡效率与生成质量

考虑到视频与动作的模态差异(如动作采样率通常是视频的2倍),EgoTwin采用异步扩散训练策略:为视频与动作分支分别设置独立采样时间步、添加高斯噪声,再通过统一时间步嵌入融合,适配不同模态的演化节奏。

同时,框架采用三阶段训练范式,兼顾效率与性能:

  1. 动作VAE预训练:单独训练动作变分自编码器,通过重构损失与KL散度正则化,确保动作表征的有效性;
  2. 文本-动作预训练:冻结文本分支(保留预训练文本理解能力),仅训练动作分支,加速模型收敛;
  3. 三模态联合训练:加入视频分支,学习文本条件下视频与动作的联合分布,支持多种生成任务。
实验验证:性能全面超越基线

模型能够根据文字和视频生成动作,或者根据文字和动作生成视频,甚至能把生成的视频和动作变成3D场景(比如还原出房间的 3D 结构,再把人的动作放进去)。

首先看一下可视化结果。



△基于文本联合生成视频和动作

EgoTwin还支持根据动作和文本生成视频(TM2V)、根据文本和视频生成动作(TV2M)额外二种生成模式。



△基于文本和动作联合生成视频



△基于文本和视频联合生成动作

为客观评估,团队还从数据、指标、结果三方面系统展开测试。



实验证明,EgoTwin比之前的基础模型好很多:视频和动作的匹配度更高,比如镜头和头部的位置误差变小了,手的动作在视频里也更容易对应上;



消融实验进一步验证了核心设计的必要性:移除以头部为中心的动作表征、因果交互机制或异步扩散训练策略后,模型性能均出现明显下降,证明三大创新缺一不可。



EgoTwin不仅显著缩小了跨模态误差,也为可穿戴交互、AR 内容创作、具身智能体仿真等应用提供了可直接落地的生成基座。

感兴趣的朋友可戳下方链接了解更多具体内容~

论文地址:https://arxiv.org/abs/2508.13013
项目主页与示例:https://egotwin.pages.dev

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
你干过哪些阴暗龌龊的事?网友:最后一个真的好炸裂好真实

你干过哪些阴暗龌龊的事?网友:最后一个真的好炸裂好真实

带你感受人间冷暖
2026-02-17 01:00:24
俄军已经动了,中国帮不帮伊朗?中方三句话,没一句是美国想听的

俄军已经动了,中国帮不帮伊朗?中方三句话,没一句是美国想听的

墨兰史书
2026-02-27 18:42:48
顶风作案!上海警方:大学生汤某,刑拘!已干了50多次……

顶风作案!上海警方:大学生汤某,刑拘!已干了50多次……

环球网资讯
2026-02-27 07:24:21
朝鲜阅兵式现场大将仅剩5人!战略军直接被裁?

朝鲜阅兵式现场大将仅剩5人!战略军直接被裁?

IN朝鲜
2026-02-28 10:45:32
2.28日早评|尽快撤离!黄金大消息!下周要炸了!

2.28日早评|尽快撤离!黄金大消息!下周要炸了!

龙行天下虎
2026-02-28 09:10:39
俄罗斯驻华大使馆微博,27日深夜发文称:中国网友误会我们了!

俄罗斯驻华大使馆微博,27日深夜发文称:中国网友误会我们了!

消失的电波
2026-02-28 08:43:31
中国不当冤大头了!中科院停付国际期刊发表费,老外专家也急了

中国不当冤大头了!中科院停付国际期刊发表费,老外专家也急了

青青子衿
2026-02-27 20:32:03
又一个大间谍落网了,国安部在雪地里埋伏了七天六夜

又一个大间谍落网了,国安部在雪地里埋伏了七天六夜

贱议你读史
2026-02-28 10:25:03
16:00,中国男篮vs中国台北!赢10分=升小组前二,首发面临调整

16:00,中国男篮vs中国台北!赢10分=升小组前二,首发面临调整

侃球熊弟
2026-02-28 00:05:03
《镖人》破10亿只是开始,吴京、沈腾、周星驰要掀起一波新高潮了

《镖人》破10亿只是开始,吴京、沈腾、周星驰要掀起一波新高潮了

小丸子的娱乐圈
2026-02-27 17:57:58
爆冷!国乒世界冠军不敌法国新星,四强仅剩一席

爆冷!国乒世界冠军不敌法国新星,四强仅剩一席

郭夷包工头
2026-02-28 14:20:45
中领馆提醒: 18-65岁在俄长期居留男性 须同意在俄军事单位等至少服役1年

中领馆提醒: 18-65岁在俄长期居留男性 须同意在俄军事单位等至少服役1年

闪电新闻
2026-02-26 12:46:48
方媛晒3胎女儿满月礼!金锁玉镯多到放不下,3500的婴儿车不算贵

方媛晒3胎女儿满月礼!金锁玉镯多到放不下,3500的婴儿车不算贵

小娱乐悠悠
2026-02-28 11:02:55
正式道歉!国际篮联认错,纵容裁判吹黑哨,日媒承认吹罚不公正!

正式道歉!国际篮联认错,纵容裁判吹黑哨,日媒承认吹罚不公正!

不期而遇的缘分
2026-02-28 13:28:37
保住联盟第一!活塞加时险胜无哈登骑士 杜伦33+16三人6犯

保住联盟第一!活塞加时险胜无哈登骑士 杜伦33+16三人6犯

醉卧浮生
2026-02-28 11:33:18
比尔·盖茨婚外情人照片曝光:与俄罗斯桥牌选手首次合影出现在2010年

比尔·盖茨婚外情人照片曝光:与俄罗斯桥牌选手首次合影出现在2010年

台州交通广播
2026-02-28 00:52:28
黄金、白银、石油直线大涨!

黄金、白银、石油直线大涨!

吉刻新闻
2026-02-28 13:24:57
儿子3年前来杭州当暑假工跑外卖,租电动车3年没还欠下2万多元!爸爸急了:平台一直自动续租,如何解决?

儿子3年前来杭州当暑假工跑外卖,租电动车3年没还欠下2万多元!爸爸急了:平台一直自动续租,如何解决?

都市快报橙柿互动
2026-02-28 09:28:18
21岁男子想花200和女骑手发生关系,被警察找上门后:我给你跪下

21岁男子想花200和女骑手发生关系,被警察找上门后:我给你跪下

社会酱
2026-02-27 17:37:31
突然被扣费,连续数月不知情! 上海已有多人遭遇! 快查, 你的钱有没有"消失"?

突然被扣费,连续数月不知情! 上海已有多人遭遇! 快查, 你的钱有没有"消失"?

新浪财经
2026-02-27 17:11:04
2026-02-28 17:40:49
量子位 incentive-icons
量子位
追踪人工智能动态
12210文章数 176398关注度
往期回顾 全部

科技要闻

狂揽1100亿美元!OpenAI再创融资神话

头条要闻

美以袭击伊朗 华人紧急逃离德黑兰:没想到来得这么快

头条要闻

美以袭击伊朗 华人紧急逃离德黑兰:没想到来得这么快

体育要闻

球队主力全报销?顶风摆烂演都不演了

娱乐要闻

疑似王一博被爆私密聊天记录

财经要闻

沈明高提共富建议 百姓持科技股国家兜底

汽车要闻

岚图泰山黑武士版3月上市 搭载华为四激光智驾方案

态度原创

健康
手机
亲子
房产
数码

转头就晕的耳石症,能开车上班吗?

手机要闻

存储芯片涨价潮席卷手机业:头部品牌全线调价在即 中小厂商陷入生存困境

亲子要闻

12岁之前要疯狂刺激前庭觉,每天坚持锻炼,越玩越专注,越聪明!#儿童运动 #身高管理 #感统训练 #...

房产要闻

滨江九小也来了!集齐海侨北+哈罗、寰岛...江东教育要炸了!

数码要闻

像素风格主题设计,微星推出PTT论坛PC_Shopping看板联名主板

无障碍浏览 进入关怀版