网易首页 > 网易号 > 正文 申请入驻

浙江大学发明"动作指挥棒":让AI看懂手势就能生成逼真互动视频

0
分享至

这项由浙江大学周晓威教授团队联合湘江实验室、复旦大学、清华大学和深圳大学共同完成的研究发表于2025年8月,论文题目为《Precise Action-to-Video Generation Through Visual Action Prompts》。有兴趣深入了解的读者可以通过arXiv:2508.13104访问完整论文。

设想一下这样的场景:你在电脑屏幕前挥舞双手,AI立刻就能理解你的动作意图,并生成一段逼真的视频,展现你的手如何抓取桌上的杯子、翻开书页或者操作复杂的机械装置。这听起来像科幻电影的情节,但浙江大学的研究团队已经把这个想法变成了现实。他们开发出一套名为"视觉动作提示"的新技术,就像给AI装上了一双能够精准理解动作的眼睛。

传统的AI视频生成就像一个只会听文字指令的机器人。当你告诉它"拿起杯子"时,它可能会生成一个模糊的动作,但具体怎么拿、从哪个角度拿、手指如何弯曲,这些精细的细节往往无法准确呈现。更麻烦的是,如果你想让AI理解机器人手臂的复杂操作,传统方法就更加力不从心了。这就好比你想教一个人做复杂的手工活,但只能用语言描述,而不能做示范动作。

研究团队意识到这个问题的根源在于缺乏一个既精确又通用的动作表示方法。他们提出了一个巧妙的解决方案:将复杂的动作转换成视觉化的"骨架图",就像把三维的手部动作压缩成二维的线条画。这些骨架图就像音乐指挥家手中的指挥棒轨迹,能够精确地传达动作的每一个细节。

整个研究过程就像建造一座连接不同世界的桥梁。研究团队需要处理两种截然不同的数据源:人类的手部操作视频和机器人的操作记录。对于人类的操作视频,他们开发了一套四阶段的处理流水线,就像给模糊的老照片做修复一样。首先,他们使用先进的手部检测技术找出视频中的所有手部动作;然后,通过时序稳定化技术确保动作轨迹的连贯性;接着,填补遮挡或检测失败造成的空白帧;最后,使用平滑滤波技术消除抖动,让整个动作序列看起来自然流畅。

对于机器人操作数据,处理过程更像是翻译工作。机器人的动作本身就以精确的数字形式记录着,但问题在于如何将这些抽象的数字转换成视觉可理解的形式。研究团队将机器人的关节状态渲染成骨架图,然后通过视觉匹配技术确保这些骨架图与实际的视频观察保持一致。这个过程就像给机器人的每一个动作都拍摄了一张精准的"X光片"。

在模型架构设计上,研究团队选择了一个既稳妥又创新的策略。他们以CogVideoX这个已经在大规模数据上训练好的视频生成模型为基础,就像在一栋坚固的房屋基础上加盖新楼层。为了避免破坏原有模型的能力,他们采用了ControlNet技术,相当于在原有系统中增加了一个专门处理动作指令的"翻译模块"。这个模块能够将骨架图转换成模型可以理解的信号,然后通过双分支条件机制将这些信号注入到视频生成过程中。

研究团队还特别关注训练过程中的细节优化。他们发现,在机器人操作视频中,往往存在大量无关紧要的静止时间,这会稀释真正有价值的交互动作。为了解决这个问题,他们开发了一套智能采样策略,专门在机器人状态发生变化的时间点附近提取更多的训练样本。同时,他们还增强了手部和夹具区域的损失权重,确保模型优先学习这些关键区域的动态变化。

实验验证阶段就像一场全面的能力测试。研究团队在三个不同的数据集上测试了他们的方法:EgoVid数据集包含20万个第一人称视角的日常活动片段,DROID数据集包含4.7万个第三人称视角的机器人操作片段,RT-1数据集则包含5.7万个基础机器人技能片段。这种多样化的测试确保了方法的普适性和鲁棒性。

与现有方法的对比结果令人印象深刻。在传统的文本驱动视频生成中,当你输入"拿起杯子"这样的指令时,生成的视频往往动作模糊、细节缺失。而基于原始机器人状态的方法虽然精度较高,但在面对随机视角或复杂环境时容易失效。相比之下,使用视觉动作提示的方法在各项评估指标上都表现出色:PSNR(图像质量指标)、SSIM(结构相似性)、LPIPS(感知质量)和FVD(视频质量)等多个维度都显著超越了传统方法。

更令人惊喜的是跨域知识迁移的效果。当研究团队将人类手部操作和机器人操作的数据混合训练时,模型展现出了令人惊讶的泛化能力。在RT-1数据集上,统一训练的模型能够执行训练时从未见过的新技能,比如"关闭抽屉"这样的动作。在DROID数据集上,模型不仅能够在已知实验室环境中表现良好,还能适应全新的实验室场景。这种跨域迁移能力就像一个既会弹钢琴又会弹吉他的音乐家,能够将在一种乐器上学到的音乐理解应用到另一种乐器上。

研究团队还探索了不同形式的视觉动作提示。除了骨架图,他们还测试了网格渲染和深度图等其他形式。结果显示,虽然包含更多细节的表示方法(如网格渲染)在质量上略有优势,但骨架图由于其获取的便利性和良好的跨域适应性,仍然是最实用的选择。这就像在精确度和实用性之间找到了最佳的平衡点。

在模型架构的消融实验中,研究团队发现ControlNet组件发挥着至关重要的作用。当移除这个组件时,模型的生成质量和动作准确性都会显著下降。而主分支的LoRA微调虽然贡献相对较小,但仍能带来可观的性能提升。这种设计就像一个精心调校的乐器,每个部件都有其独特的作用。

这项研究的意义远远超出了技术本身。在游戏开发领域,开发者可以通过简单的手势输入快速生成复杂的角色动画,大大缩短制作周期。在机器人学习中,研究人员可以通过人类演示快速训练机器人执行新任务,而无需编写复杂的控制程序。在虚拟现实和增强现实应用中,用户的手部动作可以实时转换为虚拟环境中的精确操作。

当然,这项研究也面临一些限制。目前的视觉动作提示主要基于二维表示,在三维空间信息的传达上仍有提升空间。另外,基础模型原本针对文本到视频的任务进行优化,如何更好地适应动作控制任务还有进一步探索的空间。

展望未来,研究团队计划在视觉动作提示中融入更丰富的三维信息,并探索如何将视频-文本注意力机制适配为视频-动作注意力机制,以实现更精确的动作控制。这项研究为动作驱动的视频生成开辟了新的道路,让AI理解和模拟复杂的人类动作变得更加精准和实用。

说到底,这项研究就像给AI装上了一双善解人意的眼睛,让它不仅能听懂我们说什么,还能看懂我们做什么。在这个AI技术日益融入日常生活的时代,这样的技术突破让我们距离真正智能的人机交互又近了一步。当你下次在电脑前挥动双手时,也许AI真的能完全理解你的每一个动作意图。

Q&A

Q1:什么是视觉动作提示技术?它是如何工作的?

A:视觉动作提示技术是一种将复杂的三维手部或机器人动作转换为二维骨架图的方法,就像把动作的"指挥棒轨迹"画下来。AI通过学习这些骨架图与对应视频之间的关系,能够根据新的动作骨架图生成逼真的互动视频,实现精准的动作控制。

Q2:这项技术与传统的AI视频生成有什么区别?

A:传统方法主要依赖文字描述(如"拿起杯子"),生成的视频往往动作模糊、细节缺失。而视觉动作提示技术通过精确的骨架图直接传达动作的每个细节,生成的视频在动作准确性和视觉质量上都大幅提升,特别适合需要精确控制的复杂操作场景。

Q3:这项技术可以应用在哪些领域?普通人能使用吗?

A:该技术在游戏开发、机器人训练、虚拟现实等领域都有广阔应用前景。目前还处于研究阶段,普通用户无法直接使用,但未来可能会集成到游戏引擎、视频编辑软件或VR系统中,让用户通过简单的手势操作就能生成复杂的互动内容。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
贬低全红婵、移居国外、儿子入英国籍?白岩松到底动了谁的蛋糕

贬低全红婵、移居国外、儿子入英国籍?白岩松到底动了谁的蛋糕

许三岁
2026-04-18 09:36:18
4月19日俄乌:泽连斯基已经放弃美国了

4月19日俄乌:泽连斯基已经放弃美国了

山河路口
2026-04-19 17:27:16
想远离癌症,先管住嘴!肿瘤科医生内部的“忌口清单”,很多人天天吃

想远离癌症,先管住嘴!肿瘤科医生内部的“忌口清单”,很多人天天吃

环球网资讯
2026-04-18 17:59:25
骑士总比分1-0!哈登22+10轻取猛龙 米切尔32分斯特鲁斯24分

骑士总比分1-0!哈登22+10轻取猛龙 米切尔32分斯特鲁斯24分

罗说NBA
2026-04-19 05:36:20
拔萝卜带泥!逃往美国的恒大“二把手”,邻居却是另一名潜逃富豪

拔萝卜带泥!逃往美国的恒大“二把手”,邻居却是另一名潜逃富豪

二大爷观世界
2026-03-14 18:43:53
大风+强对流!河南双预警齐发:局地有10到12级雷暴大风

大风+强对流!河南双预警齐发:局地有10到12级雷暴大风

大象新闻
2026-04-19 10:31:02
杜兰特伤情传来最新消息!跟腱断裂是同一腿,火箭队还在自欺欺人

杜兰特伤情传来最新消息!跟腱断裂是同一腿,火箭队还在自欺欺人

砚底沉香
2026-04-19 02:21:03
震惊!儿媳失业近一年,每天只买菜做饭,河南婆婆吐槽劝儿子离婚

震惊!儿媳失业近一年,每天只买菜做饭,河南婆婆吐槽劝儿子离婚

火山詩话
2026-04-19 09:20:26
6个家庭天塌了!成都面包车追尾致6死5伤,原因公布,真相太气人

6个家庭天塌了!成都面包车追尾致6死5伤,原因公布,真相太气人

奇思妙想草叶君
2026-04-18 23:52:46
福建一车辆逆行撞人,致2死1伤

福建一车辆逆行撞人,致2死1伤

界面新闻
2026-04-19 13:53:08
革命卫队与伊朗政府矛盾公开化,伊朗内部分裂愈演愈烈

革命卫队与伊朗政府矛盾公开化,伊朗内部分裂愈演愈烈

修明札记
2026-04-19 11:47:24
大巴在俄侧翻致2名中国公民遇难,目击者:当时下大暴雪视线差,路面也结冰,后将十多人安顿在自己大巴车上

大巴在俄侧翻致2名中国公民遇难,目击者:当时下大暴雪视线差,路面也结冰,后将十多人安顿在自己大巴车上

极目新闻
2026-04-19 15:45:14
经常无故缺勤,喝到不省人事,“他已成为美国国家安全隐患”

经常无故缺勤,喝到不省人事,“他已成为美国国家安全隐患”

观察者网
2026-04-19 12:28:07
英超教练市场疯了:官宣离队24小时,水晶宫砸重金抢人

英超教练市场疯了:官宣离队24小时,水晶宫砸重金抢人

赛场名场面
2026-04-19 11:39:15
日本军舰闯台海后,美国接到通知,中国东海划5处警戒区,有动作

日本军舰闯台海后,美国接到通知,中国东海划5处警戒区,有动作

肖兹探秘说
2026-04-19 16:35:16
继德国之后,英国也开始贴出“中文标语”?中国游客:不能够接受

继德国之后,英国也开始贴出“中文标语”?中国游客:不能够接受

潮鹿逐梦
2026-04-02 12:31:48
上海中环拥堵愈演愈烈!南北高架段通行骤降,职住失衡成核心诱因

上海中环拥堵愈演愈烈!南北高架段通行骤降,职住失衡成核心诱因

媛来这样
2026-04-19 00:01:46
苏州一对情侣,谈了7年,女子提了18次分手,分手后在街头痛哭!

苏州一对情侣,谈了7年,女子提了18次分手,分手后在街头痛哭!

川渝视觉
2026-04-17 22:13:14
女孩边玩手机边下楼梯 不慎踩空摔倒或将终身瘫痪

女孩边玩手机边下楼梯 不慎踩空摔倒或将终身瘫痪

闪电新闻
2026-04-18 22:42:07
俄外长刚归国,普京就在开会时发火!但他心中明白:中方已尽力了

俄外长刚归国,普京就在开会时发火!但他心中明白:中方已尽力了

梦醉为红颜一笑
2026-04-18 17:55:00
2026-04-19 19:03:00
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
8048文章数 562关注度
往期回顾 全部

科技要闻

50分26秒破人类纪录!300台机器人狂飙半马

头条要闻

印度当晚召见伊朗大使抗议两船只遭开火袭击 伊朗回应

头条要闻

印度当晚召见伊朗大使抗议两船只遭开火袭击 伊朗回应

体育要闻

湖人1比0火箭:老詹比乌度卡像教练

娱乐要闻

张天爱评论区沦陷!被曝卷入小三风波

财经要闻

华谊兄弟,8年亏光85亿

汽车要闻

29分钟大定破万 极氪8X为什么这么多人买?

态度原创

本地
游戏
时尚
公开课
军事航空

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

玩家发现《《生化危机9》未使用音轨 或与佣兵模式有关

这些才是最适合普通人的造型!不用穿大牌、不老套,真实自然

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗逼退美扫雷艇:美方求给15分钟撤退

无障碍浏览 进入关怀版