网易首页 > 网易号 > 正文 申请入驻

浙江大学发明"动作指挥棒":让AI看懂手势就能生成逼真互动视频

0
分享至

这项由浙江大学周晓威教授团队联合湘江实验室、复旦大学、清华大学和深圳大学共同完成的研究发表于2025年8月,论文题目为《Precise Action-to-Video Generation Through Visual Action Prompts》。有兴趣深入了解的读者可以通过arXiv:2508.13104访问完整论文。

设想一下这样的场景:你在电脑屏幕前挥舞双手,AI立刻就能理解你的动作意图,并生成一段逼真的视频,展现你的手如何抓取桌上的杯子、翻开书页或者操作复杂的机械装置。这听起来像科幻电影的情节,但浙江大学的研究团队已经把这个想法变成了现实。他们开发出一套名为"视觉动作提示"的新技术,就像给AI装上了一双能够精准理解动作的眼睛。

传统的AI视频生成就像一个只会听文字指令的机器人。当你告诉它"拿起杯子"时,它可能会生成一个模糊的动作,但具体怎么拿、从哪个角度拿、手指如何弯曲,这些精细的细节往往无法准确呈现。更麻烦的是,如果你想让AI理解机器人手臂的复杂操作,传统方法就更加力不从心了。这就好比你想教一个人做复杂的手工活,但只能用语言描述,而不能做示范动作。

研究团队意识到这个问题的根源在于缺乏一个既精确又通用的动作表示方法。他们提出了一个巧妙的解决方案:将复杂的动作转换成视觉化的"骨架图",就像把三维的手部动作压缩成二维的线条画。这些骨架图就像音乐指挥家手中的指挥棒轨迹,能够精确地传达动作的每一个细节。

整个研究过程就像建造一座连接不同世界的桥梁。研究团队需要处理两种截然不同的数据源:人类的手部操作视频和机器人的操作记录。对于人类的操作视频,他们开发了一套四阶段的处理流水线,就像给模糊的老照片做修复一样。首先,他们使用先进的手部检测技术找出视频中的所有手部动作;然后,通过时序稳定化技术确保动作轨迹的连贯性;接着,填补遮挡或检测失败造成的空白帧;最后,使用平滑滤波技术消除抖动,让整个动作序列看起来自然流畅。

对于机器人操作数据,处理过程更像是翻译工作。机器人的动作本身就以精确的数字形式记录着,但问题在于如何将这些抽象的数字转换成视觉可理解的形式。研究团队将机器人的关节状态渲染成骨架图,然后通过视觉匹配技术确保这些骨架图与实际的视频观察保持一致。这个过程就像给机器人的每一个动作都拍摄了一张精准的"X光片"。

在模型架构设计上,研究团队选择了一个既稳妥又创新的策略。他们以CogVideoX这个已经在大规模数据上训练好的视频生成模型为基础,就像在一栋坚固的房屋基础上加盖新楼层。为了避免破坏原有模型的能力,他们采用了ControlNet技术,相当于在原有系统中增加了一个专门处理动作指令的"翻译模块"。这个模块能够将骨架图转换成模型可以理解的信号,然后通过双分支条件机制将这些信号注入到视频生成过程中。

研究团队还特别关注训练过程中的细节优化。他们发现,在机器人操作视频中,往往存在大量无关紧要的静止时间,这会稀释真正有价值的交互动作。为了解决这个问题,他们开发了一套智能采样策略,专门在机器人状态发生变化的时间点附近提取更多的训练样本。同时,他们还增强了手部和夹具区域的损失权重,确保模型优先学习这些关键区域的动态变化。

实验验证阶段就像一场全面的能力测试。研究团队在三个不同的数据集上测试了他们的方法:EgoVid数据集包含20万个第一人称视角的日常活动片段,DROID数据集包含4.7万个第三人称视角的机器人操作片段,RT-1数据集则包含5.7万个基础机器人技能片段。这种多样化的测试确保了方法的普适性和鲁棒性。

与现有方法的对比结果令人印象深刻。在传统的文本驱动视频生成中,当你输入"拿起杯子"这样的指令时,生成的视频往往动作模糊、细节缺失。而基于原始机器人状态的方法虽然精度较高,但在面对随机视角或复杂环境时容易失效。相比之下,使用视觉动作提示的方法在各项评估指标上都表现出色:PSNR(图像质量指标)、SSIM(结构相似性)、LPIPS(感知质量)和FVD(视频质量)等多个维度都显著超越了传统方法。

更令人惊喜的是跨域知识迁移的效果。当研究团队将人类手部操作和机器人操作的数据混合训练时,模型展现出了令人惊讶的泛化能力。在RT-1数据集上,统一训练的模型能够执行训练时从未见过的新技能,比如"关闭抽屉"这样的动作。在DROID数据集上,模型不仅能够在已知实验室环境中表现良好,还能适应全新的实验室场景。这种跨域迁移能力就像一个既会弹钢琴又会弹吉他的音乐家,能够将在一种乐器上学到的音乐理解应用到另一种乐器上。

研究团队还探索了不同形式的视觉动作提示。除了骨架图,他们还测试了网格渲染和深度图等其他形式。结果显示,虽然包含更多细节的表示方法(如网格渲染)在质量上略有优势,但骨架图由于其获取的便利性和良好的跨域适应性,仍然是最实用的选择。这就像在精确度和实用性之间找到了最佳的平衡点。

在模型架构的消融实验中,研究团队发现ControlNet组件发挥着至关重要的作用。当移除这个组件时,模型的生成质量和动作准确性都会显著下降。而主分支的LoRA微调虽然贡献相对较小,但仍能带来可观的性能提升。这种设计就像一个精心调校的乐器,每个部件都有其独特的作用。

这项研究的意义远远超出了技术本身。在游戏开发领域,开发者可以通过简单的手势输入快速生成复杂的角色动画,大大缩短制作周期。在机器人学习中,研究人员可以通过人类演示快速训练机器人执行新任务,而无需编写复杂的控制程序。在虚拟现实和增强现实应用中,用户的手部动作可以实时转换为虚拟环境中的精确操作。

当然,这项研究也面临一些限制。目前的视觉动作提示主要基于二维表示,在三维空间信息的传达上仍有提升空间。另外,基础模型原本针对文本到视频的任务进行优化,如何更好地适应动作控制任务还有进一步探索的空间。

展望未来,研究团队计划在视觉动作提示中融入更丰富的三维信息,并探索如何将视频-文本注意力机制适配为视频-动作注意力机制,以实现更精确的动作控制。这项研究为动作驱动的视频生成开辟了新的道路,让AI理解和模拟复杂的人类动作变得更加精准和实用。

说到底,这项研究就像给AI装上了一双善解人意的眼睛,让它不仅能听懂我们说什么,还能看懂我们做什么。在这个AI技术日益融入日常生活的时代,这样的技术突破让我们距离真正智能的人机交互又近了一步。当你下次在电脑前挥动双手时,也许AI真的能完全理解你的每一个动作意图。

Q&A

Q1:什么是视觉动作提示技术?它是如何工作的?

A:视觉动作提示技术是一种将复杂的三维手部或机器人动作转换为二维骨架图的方法,就像把动作的"指挥棒轨迹"画下来。AI通过学习这些骨架图与对应视频之间的关系,能够根据新的动作骨架图生成逼真的互动视频,实现精准的动作控制。

Q2:这项技术与传统的AI视频生成有什么区别?

A:传统方法主要依赖文字描述(如"拿起杯子"),生成的视频往往动作模糊、细节缺失。而视觉动作提示技术通过精确的骨架图直接传达动作的每个细节,生成的视频在动作准确性和视觉质量上都大幅提升,特别适合需要精确控制的复杂操作场景。

Q3:这项技术可以应用在哪些领域?普通人能使用吗?

A:该技术在游戏开发、机器人训练、虚拟现实等领域都有广阔应用前景。目前还处于研究阶段,普通用户无法直接使用,但未来可能会集成到游戏引擎、视频编辑软件或VR系统中,让用户通过简单的手势操作就能生成复杂的互动内容。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“感觉眼熟,一对比感觉就是”,一网友发图指认:观复博物馆铜佛像与海口失窃

“感觉眼熟,一对比感觉就是”,一网友发图指认:观复博物馆铜佛像与海口失窃

大象新闻
2026-07-03 11:30:03
离婚8年后王小玮官宣喜讯,那个主动放手一切的男人,如今怎样了

离婚8年后王小玮官宣喜讯,那个主动放手一切的男人,如今怎样了

小嵩
2026-07-04 08:50:15
他出门女秘书相伴,非法敛财100亿!从狂妄巨富到阶下囚

他出门女秘书相伴,非法敛财100亿!从狂妄巨富到阶下囚

聪明小石头
2026-02-15 18:42:58
日元跌成废纸,被中国精准制裁!最坏预期已出现,经济还能撑多久

日元跌成废纸,被中国精准制裁!最坏预期已出现,经济还能撑多久

琴音缭绕回
2026-07-04 08:52:49
克洛普:正在就出任德国国家队主帅谈判

克洛普:正在就出任德国国家队主帅谈判

懂球帝
2026-07-04 05:44:06
俄乌战局终于全面逆转?战术狂欢掩盖致命真相,前线溃败比预期快

俄乌战局终于全面逆转?战术狂欢掩盖致命真相,前线溃败比预期快

最美的巧合
2026-07-04 06:26:27
“寿宴门”5年后,再看被限制出镜的陈蓉,她的处境比想象更唏嘘

“寿宴门”5年后,再看被限制出镜的陈蓉,她的处境比想象更唏嘘

借你一生
2026-06-09 15:01:41
哪一刻让你意识到和对方是两个世界的人?网友:眼界差距难以逾越

哪一刻让你意识到和对方是两个世界的人?网友:眼界差距难以逾越

夜深爱杂谈
2026-06-28 22:30:51
别笑梅威瑟破产,他的死局,90%的有钱人都逃不掉!

别笑梅威瑟破产,他的死局,90%的有钱人都逃不掉!

格斗时代
2026-06-30 20:34:39
7月主线已经换了,资金正在涌入这些新方向!

7月主线已经换了,资金正在涌入这些新方向!

亿通电子游戏
2026-07-03 21:04:12
海军上校方明在执行飞行训练任务时牺牲,被评定为烈士,安徽省合肥市庐江县以最高礼仪举行告别仪式

海军上校方明在执行飞行训练任务时牺牲,被评定为烈士,安徽省合肥市庐江县以最高礼仪举行告别仪式

极目新闻
2026-07-03 15:16:01
危险堪比核弹,需中国帮忙监控,萨雷兹湖为何令中亚四国胆战心惊

危险堪比核弹,需中国帮忙监控,萨雷兹湖为何令中亚四国胆战心惊

月光作笺a
2026-06-28 01:35:31
够狠!王励勤终于动真格的了,直接砍掉前主席的后花园

够狠!王励勤终于动真格的了,直接砍掉前主席的后花园

以茶带书
2026-06-21 16:00:21
北京租房的人越来越少,大家如今都落脚在哪?现实几种居住方式

北京租房的人越来越少,大家如今都落脚在哪?现实几种居住方式

靓仔情感
2026-07-03 09:15:06
阿根廷3:2佛得角!网友称“神的脚踢不过佛的手”:佛得角门将沃齐尼亚扑出梅西3个球

阿根廷3:2佛得角!网友称“神的脚踢不过佛的手”:佛得角门将沃齐尼亚扑出梅西3个球

三湘都市报
2026-07-04 09:00:20
将æ读成aɪ,家长质疑猿辅导授课老师英语发音有误,机构:有教资,发音都是标准的

将æ读成aɪ,家长质疑猿辅导授课老师英语发音有误,机构:有教资,发音都是标准的

潇湘晨报
2026-07-03 14:54:18
日本专家:你以为是原子弹使我们投降的吗?不!是苏联的一个公告

日本专家:你以为是原子弹使我们投降的吗?不!是苏联的一个公告

探史
2026-06-19 11:11:17
梅西C罗的GOAT之争,2026或成终章

梅西C罗的GOAT之争,2026或成终章

日常碎碎念啊
2026-07-03 01:38:21
印网友:我们家家有电视,中国有吗?法国一句话让14亿人集体沉默

印网友:我们家家有电视,中国有吗?法国一句话让14亿人集体沉默

一个有灵魂的作者
2026-05-19 08:11:59
人口大迁徙或成定局?未来超半数中国人,大概会涌向这些地方

人口大迁徙或成定局?未来超半数中国人,大概会涌向这些地方

王二哥老搞笑
2026-07-03 17:49:36
2026-07-04 09:32:49
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
9040文章数 565关注度
往期回顾 全部

科技要闻

万亿富豪马斯克 舍不得特斯拉员工敞开用AI

头条要闻

牛弹琴:很罕见 普京突然穿上了军装

头条要闻

牛弹琴:很罕见 普京突然穿上了军装

体育要闻

C罗穿已故队友若塔球衣谢场 眼中含泪

娱乐要闻

海来阿木孕期出轨指控掀起全网热议

财经要闻

千亿茶市场无赢家:澜沧巨亏 八马停"蹄"

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

时尚
手机
房产
艺术
公开课

裙子+玛丽珍鞋、背心+阔腿裤,今年夏天最流行搭配,谁穿谁好看!

手机要闻

iPhone 18/e首发9GB内存:无法使用iOS 27两大新功能

房产要闻

总裁空缺17个月、现金缺口超1000亿:金融局“局外人”入局万科

艺术要闻

这位女子,在画坛默默无闻,作品清新质朴

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版