网易首页 > 网易号 > 正文 申请入驻

浙江大学发明"动作指挥棒":让AI看懂手势就能生成逼真互动视频

0
分享至

这项由浙江大学周晓威教授团队联合湘江实验室、复旦大学、清华大学和深圳大学共同完成的研究发表于2025年8月,论文题目为《Precise Action-to-Video Generation Through Visual Action Prompts》。有兴趣深入了解的读者可以通过arXiv:2508.13104访问完整论文。

设想一下这样的场景:你在电脑屏幕前挥舞双手,AI立刻就能理解你的动作意图,并生成一段逼真的视频,展现你的手如何抓取桌上的杯子、翻开书页或者操作复杂的机械装置。这听起来像科幻电影的情节,但浙江大学的研究团队已经把这个想法变成了现实。他们开发出一套名为"视觉动作提示"的新技术,就像给AI装上了一双能够精准理解动作的眼睛。

传统的AI视频生成就像一个只会听文字指令的机器人。当你告诉它"拿起杯子"时,它可能会生成一个模糊的动作,但具体怎么拿、从哪个角度拿、手指如何弯曲,这些精细的细节往往无法准确呈现。更麻烦的是,如果你想让AI理解机器人手臂的复杂操作,传统方法就更加力不从心了。这就好比你想教一个人做复杂的手工活,但只能用语言描述,而不能做示范动作。

研究团队意识到这个问题的根源在于缺乏一个既精确又通用的动作表示方法。他们提出了一个巧妙的解决方案:将复杂的动作转换成视觉化的"骨架图",就像把三维的手部动作压缩成二维的线条画。这些骨架图就像音乐指挥家手中的指挥棒轨迹,能够精确地传达动作的每一个细节。

整个研究过程就像建造一座连接不同世界的桥梁。研究团队需要处理两种截然不同的数据源:人类的手部操作视频和机器人的操作记录。对于人类的操作视频,他们开发了一套四阶段的处理流水线,就像给模糊的老照片做修复一样。首先,他们使用先进的手部检测技术找出视频中的所有手部动作;然后,通过时序稳定化技术确保动作轨迹的连贯性;接着,填补遮挡或检测失败造成的空白帧;最后,使用平滑滤波技术消除抖动,让整个动作序列看起来自然流畅。

对于机器人操作数据,处理过程更像是翻译工作。机器人的动作本身就以精确的数字形式记录着,但问题在于如何将这些抽象的数字转换成视觉可理解的形式。研究团队将机器人的关节状态渲染成骨架图,然后通过视觉匹配技术确保这些骨架图与实际的视频观察保持一致。这个过程就像给机器人的每一个动作都拍摄了一张精准的"X光片"。

在模型架构设计上,研究团队选择了一个既稳妥又创新的策略。他们以CogVideoX这个已经在大规模数据上训练好的视频生成模型为基础,就像在一栋坚固的房屋基础上加盖新楼层。为了避免破坏原有模型的能力,他们采用了ControlNet技术,相当于在原有系统中增加了一个专门处理动作指令的"翻译模块"。这个模块能够将骨架图转换成模型可以理解的信号,然后通过双分支条件机制将这些信号注入到视频生成过程中。

研究团队还特别关注训练过程中的细节优化。他们发现,在机器人操作视频中,往往存在大量无关紧要的静止时间,这会稀释真正有价值的交互动作。为了解决这个问题,他们开发了一套智能采样策略,专门在机器人状态发生变化的时间点附近提取更多的训练样本。同时,他们还增强了手部和夹具区域的损失权重,确保模型优先学习这些关键区域的动态变化。

实验验证阶段就像一场全面的能力测试。研究团队在三个不同的数据集上测试了他们的方法:EgoVid数据集包含20万个第一人称视角的日常活动片段,DROID数据集包含4.7万个第三人称视角的机器人操作片段,RT-1数据集则包含5.7万个基础机器人技能片段。这种多样化的测试确保了方法的普适性和鲁棒性。

与现有方法的对比结果令人印象深刻。在传统的文本驱动视频生成中,当你输入"拿起杯子"这样的指令时,生成的视频往往动作模糊、细节缺失。而基于原始机器人状态的方法虽然精度较高,但在面对随机视角或复杂环境时容易失效。相比之下,使用视觉动作提示的方法在各项评估指标上都表现出色:PSNR(图像质量指标)、SSIM(结构相似性)、LPIPS(感知质量)和FVD(视频质量)等多个维度都显著超越了传统方法。

更令人惊喜的是跨域知识迁移的效果。当研究团队将人类手部操作和机器人操作的数据混合训练时,模型展现出了令人惊讶的泛化能力。在RT-1数据集上,统一训练的模型能够执行训练时从未见过的新技能,比如"关闭抽屉"这样的动作。在DROID数据集上,模型不仅能够在已知实验室环境中表现良好,还能适应全新的实验室场景。这种跨域迁移能力就像一个既会弹钢琴又会弹吉他的音乐家,能够将在一种乐器上学到的音乐理解应用到另一种乐器上。

研究团队还探索了不同形式的视觉动作提示。除了骨架图,他们还测试了网格渲染和深度图等其他形式。结果显示,虽然包含更多细节的表示方法(如网格渲染)在质量上略有优势,但骨架图由于其获取的便利性和良好的跨域适应性,仍然是最实用的选择。这就像在精确度和实用性之间找到了最佳的平衡点。

在模型架构的消融实验中,研究团队发现ControlNet组件发挥着至关重要的作用。当移除这个组件时,模型的生成质量和动作准确性都会显著下降。而主分支的LoRA微调虽然贡献相对较小,但仍能带来可观的性能提升。这种设计就像一个精心调校的乐器,每个部件都有其独特的作用。

这项研究的意义远远超出了技术本身。在游戏开发领域,开发者可以通过简单的手势输入快速生成复杂的角色动画,大大缩短制作周期。在机器人学习中,研究人员可以通过人类演示快速训练机器人执行新任务,而无需编写复杂的控制程序。在虚拟现实和增强现实应用中,用户的手部动作可以实时转换为虚拟环境中的精确操作。

当然,这项研究也面临一些限制。目前的视觉动作提示主要基于二维表示,在三维空间信息的传达上仍有提升空间。另外,基础模型原本针对文本到视频的任务进行优化,如何更好地适应动作控制任务还有进一步探索的空间。

展望未来,研究团队计划在视觉动作提示中融入更丰富的三维信息,并探索如何将视频-文本注意力机制适配为视频-动作注意力机制,以实现更精确的动作控制。这项研究为动作驱动的视频生成开辟了新的道路,让AI理解和模拟复杂的人类动作变得更加精准和实用。

说到底,这项研究就像给AI装上了一双善解人意的眼睛,让它不仅能听懂我们说什么,还能看懂我们做什么。在这个AI技术日益融入日常生活的时代,这样的技术突破让我们距离真正智能的人机交互又近了一步。当你下次在电脑前挥动双手时,也许AI真的能完全理解你的每一个动作意图。

Q&A

Q1:什么是视觉动作提示技术?它是如何工作的?

A:视觉动作提示技术是一种将复杂的三维手部或机器人动作转换为二维骨架图的方法,就像把动作的"指挥棒轨迹"画下来。AI通过学习这些骨架图与对应视频之间的关系,能够根据新的动作骨架图生成逼真的互动视频,实现精准的动作控制。

Q2:这项技术与传统的AI视频生成有什么区别?

A:传统方法主要依赖文字描述(如"拿起杯子"),生成的视频往往动作模糊、细节缺失。而视觉动作提示技术通过精确的骨架图直接传达动作的每个细节,生成的视频在动作准确性和视觉质量上都大幅提升,特别适合需要精确控制的复杂操作场景。

Q3:这项技术可以应用在哪些领域?普通人能使用吗?

A:该技术在游戏开发、机器人训练、虚拟现实等领域都有广阔应用前景。目前还处于研究阶段,普通用户无法直接使用,但未来可能会集成到游戏引擎、视频编辑软件或VR系统中,让用户通过简单的手势操作就能生成复杂的互动内容。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
陕西一中学网购演出服后集体退货?商家称收到穿过的衣服,当地教体局:家长已取消退货

陕西一中学网购演出服后集体退货?商家称收到穿过的衣服,当地教体局:家长已取消退货

潇湘晨报
2026-04-14 10:58:23
一线记者传回中东战报,伊朗国内的惨烈程度,远比想象中大得多

一线记者传回中东战报,伊朗国内的惨烈程度,远比想象中大得多

阿器谈史
2026-04-13 12:08:12
访陆成败笔?最新民调出炉,郑丽文支持率倒数,蒋万安捡了大漏?

访陆成败笔?最新民调出炉,郑丽文支持率倒数,蒋万安捡了大漏?

牛锅巴小钒
2026-04-14 13:36:35
马伊琍官宣喜讯不到24小时,文章高调求复合姚笛才是笑到最后

马伊琍官宣喜讯不到24小时,文章高调求复合姚笛才是笑到最后

智慧生活笔记
2026-04-12 16:43:48
这居然是任泉?网友:真认不出来了

这居然是任泉?网友:真认不出来了

木子爱娱乐大号
2026-04-14 10:52:36
为何金庸武侠小说依旧风靡,古龙却已无人问津?其实原因很简单

为何金庸武侠小说依旧风靡,古龙却已无人问津?其实原因很简单

长风文史
2026-04-13 20:41:32
钟汉良《蜜语纪》首波真实口碑出炉!观众打分评价“一针见血”

钟汉良《蜜语纪》首波真实口碑出炉!观众打分评价“一针见血”

娱乐圈笔娱君
2026-04-14 11:19:02
35岁北大韦东奕,官宣喜讯!

35岁北大韦东奕,官宣喜讯!

乔话
2026-04-13 20:32:52
反向预言!12年前索尼惊人广告被挖出:从此不需要手机

反向预言!12年前索尼惊人广告被挖出:从此不需要手机

游民星空
2026-04-13 13:07:09
缺席不减热爱!樊振东正式上任,亮相上海新岗位,续写体育担当

缺席不减热爱!樊振东正式上任,亮相上海新岗位,续写体育担当

体育见习官
2026-04-13 11:44:17
民进党,极有可能在下一届台湾地区选举后,成为长期一家独大政党

民进党,极有可能在下一届台湾地区选举后,成为长期一家独大政党

李橑在北漂
2026-04-02 10:22:26
偷鸡不成蚀把米!以为能“毁掉”全红婵,不料自己先被扒个底朝天

偷鸡不成蚀把米!以为能“毁掉”全红婵,不料自己先被扒个底朝天

做一个合格的吃瓜群众
2026-04-14 08:01:03
4年2.75亿续浓眉!3年1.5亿签吹杨!奇才中了必死的局!

4年2.75亿续浓眉!3年1.5亿签吹杨!奇才中了必死的局!

贵圈真乱
2026-04-14 13:21:55
中国风风火火的造船业,本质上其实只是低端产业,赚的是组装费

中国风风火火的造船业,本质上其实只是低端产业,赚的是组装费

三言四拍
2026-04-13 21:31:23
山东美女老师任丛丛去世,仅41岁,外貌酷似朱媛媛,原因令人惋惜

山东美女老师任丛丛去世,仅41岁,外貌酷似朱媛媛,原因令人惋惜

裕丰娱间说
2026-04-13 18:09:32
许家印认罪之后,更大的问号还在后面

许家印认罪之后,更大的问号还在后面

迷世书童H9527
2026-04-14 12:50:27
出生39天,生母陈宝莲就自杀,如今戴耳钉、纹纹身走上“不归路”

出生39天,生母陈宝莲就自杀,如今戴耳钉、纹纹身走上“不归路”

林轻吟
2026-04-13 19:48:49
伊朗放出致命证据,果然美军说谎了!

伊朗放出致命证据,果然美军说谎了!

深度报
2026-04-13 22:31:48
女子发现老公手指甲发紫 劝他去医院被怼“吃饱了没事干” 几天后老公突然背痛 胸痛被120拉走

女子发现老公手指甲发紫 劝他去医院被怼“吃饱了没事干” 几天后老公突然背痛 胸痛被120拉走

闪电新闻
2026-04-14 09:57:14
伊朗到现在都不敢相信,40多天的血战,给自己打出了半个世纪国运

伊朗到现在都不敢相信,40多天的血战,给自己打出了半个世纪国运

共工之锚
2026-04-14 00:43:37
2026-04-14 16:31:00
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7969文章数 560关注度
往期回顾 全部

科技要闻

离职同事"炼化"成AI?这届公司不需要活人了

头条要闻

防范特朗普政府"对华软化" 史上最严对华芯片法案来了

头条要闻

防范特朗普政府"对华软化" 史上最严对华芯片法案来了

体育要闻

他做对了所有事,却被整个职业网坛放逐了八年

娱乐要闻

宋祖儿刘宇宁恋情大反转 正主火速辟谣

财经要闻

许家印受审当庭表示认罪悔罪

汽车要闻

长城欧拉5限定版纯电版上市 限量99台售价13.38万元

态度原创

时尚
亲子
教育
本地
艺术

今年科切拉的风吹向了谁?

亲子要闻

后续!孕妇200买水果被老公骂:已去医院终止妊娠,坦言及时止损

教育要闻

初中数学,根式运算

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

艺术要闻

这位美女画家的夏天竟如此梦幻

无障碍浏览 进入关怀版