网易首页 > 网易号 > 正文 申请入驻

浙江大学发明"动作指挥棒":让AI看懂手势就能生成逼真互动视频

0
分享至


这项由浙江大学周晓威教授团队联合湘江实验室、复旦大学、清华大学和深圳大学共同完成的研究发表于2025年8月,论文题目为《Precise Action-to-Video Generation Through Visual Action Prompts》。有兴趣深入了解的读者可以通过arXiv:2508.13104访问完整论文。

设想一下这样的场景:你在电脑屏幕前挥舞双手,AI立刻就能理解你的动作意图,并生成一段逼真的视频,展现你的手如何抓取桌上的杯子、翻开书页或者操作复杂的机械装置。这听起来像科幻电影的情节,但浙江大学的研究团队已经把这个想法变成了现实。他们开发出一套名为"视觉动作提示"的新技术,就像给AI装上了一双能够精准理解动作的眼睛。

传统的AI视频生成就像一个只会听文字指令的机器人。当你告诉它"拿起杯子"时,它可能会生成一个模糊的动作,但具体怎么拿、从哪个角度拿、手指如何弯曲,这些精细的细节往往无法准确呈现。更麻烦的是,如果你想让AI理解机器人手臂的复杂操作,传统方法就更加力不从心了。这就好比你想教一个人做复杂的手工活,但只能用语言描述,而不能做示范动作。

研究团队意识到这个问题的根源在于缺乏一个既精确又通用的动作表示方法。他们提出了一个巧妙的解决方案:将复杂的动作转换成视觉化的"骨架图",就像把三维的手部动作压缩成二维的线条画。这些骨架图就像音乐指挥家手中的指挥棒轨迹,能够精确地传达动作的每一个细节。

整个研究过程就像建造一座连接不同世界的桥梁。研究团队需要处理两种截然不同的数据源:人类的手部操作视频和机器人的操作记录。对于人类的操作视频,他们开发了一套四阶段的处理流水线,就像给模糊的老照片做修复一样。首先,他们使用先进的手部检测技术找出视频中的所有手部动作;然后,通过时序稳定化技术确保动作轨迹的连贯性;接着,填补遮挡或检测失败造成的空白帧;最后,使用平滑滤波技术消除抖动,让整个动作序列看起来自然流畅。

对于机器人操作数据,处理过程更像是翻译工作。机器人的动作本身就以精确的数字形式记录着,但问题在于如何将这些抽象的数字转换成视觉可理解的形式。研究团队将机器人的关节状态渲染成骨架图,然后通过视觉匹配技术确保这些骨架图与实际的视频观察保持一致。这个过程就像给机器人的每一个动作都拍摄了一张精准的"X光片"。

在模型架构设计上,研究团队选择了一个既稳妥又创新的策略。他们以CogVideoX这个已经在大规模数据上训练好的视频生成模型为基础,就像在一栋坚固的房屋基础上加盖新楼层。为了避免破坏原有模型的能力,他们采用了ControlNet技术,相当于在原有系统中增加了一个专门处理动作指令的"翻译模块"。这个模块能够将骨架图转换成模型可以理解的信号,然后通过双分支条件机制将这些信号注入到视频生成过程中。

研究团队还特别关注训练过程中的细节优化。他们发现,在机器人操作视频中,往往存在大量无关紧要的静止时间,这会稀释真正有价值的交互动作。为了解决这个问题,他们开发了一套智能采样策略,专门在机器人状态发生变化的时间点附近提取更多的训练样本。同时,他们还增强了手部和夹具区域的损失权重,确保模型优先学习这些关键区域的动态变化。

实验验证阶段就像一场全面的能力测试。研究团队在三个不同的数据集上测试了他们的方法:EgoVid数据集包含20万个第一人称视角的日常活动片段,DROID数据集包含4.7万个第三人称视角的机器人操作片段,RT-1数据集则包含5.7万个基础机器人技能片段。这种多样化的测试确保了方法的普适性和鲁棒性。

与现有方法的对比结果令人印象深刻。在传统的文本驱动视频生成中,当你输入"拿起杯子"这样的指令时,生成的视频往往动作模糊、细节缺失。而基于原始机器人状态的方法虽然精度较高,但在面对随机视角或复杂环境时容易失效。相比之下,使用视觉动作提示的方法在各项评估指标上都表现出色:PSNR(图像质量指标)、SSIM(结构相似性)、LPIPS(感知质量)和FVD(视频质量)等多个维度都显著超越了传统方法。

更令人惊喜的是跨域知识迁移的效果。当研究团队将人类手部操作和机器人操作的数据混合训练时,模型展现出了令人惊讶的泛化能力。在RT-1数据集上,统一训练的模型能够执行训练时从未见过的新技能,比如"关闭抽屉"这样的动作。在DROID数据集上,模型不仅能够在已知实验室环境中表现良好,还能适应全新的实验室场景。这种跨域迁移能力就像一个既会弹钢琴又会弹吉他的音乐家,能够将在一种乐器上学到的音乐理解应用到另一种乐器上。

研究团队还探索了不同形式的视觉动作提示。除了骨架图,他们还测试了网格渲染和深度图等其他形式。结果显示,虽然包含更多细节的表示方法(如网格渲染)在质量上略有优势,但骨架图由于其获取的便利性和良好的跨域适应性,仍然是最实用的选择。这就像在精确度和实用性之间找到了最佳的平衡点。

在模型架构的消融实验中,研究团队发现ControlNet组件发挥着至关重要的作用。当移除这个组件时,模型的生成质量和动作准确性都会显著下降。而主分支的LoRA微调虽然贡献相对较小,但仍能带来可观的性能提升。这种设计就像一个精心调校的乐器,每个部件都有其独特的作用。

这项研究的意义远远超出了技术本身。在游戏开发领域,开发者可以通过简单的手势输入快速生成复杂的角色动画,大大缩短制作周期。在机器人学习中,研究人员可以通过人类演示快速训练机器人执行新任务,而无需编写复杂的控制程序。在虚拟现实和增强现实应用中,用户的手部动作可以实时转换为虚拟环境中的精确操作。

当然,这项研究也面临一些限制。目前的视觉动作提示主要基于二维表示,在三维空间信息的传达上仍有提升空间。另外,基础模型原本针对文本到视频的任务进行优化,如何更好地适应动作控制任务还有进一步探索的空间。

展望未来,研究团队计划在视觉动作提示中融入更丰富的三维信息,并探索如何将视频-文本注意力机制适配为视频-动作注意力机制,以实现更精确的动作控制。这项研究为动作驱动的视频生成开辟了新的道路,让AI理解和模拟复杂的人类动作变得更加精准和实用。

说到底,这项研究就像给AI装上了一双善解人意的眼睛,让它不仅能听懂我们说什么,还能看懂我们做什么。在这个AI技术日益融入日常生活的时代,这样的技术突破让我们距离真正智能的人机交互又近了一步。当你下次在电脑前挥动双手时,也许AI真的能完全理解你的每一个动作意图。

Q&A

Q1:什么是视觉动作提示技术?它是如何工作的?

A:视觉动作提示技术是一种将复杂的三维手部或机器人动作转换为二维骨架图的方法,就像把动作的"指挥棒轨迹"画下来。AI通过学习这些骨架图与对应视频之间的关系,能够根据新的动作骨架图生成逼真的互动视频,实现精准的动作控制。

Q2:这项技术与传统的AI视频生成有什么区别?

A:传统方法主要依赖文字描述(如"拿起杯子"),生成的视频往往动作模糊、细节缺失。而视觉动作提示技术通过精确的骨架图直接传达动作的每个细节,生成的视频在动作准确性和视觉质量上都大幅提升,特别适合需要精确控制的复杂操作场景。

Q3:这项技术可以应用在哪些领域?普通人能使用吗?

A:该技术在游戏开发、机器人训练、虚拟现实等领域都有广阔应用前景。目前还处于研究阶段,普通用户无法直接使用,但未来可能会集成到游戏引擎、视频编辑软件或VR系统中,让用户通过简单的手势操作就能生成复杂的互动内容。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
2连胜大获成功,勇士还验证4件事,进入第一梯队,一人可以重用

2连胜大获成功,勇士还验证4件事,进入第一梯队,一人可以重用

体坛大辣椒
2025-11-15 14:26:56
外交部昭告全球,军号日文警告,俄朝跟进!日本欠的债迟早要还

外交部昭告全球,军号日文警告,俄朝跟进!日本欠的债迟早要还

兵器海陆空视频
2025-11-14 17:30:50
台海言论越界,中方深夜发出最强警告:日本承担得起后果吗?

台海言论越界,中方深夜发出最强警告:日本承担得起后果吗?

吃货的分享
2025-11-15 16:00:23
美国演员“A妹”红毯上遭一男子搂抱:杨紫琼将其护怀中,男子得意比手势引众怒

美国演员“A妹”红毯上遭一男子搂抱:杨紫琼将其护怀中,男子得意比手势引众怒

新京报
2025-11-14 13:56:01
国足新帅上任3把火:拒绝足协“塞人”,30岁老将出局,提拔小将

国足新帅上任3把火:拒绝足协“塞人”,30岁老将出局,提拔小将

丹妮观
2025-11-13 18:25:03
刘强东父亲现身超市买猪头肉,穿着非常朴素,完全不像富豪的老爸

刘强东父亲现身超市买猪头肉,穿着非常朴素,完全不像富豪的老爸

乐悠悠娱乐
2025-11-15 11:46:29
41+14+11!哈登打满51分钟连续军训新状元 双加时豪取10分止连败

41+14+11!哈登打满51分钟连续军训新状元 双加时豪取10分止连败

狍子歪解体坛
2025-11-15 12:51:35
广州电动自行车通行乱象的思考

广州电动自行车通行乱象的思考

白浅娱乐聊
2025-11-15 10:27:06
A股:周末七大重磅信息,国常会,央行紧急出手,下周要这么走了

A股:周末七大重磅信息,国常会,央行紧急出手,下周要这么走了

虎哥闲聊
2025-11-15 12:02:05
佘智江被押回消息一出,最心虚可能不是他自己,而是国外的黄有龙

佘智江被押回消息一出,最心虚可能不是他自己,而是国外的黄有龙

手工制作阿歼
2025-11-15 11:46:37
泪目!34岁国乒美女奥运冠军4-2逆转夺冠:最后一舞封神微笑真甜

泪目!34岁国乒美女奥运冠军4-2逆转夺冠:最后一舞封神微笑真甜

李喜林篮球绝杀
2025-11-14 23:59:07
樊振东:今天发挥有超出自己意料,王楚钦是中国队绝对的领军人物

樊振东:今天发挥有超出自己意料,王楚钦是中国队绝对的领军人物

懂球帝
2025-11-15 14:45:09
近8战7负!故意输球想离队,结果球队不交易了,闹掰的主帅也示好

近8战7负!故意输球想离队,结果球队不交易了,闹掰的主帅也示好

你的篮球频道
2025-11-15 09:52:47
刘强东铁腕 “斩” 老臣!京东副总裁邵京平双 11 被开除

刘强东铁腕 “斩” 老臣!京东副总裁邵京平双 11 被开除

诗意世界
2025-11-14 15:06:16
深圳向西,再造一个“新深圳”!谁将主宰下一个40年?

深圳向西,再造一个“新深圳”!谁将主宰下一个40年?

楼市诸葛
2025-11-15 14:57:18
关晓彤因为王安宇,绿了鹿晗!?

关晓彤因为王安宇,绿了鹿晗!?

八卦疯叔
2025-11-15 10:24:34
周杰伦被昆凌拿捏住了!台媒爆插足婚姻的王子,住的豪宅是昆凌的

周杰伦被昆凌拿捏住了!台媒爆插足婚姻的王子,住的豪宅是昆凌的

小娱乐悠悠
2025-11-14 13:06:44
28年前直播香港回归4位主持:2人去世1人自甘堕落,仅她笑到最后

28年前直播香港回归4位主持:2人去世1人自甘堕落,仅她笑到最后

揽星河的笔记
2025-11-14 13:07:48
泰国财长宣布:将对低价进口商品征收10%的关税!发生了什么?

泰国财长宣布:将对低价进口商品征收10%的关税!发生了什么?

王爷说图表
2025-11-14 22:54:43
顶级IP上线,Netflix这部R级新作太刺激了

顶级IP上线,Netflix这部R级新作太刺激了

天天美剧吧
2025-11-14 16:59:52
2025-11-15 17:43:00
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
6234文章数 541关注度
往期回顾 全部

科技要闻

撕掉流量外衣,小米还剩什么?

头条要闻

山西"狗咬人被摔死"案狗主家10人进院 喊"弄死你全家"

头条要闻

山西"狗咬人被摔死"案狗主家10人进院 喊"弄死你全家"

体育要闻

樊振东和他的尖子班 勇闯地表最强乒乓球赛

娱乐要闻

钟嘉欣婚变风波升级!被骗婚?

财经要闻

小米之“惑”

汽车要闻

限时10.59万起 新款星海S9将11月19日上市

态度原创

家居
本地
艺术
教育
手机

家居要闻

现代简逸 寻找生活的光

本地新闻

沈阳都市圈“冷资源”点燃“热联动” “组团”北上“圈粉”哈尔滨

艺术要闻

1.7亿建成,1.5亿拆掉!荆州“天下第一关公”雕像

教育要闻

山东卷和重庆卷打起来了?

手机要闻

17是个好名字!iPhone 17/小米17系列都大获成功:首月销量大涨超20%

无障碍浏览 进入关怀版