网易首页 > 网易号 > 正文 申请入驻

谢菲尔德大学团队让视频人物获得时空连续性

0
分享至


这项由谢菲尔德大学的高明奇、华威大学的缪云琦以及清华大学的韩军功教授共同完成的研究,发表于2025年12月10日的arXiv预印本(论文编号:arXiv:2512.08406v1),为我们展示了一个令人兴奋的突破:如何让计算机从视频中"认识"并持续跟踪真实的人体动作,就像给每个人都配备了一个无形的动作捕捉师。

想象你正在看一部电影,主角在人群中穿梭,时而被遮挡,时而重新出现。传统的计算机视觉技术就像一个健忘的观众,每看到一帧画面就会"失忆",无法记住这个人之前的样子和动作。研究团队开发的SAM-Body4D系统就像给计算机装上了一双"慧眼",不仅能识别视频中的每个人,还能像资深导演一样,始终保持对每个角色的连续关注。

这项研究的核心突破在于解决了一个看似简单却极其复杂的问题:如何让计算机在观看视频时,像人类一样自然地跟踪和理解人体的三维姿态变化。以往的技术就像拼图爱好者面对一盒散乱的拼图块,每次只能处理一片,无法看到完整的图像。而SAM-Body4D则像一位经验丰富的拼图大师,能够将时间维度上的所有片段完美拼接成连贯的人体动作序列。

研究团队巧妙地将这个复杂问题分解为三个相互配合的环节。首先是身份识别环节,系统需要在视频的每一帧中准确识别出同一个人,就像在嘈杂的派对中始终能听出朋友的声音。然后是遮挡处理环节,当人物被其他物体遮挡时,系统能够智能地"脑补"出被遮挡的部分,就像我们看到门后露出的半个身影时,大脑会自动补全整个人的形象。最后是三维重建环节,将二维的视频画面转换为立体的人体模型,就像雕塑家从平面图纸中塑造出栩栩如生的雕像。

这项技术最令人惊叹的特点是它完全不需要额外的训练。就像一个技艺精湛的厨师,无需学习新菜谱就能用现有的食材做出美味佳肴,SAM-Body4D巧妙地整合了已有的先进技术,创造出全新的解决方案。这种"无需训练"的特性意味着它可以立即应用于各种实际场景,无需耗费大量时间和计算资源进行专门的学习过程。

一、让计算机拥有"记忆"的奥秘

传统的人体姿态识别技术就像患有健忘症的观察者,看完这一帧就忘了上一帧,导致同一个人在视频中的表现时而正常时而扭曲,毫无连续性可言。研究团队深入思考了这个问题的本质:既然人类观看视频时能够轻松跟踪人物,计算机为什么不能?

答案在于时间连续性的利用。人类在观看视频时,大脑会自动将前后帧的信息进行整合,形成对人物动作的连续理解。研究团队受此启发,决定让计算机也学会这种"记忆"能力。他们使用了一种叫做SAM 3的视频分割模型,这个模型就像一个专业的摄影师,能够在拍摄过程中始终保持对特定人物的聚焦。

SAM 3的工作原理类似于人类的注意力机制。当我们在人群中寻找朋友时,一旦锁定目标,即使朋友在人群中移动或暂时被遮挡,我们的注意力仍会持续跟踪。SAM 3通过结合"传播"和"检测"两种机制来实现这种效果。传播机制负责从前一帧的信息中预测当前帧中人物的位置,就像根据物体的运动轨迹预测它的下一步动向。检测机制则负责在当前帧中重新确认人物的存在,确保跟踪的准确性。

这种双重机制的结合产生了神奇的效果。即使在复杂的场景中,比如体育比赛的激烈对抗或舞蹈表演的快速动作,系统也能保持对每个人物的稳定跟踪。更重要的是,这种跟踪是基于像素级别的精确分割,为后续的三维人体重建提供了高质量的输入数据。

二、智能"脑补"技术:让被遮挡的人重现完整

现实世界的视频拍摄中,人物被遮挡是再常见不过的情况。可能是其他人走过镜头前,可能是柱子、树木等物体的阻挡,也可能是拍摄角度的限制。这些遮挡对传统的人体姿态识别系统来说是致命的,因为缺失的信息会导致系统产生错误的判断,生成扭曲或不合理的人体姿态。

研究团队开发的遮挡感知精化模块就像一位经验丰富的侦探,能够从有限的线索中推断出完整的真相。这个模块的工作过程分为两个阶段:首先是遮挡检测,然后是遮挡补全。

遮挡检测阶段就像体检时的初步筛查,系统会仔细比较完整的人体轮廓预期与实际观察到的轮廓。当发现实际轮廓明显小于预期,且重叠度较低时,系统就会判定发生了遮挡。这个判断过程使用了一个简单而有效的数学公式:如果补全后的轮廓面积比原始轮廓大很多,同时两者的重叠度小于70%,那么就认为存在遮挡。

遮挡补全阶段则展现了人工智能的"想象力"。系统使用了一种叫做Diffusion-VAS的生成模型,这个模型就像一位技艺精湛的修复师,能够根据可见部分的信息,合理推断出被遮挡部分应该是什么样子。比如,如果看到一个人的上半身和腿部,但腰部被遮挡,系统就会根据人体结构的常识,生成合理的腰部区域。

这种智能补全技术的效果令人惊叹。在测试中,即使人物有80%的身体被遮挡,系统仍能准确重建出完整的人体轮廓。更重要的是,这种补全不是随意的猜测,而是基于对人体结构和运动规律的深度理解,生成的结果既符合生理常识,又与前后帧保持连续性。

三、从平面到立体:三维人体重建的魔法

将二维的视频画面转换为三维的人体模型,这听起来就像魔法一样神奇。实际上,这正是SAM 3D Body模型所擅长的工作。这个模型就像一位经验丰富的雕塑家,能够从平面的照片中想象出立体雕像的样子。

SAM 3D Body的工作原理基于一种叫做"动量人体骨架"(MHR)的创新表示方法。传统的人体建模方法就像用固定的模板制作衣服,虽然能覆盖大多数情况,但在处理特殊体型或复杂姿态时常会出现问题。MHR方法则更像是量身定制,能够根据每个人的具体情况调整参数,生成更加精确和自然的人体模型。

这个过程分为两个主要阶段:编码和解码。编码阶段就像摄影师观察模特,从二维图像中提取出关于人体姿态、形状和位置的关键信息。解码阶段则像雕塑师根据观察进行创作,将这些抽象的信息转换为具体的三维人体参数。

SAM-Body4D的创新之处在于将经过精化的人体轮廓作为"提示"输入给SAM 3D Body模型。这就像给雕塑家提供了详细的参考图纸,让他能够更加准确地把握人体的比例和姿态。由于这些轮廓在时间上保持连续性,生成的三维人体模型也自然具备了时间连续性。

为了提高处理效率,研究团队还开发了一种并行处理策略。传统的方法需要对每一帧、每个人分别处理,就像餐厅厨师一次只能做一道菜。新的并行策略则像自助餐厅的流水线作业,可以同时处理多个人物和多个时间帧,大大提高了处理速度。

四、技术细节:让复杂变简单的工程智慧

SAM-Body4D系统的技术实现展现了工程师们将复杂理论转化为实用工具的智慧。整个系统的架构就像一条精心设计的生产流水线,每个环节都有明确的分工和高效的协作。

在轮廓生成环节,系统使用SAM 3视频分割模型来创建身份一致的人体轮廓序列。这个过程类似于制作动画时的"洋葱皮"技术,动画师会在透明纸上描绘前一帧的轮廓作为参考,确保角色动作的连续性。SAM 3通过其内置的记忆机制,能够记住每个人物在前面帧中的特征,并在后续帧中准确识别同一人物。

遮挡处理环节展现了系统的智能判断能力。系统会自动检测何时发生遮挡,这个过程就像保安通过监控摄像头判断是否有可疑情况。检测的标准很直观:如果一个人的轮廓突然变小很多,但又不像是正常的移动或姿态变化,那很可能是被什么东西遮挡了。一旦检测到遮挡,系统就会启动补全程序,使用生成式AI技术来"想象"被遮挡的部分应该是什么样子。

三维重建环节是整个系统的核心技术所在。这里使用的SAM 3D Body模型经过了大规模数据训练,具备了对人体结构和运动规律的深度理解。它能够根据二维轮廓信息,准确推断出对应的三维人体参数,包括关节角度、肢体长度、体型特征等。这个过程就像经验丰富的医生通过X光片就能判断骨骼的三维结构。

为了确保时间连续性,系统还应用了轻量级的时间平滑技术。这就像视频编辑中的"稳定器"功能,能够消除不自然的抖动,让人物动作看起来更加流畅自然。同时,系统会固定每个人物的体型参数,确保同一人物在整个视频中保持一致的身体比例,避免出现体型突然变化的不合理现象。

五、实验验证:真实世界的考验

任何技术的价值最终都要在实际应用中得到验证。研究团队设计了一系列综合测试来评估SAM-Body4D的性能表现。这些测试就像汽车的路试,涵盖了各种可能遇到的实际场景和挑战条件。

在与传统方法的对比测试中,SAM-Body4D展现出了明显的优势。传统的逐帧处理方法就像近视眼看远处的景物,经常会出现"认错人"的情况。当同一个人在视频中暂时消失(比如走出画面或被完全遮挡),再次出现时,传统方法可能会将其识别为新的人物,导致身份混乱。SAM-Body4D则像拥有完美记忆力的观察者,始终能够正确识别每个人物的身份。

在遮挡处理能力的测试中,研究团队特意选择了一些极具挑战性的场景,比如人群中的舞蹈表演、体育比赛中的激烈对抗等。在这些场景中,人物频繁地相互遮挡,有时候一个人可能被遮挡掉80%以上的身体。传统方法在这种情况下往往会产生扭曲或不合理的人体姿态,而SAM-Body4D通过其智能补全技术,仍能保持人体姿态的合理性和连续性。

性能效率测试显示,SAM-Body4D在保证质量的同时,还具备了实用的处理速度。在配备NVIDIA A100 GPU的服务器上,处理一个包含90帧、5个人物的480×854分辨率视频,系统能够比传统的逐帧处理方法快2倍。这种效率提升主要归功于巧妙的并行处理策略,就像从单线程处理升级为多线程处理。

质量评估方面,研究团队邀请了多位专家对生成的三维人体模型进行盲测评估。结果显示,SAM-Body4D生成的模型在自然性、连续性和准确性方面都获得了显著高于传统方法的评分。特别是在时间连续性方面,专家们普遍认为新方法生成的人体动作序列更加流畅自然,没有传统方法常见的突然跳跃或扭曲现象。

六、应用前景:从实验室走向现实生活

SAM-Body4D技术的应用前景非常广阔,几乎涵盖了所有需要理解和分析人体动作的领域。在娱乐产业中,这项技术可以大大简化动画制作和特效处理的工作流程,就像给动画师配备了一位永不疲倦的助手,能够自动完成人物动作的初步建模工作。

在体育分析领域,教练和运动员可以利用这项技术对训练视频进行精确的动作分析。过去需要昂贵的专业动作捕捉设备才能完成的工作,现在只需要普通的摄像设备就能实现。这就像把专业的实验室搬到了运动场边,让精确的动作分析变得触手可及。

医疗康复领域也是这项技术的重要应用方向。物理治疗师可以使用这项技术来监测患者的康复进度,分析步态异常,评估运动功能恢复情况。这种非接触式的评估方法既方便又准确,患者不需要穿戴任何特殊设备,就能获得专业级的运动分析服务。

在安防监控领域,这项技术能够帮助分析人员更好地理解监控视频中的人物行为。传统的监控系统只能告诉我们"有人在这里",而新技术可以分析出"这个人在做什么",为安全防护和行为分析提供更加丰富的信息。

虚拟现实和增强现实应用也将从这项技术中受益。用户的真实动作可以被精确捕捉并转换为虚拟世界中的化身动作,创造更加沉浸式的体验。这就像在虚拟世界中拥有了一个完美的"数字分身",能够准确反映用户的每一个动作细节。

人机交互领域的应用同样令人兴奋。机器人可以通过这项技术更好地理解人类的意图和情感状态,从而提供更加自然和友善的交互体验。这种技术让机器人不再是冷冰冰的机械装置,而是能够理解人类行为语言的智能伙伴。

七、技术挑战与解决方案

在开发SAM-Body4D的过程中,研究团队面临了许多技术挑战,每一个挑战的解决都体现了工程师们的创新思维和解决问题的能力。

身份一致性保持是其中最核心的挑战之一。在复杂的视频场景中,同一个人可能会因为光照变化、姿态改变、服装变化等因素而在视觉上发生很大变化。这就像在变装舞会上认人一样困难。研究团队通过结合多种特征信息,包括人体轮廓、运动轨迹、相对位置等,构建了一个多维度的身份识别机制。这种机制就像给每个人建立了一份详细的"身份档案",即使外观发生变化,系统仍能通过多种线索准确识别身份。

处理极端遮挡情况是另一个重大挑战。当一个人被遮挡超过90%时,可见信息极其有限,要从如此少的信息中准确推断出完整的人体姿态,难度可想而知。研究团队采用了基于上下文信息的推理方法,不仅考虑当前帧的信息,还会参考前后帧的情况,利用人体运动的连续性来辅助推理。这就像侦探破案时会考虑事件的前因后果,而不是孤立地分析单一证据。

实时性要求与精度保证之间的平衡也是一个重要考虑。高精度的处理往往需要更多的计算时间,而实际应用往往对处理速度有严格要求。研究团队通过优化算法结构、采用并行处理、合理设计数据流等方式,在保证精度的前提下大幅提升了处理效率。这种优化就像设计高速公路时既要保证安全又要提高通行效率,需要在多个目标之间找到最佳平衡点。

多人场景下的身份管理也带来了额外的复杂性。当画面中同时出现多个人物时,系统需要同时跟踪所有人的身份和动作,还要避免身份混淆。研究团队开发了一套智能的身份管理机制,就像音响工程师在调音台上同时控制多个音轨一样,能够独立而协调地处理每个人物的信息。

八、技术创新点的深度解析

SAM-Body4D最令人印象深刻的创新在于其"训练免费"的特性。这意味着系统不需要针对特定任务进行额外的机器学习训练,就能直接应用于实际场景。这种特性的实现依赖于巧妙的模块化设计和智能的信息流处理。

传统的视频人体姿态估计系统通常需要大量的标注视频数据进行训练,这个过程就像教一个孩子学习识别不同的动作,需要给他看成千上万个例子。而SAM-Body4D则更像是一个博学的成年人,能够将已有的知识灵活运用到新的场景中。系统巧妙地将三个已经成熟的技术模块组合在一起:视频分割、图像补全和单帧人体重建,通过精心设计的信息传递机制,让这三个模块协同工作,产生了超越各模块单独使用的效果。

另一个重要创新是时间一致性的传递机制。传统方法通常在特征空间或参数空间中强制时间一致性,但这种方法往往会丢失原始视频中的时间连续性信息。SAM-Body4D直接在像素级别保持时间连续性,然后将这种连续性"传递"到三维重建结果中。这就像在制作电影时,导演会确保每个镜头都与前后镜头保持连贯性,而不是拍完所有镜头后再试图通过后期制作来强制连贯性。

并行处理策略的设计也体现了工程优化的智慧。系统通过巧妙的批处理机制,将原本需要逐一处理的任务转换为可以并行执行的操作。这种优化就像从单车道改为多车道高速公路,在相同时间内可以处理更多的"交通流量"。更重要的是,这种并行化不需要对底层模型进行任何修改,完全通过数据组织和调度优化来实现。

结论

说到底,SAM-Body4D代表了计算机视觉技术向更加智能和实用方向发展的一个重要里程碑。这项由谢菲尔德大学、华威大学和清华大学联合完成的研究,不仅解决了视频人体姿态估计中的关键技术难题,更重要的是展现了如何通过巧妙的工程设计,将复杂的AI技术转化为可以立即使用的实用工具。

这项技术的魅力在于它的"即插即用"特性。就像智能手机的出现让复杂的通信技术变得人人可用一样,SAM-Body4D让高精度的视频人体分析技术不再是专业实验室的专利,而是可以广泛应用于各行各业的实用工具。从娱乐制作到医疗康复,从体育训练到安防监控,这项技术正在为各个领域带来新的可能性。

更深层次来看,SAM-Body4D体现了人工智能技术发展的一个重要趋势:从需要大量专门训练的"专家系统",向能够灵活组合现有能力的"通用智能"转变。这种转变就像从需要专门学习的复杂工具,进化为直观易用的智能助手。这不仅降低了技术应用的门槛,也为更广泛的创新应用奠定了基础。

归根结底,这项研究提醒我们,最好的技术往往不是最复杂的技术,而是能够巧妙地将简单原理组合起来,解决实际问题的技术。SAM-Body4D正是这种工程智慧的完美体现,它告诉我们,有时候最大的创新来自于对现有技术的重新思考和巧妙组合。随着这项技术的进一步发展和应用,我们有理由期待视频理解和人体动作分析领域将迎来更多令人兴奋的突破。对于那些希望深入了解技术细节的读者,可以通过论文编号arXiv:2512.08406v1查找完整的研究报告,其中包含了更详细的实验数据和技术实现方案。

Q&A

Q1:SAM-Body4D和传统的人体姿态识别技术有什么不同?

A:传统技术像健忘的观察者,每次只能处理单独一帧画面,容易出现人物身份混乱和动作不连贯的问题。SAM-Body4D则像有记忆力的观察者,能够在整个视频中始终跟踪同一人物,保持动作的时间连续性,即使人物被遮挡或暂时消失也能准确识别。

Q2:SAM-Body4D如何处理视频中的人物遮挡问题?

A:当检测到人物被遮挡时,SAM-Body4D会启动智能"脑补"功能,使用生成式AI技术根据可见部分和人体结构常识来补全被遮挡的区域。就像我们看到门后露出半个身影时大脑会自动补全整个人的形象一样,系统能够生成合理的完整人体轮廓。

Q3:使用SAM-Body4D需要额外训练吗?

A:不需要。SAM-Body4D是完全"训练免费"的系统,就像博学的成年人能够将已有知识灵活运用到新场景中一样。它巧妙地组合了三个已经成熟的技术模块,通过精心设计的信息传递机制让它们协同工作,可以直接应用于实际视频处理任务。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
72%烟草倒挂逼哭零售户!宁可不订也不赔钱,市场根基正在烂根

72%烟草倒挂逼哭零售户!宁可不订也不赔钱,市场根基正在烂根

老特有话说
2026-01-07 00:40:03
冯提莫瘦50斤变纸片人,自曝肚皮松成“沙皮狗”:这是减肥送的?

冯提莫瘦50斤变纸片人,自曝肚皮松成“沙皮狗”:这是减肥送的?

湘村大余
2026-01-07 16:31:08
知名奶粉爆雷,含致病菌隐患威胁孩子健康,很多家庭仍在使用

知名奶粉爆雷,含致病菌隐患威胁孩子健康,很多家庭仍在使用

八斗小先生
2026-01-07 15:33:33
金正恩同志视察纪念馆建设工地,亲自开叉车并植树

金正恩同志视察纪念馆建设工地,亲自开叉车并植树

微微热评
2026-01-06 16:34:14
格陵兰岛为何让美国如此垂涎,甚至不惜“动用军队”?两个关键词被频频提及

格陵兰岛为何让美国如此垂涎,甚至不惜“动用军队”?两个关键词被频频提及

上观新闻
2026-01-07 22:10:22
新晋女神!170身高,绝对的极品

新晋女神!170身高,绝对的极品

素然追光
2026-01-07 00:26:59
增长8%!越南GDP突破5000亿美元,这说明了什么?

增长8%!越南GDP突破5000亿美元,这说明了什么?

简易科技
2026-01-06 23:29:46
俄专家终于说出大实话,一旦爆发海战,全世界仅有一国能击败美军

俄专家终于说出大实话,一旦爆发海战,全世界仅有一国能击败美军

慕名而来只为你
2026-01-07 20:09:43
才24岁!女子后悔不已,隐私部位短短一年内长满……医生:早该重视了!

才24岁!女子后悔不已,隐私部位短短一年内长满……医生:早该重视了!

福建卫生报
2026-01-07 12:32:45
芬兰公司宣布量产全球首款全固态电池,5分钟可充满,能量密度400Wh/kg

芬兰公司宣布量产全球首款全固态电池,5分钟可充满,能量密度400Wh/kg

金融界
2026-01-06 14:03:20
电诈头目、太子集团创始人陈志被捕并遣送中国

电诈头目、太子集团创始人陈志被捕并遣送中国

扬子晚报
2026-01-07 20:11:44
他们官宣分手!恋情曝光仅24小时!

他们官宣分手!恋情曝光仅24小时!

武汉潮生活
2026-01-07 20:28:47
医学博士:肿瘤越来越高发,我们究竟被隐瞒了什么?

医学博士:肿瘤越来越高发,我们究竟被隐瞒了什么?

深度报
2025-12-21 23:01:02
Here we go!罗马诺:塞门约6500万英镑转会费加盟曼城

Here we go!罗马诺:塞门约6500万英镑转会费加盟曼城

懂球帝
2026-01-07 07:13:28
一个大问号!具俊晔被爆想见小玥儿小菻菻,还道出了墓地陪伴原因

一个大问号!具俊晔被爆想见小玥儿小菻菻,还道出了墓地陪伴原因

庸人自扰0607
2026-01-06 19:19:09
无人机上阵!广东多地集中开展电动自行车、摩托车专项整治

无人机上阵!广东多地集中开展电动自行车、摩托车专项整治

南方都市报
2026-01-07 18:38:16
西工大连夜宣布好消息!全世界都没想到,中国居然“弯道超车”

西工大连夜宣布好消息!全世界都没想到,中国居然“弯道超车”

爱吃醋的猫咪
2026-01-05 21:28:30
风流成性、挥霍无度,37岁“纵欲过度”的王思聪,再次陷入大丑闻

风流成性、挥霍无度,37岁“纵欲过度”的王思聪,再次陷入大丑闻

老吴教育课堂
2025-12-26 00:37:51
迈阿密国际即将正式签下边锋阿连德,梅西好助手留队在即

迈阿密国际即将正式签下边锋阿连德,梅西好助手留队在即

星耀国际足坛
2026-01-08 00:11:40
美国一个顶级的战略家晚年反复说,我们犯了个天大的战略错误

美国一个顶级的战略家晚年反复说,我们犯了个天大的战略错误

南权先生
2025-12-30 16:31:27
2026-01-08 01:19:00
至顶AI实验室 incentive-icons
至顶AI实验室
一个专注于探索生成式AI前沿技术及其应用的实验室。
977文章数 151关注度
往期回顾 全部

科技要闻

精华!黄仁勋CES记者会:揭秘新款大杀器

头条要闻

委向美移交5000万桶原油有部分原本销往中国 中方回应

头条要闻

委向美移交5000万桶原油有部分原本销往中国 中方回应

体育要闻

卖水果、搬砖的小伙,与哈兰德争英超金靴

娱乐要闻

《马背摇篮》首播,革命的乐观主义故事

财经要闻

农大教授科普:无需过度担忧蔬菜农残

汽车要闻

燃油驾趣+智能电感双Buff 试驾全新奥迪Q5L

态度原创

家居
艺术
时尚
本地
旅游

家居要闻

宁静不单调 恰到好处的美

艺术要闻

24位国画大师联手,震撼美学体验等你来!

李梦系穿搭,就这么养成了

本地新闻

“闽东利剑·惠民安商”高效执行专项行动

旅游要闻

嗨到凌晨3点!仙游一网红夜市即将启用!0成本即可当老板...

无障碍浏览 进入关怀版