打造沉浸式以人为中心的立体视频，DualGS实时高保真追踪|高斯|序列|压缩比|hifi|dualgs

打造沉浸式以人为中心的立体视频，DualGS实时高保真追踪

2024-10-05 09:04:11　来源: 带你学AI

广东举报

分享至

体积视频（Volumetric Video）是视觉媒体领域的一个重大突破，它让用户可以自由地在虚拟环境中探索，模糊了数字世界与现实世界的界限。然而，目前的工作流程中，网格序列的稳定性需要大量手动干预，且生成的资产体积过大，这都阻碍了其广泛应用。（链接在文章底部）

DualGS它能够实现复杂人类表演的实时高保真回放，同时拥有出色的压缩比。DualGS的核心思想是将运动和外观分开表示，分别使用皮肤和关节的高斯模型进行描述。这样的明确分离可以显著减少运动冗余，并增强时间上的连贯性。用通俗的话来说，DualGS主要解决了体积视频技术中存储和稳定性问题，最终，用户可以在VR中享受栩栩如生的音乐表演，体验如同在现场的感觉。

01 技术原理

DualGS提出了一种全新的“双高斯”表示法，用于从多视角输入中捕捉复杂的人类动作表现。首先从一个随机点云中优化出关节高斯模型，然后使用这些关节高斯模型初始化皮肤高斯模型，并通过插值表达它们的运动。在后续的优化过程中，采用了从粗到细的策略，首先进行粗略对齐以预测整体运动，随后进行精细优化以实现稳健的跟踪和高保真渲染。

为了将体积视频无缝集成到VR环境中，通过熵编码有效压缩运动数据，并结合代码压缩和持久化编码本压缩外观数据。DualGS方法实现了高达120倍的压缩比，每帧仅需大约350KB的存储空间。通过这种方式，展示了模型在VR头显中的效果，用户可以身临其境地观看音乐家演奏，仿佛能感受到演奏者指尖跳动的节奏。

02 对比与实际效果

DualGS展示了一个全面的成果集，突出表现了强大的“双高斯喷射”管道，其中包含复杂场景，如双节棍挥舞、乐器演奏和舞蹈。还可视化了动态序列及其对应的关节高斯跟踪。即使在面对具有挑战性的动作时，DualGS依然实现了120倍压缩，同时保持了人类表演的实时高保真渲染。

在具有挑战性的数据集上，DualGS方法与HumanRF、NeuS2、Spacetime Gaussian和HiFi4G进行了定性对比。结果表明，DualGS方法在渲染质量上表现最佳。

https://github.com/RedAIGC/StoryMaker
https://arxiv.org/pdf/2409.12576

欢迎交流～，带你学习AI，了解AI

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.