网易首页 > 网易号 > 正文 申请入驻

魔芯科技发布VGGT系列成果,实现动态高保真重建并获新一轮融资

0
分享至



机器之心发布

在迈向通用人工智能(AGI)的过程中,世界模型被视为让机器理解物理规律、实现空间智能的关键。而高效、鲁棒和精准的三维感知能力,被广泛认为是世界模型的首要前提。通常来说,一个成熟的世界模型需要具备三大核心能力:对长时空序列的持续记忆、对复杂动力学的因果解耦、以及对高清物理细节的精细感知。近期,魔芯科技(KOKONI 3D)联合同济大学(祝澜耘教授团队)等多个科研团队,基于视觉几何 Transformer(VGGT)架构连续发布四项成果。该系列工作系统性地突破了三维感知在流式处理、动态鲁棒性和精细感知上的瓶颈,实现了从基础图像重建到高保真 4D 世界模型的跨越。

一、三维感知的核心约束:长时序、强动态与高精度的系统性瓶颈

在真实工业级场景中,三维感知模型面临的挑战不仅在于精度本身。当输入分辨率提升、场景引入动态变化、数据形式扩展为视频流时,传统架构的算力、算法与内存资源将同时承压。具体而言,存在三大核心难题:

1.无限序列与有限内存的冲突: 现有的流式重建方法在处理长视频流输入时,模型的 KV 缓存会随输入帧数呈线性增长,随着时间推移而引发显存溢出。这意味着,即便单帧重建精度再高,模型也无法在有限显存下完成对无限长序列的持续推理,长视频理解的 “记忆瓶颈” 由此形成。

2.动与静的纠缠: 在动态场景中,移动的物体会对相机位姿估计产生严重干扰。传统模型难以区分 “相机自身的运动” 与 “场景中物体的独立运动”,导致两套运动信号相互污染。其后果是,静态背景被错误地扭曲变形,动态物体的结构出现坍塌或 “鬼影”,整个重建结果的几何一致性被彻底破坏。

3.算力与精度的矛盾:高分辨率特征承载着丰富的物理细节(如细薄结构、纹理边缘),但特征维度的提升会引发 Token 数量的显著增长。当模型致力于捕获更精细的几何表征时,显存占用迅速攀升直至溢出。这使得模型在精度追求与算力约束之间面临两难:若降低特征分辨率则细节丢失,若维持高分辨表达则显存难以为继。



二、 三维感知能力的系统性重构:长效记忆、因果解耦与高保真感知

针对上述三大技术瓶颈,魔芯科技联合同济大学(祝澜耘教授团队)等机构,基于 VGGT 架构提出了三项系统性创新:长效时空记忆、动力学解耦与高保真感知,分别从序列、动态、分辨率三个维度切入,逐一攻克三维感知的核心难题,全方位支撑空间智能世界模型的构建。

1、流式序列重建:赋予世界模型 “长效时空记忆”



  • 论文链接:https://arxiv.org/abs/2604.15237

一个实用的世界模型不能只具备 “瞬时感知”,必须能像生物一样持续处理无限流式信息并保持长久记忆。然而,当处理长视频流时,网络的 KV Cache 会随帧数线性增长,迅速榨干显存。针对这一痛点,魔芯团队提出 StreamCacheVGGT,使用创新的记忆管理机制,在 O (1) 恒定显存开销下,实现了对无限长序列的高保真重建。



图: StreamCacheVGGT 展示 O(1) 恒定显存下的长效流式重建架构

该方法并非简单压缩或裁剪缓存,而是引入 “选择性记忆” 的策略。通过跨层一致性评分(CLCES),模型能够追踪 Token 在不同 Transformer 层级中的稳定性表现,从而优先保留具有长期几何意义的特征,同时抑制短期噪声的干扰。



图: 跨层一致性评分

在此基础上,混合缓存压缩机制创新 “三级分诊” 策略。对于中等价值的信息,通过动态性地归属合并进行压缩存储而非生硬剔除。这种机制有效保存了低频结构先验,防止世界模型在长距离任务中出现几何坍塌。



图: 混合缓存压缩

在 500 帧以上的 KITTI 长序列测试中,StreamCacheVGGT 在严格的 O (1)显存限制下,将深度误差 Abs Rel 降低至 0.123。相比传统 “纯剔除” 方案,其重建点云的表面完整度与局部细节显著提升。而在多项可视化结果中,StreamCacheVGGT 也表现出了相比现有方法更完整、清晰且噪声更少的重建效果。



2、4D 动态重建:解耦动力学规律,理解动态世界的 “因果”



  • 论文链接:https://arxiv.org/pdf/2604.09366



  • 论文链接:https://arxiv.org/pdf/2605.12027

真实世界是动静结合的,能够分离 “自我运动” 与 “物体运动” 是世界模型理解物理因果的核心。魔芯科技从渐进式解耦与不确定性建模两个角度切入,显著提升了动态场景下的重建稳定性。

在运动建模方面,团队提出渐进式解耦策略,通过 “先稳定相机,再恢复动态” 的建模路径,将相机位姿估计与场景几何重建逐步分离。借助动态掩码机制,模型能够在初始阶段屏蔽动态物体对位姿估计的干扰,从而建立更加稳定的参考系,随后再对动态区域进行精细建模,实现动静分离的重建效果。



为应对复杂视觉环境中的噪声干扰,模型引入基于不确定性的建模方法来解构子空间投影,对多头注意力进行自适应加权。这使模型能够在信息混杂的场景中识别更具可靠性的运动信号,从而在剧烈动态变化下依然维持几何结构的稳定输出。



两项成果在多项公开数据集上表现优异。在 DyCheck 动态几何基准上,Accuracy Mean 指标提升了 15.4%;定性分析也显示,该方法能有效抑制动态噪声,恢复完整准确的物体结构,消除了动态场景中常见的 “鬼影” 现象。





3、 高保真感知:精细特征驱动高清几何重建



  • 论文链接:https://arxiv.org/pdf/2603.27222

对环境几何细节的掌握程度是影响世界模型预测精度的关键因素。为此,魔芯科研团队提出 HD-VGGT 解决了前馈式模型在处理高清输入时的算力与精度的平衡问题:

层次化细节注入: 采用双分支架构,在保持低分辨率全局一致性的基础上,通过可学习特征上采样将高清图像中的高频物理细节(如细薄灯杆、墙面纹理)精准注入几何特征。

特征调制: 针对镜面反射、弱纹理等视觉歧义区域,HD-VGGT 引入特征调制机制,自动识别并抑制不稳定的特征 Token,确保模型在复杂光照条件下依然能够输出规整、边界锐利的高精度点云。

在实验结果层面,HD-VGGT 在多项公开数据集上取得领先结果,特别是在 RealEstate10K 数据集上 AUC@30 达到 87.01%,刷新该数据集的记录。此外,在深度估计任务上的多项定性结果也表明 HD-VGGT 能清晰还原灯杆、椅腿等细薄结构,解决传统模型在高清输入下的过平滑与伪影问题。



魔芯科技研究团队负责人表示: “我们不仅是在做 3D/4D 重建,我们是在为机器视觉构建一套健壮的‘空间底层协议’。通过 VGGT 系列技术,我们赋予了模型精细的触感(HD)、动态的洞察(4D)和持久的记忆(Streaming),这正是通往具备物理常识的高阶世界模型的必经之路。”

此外,研究团队在 4D 基座模型上更是取得了关键进展,证明了 3D/4D 场景建模同样遵循 Scaling Law。通过将训练数据规模扩展至百万级以上,并将模型参数量提升至百亿级别,我们实现了重建误差的显著下降,并获得了稳定、长时一致的空间建模能力。



图:实验结果,随着数据量的增加(左图)和模型尺寸提升(右图),模型精度持续提高(误差降低)

基于坚实的技术进展,魔芯科技也取得了资本市场的进一步认可与支持,本轮获得由富瀚微股份、联融志道(联想控股旗下基金)、浙创投的联合投资,并且老股东持续跟投。据悉,魔芯科技后续将继续加大对空间智能与世界模型技术的投入,重点推进三维 / 四维重建、空间理解、长视频推理与交互式建模等核心能力的研发与落地。我们的目标始终是让 AI 真正理解、生成并能与物理世界交互,为各产业场景提供关键支撑。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
大快人心!中国拒接8500亿美债,救美国就是救中国的时代彻底终结

大快人心!中国拒接8500亿美债,救美国就是救中国的时代彻底终结

趣文说娱
2026-04-27 21:57:40
被制裁的鲁比奥还是来了,他在空军一号上的表态意味深长

被制裁的鲁比奥还是来了,他在空军一号上的表态意味深长

阿天爱旅行
2026-05-14 18:45:18
逼广东队交易沈梓捷?杜锋拒绝下课,朱芳雨可能“2换1”报价北控

逼广东队交易沈梓捷?杜锋拒绝下课,朱芳雨可能“2换1”报价北控

绯雨儿
2026-05-14 12:35:04
一个比芯片更紧俏的赛道:HBM产能告急,2026年谁在闷声发财?

一个比芯片更紧俏的赛道:HBM产能告急,2026年谁在闷声发财?

小白鸽财经
2026-05-14 09:41:27
前法国主帅日记:亨利太以自我为中心,阿内尔卡蠢货

前法国主帅日记:亨利太以自我为中心,阿内尔卡蠢货

仰卧撑FTUer
2026-05-14 19:23:24
王少杰离开东莞!无人相送,1个细节说明:他与广东队说拜拜

王少杰离开东莞!无人相送,1个细节说明:他与广东队说拜拜

夕落秋山
2026-05-14 19:02:01
笑不活!国际足联秘书长抵达中国,目的说得高大上,一定达成协议

笑不活!国际足联秘书长抵达中国,目的说得高大上,一定达成协议

阿纂看事
2026-05-14 11:22:20
彻底瞒不住!何九华承认当爹,孩子已2岁坦言没得选 王鸥回应打脸

彻底瞒不住!何九华承认当爹,孩子已2岁坦言没得选 王鸥回应打脸

老黯谈娱
2026-05-14 16:37:27
我国都有哪些常见毒蛇?哪种蛇最毒?盘点我国十大毒蛇,第一名致死率超65%

我国都有哪些常见毒蛇?哪种蛇最毒?盘点我国十大毒蛇,第一名致死率超65%

农夫也疯狂
2026-05-13 11:40:43
媒体人:有几支CBA俱乐部对广州外教米切尔感兴趣 希望邀请他执教

媒体人:有几支CBA俱乐部对广州外教米切尔感兴趣 希望邀请他执教

狼叔评论
2026-05-14 15:14:03
太狂了!张本智和父亲公开放话,球迷怒了:以后别想再来中国了

太狂了!张本智和父亲公开放话,球迷怒了:以后别想再来中国了

谭颞爱搞笑
2026-05-14 10:47:08
特朗普访华,3处细节,耐人寻味!

特朗普访华,3处细节,耐人寻味!

正和岛
2026-05-14 18:28:22
发现一个现象:收入1万以下的夫妻,吵架大都为了钱;1万以上的家庭,吵架都是一方很强势

发现一个现象:收入1万以下的夫妻,吵架大都为了钱;1万以上的家庭,吵架都是一方很强势

二胡的岁月如歌
2026-04-13 08:04:02
可乐再次被关注!医生发现:高血压者喝可乐,不用多久或有6变化

可乐再次被关注!医生发现:高血压者喝可乐,不用多久或有6变化

蜉蝣说
2026-05-13 16:38:22
梅尔·布鲁克斯百岁前夕捐出2万份档案

梅尔·布鲁克斯百岁前夕捐出2万份档案

影视情报室
2026-05-13 17:09:20
怪不得迷倒秦昊!伊能静公开上海豪华别墅,4个佣人照顾1个9岁女儿

怪不得迷倒秦昊!伊能静公开上海豪华别墅,4个佣人照顾1个9岁女儿

八卦王者
2026-05-14 11:45:55
“吃20个饺子用8张餐巾纸” 饺子店老板发视频吐槽被指格局太小

“吃20个饺子用8张餐巾纸” 饺子店老板发视频吐槽被指格局太小

闪电新闻
2026-05-14 09:58:40
商业航天概念持续下挫,中国卫星尾盘跌停

商业航天概念持续下挫,中国卫星尾盘跌停

每日经济新闻
2026-05-14 15:03:28
开罗会议时,罗斯福:把越南琉球归还中国,蒋介石:不要!

开罗会议时,罗斯福:把越南琉球归还中国,蒋介石:不要!

鹤羽说个事
2026-05-12 22:42:24
当着全球面,郑丽文发誓:特朗普来华一谈完,半月内就去说服老美

当着全球面,郑丽文发誓:特朗普来华一谈完,半月内就去说服老美

趣文说娱
2026-05-13 19:52:50
2026-05-14 20:11:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12996文章数 142648关注度
往期回顾 全部

科技要闻

马斯克说会谈很顺利 黄仁勋点赞 库克比耶

头条要闻

外媒询问中方对鲁比奥的制裁是否已经解除 外交部回应

头条要闻

外媒询问中方对鲁比奥的制裁是否已经解除 外交部回应

体育要闻

争议抽象天王山,和季后赛最稳定中锋

娱乐要闻

何九华官宣当爸!全程不提孩子妈

财经要闻

李强会见美国工商界代表

汽车要闻

双零重力座椅/AI智能体/调光天幕 启境GT7内饰发布

态度原创

本地
亲子
教育
数码
旅游

本地新闻

用苏绣的方式,打开江西婺源

亲子要闻

摆烂在家的孩子,为什么会疯狂要钱?

教育要闻

5月16日开考! 2026上海中考理化实验操作考试及外语听说测试,考前重要提醒来啦!

数码要闻

万色生辉入画屏:实拍海信UX2026款RGB-Mini LED时代旗舰电视

旅游要闻

半价or免票?5月17日-19日,崇明这些景点参与优惠活动

无障碍浏览 进入关怀版