网易首页 > 网易号 > 正文 申请入驻

3D版DeepSeek卷起开源月:两大基础模型率先SOTA!又是VAST

0
分享至

衡宇 鱼羊 发自 凹非寺
量子位 | 公众号 QbitAI

3D生成版DeepSeek再上新高度!

国产、易用、性能强且开源——

新模型一露面就刷新SOTA,并且第一时间加入开源全家桶

顺时针转个圈圈给大家看,效果是这样:

加上“皮肤”是这样:

再来一个,效果是这样:

肉眼可见,这次妥妥升级变成了更细节的细节控~

以上效果,都来自3D大模型明星初创公司VAST,其刚刚上新的两个基础模型,TripoSG和TripoSF,为团队的最新研发成果。该团队去年3月开源了TripoSR,在开源3D生成基础模型中爆火全球。

TripoSG,发布即开源,一露面就刷新开源3D生成模型SOTA,让广大开发者第一时间享受技术进步的成果。

TripoSF,目前为开源第一阶段,已经用实力证明了自己:横扫一切开源和闭源的现有方法,拿下新SOTA。

你就说秀不秀吧(手动狗头)?!

——但基础模型还只是VAST最近大秀一波技术肌肉的上半程表演。

量子位获悉,接下来VAST要连续开源一个月,每周都有新开源项目公布。而TripoSG和TripoSF是开源月里第二周的项目。

在整个开源月里,除了第一波单张图像端到端生成三维组合场景、第二波3D基础模型,接下来还有三维部件补全模型、通用三维模型绑定生成模型、三维几何精细化模型以及SIGGRAPH Asia 2024 RTL收录的交互式草图生三维模型等等技术将与大家见面。

港真,我的胃口已经被吊起来了。

在DeepSeek之后,各领域的国产之光们纷纷开启了开源大秀。而VAST,就是领先的3D大模型领域公司率先发起的攻势。

并且这个开源攻势,持续一个月!

开源月第二弹,两个基础模型拿下开闭源新SOTA

3D版DeepSeek登场,一出手就是开源月;第二波出击比第一波更猛,开源2个强大的基础模型,很有诚意的那种。

它们分别是:

  • TripoSG:开源的3D模型新SOTA;目前开源1.5B版本。
  • TripoSF:以开源之身,刷新闭源3D模型SOTA;目前阶段性开源部分成果。

都沿用了VAST最著名的Tripo系列来命名,但各有偏重——

TripoSG

对于TripoSG,官方介绍是这样的:

  • 一款在质量、细节和保真度上实现重大突破的基础3D生成模型。

其开源内容,包括1.5B版本TripoSG的模型权重、推理代码以及交互式演示Demo。

让我们从技术侧来剖析一下TripoSG的庐山真面目。

简单来说,TripoSG身上体现了VAST针对3D领域特性,引入的多项关键设计创新。

第一,率先将基于校正流(RF,Rectified Flow)的Transformer架构应用于3D形状生成。

之所以选择基于矫正流来做,是因为VAST在研究过程中发现,相较于传统的扩散模型(Diffusion Model),矫正流在噪声和数据之间提供了更简洁的线性路径建模,有助于实现更稳定、高效的训练。

拿它结合已被验证的可扩展性和卓越性能的Transformer架构(如DiT),属于强强结合,让TripoSG拥有很稳定的强大内核。

第二,TripoSG是首个在3D领域发布的MoE Transformer模型。

以Transformer为基础,TripoSG融合了包括跳跃连接(skip-connections)在内的关键增强设计,以改善跨层特征融合。

此外,独立的交叉注意力(cross-attention)机制能够高效地注入全局(CLIP)和局部(DINOv2)图像特征,让输入的2D图像和输出的3D形状之间精准对齐。

这还不够,VAST团队为了实现TripoSG的高效Scaling——从1.5B拓展到4B那种——团队在Transformer中集成了MoE层。

这个办法此前都只在大语言模型领域实践过,VAST发现3D领域同样适用

这样一来,可以在几乎不增加推理计算成本的前提下,显著提升模型参数容量,并重点应用于网络中更深、更关键的层级。

第三,开发了高质量VAE与创新几何监督。

VAST开发了一种采用符号距离函数(SDFs,Signed Distance Functions)进行几何表示的VAE,相较之下,比此前常用的体素占用栅格(occupancy grids)具有更高的精度。

需要注意的是,基于Transformer的VAE架构在分辨率上有很强的泛化性,无需重新训练,即可处理更高分辨率的输入。

与此同时,TripoSG还引入了一种混合监督训练策略,将标准的SDF损失与表面法线引导(surface normal guidance)和 程函方程损失 (eikonal loss)相结合。

让VAE能学习到几何上更准确、细节更丰富的表示,又能为后续的流模型提供了质量更高的潜空间。

第四,重视数据治理,特意开发一套完善、精细的数据构建与治理流水线。

流程各阶段如下:

质量评分(Scoring)——数据筛选(Filtering)——修复与增强(Fixing & Augmentation)——SDF 数据生产(SDF Production)

通过这一流程,VAST为TripoSG构建了一个包含200万高质量“图像-SDF”训练样本对的数据集

消融实验明确证明,在此高质量数据集上训练的模型性能显著优于在更大规模、但未经过滤的原始数据集上训练的模型(这一点凸显了数据质量与数量同等重要,甚至更为关键)

集以上四点于一身的TripoSG,经Normal-FID等量化指标评估,以及基于大型多模态模型(如基于GPTEval3D框架的Claude 3.5)的定性评估,轻松拿下3D开源模型界的新SOTA

让我们来看看3D模型开源界新王的表现——

首先,TripoSG为什么能拿下新SOTA,必然是在语义一致性上有超出现有模型的表现

简单来说,TripoSG输出的3D形状,能准确反映输入图像的语义内容和视觉外观。

当你告诉它你想要一个三斗柜,既写实又稍微Q一点那种,你将得到:

不渲染可能视觉上没那么明显,但一上色,你就能发现“哎哟不错哦”,确实是古朴写实但又兼具可爱风。

还有一些日常生活的使用痕迹:

非常能直观感受到的一点是,即使面对具有复杂拓扑结构或包含精细元素的挑战性输入,TripoSG也能生成连贯、合理的形状

TripoSF

再来看TripoSF。

研发TripoSF,VAST有专门的针对性目标,旨在突破传统3D建模在细节、复杂结构和扩展性上的瓶颈

具体来说,3D模型虽然也在不断发展之中,但现有方法仍有不足。比如预处理带来的细节损失、对复杂几何形状表达能力的不足,或在高分辨率下面临高昂的内存和计算成本……

令人头秃。

据VAST官方表示,此前一直在研究中寻找3D模型的tokenizer,现在终于有所进展——

没错,就是TripoSF的核心表示方法,SparseFlex。这家伙拉高了3D生成任务的上限。

它借鉴了Flexicubes(可微分地提取带尖锐特征的网格)的优势,并创造性地引入了稀疏体素结构,仅在物体表面附近的区域存储和计算体素信息。

带来的效果很显著,约有以下三点:

  • 大幅降低内存占用,让TripoSF能够在1024³的高分辨率下进行训练和推理。
  • 原生支持任意拓扑处理:不仅通过省略空白区域的体素,自然地表示开放表面(如布料、叶片),还有效捕捉内部结构。
  • 支持基于渲染损失的直接优化:SparseFlex是可微分的,允许TripoSF使用渲染损失进行端到端训练,避免了数据转换(如水密化)导致的细节退化。

为了实现上述第一点,VAST还做了很多功课,最终推出一种叫“视锥体感知的分区体素训练”的策略

视锥体感知的分区体素训练借鉴了实时渲染中的视锥体剔除思想,在每次训练迭代中,仅激活和处理位于相机视锥体内的SparseFlex体素

有针对性和选择性的激活,显著降低训练开销,让1024³这样高分辨率下的高效训练成为可能。

另一边,视锥体感知的分区体素训练策略首次使仅通过渲染监督即可重建模型的内部精细结构——在此之前,依赖水密表面数据的方法没法完成这个任务。

当然,还有不得不提的关键一步,即基于SparseFlex表示和高效的训练策略,VAST还构建了TripoSF VAE(变分自编码器),它成为了TripoSF重建和生成能力的基础

具体到输入到输出,是酱婶儿的:

  • 输入:处理从三维网格采样得到的点云数据。
  • 编码:使用稀疏Transformer将输入几何映射为紧凑的隐空间编码。
  • 解码:从隐编码重建高分辨率的SparseFlex参数,并采用自剪枝上采样模块(self-pruning upsampling)来保持稀疏性并精确定义边界,尤其对开放表面效果显著。
  • 输出:生成SparseFlex参数,可用于提取高质量的三维网格。

一顿操作过后,来看TripoSF的实战表现——

实验结果表明,TripoSF的质量达到了新SOTA。

在多个标准基准测试中,TripoSF与先前方法相比,实现了约82%的Chamfer Distance降低和约88%的F-score提升

而用TripoSF得到的模型,是这样的:

多看几个项目效果也能发现,确如论文中表述的那样,有了SparseFlex的TripoSF,分辨率高,细节退化情况大幅降低

就,获得的3D模型真的更真实了!我们多看几个Case:

BTW,与TripoSG的开源策略不同,TirpoSF选择了阶段性开源的方法。

现在,TirpoSF开源了TripoSF VAE的预训练模型及相关的推理代码。

不过满血版开源应该也不远了!VAST官方表示,满血版预计将在Tripo 3.0时开放

且按耐住着急的心多等一会儿吧~

开源全家桶,从基础模型到创新应用全覆盖

开源月第二周发布两个基础模型之外,量子位也抢先打听到了VAST开源月的后续内容。

主打一个3D生成全流程技术覆盖。

下周的开源月第三弹,主打3D生成模型的专业能力——

三维部件补全模型、通用三维模型绑定生成模型。

开源月最后一周的压轴好戏,主打在3D生成领域的前沿探索——

三维几何精细化模型以及SIGGRAPH Asia 2024 RTL收录的交互式草图生三维模型。

至于开源质量嘛,我们可以通过今天的TripoSG和TripoSF,以及近期VAST的其它动作,窥一斑而知全豹。

这次开源月正式启幕的第一周,VAST第一发是在3月13日开源了两个项目:

一个是MV-Adapter,VAST和北航、上海交大联合出品。

虽于去年12月第一次问世,但3月13日又有新一步的进展,开放了几何控制下的多视图生成模型权重。

它是第一个基于适配器的多视图图像生成解决方案,可以在不改变原始网络结构或特征空间的情况下,增强文生图模型及其衍生产品。

另一个开源的项目叫MIDI

它能仅凭单张图像,创建高保真3D场景,论文已中CVPR 2025。

这一系列开源属于是既有技术深度,又有覆盖广度了。

实际上,作为全球领先的3D生成技术提供方,VAST一直很看重在技术前沿的探索

单在2024年一年里,就发表了几十篇新论文;同时积极投身开源社区,此前的开源项目还包括:

世界最大3D生成算法框架threestudio、图生3D的Wonder3D,和Stable Diffusion背后公司Stability AI一起开源的TripoSR……

凭借技术上的活跃度,VAST旗下的Tripo系列在全网社交媒体上,也属于是3D生成领域的当红炸子鸡(doge)

不仅业余玩家玩得起劲,也获得了不少专业艺术工作者的认可,可以说是3D生成版的国产之光了。

对了,关于技术,此前VAST的CTO梁鼎还给量子位分享过他们的总体目标

第一步是静态的内容生成,就像生成一个个雕塑。

第二步是动态的内容生成,让原本静态的雕塑动起来,和用户互动。

他还认为,在今年(2025年)年底之前,每个人都可以零门槛、零成本地进行实时3D内容创作。

现在,VAST用开源月,让每个人朝向这个目标更进一步。

而一系列技术新成果和开源推进之下,VAST也越来越受到关注,正在成为3D大模型赛道最具代表性的明星公司。

有个VC和技术招聘领域的江湖套梗是这样说的:

  • 语言、图像和视频之后,3D是AIGC领域的下一个未来……那3D大模型赛道,究竟有谁在啊?
  • VAST

【 TripoSG 】

Homepage:https://yg256li.github.io/TripoSG-Page/

论文arXiv:https://arxiv.org/abs/2502.06608

GitHub代码:https://github.com/VAST-AI-Research/TripoSG

抱抱脸模型权重:https://huggingface.co/VAST-AI/TripoSG

抱抱脸演示:https://huggingface.co/spaces/VAST-AI/TripoSG

【 TripoSF 】

Homepage:https://xianglonghe.github.io/TripoSF/

论文arXiv:https://arxiv.org/abs/2503.21732

GitHub代码:https://github.com/VAST-AI-Research/TripoSF

抱抱脸模型权重:https://huggingface.co/VAST-AI/TripoSF

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中超3轮战罢,积分榜去除违纪扣分,联赛走势初见端倪

中超3轮战罢,积分榜去除违纪扣分,联赛走势初见端倪

足坛超短波
2026-03-23 06:35:08
马筱梅首晒26天嫩婴写真花絮!汪宝儿造型萌翻网友 人气超车大人

马筱梅首晒26天嫩婴写真花絮!汪宝儿造型萌翻网友 人气超车大人

达达哥
2026-03-22 22:53:44
曼城力克阿森纳,他是瓜迪奥拉救世主

曼城力克阿森纳,他是瓜迪奥拉救世主

西哇体育
2026-03-23 11:33:04
普通人一生的存款标准

普通人一生的存款标准

捣蛋窝
2026-03-21 11:14:00
蒋纬国自传透露重要信息:戴笠坠机,航空委员会宋秘书长嫌疑不大

蒋纬国自传透露重要信息:戴笠坠机,航空委员会宋秘书长嫌疑不大

历史龙元阁
2026-03-22 11:30:12
凌晨6点我军编队遇袭!两艘不明军舰突然逼近,南昌舰果断亮剑

凌晨6点我军编队遇袭!两艘不明军舰突然逼近,南昌舰果断亮剑

音乐时光的娱乐
2026-03-20 20:10:22
英媒曝惊天内幕:中东失控美国必停战,头号替罪羊早已锁定

英媒曝惊天内幕:中东失控美国必停战,头号替罪羊早已锁定

起喜电影
2026-03-22 12:58:30
以色列:阿布·哈利勒·巴尔吉被打死

以色列:阿布·哈利勒·巴尔吉被打死

南方都市报
2026-03-22 20:58:58
高市早苗向广岛原子弹投放手敬献花圈

高市早苗向广岛原子弹投放手敬献花圈

雪中风车
2026-03-22 07:46:32
涉嫌4项罪名!释永信有几个好妹妹?

涉嫌4项罪名!释永信有几个好妹妹?

大江看潮
2026-03-21 22:31:53
“小命不保了还在炫耀”,无知家长晒00后毛娘女儿:收入比她爸高

“小命不保了还在炫耀”,无知家长晒00后毛娘女儿:收入比她爸高

妍妍教育日记
2026-02-26 20:15:22
凌晨4时28分!事发沈阳太原街!现场监控曝光

凌晨4时28分!事发沈阳太原街!现场监控曝光

沈阳公交网小林
2026-03-23 00:09:17
以军承认:没拦住伊朗导弹,超百人伤!伊朗:新战果“让美以大吃一惊”

以军承认:没拦住伊朗导弹,超百人伤!伊朗:新战果“让美以大吃一惊”

上观新闻
2026-03-22 15:01:07
埃迪·豪下课!纽卡必须换帅,英超最佳主帅才是唯一答案

埃迪·豪下课!纽卡必须换帅,英超最佳主帅才是唯一答案

奶盖熊本熊
2026-03-23 04:16:20
今年4月注定充满惊喜的3个生肖,好运连连,身边总有贵人!

今年4月注定充满惊喜的3个生肖,好运连连,身边总有贵人!

毅谈生肖
2026-03-23 10:56:04
西方突然意识到不对劲:中东战争打得越久,就越对中国有好处

西方突然意识到不对劲:中东战争打得越久,就越对中国有好处

忠于法纪
2026-03-23 09:45:24
达芬奇《最后的晚餐》为何如此出名?放大10倍后,看看犹大的手!

达芬奇《最后的晚餐》为何如此出名?放大10倍后,看看犹大的手!

蒋南强读历史
2026-03-22 11:05:08
彻底翻脸!沙特、土耳其等六国联合围剿以色列,美国也拦不住!

彻底翻脸!沙特、土耳其等六国联合围剿以色列,美国也拦不住!

多多爱探索
2026-03-22 11:25:20
美国被严重“误判”!全世界都在对我们撒谎,真相很残酷

美国被严重“误判”!全世界都在对我们撒谎,真相很残酷

毛豆论道
2026-03-21 19:54:29
高校督导变 “教学警察”?北大毕业老教授当堂叫停授课,年轻教师忍无可忍

高校督导变 “教学警察”?北大毕业老教授当堂叫停授课,年轻教师忍无可忍

化学人生
2026-03-22 16:52:30
2026-03-23 12:19:00
量子位 incentive-icons
量子位
追踪人工智能动态
12324文章数 176418关注度
往期回顾 全部

科技要闻

雷军、蔡崇信最新发声,提到同一件事

头条要闻

山西省原省长金湘军被公诉:任上被查 搞权色钱色交易

头条要闻

山西省原省长金湘军被公诉:任上被查 搞权色钱色交易

体育要闻

46岁生日快乐!巴萨全队穿10号致敬小罗

娱乐要闻

刘烨47岁生日,安娜晒全家福为其庆生

财经要闻

连续暴跌 乱世黄金失灵?

汽车要闻

岚图汽车香江鸣锣 一场关于"国家队"的突围实验

态度原创

游戏
教育
亲子
房产
数码

龙之信条2或将推出DLC!卡普空神秘贺图暗藏线索

教育要闻

学校中层干部千万不要傻傻努力了!校长根本不在意你干了多少活,而在乎这6条

亲子要闻

躺平的孩子,终能迎来自己的春暖花开!

房产要闻

全城狂送1000杯咖啡!网易房产【早C计划】,即刻启动!

数码要闻

时隔四年磨一剑,小米全新笔记本媒体评价盘点

无障碍浏览 进入关怀版