
为什么当下 大语言模型的进化速度已经放缓,而 AI应用火热?
在文生图、文生视频之后,下一个引爆我们想象力的AI技术奇点是什么?
为什么说科技的终极形态,是一场「解压缩」?
最近, 「十字路口」 播客采访了混沌学园六期同学、3D大模型公司VAST的创始人&CEO宋亚宸(Simon),播客中他们聊了VAST最新3D生成大模型Tripo 3.0 背后的故事。
宋亚宸, 这位97年出生的创业者短期内已连续融资三轮、每轮数千万美金。在他看来,大语言模型已经「撞墙」,进化放缓,这才给了应用和Agent繁荣发展的空间。而3D大模型则完全不同,它才刚刚起步,仍是一片蓝海。
为什么VAST要一边研发大模型,一边自己下场开发应用Tripo Studio?
宋亚宸的AI创业故事或许能让你有所收获(
![]()
宋亚宸参加混沌学园线下学习
本文转载自公众号“十字路口Crossing”,嘉宾:宋亚宸,播客采访:Koji、Ronghui,整理编辑:Starry,原文排版:NCon
![]()
快问快答
Ronghui
大家好,欢迎来到这一期的「十字路口」。本期我们的嘉宾是一位年轻的创业者,3D 大模型研发公司 VAST 的创始人宋亚宸,Simon。8 月底 VAST 发布了最新的 3D 大模型 Tripo 3.0。今天我们邀请他来聊一聊 3D 大模型研发的故事,以及他创业这两年来的一些思考。我们先进入快问快答环节。
请Simon回答一下:年龄?
宋亚宸
28
Ronghui
毕业院校?
宋亚宸
约翰·霍普金斯大学本科。
Ronghui
你的 MBTI 和星座?
宋亚宸
我是ESTP,星座是双鱼座。
Ronghui
用一句话介绍现在的公司和产品。
宋亚宸
我们公司叫 VAST,是一家做 AI 3D 大模型的公司。我们有一个产品叫 Tripo,输入可以是文字、图片或多模态方式,它能输出完整的3D内容。
Ronghui
融资情况?
宋亚宸
之前融了三轮,每一轮大概在几千万美金左右。
Ronghui
团队规模?
宋亚宸
我们大概 110 多人。
Ronghui
创业之前你在做什么?
宋亚宸
创业之前也在创业。最早在商汤做过一段时间 AI 加动画、AI 加游戏。2021 年参与创立了 MiniMax,2023 年创立了 VAST。
Ronghui
我们有一个社交破冰环节,用「我是 XX」造句,介绍 10 件关于自己的事。请 Simon 也来体验一下。
宋亚宸
第一,我是宋亚宸,28 岁,创业者。
第二,我是 VAST 的创始人兼 CEO。
第三,我是一个 Addictive Gamer,非常沉迷游戏。上大学时,床垫都被我打游戏坐出一个坑。
第四,我是一个喜欢旅游的人,去过格鲁吉亚、百慕大、古巴、土耳其、摩洛哥等地。
第五,我算是一个跨行业者,本科偏文科,后来转向 AI,有跨学科的背景。
Koji
我记得你是学神学?
宋亚宸
我是学希伯来语、阿拉伯语的,最早想往这个方向发展。
Koji
那你之前的学习对现在的工作有帮助吗?
宋亚宸
有。我很多决定都来自于接触过的人和信息。
第六,我是一个喜欢读书的人,也喜欢听书,但目前还不是特别喜欢听播客。
Koji
你最近读的一本书是什么?
宋亚宸
最近读了一本很薄的书,《种树的人》,是绿洲资本的张津剑送我的,收获挺大。前段时间也在听王东岳讲《道德经》。
第七,我是一个在意「有趣」的人。无论招聘、交朋友还是和投资人打交道,我都看重对方是不是有热爱、是不是有眼神发光的时刻。
Koji
你的投资人里谁最有趣?
宋亚宸
这个问题可能会得罪人(笑)。不过我们的大部分投资人都很年轻,愿意投我们,本身就是一种「有趣」。
Koji
你这端水大师。
宋亚宸
第八,我是一个不擅长写字的人,包括中文和英文。虽然在美国待了八年,但一直不擅长文字表达,所以学文科时很痛苦。比如回微信消息、写公司全员信、给投资人写长邮件,我基本都不做。但我擅长聊天。以前在商汤做战略时,经常要写 PPT,那段时间非常痛苦,我努力克服,后来发现确实不是我的强项,就放弃了。
Ronghui
那你用 AI 工具写 prompt 怎么办?
宋亚宸
也很痛苦。我更喜欢交互的形态。在 3D 时空里,未来不应该需要打字,而是「言出法随」。比如像原神里漂浮的小助手,可以直接对话生成内容。这才是更自然的交互形态,而不是突然弹出键盘打字。我很期待 3D 能尽快实现。
第九,我是一个特别喜欢内容创作的人。从小学就读各种玄幻小说(唐三、我吃西红柿、苍天白鹤、天蚕土豆等),后来读漫画,看番剧,打游戏,还写过玄幻小说上传到起点。
Koji
能在起点搜到你吗?用什么名字?
宋亚宸
是一个只有 200 人看过的起点小账号。
但我确实在商汤做过动画 IP,做到过百万粉丝规模。在半次元也做过 KOL。我喜欢做 IP,也喜欢做内容。
Koji
你的粉丝有多少?
宋亚宸
当时几万粉丝。
第十,我是一个很想做游戏的人。小学时有一本很破的本子,上面设计了好几种RPG 游戏,有等级、装备、背包、探险,还能和同学互相对战。下课后很多同学会找我玩,就像一个 RPG 一样。
![]()
万物起源:从小学时收费的RPG,到一个无限世界的梦想
Koji
感觉你在学校里地位很高。
宋亚宸
当你拥有一个系统,等于自己创造了一个小世界,你就成了这个世界里的「神」,有最终解释权。所以大家会来充值,比如送我香菇肥牛、辣条,或者北京烤鸭那种五毛钱的豆腐干制品,让我把他们画得更强一些,很有趣。
Koji
当时通过创造虚拟世界获得的这些正反馈,和你现在做 VAST 有直接关系吗?
宋亚宸
我觉得有,我特别喜欢创造和创作,能写故事、造世界,也喜欢消费别人的故事。这是我最喜欢的事情,因为物理世界有很多限制,更大的世界来自于人的大脑和想象力,那是一个无限的世界。
Koji
我们和 Simon 比较熟悉,除了前面的 10 个,你可以再展示一些我们不知道的?现在请你即兴再来一个「我是…」。
宋亚宸
同时,我还是个哥哥。我有一个亲弟弟,这对我来说是重要的身份。我们差很多岁,所以我能更好地了解他们那一代人喜欢什么。我们做的产品,终究是面向下一代的。
对他来说,AI是非常自然的。他遇到问题会下意识打开 GPT 或 DeepSeek,而我还是习惯 Google 或百度。他从小就在消费有 AI 参与的内容,对他来说这是再正常不过的。而我小时候接触的还是文字内容,那时互联网还不成熟,硬件和带宽不足,无法支撑高信息密度的载体。虽然 3D 是信息密度最高、最自然的形态,但早期互联网只能用更抽象、更降维的文字来承载。
所以最早我看小说,用 MP3 在被窝里打着手电筒看,一个 MP3 屏幕只能显示 10 个字符,看 500 万字的小说要按 50 万次。后来移动互联网出现了,初中时我买了 iPhone4,终于能消费图片内容,手机也有摄像头了。再后来到了大学,我们才有更多视频内容。等到我工作时,短视频才真正开始流行。
Koji
除了遇到问题时,你会想到用 Google,而你弟会想到用 ChatGPT。你觉得你们之间还有哪些显著区别?
宋亚宸
比如我很习惯看公众号,他就不习惯。他更习惯去 YouTube、B 站找答案。对他来说,视频是信息密度更高的形式,更符合他成长的环境。
Koji
「Born with 3D」的用户,你们已经在用户群里看到了吗?
宋亚宸
是的,年纪更小的用户中已经有这样的趋势。比如我弟的学弟在 B 站做 Up 主,作品是一些我很难看懂的 3D 创作,比如「马桶人」「监控人」,但能有几十万粉丝,有时视频甚至上百万播放。你都不知道是谁在消费,但确实有人喜欢。不同代际差异非常明显。信息载体从文字到图片、视频再到 3D,社会形态从工业社会到数字社会再到智能社会,不是一两年能看出来,但以十年为跨度,变化很大。
Ronghui
那我们具体聊聊你们的 3D 大模型。8 月 20 号发布的 Tripo 3.0,前面提到了对新一代用户的关注。你能说说这次是为谁设计的吗?和之前的产品相比,最大的迭代在哪里?
宋亚宸
其实 Tripo 我们已经做了挺久,2024 年初上线,到现在一年半了,也积累了很多用户。目前全球有三四百万专业创作者,超过 4 万家企业客户,其中 700 多家是大型客户。大家在用 AI 3D,但之前产品并不算真正的 pipeline-ready,只能在流程的一环里起作用,还需要专业人员修改和精修。
Tripo 3.0 的跨时代意义在于,它第一次达到了可以直接在大多数行业和场景中使用的状态。比如你买一台 3D 打印机,放在家里给孩子用,在 Tripo 上生成一个 3D 模型,放进打印机,打印效果就很好,不需要二次操作或修改。你甚至不用关心模型的结构、格式,不需要知道如何修 3D,也不用学习各种 DCC 建模软件。这些都不是用户需要关心的。
Koji
2.0 到 3.0 的过程中,你们背后做了哪些工作?
宋亚宸
工作量非常大,涵盖了更多数据、更优算法以及模块优化。这是一个系统性工程,而不是解决单点问题。整体上在可控性、成功率、精细度和性能等方面都有显著提升,尤其是在几何精细度上的进步尤为关键。
Ronghui
Simon 能否给听众一些更具象的分析?比如我没有技术背景,但在录制前我和 Gemini 讨论过你们的资料。以 Tripo 2.0 为例,公开信息提到你们采用了融合 DiT 和 U-Net 模型的复合架构。Gemini 指出这本身就很有挑战。我想问 3.0 是否仍在使用这一架构?如果是,它的挑战性体现在哪里?
宋亚宸
3.0 并不是依靠某个单点突破,而是多方面的系统优化。我们研发了一种新的表达形式——SparseFlex(SF)。今年 4 月份我们已开源 Tripo SF,效果相当出色。它显著降低了生成 3D 模型的成本,提升了生成速度,因为它跳过水密性环节,同时支持在上千空间维度下生成,精细度更高。
你可以把它理解为一种 3D 的 token 表达形式。表达形式越好,压缩率、还原率和保真度就越高。这样不仅能支撑更多数据训练,还能提升生成质量和精度。近期也有类似的表达形式,比如 Mesh、NeRF、近期很火的高斯等,SparseFlex 在 AI3D 训练中同样表现突出。
Koji
3.0 发布后,有没有数据能显示它给用户带来的价值?比如使用量、付费率或使用频率?
宋亚宸
用户用量和反馈都显著提升。我们目前发布的是 Standard 版本,后续还会推出 Ultra 版本,生成效果更好,但生成时间也会更长。
Koji
有没有 2.5 无法实现,而 3.0 解锁的应用场景?
宋亚宸
可以这样理解。我们有一款产品 Tripo Studio,它集合了大量 AI 算法,目标是通过 AI 原生的工作流替代传统复杂的 3D 制作管线。Tripo Studio 在 5 月 31 日上线后,收入增长超过两倍。
Koji
我记得你曾在「十字路口」线下活动 「AI 开放麦」现场分享过,有人在欧洲基于 Tripo 3D 的 API 做了「套壳」应用并赚了不少钱。Tripo Studio 是否类似这种模式?
宋亚宸
不完全是。我们希望将其做得更具 agent 化。后续会在系统中增加更多对话框,以及简单的语言交互和拖拽交互。可以把它理解为 3D 内容生成后的后续处理:例如,当我生成了一个「80 分」的成果,以前通常在传统管线中进行二次编辑;现在我们在 Tripo Studio 上完成二次编辑,从而大幅降低编辑的成本、门槛与时间,这正是 Tripo Studio 的意义。
Tripo Studio 带来了许多全球独有的新功能。首先是「万物自动语义分割」(segmentation)。以往生成的 3D 模型往往是一体化的「整体」,无法做二次编辑——类似纹身图或纹身视频,生成后没有源文件,不能在 Photoshop 中分层(layers)编辑。同理,早期的 3D 输出是一整块,难以分层处理;而现在,生成的 3D 模型可以自动进行语义分割:系统理解模型的语义后,将其各个部件切分为独立的块,并对每个部件自动补全与完善。
举例来说,若生成一只手拿着一瓶水,系统能自动把水与手分离,水与手各自成为完整独立的 3D 资产,并被存入资产库以便替换和复用。这体现了 Tripo Studio 的能力。换言之,Tripo Studio 上线了一整套 AI 算法,定义了 AI 时代 3D 编辑与交互的形态与范式。其中,segmentation 与 part completion 是非常经典的功能,未来也可能出现竞品实现类似功能。
Koji
可以把它理解为类似 Canva 推出 AI 时的重要卖点——生成的图片可以分层(layer)编辑,逐层调整;Lovart 也在强调这一点。
宋亚宸
这确实是一项创新——此前无人做到,我们率先实现。我们还开发了「万物骨骼绑定」功能。其含义是:生成的 3D 模型原本是静态的「雕塑」,现在可以自动进行骨骼绑定和蒙皮。除人类模型以外(人类较易处理),系统也支持猫、狗、牛、蛇、鱼、龙,甚至章鱼、蜘蛛等的自动骨骼绑定与动作生成。例如,生成一条龙后,系统可以在爪子或手指级别完成绑定,从而使其能够运动。这项能力显著节省创作时间并降低门槛。
此外,我们还做了低模生成。传统生成模型面数常达几十万乃至数百万,这在实时渲染场景(如游戏、XR、元宇宙)中对本地性能消耗巨大;而当面数降至几百或几千时,计算量显著减小,能实现实时渲染。为此,我们自研了一套基于自回归路线的低模生成方法,使输出模型天然面数较低、实用性更强。
类似功能还包括 Magic Brush 智能笔刷等一系列能力,这些共同构成了完整的工作流。
Koji
我理解这其实是一个战略性的选择。因为很多团队可能会选择把精力 all in 在基模上,而你们却花了大量产研时间做 Studio。为什么?
宋亚宸
我们判断,未来每一个有专业能力的垂直领域大群体,都会拥有一个属于自己的 AI 工作台,它要满足几个条件:
端到端:能一站式完成完整的创作流程。
高可控性:可编辑的颗粒度要足够细,才能真正体现创意。
交互形态创新:不再局限于传统模式。
去年底我们意识到这一点,就投入半年研发,到 5 月 31 日上线了 Tripo Studio 的第一个版本。早期还是雏形,但经过几次迭代,效果已经越来越好。
![]()
模型vs. 工作台:为什么我们既要造发动机,也要造F1赛车?
Koji
所以你觉得只做基模是不够的?因为也有人可能会选择说,我就专注做基模,把类似 Tripo Studio 这样的工作开放给生态合作伙伴去做。
宋亚宸
嗯,这是个很好的问题。我认为未来一定是基模和 agent (或者叫 workstation)——这两方面都会做。举个例子,比如 Cursor,它很可能会做自己的基模。
Koji
所以你觉得这是一个战略上用作防守的 agent?
宋亚宸
它不是防守,而是一种逻辑。你可以理解为:在做底层大模型的时候,你是在起「新墙」;而在做工程和产品功能的时候,你是在糊「旧墙」。因为你要解决的,恰恰是上一代模型里存在的缺陷。
比如说,上一版模型在人脸生成上的效果不够好,那如果我要基于这版模型做 agent,我就会重点解决「脸部优化」的问题。但当新一代模型发布,它顺带把人脸问题和其他一百个问题一起解决了,那你之前的努力可能就失效了。
所以,从底层角度看,AI1.0 和 AI2.0 的区别就在这里。AI1.0 时代的核心是很多天才的算法科学家,通过手工调参的方式训练出一个个小模型,然后用这些小模型去解决各种长尾问题。举个例子,在计算机视觉时代,我们做智慧城市时,会有一个小模型专门识别垃圾是否被倒在外面,另一个小模型识别监狱里是否有人打架——非常具体、细节的问题。
而在 AI2.0 时代,核心变成了数据驱动。通过海量数据训练出一个通用的大模型,希望它能泛化地解决所有常规问题。
回到刚才的问题——做底层模型的优势是一次性解决大部分常规问题。但为什么现在有人在上面做工具、agent、workstation 或者应用?核心原因就是:他们认为 AI2.0 时代死了,所以还是在做 AI1.0 时代的事情。
![]()
AI2.0时代的生存法则:语言模型撞墙了,但3D没有
Koji
你觉得 AI2.0已经「死了」?
宋亚宸
不是我觉得,而是那些在做的人面临的问题。你仔细想一想,如果AI2.0 还在快速发展,比如GPT-5、GPT-6、GPT-7一路迭代,那么Cursor根本没有生存空间,因为它依赖解决的那些问题都会被新模型覆盖掉。很多agent也是这样,原来填补的是通用模型的缺陷,但随着大模型升级,它们的价值就消失了。
Koji
所以你认为模型遇到了发展瓶颈?
宋亚宸
不是所有模型,而是语言模型撞墙了。也正因为如此,才会基于语言模型出现了很多垂类应用和agent,因为语言模型的发展速度相对放缓。
但在3D领域,情况完全不同。你很少看到只做应用的人,因为如果没有自己的大模型,一旦下一代模型发布,你的应用几乎立刻失效。就像你糊了半天的旧墙,人家直接给你起了个新墙,你的努力就被覆盖了。
Koji
我理解在大模型还在疯狂迭代的时候,如果应用公司在上面「雕花」,很可能会被下一次升级直接淹没。但我想知道,从你们的角度看,作为一家本来做基模的公司,为什么在这个时候你们也要做应用?
宋亚宸
核心在于:我们比别人更清楚下一版模型会往哪里迭代。我们知道哪些地方值得糊旧墙,哪些地方不用护,因为新模型会解决。
这就是我们最大的优势:一方面,通过做工具或agent,我们能离用户更近,拿到一线反馈,指导大模型迭代;另一方面,我们又有大模型的积累,清楚模型下一步的方向。两者结合,就形成了非常好的循环。
Koji
DeepSeek坚决不做任何商业化,即便外界愿意送钱,他们也拒绝,因为梁文锋认为这会稀释团队在追求模型智能边界上的专注。所以他们的 ToC产品做得很简单,爆火之后也没维护,甚至不调机器扩容。他们把所有精力都放在基模上。
而你们的选择是既做基模,又做Tripo Studio,但你们的「粮仓」没有 DeepSeek那么充足。在资源有限的情况下,这种战略选择的考虑是什么?
宋亚宸
我不觉得这是注意力稀释。相反,如果只做基模,就会变成一种学术化的「自嗨」。很多东西在论文里可能很火,但和真实用户的需求并不完全对应。
我们做 AI 不是「拿着锤子找钉子」,而是要从真实问题出发。这也是我们公司的特别之处。上次分享时我提到过,我们最早做的是一个3D的 TikTok。但我们遇到了一个「墙」:想做3D UGC的生态和社区,但发现现实里根本没有3D的 UGC,只有PGC。为什么?因为缺少大众级的创作者工具。
就像如果没有输入法,就很难有文字的 UGC;如果没有手机摄像头,就很难有图片和视频的 UGC。那在 3D 里,缺的就是一个大众级的创作工具。所以我们才去做 AI 3D 大模型,目标是降低创作门槛和成本。这个初心很重要,我们做这件事是为了解决真实存在的问题,和用户、创作者在一起,看看我们的方案是否真的奏效。
换句话说,从第一天开始,我们就不是一家「拿着锤子找钉子」的公司。很多大模型公司是先有技术,再去找应用场景;而我们是一开始就看到了用户的需求和痛点,所以才决定做大模型。
Koji
所以一开始你们真正的「钉子」,就是要做一个3D UGC的社区。
宋亚宸
没错。我们的目标就是做一个大众级的创作者工具,让每个人都能零门槛、零成本、实时地创作3D内容。
Koji
所以现在其实 Tripo Studio 也是服务这个人群的嘛?
宋亚宸
现在暂时不是。你可以理解为 Tripo Studio 目前还是服务于专业用户,面向的是 PUGC 或者 PGC。我们希望下一步逐步去牺牲一部分创作的可控性和编辑的颗粒度,但换来的是大量的内容范式和模板。有了这些范式和模板,每个人都能参与到创作当中。
比如大学生用 Tripo Studio 没问题,但如果是小学生,或者让我外婆来用,难度还是比较大。我们真正希望实现的是零门槛、零成本的实时 3D 创作。一旦做到这一点,就有机会出现 UGC 群体。
Koji
是什么原因让你认为未来会是人人都要做 3D 呢?这是不是有点非共识?因为拍照片、拍视频很自然,但 3D 是更高维度的艺术创作,好像不是每个人都会主动想去做的事。
宋亚宸
其实你刚说的「自然」也就存在不到十年。拍视频、拍照片成为日常也只是近十年的事情。在短视频出来之前,我们一年能看几部电影?在小红书和 Pinterest 之前,一年能逛几次画廊?在微博、贴吧、Twitter 出现之前,一辈子能读几本书?
回到 3D,在 3D 的 UGC 内容平台出现之前,其实每个人都在打游戏了。王者荣耀 2015 年发布第一年就有 1 亿 DAU,十年后依旧保持 1 亿 DAU,这就是全民级产品。今天游戏的全球市场规模大约 2600 亿美金,已经是出版社、画廊、电影市场加起来的两到三倍。
同理,我认为未来的 3D UGC 内容平台会是 Twitter、微博、小红书、抖音、快手、TikTok、Snapchat、Instagram 所有平台总和的两到三倍。
Koji
你畅想的未来 3D UGC 这个平台上面消费的内容主要是什么呢?游戏?
宋亚宸
这是个好问题。就像短视频刚出现时,你问大家会消费什么?当时没有短视频的概念,只有电影和视频,所以当我们说要做一个 UGC 视频平台的时候,大家一般只能想到电影。
同样,现在大家提到 3D 可交互内容平台时,只能想到游戏。但其实未来的形态一定更丰富。就像现在在 B 站,电影在所有视频里只是很小的一部分,短剧的市场已经超过电影。
所以我相信,今天我们玩的所有游戏——不论是咸鱼之王、三消、原神、王者荣耀还是刺激战场——未来都会只是「3D 可交互内容」大品类下面的一个小分支,属于精英级的艺术形式。
Ronghui
你刚才讲到这里,我想请你帮大家科普一下:训练一个 3D 大模型和训练常规大语言模型相比,挑战主要在哪里?
宋亚宸
我们常用「AI 三要素」来说明问题:如果把 AI 比作养一匹马,需要三个条件。
第一,马要吃草——草料对应数据;
第二,马要有优秀的驯马师——这对应人才和算法;
第三,马要有跑马场——这对应算力。只有同时具备数据、算力和优秀的算法(或科学家),才能训练出高水平的 AI。
在 3D 领域,这三要素与语言大模型存在显著差异。首先是数据。互联网早期只能支撑低信息密度的内容,因此网络上积累了海量可供爬取的文字数据。但 3D 领域的互联网尚未成熟,缺乏公开的大规模数据集,这带来了天然的瓶颈:数据从何而来?
目前我们拥有全球最大规模的高质量 3D 原生数据集,大约 4,000 多万个样本,接近《黑神话:悟空》中「猴子」那类 3G 模型的级别,作为训练基础。这一点极为重要。相比之下,其他大厂或竞争对手的数据量级大多停留在百万级,而我们是全球唯一达到千万级乃至数千万级的团队。
Koji
这是为什么呢?是不是有些数据即使有钱也买不到?
宋亚宸
这是个好问题,这属于我们的核心机密(笑)。
第一在「草料」层面,我们确实比别人更充足,这一点非常关键。
第二是「人才」。我们团队有五六十位来自清华的博士,都是极为顶尖的科学家。要组建这样的团队并不容易。语言模型在过去几年相对是显学,聚集了大量做 NLP 的研究者,OpenAI 也长期深耕这一领域。但 3D 是一个全新的交叉学科,结合了 AI 与图形学,本身缺乏长期积累。很多研究者进入该领域不过一两年。
举例来说,两年前在图形学顶会 SIGGRAPH 上,仍能看到大量计算机视觉(CV)相关的论文;但如今在计算机视觉顶会 CVPR 上,已有 Best Paper 与 3D 强相关。说明 3D 正逐渐成为前沿方向,也导致早期人才严重不足。
因此,在人才方面尤为重要。正是凭借这几十位优秀的算法科学家,我们才能持续迭代出全球领先的算法。这是一件极为难得和宝贵的事情。能否做到这一点,取决于是否足够早地进入赛道,并且下定决心去投入。早期进入意味着能够更早发现并吸引人才,把他们凝聚为团队,从而快速推进。数据的积累也与时间早晚相关,但并非完全决定性。
第三是「跑马场」,即算力与资金。我们目前是赛道中融资规模最大的公司之一,估值也在最高的行列。拥有充足资金储备、大规模数据集以及顶尖科学家,理论上就能产出优秀的大模型。但其中依然存在运气因素。正如我之前提到的,要找到「绿洲」,并不是商队越大就越容易。
Ronghui
如果回顾过去两年的历程,你会如何划分关键节点或阶段?比如在什么时间点决定要做 Tripo Studio,并且要尽快做好?这个过程中是否也包含了一些关键人物或关键判断?
宋亚宸
这件事可以这样理解:我们过去两年只做了一件事。公司在 2023 年成立,2023 到 2024 年唯一的目标就是把技术做到全球最前沿的水平。我们确实有竞争对手,但观察下来,许多对手在早期投入大量精力在产品层面。而我认为,早期产品的本质其实是技术,而不是表层的功能。
举个例子:如果你的手机摄像头是 720P,而我的已经是 1080P,那么你在 720P 上叠加各种人像、全景、红外等功能其实没有意义。你真正该做的,是尽快提升到 1080P 甚至 4K,而不是纠结那些附加功能。增加功能不是产品的本质,技术才是。
因此,在过去两年里,我们公司很长一段时间甚至没有产品经理,大部分代码都是 CTO 亲自编写的。
Koji
但现在你们做 Tripo Studio,是暗含着你判断 3D 大模型做到 「1080P」 已经撞墙了?但这个时候你们稀释精力去做应用、而不是深耕基模,你会不会担心有一天竞争对手却搞了个 「4K」 的基模出来?
宋亚宸
这与撞墙无关。我们计划同时推进所有方向。
Tripo Studio 最初的设想是先做 UGC 版本,即零门槛、零成本、实时创作 3D 内容的产品,面向真正的UGC。
但为何先做 PGC?原因在于早期阶段 UGC 与 PGC 在生成质量(例如从 10 分到 80 分)上都有需求;当模型达到 90 分或更高时,UGC 与 PGC 的需求会出现分化:UGC 更关注速度与能否快速动起来,而 PGC 更看重精细度,例如拓扑结构与布线等。
因此早期的目标是确保至少能生成可简单调整的内容,于是我们先推出面向 PGC 的 Studio,优先服务现有用户,再逐步覆盖原生用户(即此前未进入生产管线但因 AI 得以参与生产的人群,例如无 3D 能力的 AI 原生用户也能参与生产)。我们的策略是先服务现有 PGC 用户,将整体能力提升至八九十分水平,然后再考虑如何服务 UGC 与 PUGC(半专业用户)。
为此,去年年底至今年,我们组建了约二十余人的产研团队,专门解决产品与工程问题,支持用户做调整与预设。例如支持模型风格化(可上传图片提取风格)、对称性设置、T-pose 与 A-pose 等多项功能。
我们认为首要任务是先把现有的 PGC 用户服务好,随后逐步泛化至 PUGC 与 UGC。在泛化阶段,除了工程与产品外,运营与增长同样重要。目前我们尚未大规模开展运营与增长工作,原因是现有专业用户高度关注我们的产品改进,且产品差异明显、信息较为透明;因此用户会在效果提升时自发使用。
但 PUGC 与 UGC 用户不会持续关注大模型性能的细微提升,此时需要通过增长、BD(商业拓展)或运营来传达产品价值。增长的关键情形包括:一是存在信息差,需要主动告知用户;二是产品逐渐同质化,需要通过品牌与运营建立差异化。鉴于当前我们仍具差异化优势且专业用户无信息差,运营与增长将成为下一阶段的重点工作。
Koji
你会不会担心,做一个 Tripo Studio 这样的复杂产品,目标只是去了解用户,这条路径其实有点太费劲了?毕竟为了实现「更了解用户」的目标,你们可以通过用户调研,还可以通过与基模上面的应用开发者们合作。
宋亚宸
当你在做底层大模型的时候,几乎没有直接意义上的用户。你的用户是 ToB 企业,你必须和这些 B 端客户沟通,需要依靠他们去获取用户反馈。
Koji
但理论上来说,你也可以直接去找到他们的用户,虽然可能不会那么直接方便,但花一些精力也并非不可能拿到联系方式。
宋亚宸
我还是那句话,关键在于初心的不同。我不了解 DeepSeek 的初心是什么,也不清楚 Kimi 的初心是什么。每家公司的目标可能都不一样。我们之所以做这件事,并不是为了什么 AI、3D、AGI,而是出于一个明确的初心:我们希望推动 3D 内容的 UGC 。
我们观察到创作者群体,尤其是大众创作者,缺乏一款大众级的 3D 创作工具,所以我们希望去打造这样一个平台。这是我们最核心的出发点。
正是因为这个初心,我才去做这件事。不能「因为有了饺子所以才包醋」,而是反过来,我们是因为这件事本身有价值,才出发去做。
Koji
确实,一个公司的愿景选择,以及在这条路上的战略定力,都非常重要。
Koji
听起来 Tripo Studio 上线后数据表现不错?刚才你提到它已经贡献了超过一半的收入。前面提到,你们做 Tripo Studio 的目标是拿到更多用户反馈。那么到目前为止,你有没有通过它获得一些新洞察?
宋亚宸
我们其实有一个叫「CEO Program」的项目,即 Chief Experience Officer Program。
Ronghui
你们访谈了很多用户?
宋亚宸
对,目前大概有一两千位用户被访谈,他们来自各种不同的领域,使用场景也非常多元。让我意外的是,很多真实的应用场景在我做产品之前完全没想到。最初我们设想的使用方向是游戏、动画和 3D 内容创作。但后来发现,很多人把它用在设计上,例如 3D 打印、工业设计。于是我们逐渐把定位扩展为 3D 内容、3D 体验、3D 设计。
除此之外,还有大量用户来自艺术领域,尤其是艺术院校的毕业生。他们用它来做毕设,涉及当代艺术、装置艺术、景观艺术、新媒体艺术等。过去他们不具备 3D 创作能力,现在通过生成式 3D 工具就能实现。
还有一些残障用户,他们借助 Tripo Studio 表达自我、进行创作。再比如 XR 应用群体,这类用户非常活跃,但过去我们关注更多集中在 XR 硬件,而较少注意到软件和应用层面。实际访谈才发现,全球有很多活跃的 XR 开发者,他们每天都在创造各种有趣的东西:3D PPT、3D AI 绘本、小游戏等等。
因此我们意识到,3D 生成不仅仅是 UGC,更可能催生新的玩法。在游戏行业里,已经很久没有新的玩法出现了,近十年可能只有《自走棋》算是一个新玩法。而 3D 生成却提供了大量新的交互和玩法可能,这是我之前没有想到的。
![]()
科技的终极形态,是一场「解压缩」
Koji
这些都是 Tripo Studio 上线之后你才发现的吗?
宋亚宸
上线后,大家开始广泛使用,有人通过 API,有人通过 SaaS。但本质上,这背后反映的是 AI3D 已经成为理所当然的能力。
过去大家觉得文生文、文生图、文生视频理所当然,如今同样觉得文生 3D 也是自然的。但仔细想想,从「空无」到「凭空生成一个东西」,这件事本身就像魔法一样。
第二点是技术迭代太快。新奇观感层出不穷,人们来不及细想,这其实是人类两三年前才刚发明的技术,如今已能在产业里规模化应用。要知道,电灯、冰箱等发明出来三年时,远没这么快进入大规模落地。而今天,AI3D 已有几百万用户、四万多家企业在使用。这在我看来非常了不起。
更重要的是,它拓展了大众的能力边界。拍照、拍视频、写文字,这些大众原本就能做到,而 3D 建模过去只有专业人才可以完成。现在每个人都能「凭空造物」,这不是小事。
举个例子:菜单的演变。
在打字机之前,全是手写菜单。
有了打字机,才有了印刷菜单。
有了手机摄像头,菜单上开始配图。
现在扫码点餐,甚至直接在 iPad 上操作。
那为什么菜单不能是 3D 的?如果餐厅能直接展示 10 个人点的 50 道菜,以 3D 模型呈现份量和摆盘,就能立刻判断够不够吃。但传统3D建模成本太高,不现实。今天如果只要每年付几十块,就能拥有一个3D点餐系统,餐厅当然愿意买单。
同样,广告牌、名片也完全可以变成 3D。过去互联网形态是文字、图片、视频,但本质上这是对世界的降维抽象,是科技不够成熟的权宜之计。当科技足够发达,交流和表达自然会回归到最接近真实的 3D 形态。
Koji
我觉得这描绘了一个很有想象力的未来。今天我们看短视频而不是 3D 内容,只是因为技术、带宽和设备算力的限制,本质上还是在对世界做「压缩」。
宋亚宸
对,「压缩世界」这个说法特别准确。
Koji
回到我之前的问题。你提到做 Tripo Studio 是为了获得用户认知,帮助模型更好迭代。那经过几个月运营,你们拿到了哪些以前没有、必须通过 Tripo Studio 才能得到的认知?
宋亚宸
其实有很多。我们内部有一个需求池,上面有上百条需求,分 P1、P2、P3 等优先级。
举几个例子:
有用户希望能编辑贴图,于是我们研发了智能笔刷。
有用户想改几何,却不知道如何下手,于是我们探索能否用自然语言直接编辑几何。
有人希望模型有更好的拓扑结构,于是我们开发了重拓扑功能。
有人追求更好的硬表面、更清晰的拐角,我们针对性优化了算法。
有人希望保留贴图笔触、改善 UV 完整性,我们也在做专项研发。
这些细碎的需求,推动了我们快速迭代。另一方面,大模型的更新也自然解决了很多问题,比如人脸精细度、硬表面表现、PBR 支持、贴图质量等。
所以最终还是一句话:一切都是为了服务用户和创作者,而不是服务我们自己。
Ronghui
这个世界其实是在压缩的过程中,而你们在做的事情是让它「升维」。听起来是一条比较挑战的路。你相信当工具越来越简单时,人们真的会选择去做升维的创作吗?
宋亚宸
我更愿意称它为「解压缩」。人类之所以一直在压缩,是因为受制于带宽、算力等技术条件。举个例子,早期的游戏只能做低模,因为画面更精细的高模跑不动,所以大家只能玩《传奇》那种画质很糙的游戏。但随着技术发展,我们能做出《黑神话:悟空》,面数比以前高几十倍甚至上百倍,本质上就是「解压缩」带来的返璞归真。
社交平台的演变也是这样:从推特、微博到小红书,再到抖音、TikTok,其实是信息表达逐渐解压缩的过程。人类最初就是以 3D 的方式表达自己,比如雕像、图腾,然后才有壁画,再到文字。雕像的信息密度最高,但不便于携带;文字密度低,却能更好地传播,这是科技条件决定的。互联网其实也遇到同样的问题——几个 B 的数据容易传播,几个 G 的就困难,3D 可能要几个 T,就更难了。
所以我认为科技的发展方向不是继续压缩,而是让我们逐步解压缩,直到最终能直接处理「源文件」。那源文件是什么?就是 3D。视频本质上只是从 3D 世界里取一个角度、一段时间,但 3D 才是完整的源文件。所以我相信,互联网最终会走向一个人人都能享受源文件的时代。
Koji
你平时最关注哪家竞争对手的新闻?
宋亚宸
最近混元3D做得挺好,我们也在关注。
Koji
有没有哪些竞争对手是你们比较尊敬的?
宋亚宸
我们当然尊敬所有竞争对手。
长远来看,彼此可能并非单纯竞争,而是竞合关系。因为初心不同:有的团队希望做到最前沿的技术,有的则希望通过技术影响行业,还有的专注于工具本身。比如某些大家熟悉的公司,他们目标与我们并不一致。以我所知,目前所有竞争对手当中,没有人真正想做我们正在做的事情。所以最终,大家还是会走向不同的道路。
Koji
你们想做的,就是一个面向 UGC 的 3D 创作者社区。
宋亚宸
是的。我们定位很明确,就是服务创作者。创作者需要社区,我们就通过社区来服务;他们需要平台,我们就通过平台来支持。换句话说,我们的目标是建立一个完整的网络,而不仅仅是提供某种单点工具。你刚才提到「解压缩解到底」,这形容得很贴切,我们正在做的正是这样一件事情。
Koji
难道其他友商不是也在服务创作者吗?
宋亚宸
不太一样。比如有些公司主要服务游戏公司,他们会根据游戏公司的需求去提供定制化的解决方案。还有的专注于工具本身。但我们希望构建的是一个社区和平台,这是完全不同的路径。这件事的难度极大,投入也需要长期坚持,不可能短期内完成。
Ronghui
那你怎么看待商业化?听起来,服务游戏公司似乎是更接近收入的模式。
宋亚宸
我并不认为服务游戏公司就更接近商业化。观察下来,全球范围内长期服务游戏公司的公司,其实过得并不算特别好。你可以试着举反例:是否有哪家公司因为专注于服务游戏公司而发展得特别成功?几乎很难找到。换句话说,toB 的路径在这个行业里并不算最理想。
Ronghui
那你们自己的商业化路径是什么样的?过去两年是否按计划推进,还是有一些意外?
宋亚宸
我认为在早期,商业化的本质并不是「商业化」本身,而是产品。就像之前谈到的,早期产品的本质不是功能,而是技术。只有当产品真正具备足够的差异化,商业化才有坚实的基础。
具体来说,增长和 BD 在两种情况下最有价值:第一,当产品高度同质化;第二,当用户之间存在巨大的信息差。如果这两点都不成立,那么最核心的任务就是把产品打磨得更好。对我们来说,现在更重要的不是多招 BD、陪客户吃饭,或者通过买广告来做增长,而是让产品本身更强。等进入下一个阶段,再讨论商业化的方式更为合适。
Koji
所以可以理解为,你们觉得现在的产品还不够好,不值得大规模推广?
宋亚宸
这不是「产品不够好,所以不能推广」,而是「让产品更好,比推广更关键」。比如英伟达,他们的产品非常强大,但并不依赖销售团队去推动商业化,也不需要天天往字节、百度去推销。对他们来说,持续把产品做得更好,比额外的推广方式更合理。我们也是一样:当客户没有明显的信息差,而产品又足够差异化时,最优解就是继续强化产品,而不是优先做 BD 或买流量。
Ronghui
我注意到你在几次采访中都提到,每年年底会和团队分享愿景。你说每年讲的内容其实差别不大。能不能具体谈谈,在创业两年多以来,哪些东西一直没变,哪些又发生了变化?
宋亚宸
我们每年大约在三月中旬会做一次全员分享。我通常只需要把去年的 PPT 截图放到新的版本里,再稍作更新,就能继续讲。这是因为愿景和核心路径几乎没有变化,只是往前推进了一年,完成了更多目标。
Koji
所以,你们的天使轮BP和现在相比,变化并不大?
宋亚宸
严格说,我们天使轮阶段并没有正式的 BP,但内部分享时用的 PPT 与现在相比,并没有太大差别。
Koji
很有意思。我最近听到一个故事:王慧文去见某位创业者,让他拿出四五年前的天使轮 BP,再对比今天,看哪些改变了,哪些没变。结果发现转型之后变化不少。
宋亚宸
我们这方面很简单,因为几乎没有变化。每当我想调整愿景时,团队往往会反对。所以愿景和路径一直保持稳定。团队成员对愿景和路径有强烈的认知和认同感,这也是我们凝聚力的来源。我们几乎没有人才流失,原因就在于大家对这条长期主义的道路充满信心和热爱。半年后,我会做第四次分享,我希望那时仍然在讲同样的内容。
Koji
那这种持续的认同感从何而来?是因为大家本身就是产品的潜在用户,期待用上这样的产品?还是因为其他原因?
宋亚宸
部分同事确实是潜在用户,另外一部分则是因为亲眼见证了愿景逐步实现。很多事情的发展速度甚至比我们当初设想的还要快。这种「故事逐渐成为现实」的过程本身就非常有力量。五年前我们讲的愿景,如今每年都有新的进展能印证它,这让团队深受鼓舞,也进一步坚定了大家的信心。
![]()
欢迎来到第四产业:当价值的唯一衡量标准是「体验」
Koji
能不能描述一下,如果你的愿景真的实现了,那会是怎样的一幅画面?
宋亚宸
我们通常说人类社会经历了农业时代、工业时代,再到服务业,形成了所谓的三大产业。但我认为,其实还存在「第四产业」——内容产业。它的核心在于创造内容与体验。
未来,人类在物理世界中能够创造的价值会越来越有限。因为几乎所有物理价值(physical value)都将由机器人完成。换句话说,很难再找到「人能做而机器人不能做」的事情。既然如此,人类的价值从何而来?我认为答案在于「创意」。
如何衡量创意的价值?可以用一个指标来定义:所有人在我创造的内容和体验中停留的时间总和,就是我在这个世界上创造的价值。
Koji
这听起来很像你小时候在学校设计的那些游戏,吸引同学们课间来找你玩。
宋亚宸
这里的「内容和体验」不一定是游戏,它可以是任何形式。可能是一起对战、狂欢,可能是冥想和探索。我无法预测未来人们具体会选择什么,但可以确定的是,人类天性追求「极致的体验(optimal experience)」。当人们拥有足够多的选择、甚至无限的选择时,他们就能凭借「用脚投票」的自由,找到属于自己的极致体验。
那如何实现无限的体验?答案是 UGC 与 AIGC 工具。UGC 提供源源不断的创作,而 AIGC 工具则使创作效率成倍提升。以抖音为例,短视频内容接近于无限,加上推荐算法的加持,用户体验自然更佳。这种机制本质上也非常公平——人们用「时间与注意力」投票,决定了哪些内容更有价值。
因此,未来最富有的人,很可能不是掌握最多土地或资本的人,而是最具创意的人。他们能创造出一个世界,让所有人都愿意在其中停留。甚至可能只是一个看似简单的「小偷模拟器」,却因为带来独特的体验,吸引无数人沉浸其中。
这种价值的核心依然是「体验」。推荐算法如果更优,就能更精准地将用户与内容匹配;算力如果更强,就能提供更流畅的使用感受。美剧《上传人生》(Upload)里就有一个场景:在虚拟世界里,充值少的人体验会卡顿,而充值多的人则享受极致流畅。未来的世界,很可能也会是类似的逻辑。
当算力、推荐算法和内容创作工具(比如 Tripo、Midjourney 等)结合在一起时,人们就能源源不断地产生新的内容,并在其中沉浸。那些拥有更强创意、掌握更好工具和更多算力的人,就会创造出真正让大众快乐的体验。而这,也将成为未来新的财富与价值来源。
Ronghui
你这两年 AI 创业的个人体感是什么?
宋亚宸
我觉得非常幸运。我们有一些资源可以冷启动,但又不是过多,不至于被资本的「资源诅咒」困住。历史上没有哪家伟大的公司诞生在资本市场极度繁荣的时候。今天的环境刚好能保持合理的饥饿感,这是值得感恩的。
Ronghui
那如果你能对两年前刚决定创业的自己说一句话,你会说什么?
宋亚宸
我会说:「你真牛,真有勇气。创业是对的,选择得很正确。」
Koji
所以你在创业过程中受过什么苦吗?
宋亚宸
当然。创业每天都有各种问题要解决,这是必然的。
Ronghui
那你是怎么化解这些痛苦的?
宋亚宸
我会玩游戏,比如《龙与地下城》。
当物理世界是你全部的世界时,痛苦就会占据全部人生。但如果物理世界只占 50%,另一半由虚拟世界填充,那么痛苦的比例就会减少。
如果你如此注重神创造的世界,那神创造的世界就会左右你所有的心情。但当你还有很多人创造的世界的时候,那么神创造的世界只是你人生中的一部分。
Ronghui
我记得你在另一场采访中提到过,你是一个非常需要虚拟世界的人。
宋亚宸
对,必须的。我觉得其实每个人都需要,只是很多人现在没有意识到。
Ronghui
感谢 Simon 跟我们分享了关于 3D 大模型、工具与创业的思考,非常精彩。
Koji
谢谢,期待下次再来。
宋亚宸
好,拜拜。
今天,混沌APP播客功能正式上线!
国庆假期来咯!
不知道此时的你,正身处何方?
是踏上旅途,在飞驰的高铁上望向窗外掠过的风景;
是回到故乡,沉浸在熟悉的乡音与团圆的饭菜香里;
还是选择一处安静的角落,终于让自己慢下来,好好休息。
无论你怎样度过假期,我想告诉你:混沌为你准备了一份特别的礼物。
10 月 1 日,播客功能正式上线,我们精心策划了8大免费播单,陪伴你度过这个假期。
也许你正需要安顿内心,那么《内在觉醒——从焦虑中长出心力》会让你重新找到秩序感;
也许你偏爱宏大的历史与思想,《文明的坐标——理解东西方思想的源流》会带你穿越千年;
又或者你正在思考未来,《超级个体之路——打造你的个人品牌力》会帮你把经验变成影响力。
我们常常觉得,声音有一种独特的力量。
它不占用你的眼睛和双手,却能在走路、旅行、做家务或临睡前的片刻,为你打开一个独立而充实的世界。
这个假期,或许不足以行万里路,但一定足够让你通过这些播单,体验不同的人生,收获一份真正的“获得感”。
现在起,进入混沌 App 首页,点击专属活动入口,即可免费解锁全部 8大播单。
除此之外我们为新用户准备特享福利:即刻加入混沌,畅享15天VIP特权,解锁700+精选好课,覆盖商业、心理、科技等多个领域;享受专属学习福利,收获实用知识与成长灵感。
祝你假期愉快!
精选限免好内容,查看下方长图↓↓↓
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.