97年文科生干出全球最强AI 3D大模型|动画|宇宙|李善友

分享至

他是SIGGRAPH 50年历史上第一位、也是迄今唯一一位登上大会主题演讲舞台的中国人，与英伟达黄仁勋等行业领袖同台。

他是MiniMax 001号员工，正当大语言模型如火如荼之时，转身闯进AI 3D无人区、把三维世界重新生成一遍的冒险者。

他是只用两年就带领团队完成三轮（每轮都是数亿元）融资、估值稳居全球AI 3D大模型公司之首的创业者。

他要做的事，听起来很疯狂但是很美好——3D版的TikTok。

他是宋亚宸（Simon），VAST创始人兼CEO，他要打造世界最领先的AI 3D大模型。

这位1997年出生的年轻创业者，不到两年，带着团队把3D 大模型Tripo系列从技术原型，一路推到千万级用户手中：8秒图文生3D、率先验证3D Scaling Law、参数直上200亿，把3D生成式AI直接推入“IMAX 时代”。

技术猛进的同时，商业化也跑得一样狠。截至2025年8月，VAST的年度经常性收入（ARR）达到1200万美元——行业领先。500万左右的专业用户，其中80%多来自海外。TO B端，有4万多家中小企业，约700多家大企业在使用他们的工具。

但所有这些“硬指标”，都不是这个人最迷人的地方。

真正的反差在于——他用最硬核的科技，思考的却是最古老的命题，如何让人类获得最大化幸福的总和。他获得美国约翰霍普金斯大学国际关系学和经济学双学士学位，同时热衷于研究神学。

这也是为什么，在最容易“顺势而飞”的大模型赛道，他偏偏转头去做一个更难、几乎没人敢做的事情：让AI不只生成视频，而是重新生成“三维世界”。

善友教授说：“我的好朋友绿洲资本张津剑跟我提起他时，⽤了⼀个词，叫'⼩怪兽'。他说你一定要⻅⻅这个孩⼦，他⾝上有种⾮常罕⻅的⽣命⼒。所以今天我把他邀请到了我的播客⾥。”

这个人，是“理念型创业者”，是那种你看一眼，就知道他会去把世界重新造一遍的人。在这场对话中，你会听见：

他对AI 3D的透彻理解，属于业内罕见的精彩分析
他如何看待技术与“人的体验”的本质关系
他宏大的愿景，每个人都能实时交互地活在“自己最爱的世界”

如果你想认识一个真正“以商入道”的年轻创始人，如果你想真正看见一个年轻创业者如何跨学科地进化、跃迁、觉醒——这期对谈，你一定要完整收听，知识密度极高。

欢迎点击收听完整版，一起走进这只纯粹而强大的“小怪兽”的世界。

缘起：“让富有创意的人专注于创意本身”

李善友：我是在两年前了解到你的。张津剑说，我们应该陪伴一些“小怪兽”成长。他说，有些年轻人拥有自己独立的想法，始终积极向上，但在他们所处的环境中却感到孤独。他的话深深触动了我，也就是在那个时候，我就知道了你。你先简单介绍一下你创业的经历。

宋亚宸：我在2018年加入商汤科技，当时我是协助徐立做一些工作（徐立是商汤联合创始人、CEO，也是一位计算机视觉科学家）。选择AI加动画这个领域，一方面是因为我个人对游戏和动画非常感兴趣，觉得这个领域很有意思；另一方面，我在做战略分析时发现了一个核心问题。大家通常认为动画、电影、游戏等是创意产业，创意产业的逻辑很简单，谁最聪明、谁最有创意，谁就能脱颖而出。然而，我发现无论是中国还是全球的动画产业，实际上都是一个劳动密集型产业，更像是“拧螺丝”的工作。

如果你去招聘动画师，收到的简历大多来自八大美院的毕业生。这些美院毕业的学生本应极具创意，但他们在工作中往往要从事一些重复性的工作，比如把模型转化为3D，或者逐帧调整动画，让角色能够跑步。这种工作就像是在拧螺丝，非常机械和重复。

这种模式使得动画产业无法真正成为创意产业。因为那些有创意的人在长期从事重复性工作后，创意逐渐被消磨殆尽。等到他们熬出头成为制作人时，创意已经所剩无几。这就是为什么中国很难产出优质动画内容的原因之一。

我认为动画产业不应该是一个劳动密集型产业，而应该是一个真正的创意产业。基于这个观点，我们面临的一个重要问题是：如何让这个产业真正回归创意本质，并实现产业升级？答案是加速引入AI技术。因为AI能够释放那些重复性的工作，让创意人才能够专注于创意本身，从而推动整个产业的创新和发展。

李善友：让AI去处理那些重复的、劳动密集型的任务，而让富有创意的人专注于创意本身。

宋亚宸：是的。这是AI在当时的意义所在。因此，我们很早就开始讨论AIGC（AI Generated Content）的概念。

李善友：你做这件事情是哪年？

宋亚宸：应该是19年的下半年。我们发现了一个问题：当时的AI技术尚未能很好地解决这些问题。

具体来说，我们在为许多中国动画公司提供服务时，遇到了两方面的挑战。一方面，中国动画产业的商业化程度较低，这些公司本身资金有限，因此我们从他们那里也难以获得足够的收入。另一方面，当时的技术还不够成熟，不足以帮助他们真正释放创意，解决重复性劳动的问题。

尽管如此，我意识到，即使技术还不够完善，我们也可以先将AI技术应用起来。于是，我开始亲自担任导演、编剧，负责内容创作和IP设计等工作。我们从零开始，逐步打造了从几十万粉丝到几百万粉丝的各类IP。这一过程对我来说非常有意义，因为我本身就热爱内容创作和创意工作。这些新的IP创意内容主要以短视频的形式呈现。

当时，徐立非常支持我的想法，我们还组建了一个大约四五十人的动画团队，试图在公司内部全流程地应用AI技术来制作动画。比较遗憾的是，盈利空间有限，这让我们不得不重新考虑方向。

于是，我们开始寻找更具盈利潜力的领域。当时，游戏行业正处于爆发期，像《三国志战略版》和《原神》等游戏都非常火爆。尤其是当游戏与元宇宙、AI等概念结合时，行业发展迅猛。

基于这种市场认知，我们将现有的AI技术整合成游戏解决方案，开始在游戏行业推广AI技术。后来，随着元宇宙概念的兴起，业务规模不断扩大。

不过，我在2021年六七月份离开了商汤，随后正式参与创立了Minimax。2022年年底，我离开了Minimax。离开的重要原因之一是，我认为当时行业盲目跟风投入AGI或语言大模型，这是一种情绪化的产物，大家都在试图成为下一个OpenAI，但这种跟风并不理性。

此外，我还观察到从3D到视频、图片再到文字，信息密度逐渐降低，这是一个信息逐渐失真的压缩过程。我们本身生活在一个3D世界中，孩子刚出生时，如果给他一个球，他会本能地与之互动，这种互动是天然的。然而，文字、图片和视频之所以在互联网时代更为常见，是因为互联网技术还不够成熟。实际上，世界原本并非以文字、图片和视频为主。我们对有文字的文物更感兴趣，是因为文字的信息密度低，少量文字能抽象出多种事情。

但史前文明中，大部分东西是几何雕塑，如工具、饰品、图腾等，这些都是当时主流的表达方式。随着人类的发展，人们发现了颜料，开始在山洞中作画，这种表达方式的信息密度更低，但能更生动地表达更多内容。后来，文字才逐渐出现。

同样的道理，在互联网时代，我们在有限的带宽和处理能力下，信息传播从文字（如微博、博客）开始，逐渐发展到图文（如微信公众号、小红书），再到视频（如抖音、快手、TikTok）。随着互联网技术的成熟，信息传播应该是一个逐渐“解压缩”的过程，回归到最真实的状态。人们不再需要消费压缩的信息，而是直接消费最真实的内容。

在训练AI或开发通用大模型时，用原生的、信息密度最大的数据去训练，显然比用压缩后的信息更有价值。因为原生数据的信息量更大，更接近事物的本质。

洞见：“3D是世界的本质”与一场技术豪赌

李善友：所以你不信“语言是通往AGI必然之路”？

宋亚宸：我认为，对世界的理解和3D的呈现方式才是信息量最大的。3D是最真诚、最真实、最可靠的信息载体和内容媒介。我们生活在一个3D的世界中。如果要将这个世界的信息进行压缩，比如通过视频来呈现，就会出现两种方式：实拍和虚拟拍摄。实拍是在现实世界中选择一个位置和角度进行拍摄；虚拟拍摄则是在人类创造的虚拟世界中进行拍摄，比如《哪吒》和《阿凡达》这样的动画电影。

这两种方式都有一个共同点：它们都有一个真实或虚拟的3D世界作为基础。

现在出现了一种新的方式，叫视频生成。这种方式的问题在于，它试图欺骗观众，因为它并没有一个真实的3D世界作为基础。这种做法是失真的，当它试图构建一个虚假的世界时，就会出现无数的谎言需要去圆。

例如，它会出现一致性问题和记忆时长问题。假设视频中有一个杯子，如果按照正常的实拍方式，拍摄者在外面拍摄了五个小时后回来，杯子肯定还在那里。但在视频生成中，如果生成了五个小时的视频后，它可能会忘记杯子的存在。这种幻觉、一致性和记忆问题，都源于视频生成在说谎，它不真实。同样的问题也出现在图片生成和文字生成中。它们只是编造出来的，因此存在本质上的问题。

所以，我们说3D才是万能的解决方案。通过3D这种最通用的形式，我们可以提供最多的信息，用这些信息去训练AI。如果AI准备好了，那么无论是AI生成的内容，还是它做出的判断，都可以再进行压缩。这样生成的内容才是最真诚和最真实的。

比如解决视频生成中的记忆时长问题，可以在3D世界中做一个标记，悄悄告诉AI这里有一个杯子，这样当它回来时就能想起杯子的存在。这种标记可以有不同的表达方式，比如影视表达或显示表达。例如，通过一束光或一个二维码，机器可以计算并发现这里有杯子，并将其显示出来。这需要一种3D的真实表达，才能解决生成内容中的虚假问题。这只是不同的表达形式而已。

总之，3D是最真实、信息量最大的，它最符合这个世界原本的样子。我们在3D基础上进行训练、调整和开发，无论是AGI还是其他任何东西，这才是世界的本质。否则，我们在谎言的基础上构建新的内容，只能制造更多的谎言，最终出现各种幻觉和问题。

李善友：说得非常好，非常精彩！从实际发展来看，目前的主流趋势确实是先从文字入手。因为文字是最早被用于训练语言模型的，随后逐渐发展出大语言模型。所以，很多人认为语言是通往AGI的必经之路。但你说得很有道理，语言本质上是一种被压缩的信息载体，而3D世界才是最接近真实、最未被压缩的信息源。3D世界中蕴含着丰富的、未经压缩的信息，这才是产生真正知识和模型的基础。你的想法非常棒。

我想问的是，在你创业之初，或者在创业之前，你是先有了这个关于3D的想法，然后才决定去做的，还是看到别人在做3D相关的事情，才决定跟进呢？换句话说，你的决定是基于自己独立的认知，还是基于对他人经验的观察和借鉴？

宋亚宸：首先，我们肯定是基于3D的。我们认为3D是非常有价值的，尤其是3D带来的可交互性，这种实时交互性是其他形式所不具备的。我们当时有一个重要的发现：从文字到图片再到视频，这些内容形式本质上是不可实时交互的。

虽然技术上并非完全不可交互，但人们通常不会用这些形式进行实时交互。因此，我们把文字、图片和视频的内容称为一种体验方式，这种体验方式可以称为“移情”（empathy），即通过“站在他人立场”来体验。例如，当你观看电视剧《狂飙》时，你体验的是高启强的人生；当你阅读小说时，你体验的是张无忌的人生。这些内容让你通过观察他人的故事来获得体验，而不是让你直接参与其中。

李善友：3D让我们不只是做一个旁观者。

宋亚宸：没错，在3D世界里，核心在于“主体性”——这里的“我”是具有自主能动性的存在。比如我可以拥有“一刀999”的强大能力，去闯荡世界、征服四方，这完全是围绕“我”展开的亲身沉浸体验。这种体验和其他类型的体验有着本质区别，而目前来看，这类以“我”为核心的主体性体验，其实还不够丰富。

李善友：那我玩2D游戏的时候，不也是我在体验吗？

宋亚宸：3D形式本身就是最适合实现可交互体验的载体——毕竟人类天生就习惯于在三维空间中与周围环境、他人产生互动，这种与生俱来的行为逻辑让3D与“可交互”之间形成了极强的绑定关系。也正因为如此，在当下的认知中，我们看到“3D”这个概念时，几乎就等同于默认了它具备可交互的属性。

李善友：3D等于可交互。

宋亚宸：目前行业已经在朝着这个方向推进，而这一点也已然是既定事实。当我们以移情的视角去体验各类内容时，会明显发现这类体验已经相当丰富了。就像我们日常能接触到微博、小红书、抖音、Tiktok这些社交与短视频平台，还有奈飞、爱奇艺这类长视频平台，各类可观看、可共情的内容随处可见，能满足我们多方面的情感共鸣需求。但与之形成对比的是，那种以“主体性”为核心的体验却格外稀缺：现实世界里，我们能自主做出选择、主导行为进程，这类亲身体验相对丰富；可在虚拟世界中，这种由“我”掌控、自主行动的体验，目前还处在非常匮乏的状态。

李善友：的确是这样。为什么会有这种现象？

宋亚宸：原因在于文字、图片和视频已经吸引了大众参与创作，这就是所谓的UGC（用户生成内容）。而3D或可交互内容，目前仍然属于“精英”的艺术，这是最本质的区别。以前，文字内容是非常稀缺的。例如在唐朝，能够写诗、写小说的人可能不超过100万，这属于精英的艺术。图片也是如此，过去我们去画廊看到的大多是米开朗基罗等大师的作品，全世界能创作这样作品的人也不到100万。视频领域也类似，无论是好莱坞还是横店，能从事专业视频创作的人也不到100万。

现在的3D或可交互内容也是如此，例如腾讯、网易、育碧等公司，全球能从事这类创作的专业人员可能也不到100万。那么，如何让大众也能参与到3D或可交互内容的创作中呢？

关键在于有一个大众级别的创作者工具。例如，文字创作有打字法，图片和视频创作有手机摄像头，这些工具让每个人都能以零门槛、零成本、实时地创作内容。为什么一定要零门槛、零成本、实时创作呢？因为UGC和PGC（专业生成内容）最大的区别在于，大众和专业用户最大的区别是：专业用户是为了赚钱，而UGC用户不是为了钱。这是最本质的区别。

李善友：就是在表达，在娱乐。

落地：3D版TikTok，找到每个人当下的最优体验

宋亚宸：用户参与创作的初衷，本就不是为了盈利，更多是为了抒发情绪，比如“装个逼”、吐吐槽、分享自己的人生片段这类情感表达，所以首先要保证他们创作时“不亏钱”，没有经济负担。

那么问题就转化为：怎样才能让大众真正参与进来？这就必须满足“零门槛、零成本、实时创作”的核心需求。

我们注意到，AI3D大模型恰好提供了这样一种可能：它有机会将可交互内容或3D内容相关的创作，变成人人都能上手的大众级工具，让每一个普通人都能轻松参与创作。当创作门槛被彻底打破，大量用户涌入并产出内容，就会形成一个反向循环：先是创作工具普及带来内容的极大丰富，而海量内容又需要一个专门的平台来承载和分发，最终就会催生出类似“3D版TikTok”这样的产品，或是一个以3DUGC为核心的生态。

一旦这样的3DUGC生态成型，可交互内容的数量和种类将会迎来爆发式增长，整个可交互世界也会变得无比丰富。试想一下，当每个人都能自由选择无穷多的虚拟世界或可交互内容去亲身感受，从某种意义上来说，不就是把人们口中的天堂搬到了现实吗？因为每个人都能在当下，找到并体验到对自己而言真正最优、最极致的那种感受。

李善友：你说得特别对，认知最终要落地到实践，这背后其实是“两条线”并行推进，一方面认知需要靠信息支撑，也需要实践来落地，你刚才在认知层面的推导确实相当精彩。现在咱们再拉回到实践层面：这些认知是怎么转化成具体行动的？是因为你看到了某些明确的信号才这么做，还是说你开始做的时候，这个领域在世界上根本就是一片空白？你最开始是怎么启动这件事的？

宋亚宸：这件事肯定不是只有我一个人想到，世界上有很多人都看到了这个方向，并且已经在往这个方向努力了。我们之前也悄悄做过一个类似3D版TikTok的产品，但后来发现了一个问题：当产品发展到一定阶段后，创作内容就很难再继续增长了。我们做了很多用户调研，聊下来之后发现，核心症结在于用户需要的是零门槛、零成本的创作体验，只有这样他们才愿意主动参与进来。

所以我们意识到，必须先打造一款大众级别的创作工具。之后我们就开始寻找合适的技术路径，发现AI3D现在已经显露出了曙光，具备了落地的可能性。于是我们就集中精力把AI 3D相关的技术和产品认真打磨好，也正是因为这样，才有了我们现在的状态。

李善友：这种3D大模型和我们熟悉的语言大模型，核心区别到底是什么？你们最开始起步的时候，是先着手搭建3D大模型，还是先开发了前端的创作工具？

宋亚宸：先做的大模型，工具是今年才做的事情。

李善友：你从创立之初就专注于大模型领域，推进的则是3D大模型。这通常需要巨大的决心与远见，因为多数公司会选择先开发工具。

宋亚宸：是的。

李善友：我们聊聊3D大模型。

宋亚宸：我认为“大模型”实际上代表的是一种思维范式的转变。为什么这么说呢？在AI1.0时代，行业的主流思路并非追求模型规模，反而是致力于将模型做“小”。这是因为当时的研发逻辑相对直接：汇聚顶尖的算法科学家，针对人脸识别、异常行为检测等一个个具体而长尾的场景问题，通过大量手工调参与训练，来构建尽可能轻量化的专用模型。模型越小，意味着训练与部署成本越低，商业回报也更清晰。因此，那个阶段的核心是比拼谁能在解决特定问题时把模型做得更小、更高效。

而到了AI2.0时代，思考方式发生了根本变化。人们开始探索：能否通过海量数据和强大算力，驱动构建一个极其庞大且通用的模型，让它能够泛化到几乎所有场景，一举解决过去需要无数个小模型才能覆盖的问题。这背后遵循着著名的scalinglaw。就像经济学中GDP取决于劳动力与资本，在AI领域，模型性能可看作数据与算力的函数。当两者同步增长时，性能会显著提升；但若仅一方增长，另一方停滞，边际效益就会迅速递减。这就好比有千万工人却只有一把铲子，或是有千万把铲子却只有一个工人，效率都无法提升。

目前我们正处在这个范式之中：算力仍在快速增长，但高质量数据的供给已逐渐遇到瓶颈，导致算力增长的边际收益在下降。于是业界也开始反思：这是否意味着我们需要在一定程度上回归AI 1.0的思路，重新借助一些更轻量、更专注的模型来解决特定问题？这目前尚无定论，但可以明确的是，两种思维方式正形成一种有益的互补与循环。

至于语言大模型与3D大模型之间的区别，我认为更多体现在技术路径与领域迁移上。一种突破性技术，比如Transformer出现后，其核心思想往往会跨越领域，激发其他领域的学者思考：“我的领域是否也能沿用这种范式？”这种跨领域的技术借鉴与思维迁移，恰恰是推动进步的关键。

无论是Diffusion、Transformer还是“大模型”本身，其核心价值都不仅仅是具体技术，而更在于它们所代表的一种通用的问题解决范式。

李善友：但从外界的角度看，语言大模型已经足够复杂，而3D大模型从技术挑战上来说，通常被认为难度更高。

宋亚宸：困难主要来自于几件事：第一是复合型人才的稀缺。构建3D大模型，需要深度融合人工智能、计算机视觉与图形学三个领域的专业知识。这意味着团队既要精通大模型所需的分布式训练与并行计算，又要深谙视觉信息的底层处理，还必须掌握图形学中复杂的几何表达与渲染技术。这种跨学科的顶尖人才在市场上原本就极为罕见，可以说这是一个全新的领域，几乎没有现成的资深专家。因此，团队组建往往需要从基础培养，或依赖具备学习能力和交叉背景的年轻人才。

第二是高质量3D数据的严重匮乏。正如之前提到的，由于互联网生态与终端设备的限制，人类长期以来消费的主要是3D信息的“压缩包”——即文字、图片、视频乃至直播流。这些都是对三维世界经过大幅简化与投影后的二维载体。而我们真正直接消费、可用于模型训练的原生、结构化、大规模3D数据（如精细模型、点云、动态场景等）却少之又少。数据的缺失，从根本上制约了3D大模型的发展与训练效果。

第三个问题就是导致3D领域在早期的时候，缺乏很多资源，发展速度必然会受到限制。

这种变化在计算机视觉领域表现得尤为明显。以计算机视觉领域的顶级会议CVPR为例，早期在图形学的顶级会议SIGGRAPH中，大量与计算机视觉相关的论文涌现，甚至“侵占”了SIGGRAPH的部分内容。这是因为当时研究图形学以及AI3D的人才相对稀缺，几乎可以忽略不计。然而，仅仅经过短短两年时间，情况就发生了巨大转变。如今，不仅CGRAPH本身出现了大量与AI、3D和图形学相关的内容，CVPR会议上也涌现出了众多与AI、3D或图形学相关的优秀论文，包括最佳论文等重要奖项。

这种转变表明，随着AI、3D等领域逐渐成为显学，吸引了大量资源和资金的投入，进而形成了一个良性循环。回顾早期，该领域面临诸多挑战：首先，缺乏专业人才；其次，数据资源不足；最后，由于当时并非显学，导致整体资源匮乏。

李善友：当时你既没有相关技术背景，又作为初创公司资金有限，而这件事情又很难，你是怎么做起来的呢？

宋亚宸：主要是向他人请教，寻找合作伙伴。我们的CTO梁鼎给了我很多建议。我们曾在商汤是同事，彼此互相信任，我对他以及团队的技术能力非常有信心，相信他们能把技术这一块做出来。后来，首席科学家曹岩培以及其他一些青年科学家也陆续加入，我们的技术团队实力很强，我十分信任他们，于是便将精力更多地放在数据、资源等事务上。我们在短时间内搭建了一个有能力的技术团队，可以放心地将相关事务交给他们。

李善友：你们刚创业时，全球有3D大模型吗？

宋亚宸：可能有一些相关的论文，尤其是海外的，像Facebook、谷歌、英伟达、OpenAI等早期的一些尝试，但还不能称之为AI 3D大模型，应该没有真正意义上的大模型。

李善友：这件事很有意思。你在商汤做的是AI相关工作，主要是寻找各种应用场景，然后在MiniMax接触了大模型。如果你创业，最容易的路径是基于大模型进入各种垂直领域，就像商汤那样。但你没有选择这条道路，反而又深入了一层，这是一种理念性的创业。你的信心来自哪里呢？你的起步是非常不寻常的。你为什么会有这样的信心呢？难道只是凭借一种莫名的力量？

宋亚宸：我觉得如果只是我自己去做这件事情，肯定觉得成不了，但我坚信我们有一个非常棒的团队，我对团队的信任很强，从未怀疑过团队会实现不了目标。

商业：“这件事超出了预期，比我想象的快”

李善友：创业的想法是你提出的，还是CTO提出的？

宋亚宸：创业是我先提出来的。

李善友：那么在创业之初，你的驱动力来自哪里？是什么促使你来做这个东西？

宋亚宸：我们真心觉得有这个需求。就像我们要达到某个目标，中间遇到了一个钉子，我们需要找个锤子，什么锤子合适呢？我们觉得这个锤子最合适。这确实与其他公司不同，很多AI公司是先造了一个锤子，之后可能因为某些东西火了，大家就说，有了这个锤子，再去找应用场景、找钉子。但我们是在创业过程中实实在在遇到了一个钉子，即创作者没有办法零门槛、零成本实时创作，我们总得找个锤子去解决这个问题，而这个东西就是最好的锤子。

李善友：我能这么理解吗？3DTikTok这个想法是在先的。

宋亚宸：它其实是一个愿景，但要实现这个愿景，可能得先敲一个钉子。

李善友：对，大家来创作，需要工具，而工具必须得有一个3D大模型。所以你是一步步推导到这一步的。但最终你想做的是3D内容创作平台，类似3DTikTok。从需求侧、场景侧来看，你是清晰的，基于这个需求你才推导到这一步。

宋亚宸：我觉得3DTikTok或者说可交互内容的平台一定是一个长期的需求，即使今天不是我做出来，明天也肯定会有别人做出来，这是一个共识。

李善友：那这几年做下来，你们的3D大模型发展得怎么样了？

宋亚宸：我觉得发展速度比我想象中的要快。

李善友：为什么？

宋亚宸：可能是因为我之前经历的是AI1.0时代，那个时代的技术发展没有这么快。你会发现最近两三年的技术发展速度有点“变态”，大家已经麻木了。其实最近两三年的技术发展是非常不正常的，速度太快了，大家看了太多的奇观，导致对真正的技术发展已经麻木。

李善友：现在是指数级进步，大家觉得也无所谓了。

宋亚宸：比如视频生成这件事，如果放在100年前，它绝对是一个伟大发明，可能是某个世纪的最伟大发明。但放到今天来看，它只是众多发明中的一个感觉还不错的东西。

这是一件我觉得非常神奇的事情，这件事情其实超出了我的认知。我原来觉得，可能四五年后，AI 3D大模型能够进入管线（3D管线是我们用计算机语言表达一个三维世界的方式），甚至超过人类水平，就已经很好了。但现在短短两三年时间，它已经基本上做到了。我觉得这件事情超出了我的预期，比我想象的快。

李善友：总的来说，在用户场景端，你们到了什么阶段？

宋亚宸：我们现在大概有500万左右的专业用户在使用我们的专业工具，其中80%多来自海外。我们还做一些TO B的工作，大概有4万多家中小企业，约700多家大企业。

说到落地场景，我们主要有四大类：第一大类是内容创作，比如游戏、动画、影视、短剧、CG等内容的创作；第二大类是工业设计，包括轻工业、重工业、柔性化生产、3D打印等；第三大类是展示展览，比如电商、广告、教育、文旅、文博等领域的展示展览；第四大类是新兴行业，比如具身智能的仿真模拟、数字孪生、数字人、AI+游戏、世界模型、空间智能元宇宙、XR+AI眼镜等。

李善友：你现在最重要的难题是在技术侧还是在市场侧？

宋亚宸：我认为最大的难题并非单纯的技术或市场问题，而是身处这个充满噪音和诱惑的时代，人们是否具备足够的耐心和定力去完成一件事。要成就一件有价值、相对伟大的事业，长期主义是不可或缺的。以OpenAI为例，它经过了6年的沉淀才取得了如今的成果。

做一件有价值的事情，必然需要长期的积累和坚持。在这个过程中，你会面临诸多诱惑和恐惧，这些因素会不断考验你的定力和耐心。最近两三年，技术发展迅猛，各领域变革速度飞快，人们改变方向的速度也急剧加快。然而，在这样一个快速变化的时代，保持一定的“慢”反而有其独特价值。

理念：每个人都有自己的幸福，这对我很重要

李善友：如果从长期主义的角度来看，这件事的终极愿景是什么？

宋亚宸：愿景是为世界贡献文明，为人类创造幸福。

李善友：我觉得你是我在学生中第一次遇到的对思想有执念的人，而且你能拥抱世界的复杂性。你有没有形成自己独特的思维方式呢？

宋亚宸：我觉得我应该是有自己独特的思维方式的，但目前我还不太能很好地总结它。

宋亚宸：我觉得我的思考方式是比较倾向于 Mill（约翰·斯图亚特·密尔）和 Bentham（杰瑞米·边沁）提出的理论。（这两位是主要的功利主义Utilitarianism的代表，功利主义是传统西方伦理学中一个重要的理论，提倡追求“最大幸福”）。

我是这样理解并运用的，即每个人都有自己的幸福。

其实，很多哲学讨论的都是道德问题，而神学则在探讨诸如谁是第一推动者、谁创造了世界、人类从哪里来等问题。当我们谈论哲学时，我们其实是在讨论道德，但我们的思维方式并非仅仅基于这些关于世界起源和创造的问题，而是更像是一种基于世界观和价值观的思考。

就思维方式而言，我认为道德的本质应该是最大化幸福的总和。比如电车难题，它能很好地解释哲学中关于道德判断的许多问题。假设有一条铁轨，一边是死一个人，另一边是死两个人，我会选择死一个人，因为这样最大化幸福的总和就减少了。如果死一个人是 -1，那么死两个人就是 -2，这个计算过程非常简单。

李善友：所以，“最大化幸福的总和”这句话对你来说很重要。

宋亚宸：没错，这其实也和我在创业时做的事情有关。比如，我认为创业有三种主要方向，当然创业的类型远不止这三种，但我认为目前最热门的是这三种。第一种是以快速扩散为典型表现，像马斯克和爱迪生那样，他们致力于让人们拥有更多的资源，如汽车等；第二种是让人们活得更长久，比如各种医疗公司，他们的目标是让人们从原本只能活到 50 岁，到能活100岁、1000 岁，甚至是永生；而我更喜欢第三种，就像迪士尼那样，哪怕只有五个人，这五个人只能活三天，我也希望让这五个人在这三天内能够活得最开心。对我来说，这才是最重要的事情。

李善友：嗯，那你在做这件事的时候，什么对你最重要？第一性原理是什么？你的核心信念在哪里？比如马斯克，他说要让人类成为跨行星的物种，这件事对他很重要，他觉得如果死之前不能完成这件事，这一生就白活了。但黄仁勋肯定不是这么想的，他先考虑的是活下去。

宋亚宸：我觉得人可以选择自己最极致的体验，这对我来说很重要，甚至我觉得每个人都能拥有自己最极致的体验，这件事很难得。

李善友：这是你最重要的东西，是你坚信的信念。

宋亚宸：对，我觉得这件事是最重要的。

李善友：你的能力在哪里？你的天赋在哪里？为什么你能做这件事情？

宋亚宸：我觉得这跟能不能做没有关系，而是跟方向对不对有关系。我可以跑得慢，那就慢慢跑。我也可以接受这件事最后不是我一个人做成的，可能是和别人合作完成的，或者最终是别人做成的。

我不愿意去做一件看似我擅长，但我不相信或觉得没有意义的事情。反过来，我可能不擅长把这件事做出来。比如我对技术一无所知，但我认为做这件事本身是重要的，至于是不是我最擅长，倒不那么重要。

马云可能也不一定是最擅长做阿里巴巴的，当时可能有上万人比他更擅长，但做不做这件事可能是最重要的能力。

李善友：你刚才想表达的是，这件事本身的意义。我觉得你很幸福，因为你真的相信这件事对你很重要。不是每个人都能这样。你是理念型创业者，而且你认为理念对你很重要。

宋亚宸：很重要。

李善友：你绝对是少数的。所以我觉得你是个小怪兽，是我特别欣赏、喜欢并愿意陪伴的小怪兽。第二点，我们找到了这个载体，从逻辑上推，它能通往那个目标。

我最近看黄仁勋的人生，最打动我的是他的人生上半场和下半场不一样。上半场他做游戏芯片，充满竞争，只是为了求存。下半场他走到GPU、CUDA、加速计算和人工智能领域，我觉得他在做自己。这时候应该是没有竞争的。上半场他的竞争方式是不竞争，下半场他成为自己了。

我相信人生是有上半场和下半场的。上半场是被EGO（自我）推动的，被贪嗔痴推动的，是人性本能推动的。但我相信有下半场，下半场是被真善美推动的。这件事不仅仅是为了我、为了大家，还是为了宇宙。大多数人先完成上半场，再进入下半场。而你是个少有的例外，你直接站在了下半场，这非常了不起。

我觉得人这辈子最幸福的事情就是做我此生该做的事情，在该做的事情里成为最好的自己，这就是借事修人，人事合一。这也是我说的以商入道。

打开小宇宙 app订阅混沌创办人李善友的播客节目，每两周的周四准时上新，我们期待与你相见！

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.