一家「非主流」AI公司的豪赌：所有模态，一锅炖了 | 对话智象未来姚霆|新论文

分享至

多模态训练狠狠烧钱，世界模型公司也都在疯狂融资。

股指起飞，叙事铺天盖地，人人都说自己在做世界模型——但智象未来，是这批公司当中少见的「异类」。

这家公司的联合创始人兼CTO姚霆博士告诉 APPSO，他们在一个业界今天还不认可的方向上，下了一笔很大的赌注。

「如果成了，我们的天花板会极高。」

本月，智象发布了全新的原生全模态大模型，名为 HiDream-O1-Image。它包含一个 8B 参数量的开源版本，采用稠密架构，以及一个高达 200B 稀疏混合专家架构的闭源版本。

然而这个模型的特色，在于它是整个业界极其罕见的真·全模态大模型。传统模型给每种模态配一套独立的编解码，各管一种模态。HiDream-O1 的架构是完全反过来的，把文本、图片、视频、空间、时序所有信号一锅炖，直接喂进同一个模型管路。

这是一条非主流的道路。不过好在并没有耽误它赚钱。2025 年他们全年收入超 1 亿元，而 2026 年第一季度收入仍保持倍数级增长；4 月，公司刚完成两轮亿级人民币的新融资，深创投、东方富海等头部机构的入局。一家在技术上「不合群」的公司，却拿到了真金白银的投票。

今天，打在这家公司身上还有一个今天更「讨巧」的标签：世界模型公司。

姚霆并不喜欢这个标签：「我觉得我们其实不叫世界模型公司。我们目前更贴合的是一家做全模态的公司。」

专访过半，他解释称，不希望智象的真正特色被世界模型的「水分」或者「泡沫」给冲淡了。他认为，当今世界模型公司的疯狂融资、夸张估值，只有一半是真正的潜在价值，另一半是叙事的泡沫。

HiDream-O1 的真正特异之处，远在「全模态」「世界模型」简单的标签之外。它所揭示的，其实是智象在多个维度巨头环伺的竞争格局下，选择了更难走的底层架构创新道路。

一锅炖才是真正的全模态

传统多模态模型，像是一棵树，每一条枝杈分头长大，有各自的命运。

文本有自己的 tokenizer，图像和视频也各有自己的 encoder/decoder 架构。所谓的多模态，其实是每个模态先在自己的领地里独自处理，然后再强行推到模型里，去做后期的对齐与融合。

姚霆总结这套传统的逻辑：追求各个维度的最优解，可以说是局部最优。

智象不想要局部最优，它想要所有的一切的都是最好的。

HiDream-O1 走的是完全相反的方向。这个模型架构没有单一模态专属的 encoder 和 decoder，文本进去就是文本，图像进去就是像素块，视频进去是体素，音频、动作、空间关系同理。所有的模态输入进去，都直接形成原始信号，并且直接和同一套 UiT——像素级统一的 Unified Transformer 对话。

这套架构剔除了 VAE 和独立文本编码器，所有信息映射进一个共享 Token 空间。这么干，在姚霆看来，才是「原生」的、真正的全模态。

可以理解为，在智象的 UiT 架构里，所有模态从第一天开始就青梅竹马、天然相融，而不是各自成长，在最好的年纪才与彼此相遇。

先不说这个架构是否真的好，至少听起来有一种怪咖式的浪漫。

不过，UiT 架构在工程上的代价，却是具体而粗暴的：参数量大，收敛慢，训练压力极高。姚霆向 APPSO 透露，UiT 架构无法直接套用当前很多现成、主流的后训练方法，团队花了极大的精力和算力成本去做摸索。

这也是智象在推出本代全模态模型的时候，选择了开源与闭源齐头并进的技术与商业安排。8B 开源版本和 200B 闭源版本共用同一套架构：前者用 dense 结构，在当前参数量基础上最大化效用，并且开源以降低社区门槛；后者则用 MoE 方式，让推理时激活参数压低到十分之一甚至二十分之一。

8B 版本上线之后，社区很快给出了优异的评价。

在 Artificial Analysis 的文生图竞技场上，HiDream-O1-Image 的 8B 开源版本排名第一，混排后排名第八，是该榜单排名前 20 中公开参数量最小的模型版本，其它诸多均为预估参数量至少在 20-100B 规模的闭源模型。开源两天后，HiDream-O1-Image 8B 也冲到了 Hugging Face 的热榜第三。

不过，200B 的闭源大家伙，才是智象的真正押注所在。姚霆给 APPSO 算了一笔训练的账：这个 200B 模型现在还未「吃饱」，也即远未达到参数量与模型架构的性能天花板。

APPSO 了解到，智象现在每天新增数十万条以上的视频数据，持续喂进训练管线，模型仍在源源不断的吃掉数据、转化为自己的能力。「如果我们的训练方法的进一步创新，并且引入更多高质量数据，这个模型依然能继续提升泛化能力，效能将进一步逼近天花板。」姚霆表示。

走在 UiT 这条路上只是开始。智象将所有模态从原始信号一锅炖在一起训练，也只是智象的第一重赌注。

信号即认知

UiT 解决的是「多种模态怎么一锅炖」。更重要的问题在于，图像和视频生成，到底怎么训练才是正道？

此前 APPSO 曾报道，从视频/图像生成的角度攻克世界模型议题的公司们，。但万变不离其宗：

行业中大多数视频与图像模型，走的是「隐空间」(latent space) 的中介路径：先用 VAE 之类的 encoder 将图像压缩成一个抽象表达，然后让模型在抽象空间里学习表征。

这是工程友好的选择：参数小、训练快、收敛更稳。但编解码的动作本身会减弱表征，成为了这一主流思路的隐形代价。

智象决定直接在原始像素上做生成，再一次成为了非主流。

值得一提的是，智象不是一开始就站在像素这边。2025 年 5 月，它开源过一个 170 亿参数的 HiDream-I1，那是一个把 latent space 架构的效能压榨到极致的模型，也登上过 Artificial Analysis 榜首，后来还衍生出图像编辑的 E1、交互创作的 A1。

姚霆告诉 APPSO，「每一次编解码，或多或少都会有信息损失，无法避免。」比如，电商海报上的小字排版、远景里的人物瞳孔、精细的骨架纹理，这些是隐空间路线最容易糊掉的地方。

新的做法同样有其具体而粗暴的代价：训练压力再一次指数级上升，收敛比 latent space 的路线要慢的多。但在技术选型的时候，其实并不难选：你是想做一道容易但只能勉强及格的题，还是交出一份困难但 90 分的答卷？

「我们宁可承担失败的风险，也要朝着 90 分，甚至 100 分的天花板去努力。」姚霆的回答没有任何犹豫。

不是所有人都在做难题。Google 就走了一条相反的道路：根据 APPSO 的了解，Google 最新发布的全模态模型 Gemini Omni，其实是文本大模型+多模态外挂的架构，每个额外的模态，都先编码成文本表达，再进入模型管路。

这更多是因为，文本模型本身就是 Google 的禀赋所在。

补充阅读：

在大语言模型的时代，语言成为了公认的认知中介。但是智象似乎笃定，在多模态、全模态模型的时代，「信号本身就是认知」，文本这个中介，可以被去掉。

于是，他们放弃了短期可见的轻松收益，在纯像素生成+原生全模态统一的这条路上继续前行，因为他们相信原生统一全模态模型，天花板将会比大语言模型加视觉外挂，要高得多。

天花板在哪里？

行业里现在有个普遍焦虑：真实数据要不够用了。

在大语言模型上，全网的高质量文本早已被「竭泽而渔」，模型本身返回的内容，包括结果以及思维链，被越来越多的应用于最新的大模型训练语料。但问题是这些语料本身就是被模型处理后吐出的东西——长此以往，难免出现类似于「过拟合」的现象，让模型的输出质量不升反降。

图像生成也是同理，当今图片与视频生成模型和工具进一步普及，成本显著下降，人人都可以轻而易举地生成。极端悲观的估计，是总有一天图片和视频生成模型的训练数据本身就是用模型生成出来的。

在两年前 Sora 引爆视频生成之后，业界一直在讨论「合成数据」能否成为下一代模型的训练基础。让模型吃自己的输出长大，似乎成了当下最流行，也不可避免的解法。

姚霆并不担心这一点：「至少在可见的未来，这个领域没有数据枯竭的问题。」

目前，智象的训练数据流水线已经开足马力。当前数据来源有两类：公开互联网数据，以及版权方授权内容。

在智象，公开互联网数据主要作用于预训练阶段的大规模通用学习，而后者的高质量数据，则更多用于后训练阶段的精调，以及与下游产品场景联动。

无论何种数据都会经过严格处理与文本打标，形成训练对之后才会送入模型。

对于合成数据，姚霆的态度并不悲观。他认为只要用法得当，由本模型所生成的数据，反而是更有价值的数据。

逻辑在于，模型可以在同一输入上生成多个结果，然后挑出最优的结果来反哺训练——这其实是一个对齐激励函数的过程。正是通过这一路径，模型才更容易学习到「品位」「审美」，懂得什么样的视频是好视频。

如果把没经过筛选的合成数据一股脑灌进预训练，等于让模型反复学习自己早已学会的东西，意义就真的不大了。

所有的选择背后，核心是前面提到的那一点：就只说 HiDream-O1-Image 的 200B 模型，还远远没有「吃饱」。继续喂更多高质量的数据，它依然会成长。

剩下的问题，让钞票和时间去解决。

能跟巨头一较高下？

智象不只是一家模型公司，它同时还在做面向企业以及专业创作者的产品。

这套打法在公司内部叫做「1+1+3」：一个 HiDream 模型底座，一个对外输出能力的平台，三个变现场景分别是面向专业影视团队的「帧赞」，面向电商（特别是跨境商家）批量视频生产的 HiBurst，以及面向专业社媒创作工作者的 vivago。

仅仅在其中一款产品上，每日的 token 消耗就高达 400 亿，日生成超过 100 万张图片和 10 万多条视频。vivago 已经聚拢了超过 4000 万专业创作者，转化出百万级付费订阅；面向影视工业的「帧赞」直接对接了长江电影集团、慈文传媒等传统专业影视制作机构。

姚霆表示，「我们的设计是希望模型跟产品形成最强的耦合，产品成为我们模型的验证场景，能力的放大器。」

智象的专业影视视频生成业务，目前能稳定 one-shot 直出 1-3 分钟的视频，成功率（用户接受）超过 70%。在今天的大抽卡时代，这个数字还是十分令人羡慕的。但数字本身只是表象。

「这里面很多贡献，来自于我们对影视作品流程的理解，而不是模型能力本身跟别人有多大的本质区别。」姚霆解释，真正的区别在于智象团队对专业影视制作流程做了深入研究，将经验沉淀成一整套适配场景的策略体系。

这是工程，是 harness 的胜利。都说模型即产品，模型强大到一定程度可以吞噬一切——但至少在今天，专业知识转化到产品工程的 know-how，才是真正的护城河。

在专访中，姚霆提到公司高管曾反复自问的一个问题：凭什么你能做（超）过 Google、字节？难道他们的人没你强？资源和钱没你多？

「我们进入一个市场，做一件事之前一定会想清楚，凭什么我们能做过他们。如果找不到任何理由，这件事我们就不会做。」

在架构层面，智象的领先窗口大概是 3-6 个月，前提是有其他玩家被说服愿意尝试甚至转向 UiT 架构——而一旦这个可能性真的发生，智象的领先会被大厂和小龙公司们的资源优势抹平。

所以其实，智象真正能撑住的，是那些大厂没有足够资源可以投入，就算做了也做不彻底的垂直领域，更准确来说，是这些垂直领域内的工作沉淀。

又一重赌注的形状逐渐清晰起来：将模型和产品深度绑定在场景当中，代价是放弃「大而全的通用模型」的想象空间。

这倒不是什么特别令人遗憾的事，毕竟按照姚霆自己的话来说，「通用模型这条路上，现在没有创业公司的位置了。」

智象的野心不止视频。它和诺亦腾合作，用生成的物理视频补具身机器人最缺的训练数据；又和百图生科合作，想把全模态生成能力延伸到细胞级的微观世界。

如果说视频生成是这套架构的第一个落点，这两步暗示了它真正想去的地方：用一套架构，建模整个物理世界，从宏观到微观。

认知决定每家公司选什么路，也决定愿不愿意为这个选择承担风险。认知，才是这场赌局的庄家。

模型路线没有外部裁判。所有人都会觉得自己的感觉是对的，直到时间给出答案。

今天，智象选择了 UiT 架构，选择了原生全模态的路线。把所有模态「一锅炖」，炼得出真正接近天花板的全模态模型吗?

也只能交给时间了。

以下是 APPSO 等媒体与姚霆的采访实录（节选）：

Q：这几个月世界模型赛道的估值飙得很快，你怎么看？

A：因为「世界模型」这个概念比较大，包括做视频的公司、做技术的公司，最起码在故事这个层面都会往这方面去讲。但真正能不能做好，每家公司的禀赋决定了它该怎么做。我们比较认可一个看法：要想做好世界模型，视频生成的底模数据量足够大，才有可能 scale up；数据不够大，很难 scale up。

Q：杨立昆的 JEPA、李飞飞的世界模型路线，跟你们的方向有什么区别？

A：我觉得 Yann LeCun 的方法可能更偏理解，这点我非常赞同。我跟他的方法在某种程度上并不排斥。区别在后面的任务到底是什么。他的核心是 action prediction，我们的核心是生成。所以不是排他关系。理解是非常有必要的，只是任务方向不同。

Q：「全模态」和「世界模型」这两个标签，你为什么更喜欢前者？

A：世界模型这个概念特别大，而且每家对它的定义都不太一样。我们其实当年还查过字典，对吧？到底什么是世界？查完世界字典以后，发现世界好像是有物质，有能量，有各种各样的组合，然后才能组成一个世界。所以会发现好像很难定义。但是大家说这个说的比较多，所以说我们会觉得，那可能我们先不管什么是世界模型吧，但我觉得，要走全模态可能是一条路径。

Q：视频生成模型，未来还会有公司开源吗？

A：我个人觉得目前的观察来看，我觉得可能大部分人都不会再去做视频模型的开源。一旦到了中后期，只要存在商业化可能性，厂家就会停止开源。比如说（某巨头公司开发的视频图像生成模型），当他觉得有商业化的可能性，那他肯定就不开源。除非说在早期，大家可能都是一片混战的情况下，为了获得更多的声量、更多的关注，那可能会做一些开源。

Q：海外研究团队商业化压力小，可以深耕基础研究。中国创业的环境差异在哪？

A：中国创业的话商业化压力的确会有，每家公司都会有。前段时间有两个 Yao Shunyu 的播客挺有意思的，其实大家说的都没什么问题，只是土壤的问题。学术界当然可以做更多 idea 和探索；但在中国做创业，你必须要做商业化，必须要做跟用户场景更相关的东西。两边的观点我都挺认可。

Q：在大模型这个赛道，会不会出现一家公司「赢者通吃」、把所有应用都做完的局面？

A：其实我自己会觉得这种可能性不太大。原因是因为当模型去做下游任务的应用的时候，它一定是和这个行业的 know-how 绑定的。所以呢我们作为一家初创公司，我一点不会在意说我一定要完全是解决我的模型的特别大的一个通用性。我觉得在这一块的话，如果说我们贸然去做大量的尝试，其实我们会失去说在一些垂域的、这个行业的机会。

Q：你觉得国内大模型和海外的整体差距是多少？有人说 6 到 8 个月。

A：我觉得是一年到一年半，不止 6 到 8 个月。Anthropic 的布局非常深，估值已经在万亿左右了，它在数据处理上的一些做法，其实会形成一定壁垒，不是你想追就能马上追得上的。从智能体这个角度看，他们的思考也更靠前。

Q：腾讯、阿里在大模型方向上和海外公司明显不一样，你怎么看？

A：我比较关心的还是 Google 的发展。坦率说，今天不管语言模型还是多模态模型，美国还是会比我们更快，或者他们想的更深。

Q：你反复说「认知决定路线」。「认知」具体指什么？

A：今天大模型可能有些门槛相对比较低，大家可能都能去训练，但不代表说他有认知。举个例子，比如本科生也能够做出非常优秀的模型，但并不代表他对这个模型是有认知的。这个是非常重要的。认知的程度才会决定说你会选择什么样的技术路线，以及说你愿不愿意为这个技术路线去付出你的代价。有可能你会不成功的，但是你相信它，你才有可能去做它。

我们正在招募伙伴

简历投递邮箱hr@ifanr.com

✉️ 邮件标题「姓名+岗位名称」（请随简历附上项目/作品或相关链接）

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.