专访智象未来梅涛：与GPT-4o的狭路相逢｜甲子光年|工作流|应用层|gpt-4

分享至

DiT不是终局，自回归架构有很大潜力。

作者｜赵健‍‍‍

上周，「甲子光年」采访了智象未来创始人兼CEO梅涛。

梅涛告诉我们，智象未来计划在4月份开源图片生成模型，生成质量有非常大的突破，可以说将是图片生成领域的“DeepSeek时刻”。

巧合的是，就在采访结束的第二天，OpenAI上线了原生图片生成模型GPT-4o，凭借令人惊艳的吉卜力风格为代表的图片编辑能力而风靡全球社交网络。

真是一场狭路相逢。

不过，GPT-4o仍然是一个闭源模型，智象未来即将发布的是一个开源模型，智象未来仍有机会在开源领域刷新图片生成能力的新高度。

在这场采访中，我们不止聊了开源，还聊了更多创业的话题。

对于创业，梅涛有很深刻的体会。他说，2024年之前融资很难，2024年之后融资更难。他基本上每三个月就会经历一次人生的历练，必须拿出每一天都enjoy的状态，否则会非常煎熬。

梅涛是典型的科学家创业的代表。他毕业于中国科学技术大学，在微软工作的12年间取得了学术上的诸多成就，不仅成为IEEE Fellow和加拿大工程院外籍院士，也是科技部科技创新2030人工智能重大项目首席科学家。后来，梅涛加入京东，担任京东副总裁和京东探索研究院副院长，开始从学术界向工业界转型，从做研究、做技术，到做产业、做应用。

梅涛创业没有选择大语言模型，而是选择了图片与视频生成。尽管对于算力与资源的要求没有大语言模型那么高，但这仍然是一个竞争激烈的赛道。海外的Sora、谷歌Veo2、Runway，国内阿里万相、腾讯混元，以及几家“六小虎”都纷纷入局。梅涛坦言，在市场声量与品牌方面，智象未来做得还不够好。

但市场终局尚未形成。梅涛认为，今天视频模型的性能，大约类似于“GPT-2时刻”，距离该领域的“ChatGPT时刻”还有一代半左右的差距。

而且，今天的技术迭代速度非常快。梅涛说，以前的技术迭代需要6个月，现在基本上在一个月以内。没有人会保证今天的第一名一定是三个月之后的第一名，每个创业者都还有机会。

对于创业，梅涛也不只是为了赢，更带有一份使命感。

梅涛的第一笔融资，来自于一个名为“中喝大”的中科大校友群，由15名中科大校友共同出资，筹集了一支被称为“中喝大种子一号基金”的创业基金。

这笔基金，也承载了中科大校友对于梅涛的支持。梅涛表示，中科大的培养模式都是偏数理化的科学家，所谓“千生一院士”。但在工业与商业方面，就显得相对不那么突出。

梅涛想做其中的破局者。他说：“我创业不是代表一个人创业，是代表中国的科技型专家创业，投身到一个新的时代，要趟出一条路。如果我的技术和商业化能够打通，那么我的故事应该被复制，启发更多的人做这件事。”

本文，「甲子光年」专访梅涛，复盘过去两年漫漫创业之路。

1.谈创业契机：一辈子要是不创业，好像有点不完整

甲子光年：你既有学术界背景，又有工业界背景，为什么选择创业？

梅涛：我觉得人这一辈子要是不创一次业，好像有点不完整。最原始的冲动还是想自己主导一件事。我原来在微软做研究，后来在京东做技术，后来又开始做产品、做业务，其实一直都是在给创业做准备。现在创业两年，感觉自己成了一个“六边形战士”，不仅要管业务，还要融资、搭建团队。虽然这个过程很难，但我觉得人总要经历、磨砺一下。

而且有几个创业的条件已经成熟了。第一，这一代创业是硬科技创业，跟以前的互联网、移动互联网模式都不一样。以前是模式创新，草根都能参与，但这一代创业的机会留给了有科技实力的创业者；第二，这一波AI是颠覆性的，能极大地提高效率和生产力。

甲子光年：决定创业之后，是如何选择创业方向的？

梅涛：我出来创业其实有两个选项，一个是机器人方向，就是现在的具身智能；另一个就是大模型方向。我从京东出来后，花了两个月时间疯狂调研，发现机器人赛道已经有点拥挤，2015年左右成立的很多工业机器人公司已经让这个赛道变成红海了。而大模型是全新的技术，跟我以前在京东、微软做的技术完全不一样，我感觉大模型很符合我们团队的禀赋。

甲子光年：你为什么选择做图像与视频模型，而不是大语言模型？

梅涛：第一个原因是我们本身是做视频技术出身。2017年，我们就在ACM Multimedia大会发表了论文《To Create What You Tell: Generating Videos from Captions》，这应该是世界上第一篇研究文本生成视频的技术论文，这篇文章的主要作者都在我们公司。这个技术是用GAN（生成对抗网络）做的，效果一般，当时觉得这条路不一定能走通。

第二个原因是，我们当时清楚大语言模型需要大量的算力和融资，2023年需要千卡，2024年需要万卡，这是一个赢者通吃的领域。对于中国的创业公司来说，筹集这么一大笔资金有一定难度，要跟上大厂的竞争步伐也有难度。

视频行业这个赛道不需要太大投入，规模可控，而且离商业化进展最近。比如去年，全球AIGC约200亿美金的收入中，50%-60%来自视频和图像。2023年，Midjourney在这方面的收入已达2亿美金，已经验证了PMF（Product Market Fit，产品市场契合度）。

甲子光年：视频对算力需求没有语言模型那么大，具体是怎样的量级关系？

梅涛：2023年大概是小于千卡级别，2024年应该是千卡级别，还没有突破万卡。目前来看，视频模型基本是几十B参数量为基准。未来DiT（Diffusion Transformer）架构可能不是终局。或许有新的模型带来颠覆性改进，那时情况可能又有不同。

甲子光年：为什么公司的总部在合肥，而不是北京或上海这样AI产业更发达的城市？

梅涛：我曾在中科大求学十年，中科大可谓是我的第二故乡。中科大的校长，无论是当时的包校长还是如今的常校长，都对我们寄予厚望。中科大的校友们，包括我的师兄、科大讯飞董事长刘庆峰，也期望我们能够回归合肥。

我的第一轮融资，来自一个名为“中喝大”的中科大校友群，这个群的15个中科大校友组成一个合伙人LLP，来支持了我们的第一笔融资，这笔钱被称作“中喝大种子一号”。

当然，安徽省也非常重视我们，期望能打造出第二个科大讯飞。安徽省拥有像中科大这样的高校，能够提供大量的AI人才，这对于我们而言，是一个理想的研发大本营。

甲子光年：公司的中文名叫智象未来，英文名叫“Hidream.ai”，有什么含义？

梅涛：因为我们从事多模态领域的工作。多模态涵盖了图像、文字、视频、3D等，未来或许还会有4D物理模型。所以当时我们想到“智象”这个名字，“智”代表智慧、人工智能，“象”代表万象，它在中国文化中意味着包罗万象。因此，“智象未来”代表着对未来科技的一种展望。

中英文名字之间没有特别强的对应关系。当时我们起了很多名字，还进行了国际征集，毕竟我们的产品会面向他们。他们觉得“Hidream”这个词朗朗上口，代表着一种高远的梦想，我们也认为这个名字不错。

2.谈技术：DiT不是终局，自回归架构有很大潜力

甲子光年：你们团队是世界上最早研究AI视频生成的，当时有预判到“Sora时刻”吗？

梅涛：我们有预测，但不知道谁能做出来，也不知道时间点，因为这种技术从0到1的创新有一定偶然性。我们2023年做了第一版Unet模型，2024年想做Diffusion模型，但资源不够，不像OpenAI有那么多人和卡。等OpenAI做出来Sora之后，给了我们很多启发，所以我们2024年很快完成了DiT架构的模型并上线。我们团队紧跟技术前沿，也在探索新事物，比如2025年，我们的模型不再是纯的Diffusion架构，而是DiT加AR（Auto Regressive）模型。

我们现在的新模型叫“自回归扩散模型”，比Diffusion领先了一代。

甲子光年：自回归模型不用叠加扩散模型也可以单独生成视频。

梅涛：对，自回归模型有局限性，可能速度快、跟随性好，但生成质量不如Diffusion，尤其是在视频中的AR方面，完全不够。所以我们把Diffusion模型和AR模型结合在一起，这是一个很大的创新。

甲子光年：如何评价你们团队的技术水平？

梅涛：投资人对我们有两点评价很准确。

第一，我们团队永远跟在技术前沿，对技术框架和技术发展路径的判断非常稳健。

第二，我们团队一直是精细化运营，我们模型的训练、推理的ROI（投资回报率）非常高，训练费用几乎是业内平均水平的1/5。我们公司人数现在不到50人，人效特别高。

甲子光年：训练费用是别人的五分之一，这是如何做到的？

梅涛：我们应该是国内乃至全球，很少见的由“双模驱动”的AI公司。我们实际上有两个模型，一个是图片生成模型，一个是视频生成模型，创作者可以在我们社区获取端到端、全栈式服务，无需在不同的图片、视频模型之间切换。

因为有了双模，我们可以先在小批量的图片上进行验证——图片的训练成本要比视频低很多，再去视频上做大规模推广。“双模”的前瞻设计，使得我们能够把训练成本降低到至少1/5，同时效果上训练与推理都能达到业内最优。

甲子光年：“双模”的设计是从第一天就确立的吗？

梅涛：如果你回看我们的产品发布时间，在2023年8月图片模型上线的时候，视频模型也上线了。当然，以现在的眼光看，那时候的视频效果惨不忍睹。我们当时就笃定，我们的终极目标不是做一个图片生成产品，而是要做视频生成产品，因为视频生成产品的市场要大得多。

HiDream.ai的视频生成效果。提示词：单手拿着手机对着镜头拍照微笑的金发少女，背景下雪的街头，人群，写实风格，唯美

甲子光年：现在市场上有很多“多模态模型”，包括文本、图像与生成。你们之间的技术路线有什么不同吗？

梅涛：多模态要分清楚理解与生成。如果只是做多模态的理解，其实跟大语言模型是一样的，完全可以用GPT的路线来做；如果是做生成，目前市场上以DiT架构为主。两个路线技术不同，客户、行业、产品形态也不一样。我们赋能的产业是影视广告、营销、设计、教育、文旅这些行业，更加偏重垂直应用场景。

甲子光年：MiniMax去年曾输出过一个观点，视频生成模型的进步离不开基座大语言模型的进步。OpenAI也是同时布局大语言模型与视频生成模型。智象未来不做大语言模型，这是否会“拖累”视频生成模型的效果？

梅涛：首先，视频跟文本有很大的不同。文本的token定义是非常清楚的，而视频是没有token这个概念的。从本质上来说，视频的token化就非常特殊，很难套用一个文本模型来做视频。

其次，即使做一个近似的token化，视频的理解是可以用开源模型来做。然而，如果进行深度处理，由于视频的token化之后是离散的，在后续恢复视频时，效果就会受到影响。

甲子光年：你们用到开源的大语言模型了吗？

梅涛：视频理解用大语言模型来做完全没问题，但视频生成是完全不一样的。在视频生成中，我们也用到了开源模型，一是通过语言来控制自回归模型生成的可控性、指令跟随。二是通过DeepSeek这样的开源模型，能够做prompt的一些改进。

我们正在做一个产品，就是一个Prompt Bot，用来交互式地修改视频内容，这个功能跟Gemini 2.5 Pro的改图功能是相似的。

所以，大语言模型的开源模型对我们是有利的，可以借鉴很多优势。

3.谈开源：图片生成领域的“DeepSeek时刻”

甲子光年：你们的图片模型是自研的还是基于Stable Diffusion这样的开源模型做的？

梅涛：是完全自研的。如果我们不是自研的话，就不可能在2023年底完成网信办的备案。

我们将很快开源一个图片生成模型，性能将会比已有的开源图片生成模型都要好，届时有望迎来图片生成模型的“DeepSeek时刻”。

甲子光年：为什么要将模型开源，驱动力是什么？

梅涛：我们的图片模型已经做得足够好了，但图片模型不是我们商业化的终点，我们希望通过开源模型把社区建设得更好。开源模型带来的技术影响力、品牌影响力，可能会对视频的制作带来更好的迭代。

另外我本人也是做技术出身，我看到图片领域虽然进展较快，但还达不到做视频的要求。做视频对图片的要求非常高，比如构图的场景，中景、近景、远景、特写，还有一些光影的调整是非常严格的。我们希望通过开源的方式，让别人踩在我们的肩膀上不断前进，同时也能推动我们视频的生产。

甲子光年：开源似乎并没有直接的商业回报。

梅涛：开源与否完全是基于商业模式考虑的。DeepSeek是完全开源的，很像早期的OpenAI，他们比较理想主义，不关心商业化，也不关心产品化，甚至鼓励别人超越他们。我觉得这是很好的创新态度。但DeepSeek的开源给其他公司带来了巨大压力，如果其他公司的闭源模型都赶不上开源模型，那么闭源还有什么意义？

现在很多大模型公司转向开源一方面是被倒逼的，另一方面他们过去忽视了开源社区的品牌价值和生态影响力。我相信后来很多创始人都意识到了这一点。

甲子光年：你也是受到了DeepSeek的影响吗？

梅涛：首先从技术角度来说，我们去年就关注DeepSeek了，特别是MoE、强化学习和FP8低精度训练这些探索。虽然我们也在用MoE这类架构，但像FP8低精度训练在DiT架构上应用就比较困难，要保证效果需要结合模型自身的结构进行精细调整。DeepSeek真正让我印象深刻的是他们通过极致的底层系统工程（如算子优化、高效并行通信）来实现低成本、高效率的训练，让我们看到了工程优化在降低大模型成本上的巨大潜力。

其次，在技术之外，DeepSeek也让我看到了开源社区的巨大影响力。尽管短期内可能看不到直接的商业回报，但通过开源，可以快速建立起广泛的技术声量、吸引开发者、并催生出一个活跃的技术生态。这一点，我之前确实考虑不多。当然，随着DeepSeek开源他们的模型，我们以及整个行业也成为了直接的受益者。能够利用这些高质量的开源大语言模型，无疑会促进我们自身在视频生成等领域的研究和应用开发。

甲子光年：你们即将开源的模型效果怎么样？

梅涛：大模型的评测也有很多榜单，比如解数学题、Coding、参加SAT考试等标准流程，图像生成方面也有很多业界标准的benchmark和对应评测指标，同时我们也会直接交给用户来进行主观评测，这样评测更贴近真实应用场景。

另外，我们即将上线的模型还有不同的尺寸，并且已经完成国产芯片的适配，我们通过架构的提升让推理速度做到别人的1/3。

由智象未来vivago.ai生成的“微观世界”图片效果

甲子光年：哪家国产芯片？

梅涛：已经跟华为和寒武纪做完适配了，主要用于推理生成。

甲子光年：除了开源图片模型，会考虑把视频模型也开源吗？

梅涛：正在考虑中，还没有一个结论。

甲子光年：主要考虑什么？

梅涛：对于创业公司，开不开源主要由商业模式决定。我们毕竟不是DeepSeek，有幻方大量的资金支持。我们花的还是投资人的钱。

甲子光年：所以开源更适合大厂来做？比如腾讯开源了Hunyuan-Video，阿里开源了通义万相。

梅涛：我个人认为，像Amazon、阿里这种卖基础设施云的大厂会开源，因为开源之后能够把社区构建起来，最后的逻辑其实是卖基础设施，而不是靠模型或应用来赚钱。而我们这种做应用的公司，就要考虑开源到底对我们意味着什么。

4.谈产品：90%靠模型，10%靠产品

甲子光年：你们现在找到产品的PMF了吗？

梅涛：现在的AI应用都在找PMF，很难有一个通用的指标。ChatGPT五天内就迅速积累了100万DAU，DeepSeek实现用户过亿只用了20天，这肯定算找到了PMF。我自己认为PMF的标准，如果是收入，MRR单月收入要达到100万美元；如果是用户数，DAU需要过百万，MAU可能要过千万。

甲子光年：这是一个比较有挑战的数字。

梅涛：我们也一直在尝试。我不认为国内有哪家能够真正做到。

甲子光年：为什么这么难找到？

梅涛：第一，要想做好图片或者视频领域的Agent，需要真正能帮用户干活。第二，用户的价值要闭环，但现在很多用户，特别是PGC的用户，做视频的过程会用到很多工具来拼接使用，很不方便，而且还要抽卡。第三，视频的可控性、稳定性和叙事性都还有很大的提升空间。

从商业化的角度来说，如果用户在一个平台做完视频，还必要到另外一个平台来变现，这种分离的过程是很不友好的，用户很难为其生成的视频来定价。如果有客户或者用户生成的视频爆火了，跟我们似乎也没有直接的关系。因此，我们希望构建一个平台，能够让用户的视频生产、收益形成闭环，品效合一。这是一个非常有挑战的事情。

甲子光年：所以你不是想单纯做一个视频生产的工具，而是想参与到视频生产后续的分发、收益的过程中，做后续的服务。

梅涛：今天为止，用户还只是支付一个基本的工具使用或者素材使用费用，我认为这种定价是不合理的。我希望参与的视频的投放环节，不管是我们帮用户投放，还是合作伙伴帮用户投放，最终按照CPM广告投放的效果付费，给客户带来更大的收益，然后一起分享收益，对我们能有更大的激励。

甲子光年：你认为模型更重要，还是产品更重要？

梅涛：目前来说，用户的需求已经比较明确了，挑战在于技术的迭代还没有达到上限。在产品端，如何在有限的模型能力前提下构建好的工作流，或者叫Agent，降低用户门槛，是目前产品能做的事情。在技术端，则是通过scale、高质量的数据，或者颠覆式的算法来提高模型能力，这样就能降低产品端雕花的过程。

甲子光年：先做模型端的突破，还是先做产品端的雕花？业内两种方式都有，你更倾向于哪一种？

梅涛：不同的人站在公司角度会有不同的观点。我们没有必要去跟随别人，要有自己独立的判断。我自己认为，大模型不管走到哪一步，始终离用户需求还差“最后一公里”，比如大模型本身还没有解决幻觉问题，如果不解决就让用户直接使用，是有很大风险的。这“最后一公里”，就需要通过产品来弥补。

甲子光年：90%靠大模型能力，10%靠产品？

梅涛：没错。

甲子光年：你们现在的产品规模是多大？

梅涛：我们目前的to C或者to PGC产品，在全球拥有千万级别的注册用户，涉及100多个国家。全球的月活跃用户（MAU）在300万左右。

坦诚说，这个数字不是最高的，我们在市场上的声量也没有那么显著，这与我们团队的特点有关。我们团队比较务实、低调，一直秉持着长期主义和厚积薄发的理念。这也是我个人的特点，我一直就喜欢先把事情做好再去讲述。不过今年我们认为时机到了，可以适当进行一些品牌宣传，让投资人以及用户和客户更多地了解我们。

甲子光年：那你怎么看Sora这种发布后快一年才上线的做法？

梅涛：任何一家公司在某个时间点做出的任何决策，都与其商业化进程相关。在不同的时间段，竞争态势各异。我记得2024年年初，当时OpenAI面临来自Google的巨大竞争压力，而且Google也在做多模态，所以OpenAI想要发布一个多模态的产品，于是发布了Sora，但只是发布了一些Demo，并未正式上线。这样做先提高了大家的预期，至少能让资本市场对其充满期待。

甲子光年：这种做法跟你“先把事情做好再去讲述”的理念刚好相反，处在另一个极端。你会讨厌OpenAI的这种做法吗？

梅涛：我们比较实在。我们认为如果要发布，肯定会在一个月内让用户体验到我们的产品。包括我们之前所有的操作都是如此，甚至先上线运行，然后再发布。我们接下来 4月份也会发布新的产品、新的模型以及新的开源内容，都是这种风格。

5.谈商业模式：做AI视频领域的Canva

甲子光年：智象未来的商业模式是什么？

梅涛：我们的商业模式一直在迭代，目前来说虽然既to B又to C，但两者底层是同一个模型，只是上面是不同的应用，服务不同的客户。

智象未来的商业模式是，搭建IP和内容共创平台，融合IP提供方、需求方、创作者与消费端数据池，嵌入AIGC智能生成矩阵，实现IP从创意萌生到价值释放的全生命周期管理，打通内容价值流转闭环，在IP内容生产、确权、交易、变现的多维场景中，基于AI技术手段实现价值的裂变式增长。

甲子光年：to B与to C，哪个是重点？

梅涛：现在to B更重一点。因为to C领域，整个市场的商业模式尚未完全跑通，目前一个很大的问题在于用户的粘性不够、留存不够，做的供应链不够深。未来某一天，两条业务线会汇聚，做成一个平台、社区。我们其实在构建一个更大的局。

甲子光年：服务to B的KA客户，如何解决定制化的问题？

梅涛：KA客户确实有很多定制化需求。我们现在是尽量自研，产品功能已经很全面了，包括图片生成、图片修改、视频生成、视频修改、文字嵌入、搜索等，可以满足客户百分之七八十的需求。如果还不够，就接入开源模型或者第三方的产品，由我们来提供解决方案。我们还是以被集成的方式来做，我在京东时做to B业务都是这样做的。

甲子光年：你们是被集成的角色，那集成商是谁？

梅涛：比如华为、科大讯飞。其实在to B领域的业务形态和服务模式都没有变，现在一些“六小虎”来服务央国企，未必做得过科大讯飞、百度、华为这些，甚至在DeepSeek的冲击下，一些六小虎已经在卖DeepSeek一体机了，不再坚持用自己的模型来交付了。

甲子光年：过去两年，生成一个视频的推理成本有没有明显的下降？

梅涛：下降很大。首先是抽卡的次数减少了。大概5月份我们会发布一个新视频模型，引入了AR架构，届时视频推理的成本会下降到不到之前的一半，同时推理速度还能降低50%。到今年年底，按照我们CTO的计划，会达到实时生成的水平。比如5秒钟的720P视频，只需要5秒钟生成。

甲子光年：实时生成高清视频，这是今年技术上的要实现的目标，还有其他的目标么？

梅涛：在模型层，我们要发布全球最好的图片开源模型；视频模型要跻身前列，我们不会说达到综合第一名，但一定会在某些指标达到第一，比如推理速度。其次，我们要保证在视频与图片中生成的嵌入文字的质量是全球第一，这对可控性要求非常高；叙事性上，今年我们会让光影的协调、镜头与镜头之间的连贯性做得更好。

在产品端，我们希望形成稳定的商业模式，至少“1+3+N”模式中的三个产品线能够形成稳定的收入与现金流，明年再开始扩张。

甲子光年：所以今年属于商业化0-1的阶段？

梅涛：更准确的说，是0.5-1。今年对我们来说很重要，我们要留在牌桌上。

甲子光年：长远来看，你希望智象未来是一家什么样公司？是“AI时代的抖音”吗？

梅涛：我们其实想做AI视频领域的Canva。Canva是一家澳大利亚的设计软件公司，现在的市值达400亿美元，每年收入大约25亿美元，全球2亿多用户。

就像Canva在设计领域做到的那样，我们想让视频领域的全球创作者在我们平台上以低成本、高质量、高效率地生成创意视频，平台上产品既有IP，也有工具，还有内容。这些用户可能是企业用户，也可能是个人用户。

我最终认为，模型将来可能不值钱，因为大家都有模型，不管是自研的还是开源的。真正沉淀的核心是数据资产和社区，这也是为什么我们去年跟捷成华视网聚、上海电影集团、人民网、彩讯科技等企业合作的原因，我们拿到了市面上70%的华语影视资料库，然后再构建一个属于我们自己的版权语料库，将来还要构建创作者社区。这样就能把B端客户业务和创作者社区都建立起来，在平台上实现商业闭环。这是我们接下来很大的一个局。

今天我们还是在做拼图，把to B业务做好，把社区做好，把工具打造好。将来我们会补齐商业布局。

6.谈市场格局：现在是视频生成的GPT-2时刻

甲子光年：你怎么评价市场的竞争？

梅涛：大公司像字节、快手，在UGC、PGC端竞争的比较激烈，这也是我们不在国内发力to C业务的原因。国内市场大概率还是来自于企业服务这一端，而to B市场是比较细分的，会由好多家公司来服务。

我们的思考是，在国内扎实做好to B业务，海外一定做好to C业务。

甲子光年：海外有Runway这样的竞品。Runway并不把自己定位AI公司，而是一家媒体和娱乐公司。你怎么看待Runway对自己的定位？

梅涛：我个人觉得，美国电影市场还是非常大的，这么大的市场自然需要AI公司来做影视化的产品，Runway围绕影视创作流程做的产品很扎实。

但是，如果用一家影视公司来定位Runway，我觉得他们有点吃亏。因为在影视圈里做技术服务，最终跟票房是没有关系的，永远是导演前期或后期创作的工具。而且我们跟很多电影导演聊过，做影视级创作工具，要想达到导演的要求，很难。特别是真人表演，未来两三年内都难以达到。

其次，AI创作工具嵌入不同的电影制作场景或工作流，也很难，因为就不存在标准化的工作流，每一家电影公司都不一样。我们也尝试过，挑战很大。

甲子光年：你们在尝试之后放弃了电影行业吗？

梅涛：我们现在更聚焦在营销场景，比如二创平台是给品牌商做广告素材，广告素材的要求原没有影视级那么高。另外，我们也做了一些AI短剧，偏向动漫，动漫市场已经被证实可行了。但是影视级的合作，目前还是很难。

由智象未来参与创作的AI科幻短剧《亦幻未来》的第三集——《天工开物》的片段

甲子光年：影视是目前众多to B细分场景中最难的一个。那未来呢？技术一定会发展，最终整个行业的平均水平是否会达到影视级的效果？

梅涛：这个不好说。我经常看一个节目《我就是演员》，能看到导演对演员的表演要求是极高的。一个顶尖演员表演一场戏，也会NG很多次，何况用AI控制微表情。现在AI最难的就是真人的微表情控制、多人IP的稳定以及人物交互。坦白来说，现在的DiT架构模型还没有真正理解物理世界。

甲子光年：你觉得视频生成领域达到ChatGPT时刻了吗？Sora算不算？

梅涛：我觉得Sora差不多是视频生成领域的GPT-2时刻，但目前还没到GPT-3时刻。

甲子光年：你怎么看大模型“六小虎”的前景？

梅涛：如果“六小虎”要对标OpenAI，这件事本身就很花钱。如果用万卡来做训练，一个月的成本大概是一个亿，一年的算力加运营成本大概是15亿到20亿。那么，他们每次融资至少二三十亿，现在面临的状况就是高估值、低收入，商业模式没有完全跑通。但是融资又不能停下来，不融资的话，投资人可能投给别人了。当然，融资后做更大的市场扩展，理论上说也没有问题。

甲子光年：DeepSeek出来后，对市场格局有什么影响？

梅涛：现在大家都在开源，都在免费，本质上是卖算力，而不是卖模型、卖应用，能顺利打平就不错了。有的AI应用在还没有验证之前，做了大量的投流，一年花几个亿。但最后DeepSeek出来后你会发现，可能完全没有价值。

我觉得模型公司，如果在模型层做不到第一的话，就不要轻易做to C。在to C领域，如果你不是最好的产品，用户永远只用第一名、第二名的产品。但to B不一样，主要你能在一个细分领域里做到前三名，也能活下去，但想象空间没有那么大。

甲子光年：所以你从一开始就没有想过做最领先的角色吗？

梅涛：我当然想过了，现在也一直在想。但我们确实是小米加步枪，不管是融资规模，还是算力规模，跟美国相比都少一个数量级。

另外，这也是一个动态的过程。今天的第一不代表是永远第一，再过两三个月，可能一大堆所谓超越DeepSeek的模型就出现了。但如果我的融资是别人的10倍，算力是别人的10倍，人才是最好的人才，那我就能保证第一，就像OpenAI和Google。

甲子光年：如果给你10倍于现在的资源，你会有什么不同的决策？

梅涛：决策都会不一样。我们打造中国的视频版的DeepSeek，但不能用投资人的钱。因为这件事早期是没有商业价值的，是长期主义的。DeepSeek能成功，他没有用投资人的钱，而是梁文锋个人或者幻方的钱，即使每年烧十几个亿也无所谓。但我们不行，如果我今年烧没了，明年可能就融不到钱了。

7.谈融资：2024年之前很难，2024年之后更难

甲子光年：创业至今，融资顺利吗？

梅涛：2024年之前相对容易一点，但总体来说也不简单。创业需要一个momentum（推动力），就像去年的具身智能，当时这个概念特别火，大家都抱有很大期望。2024年既是一个风口，也是一个分叉路口，由于中美之间在人工智能领域的竞争，美元基金基本不再投资，此后融资变得非常艰难，包括今天也是如此。

尽管如此，我们的融资还算稳健。截至目前，我们已经成功完成了两个大轮次和四个小轮次的融资。并且，我们接下来的B轮融资也已谈妥大半。我们自身非常努力。

甲子光年：你平均每年要见多少投资人？

梅涛：我比较勤奋，创业到现在见了200多个机构了。现在好一点了，我们有专门负责融资的同事，我一般是最后要见合伙人或者管理合伙人再去。每周要见一两个吧，都是小步快跑的节奏。

甲子光年：融资窗口是稍纵即逝的吗？

梅涛：以前创业，会有两三年的时间窗口，现在完全不一样了。比如说，前年的风口是大语言模型，去年的风口是多模态大模型，今年的风口是Agent，你会发现时间窗口越来越短。

对于投资人来说，现在大语言模型的布局已经完成了，下一步就看哪家能跑出来。

应用层的创业者非常艰苦，很难融到钱，因为应用层需要融资来验证商业模式，但投资人认为应用层没有壁垒，需要先证明你有盈利能力，这本身就是一个伪命题。

甲子光年：这是一个死循环。但“风险投资”不就是应该承担一定概率的风险吗？

梅涛：投资人的视角是，基础大模型就那么几个标杆案例，投中一个就行了。或者说为了提高成功率，每个都投一遍，只要能成功一个就能赚回来，哪怕少赚一点。

但是应用层不行。一个细分领域的应用层，可能有几十个相似的项目，因为门槛相对较低。而且应用层的想象空间没有那么大，就算有很多应用出来了，很多投资人却不敢投。所以现在的创业者，跟以前相比确实难很多。

甲子光年：投资人对于视频生成模型这一赛道的态度有什么变化？

梅涛：有很大的变化。我们在2023年融资时，投资人明显想让我们跟Midjourney对标，视频生成的故事没有人信。到2024年，投资人就完全All in视频生成领域了，反而图片生成的故事他又不信了。

投资人相信的是一个momentum。创业者可以一开始借着这个momentum去融资、讲故事，但不能总是讲故事。过了这个momentum，我就要告诉投资人，我给你看数据，既要证明我们的技术、架构是领先的，也要证明基于这个技术做成的产品是有世界影响力和市场渗透率的，今天只讲模型能力实际上是不够的。

8.谈创业理想：我创业不是为了钱

甲子光年：创业两年，你的变化大吗？

梅涛：变化太大了，基本上每三个月就会经历一次人生的历练。因为作为创始人，必然是一个“多边形战士”，对内治理，对外经营。要管理公司的产品，要确保公司的技术领先，还要进行团队建设，还要负责见重要客户，要亲自见投资人。这几大事情基本上都要我亲自做。当然，还有招聘，还要与产业保持密切互动。我的周末基本上排满了，要见大量的创业者和候选人，与他们交流。所以非常充实，但也非常辛苦和具有挑战性。

甲子光年：会有疲惫的时刻吗？

梅涛：肯定会有，但是我很快就调整过来了。我平时周末都要跑步，一般每次都是10公里到15公里，给自己充电。

甲子光年：过去两年，公司的发展方向有没有调整过？

梅涛：没有。2023年定下来的方向，现在一直在跟进。我觉得创业要经常回顾一下自己的初心，因为当时的判断往往是对的，中间过程中会被人带偏。

甲子光年：被带偏的干扰因素是什么？

梅涛：比如说，有的人会说，不要做to C，做to C你做不过那帮人。有的人会说，不要做to B，国内做to B的SaaS就没成功过。各种各样的声音都有。我是第一次创业，刚创业时还经常有人教我怎么创业。这种人可能自己都没创过业，你肯定也见过。

甲子光年：你怎么看现在年轻一代的创业者？

梅涛：现在的年轻人跟以前不一样了，以前可能想进大厂，找一份稳定的工作。现在越来越多的年轻人愿意加入创业公司，或者直接创业。现在AI发展的程度，让创业的门槛降的很低了。你经常看到三五个人，或者不到10人的团队，对场景的理解足够深，就能开发出很棒的AI产品，就像Manus这种。在AI时代每个人的能力可能是以前的10倍以上。我们公司的一些小朋友，每个月花20美元去买OpenAI的账号帮他写代码，这已经是一个普遍现象了。

甲子光年：像杨植麟这样的年轻创业者，做事风格跟你有什么不同？

梅涛：我们相对更为稳健。

甲子光年：to C是否天然更适合年轻创业者来做？

梅涛：你说的很对，年轻创业者能快速迭代，也没有什么包袱。

甲子光年：你对创业有什么感想？

梅涛：我觉得现在这个时候，应该向创业者致敬。很多人没创过业，不知道创业有多难。我最近看了很多书，被硅谷的创业故事震惊到，原来硅谷的创业融资也很难。本·霍洛维茨，硅谷资深创业者，现知名投资机构Andreessen Horowitz联合创始人及总合伙人，他写的《创业维艰》一书中描写了很多至暗时刻。他说，在担任CEO的8年多时间里，只有3天是顺境，剩下的8年几乎全是举步维艰。

对我来说，必须拿出每一天都enjoy的状态，否则会非常煎熬，因为创业的每一天都可能处理一些棘手的问题。我出来创业之后，就特别同情创业者群体，虽然我本人也是创业者。

甲子光年：你跟他们有什么不同？

梅涛：我至少还有科学家身份。如果我没有创业，还可以去学校做教授。说实话，我创业也不是为了钱。

我们公司有好几位院士是我们的学术导师，他们对我的期望就是，我创业不是代表一个人创业，是代表中国的科技型专家创业，投身到一个新的时代，要趟出一条路。如果我的技术和商业化能够打通，那么我的故事应该被复制，启发更多的人做这件事。

现在，AI时代的科学家创业还几乎没有成功案例。现在有很多年轻的从学术界出来创业的人，但像我一样到了45岁之后还清零创业的人，很少。我们团队现在很纯粹，包括我自己没有任何第二职业，是All in创业、心无旁骛的。我是一个探索的心态。

甲子光年：你想成立一家什么样的公司？

梅涛：我经历过两家公司，体验过两种不同的文化，我想在中国创建一家像硅谷那样开放、包容，以技术创新为核心的公司，做全球化业务，让中国的年轻人在这家公司里能开心地工作。

（封面图来源：中国科幻大会）

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.