网易首页 > 网易号 > 正文 申请入驻

对话智象未来CTO姚霆:当Sora退场后

0
分享至

来源:市场资讯

(来源:钛媒体AGI)


▎Sora关停,是通用视频生成这门好技术在商业化面前的必然结局。

文|TechPulse

作者|张帅

编辑 | 杨林

本文首发于钛媒体APP

以Sora的发布和关停为时间节点,AI视频生成产业分为两个世界。

2024年春节,OpenAI发布Sora,一石激起千层浪,当年5月17日,智象未来旗下vivago平台上线,这个时间点比快手可灵还早了两周,这家核心班底来自微软亚研院的多模态大模型创企,并不缺少对技术的敏锐嗅觉。

一年后,OpenAI骤然宣布关停了Sora的独立服务,将视频生成功能并入ChatGPT的付费体系,留给行业是一些未有明确答案的思考,多模态大模型的技术和商业化会走向何处,创业企业又该如何在窗口关闭前找到自己的空间。

在智象未来联合创始人兼CTO姚霆看来,Sora的退场并非偶然,而是通用视频生成这门好技术在商业化面前的必然结局,对于当前火爆的世界模型赛道,他给出了一个颇具哲学意味的答案:轮回。

据了解,智象未来的 ARR(年度经常性收入)达到数千万美元量级,B轮融资正在最后 Close阶段,持续获得产业资本加持。这家公司的路线选择,或许代表了中国 AIGC 创业公司在多模态赛道上的一种生存策略。


通用视频生成是一门好技术,不是Sora的好生意

对话伊始,姚霆便开门见山地给出了自己的判断。在他看来,Sora的“失败”可以从三个维度来理解。

“第一,Sora想做的是非常通用的视频生成,但这与垂直领域的应用需求相对脱离。”姚霆分析道,“OpenAI天然没有视频相关的业务,也没有那样的生态。”

第二,成本是不可忽视的现实问题。“今天跟互联网时代不一样,所有的服务上线背后都在跑GPU,成本还是很昂贵的。”姚霆坦言,智象每一次模型迭代,推理成本都是首要考量因素,做模型架构本身就要考虑成本,否则后面就没法做大量服务。

第三,Sora缺乏商业化的土壤。对比字节跳动的Seedance和快手的可灵,这两家公司的视频生成产品都能与主营业务形成协同,而OpenAI并没有这样的业务场景来承接技术能力。

Sora的退场,也折射出国内外视频生成路线的差异。

“国外更看重模型架构的创新,国内则倾向于做大而全的平台链路。”姚霆观察道。对于智象来说,这两条路都不是唯一选择。

“我们是从技术出身的,以前在微软的时候,大家想做全世界最好的模型,对标谷歌、Facebook、CMU、伯克利。”姚霆回忆,“做视频理解的模型,这种基因天然就是希望模型上有架构创新。”

智象也的确在践行这一点。从2023年的Unet架构,到DiT,再到自回归+DiT的融合,直到今天全新的全模态架构,智象每一次迭代都试图在技术层面做更多的创新,而且每次还是精准的踩住了整个技术迭代的突破口。

“但同时,在中国做这件事,肯定还是要以垂直领域的商业化作为导向。”姚霆强调,“不是为了做模型炫技,而是要有商业化落地的指标。”

世界模型的五个等级——从静态复刻到“轮回"

世界模型的概念在过去一年里经历了剧烈的收敛过程,也是当前多数大模型相关企业想要讲述的故事。

“世界模型的定义一直很广,早期可以分成三个类别。"姚霆解释道,“第一类是以语言模型为主,属于高层知识的提炼和压缩;第二类是Yann LeCun做的JEPA,偏中层的表达学习;第三类是底层的像素生成,也就是视频生成。”

但如今,世界模型的定义正在收敛。姚霆认为,今天的世界模型可以大致分为三类:在视频生成模型中融入因果关系和物理规律;根据用户指令实时生成场景(如Genie-3);以及跟具身智能强相关的World Action Model。

对于智象而言,姚霆更看重两个维度的突破。

“第一个是模型侧,要用一个神经网络同时理解和生成文本、图像、视频、3D以及动作。"姚霆强调,"它一定是端到端的全模态架构,各个模态之间不会单独编码,而是统一的tokenization。”

为什么要追求“全模态”而非“多模态”?姚霆的解释很直接:“世界模型好歹要跟物理世界打通,如果不打通凭什么叫世界模型?从这个角度来说肯定要有具身的数据,不然就是割裂的数字世界模型。”

在他看来,世界模型的底座是基于视频训练出来的,还是基于VLA(视觉-语言-动作)训练出来的,其实并不重要,最终的形态一定是任意输入,任意输出,想怎么输入,想它输出什么它就可以输出什么。

但这还不是终局。

“从宏观角度,我对世界模型分了几个等级。"姚霆说,"第一级是静态复刻,就是一幅图;第二级是视频,有三维有时间域;第三级是交互;第四级加入物理规律和因果关系;第五级,终局是轮回。”

他进一步解释道,“轮回是什么?是完美的因果关系。比如蝴蝶效应,今天我在这儿扇了一下翅膀,明天那个地方就应该出现海啸。再往上一级,才是真正的世界模型,才是真正的推理。”

这个说法听起来有些哲学意味,但姚霆很快将其拉回到产品层面。

“第二个维度是Agent。”他说,“所有的Agentic App等于一个平台(可能是PC或手机)乘以Harness(对底层skills的管理、适配和组合),再加上底层的skills(可能是OS或OpenAI)。”

姚霆举例说明:用户想做一个VLOG,只需要输入"我想赚钱"这一句话,Agent就能自动搜索、调用、编排各种skills,完成从脚本撰写到视频制作的全流程。

“这需要全模态的支持。”姚霆强调,“底层有文本、视频、图像、语音,全打通了,才能知道谁跟谁该怎么组合。”

大厂环伺,创业公司如何出牌?

快手可灵月收入突破两千万美元,即梦背靠字节过亿的生态日活。在这样的双寡头格局下,智象这样的创业公司如何找到出路?

“大厂在资本、人才、算力上都有优势,包括入口。”姚霆坦率表示,但在某些条件下,它的束缚也会比较多,难免对主营业务有所妥协。相比之下,创业公司的团队架构更加灵活。

“AI时代,机会是相对平等的。”姚霆说,“但作为初创公司,有几点还是要做好。”

第一,认知要新。

“首先要对整个趋势有充分的预判,不能等大厂做到什么样我们再复制,这样基本就没机会。”姚霆强调,“还要有坚持,要做正确但很难的事情。智象的产品经理现在必须会用vibe-coding(AI辅助编程)。”

第二,速度要快。

“AI产品的稳定版本,产品推上线,用户用两次能成功得到一次想要的结果,这就是稳定版本。”姚霆说,“让用户使用、反馈、迭代,这样才能形成壁垒。”

第三,架构要灵活。

“产品和技术的边界越来越模糊,因为产品也可以通过vibe-coding写前端。”姚霆打了个比方,“有点像打牌,上手一副牌很难改变,但出牌方式可以调整,有些‘王炸’是要拆掉的。”

面对大厂竞争,智象的应对策略已经明确:2026年的核心战略是搭建“1+1+3”的架构体系。

“第一个‘1’是全模态底座大模型,这是最重要的。”姚霆解释道,“第二个‘1’是HiHarness平台,可以理解为中间的Harness层,负责打通各种skills。‘3’是优先级最高的三个Agent:专业创作者智能体、商业营销内容生成智能体、AI影视智能体。未来还会拓展出更多方向,比如具身智能、游戏引擎等。”


这个架构的核心逻辑,是从“分而治之”转向“并而治之”。

姚霆说,“以前不同创作用不同方式,可能是工具可能是内容,今天会变成一个并而治之。底座是Agent,上面根据不同场景去实例化。”

他把这个逻辑比作搜索引擎:“当年做搜索引擎,下面有众多网页,今天网页变成skills,如何在海量里面寻找、定位、编排,这是核心问题。”

全模态底座的价值就在于此,如果全模态模型天然把这些模态之间打通,那么只要建一套索引就可以解决所有模态的事情,不管用户输入什么,想要得到什么,都可以给到用户最终结果。

声明:包含AI生成内容

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
AI材料链里,最容易出牛股的是高端铜箔

AI材料链里,最容易出牛股的是高端铜箔

虎嗅APP
2026-05-13 20:38:12
CBA半决赛赛程公布!胡金秋伤势出炉,上海深圳占优,用外籍裁判

CBA半决赛赛程公布!胡金秋伤势出炉,上海深圳占优,用外籍裁判

老吴说体育
2026-05-13 23:35:39
22岁大学生连夜开车1300多公里,自费5200多元送校友回家奔丧!利川宣布:4人全年免门票,为该校学子提供见习岗位、实践平台

22岁大学生连夜开车1300多公里,自费5200多元送校友回家奔丧!利川宣布:4人全年免门票,为该校学子提供见习岗位、实践平台

极目新闻
2026-05-13 12:26:13
特朗普心腹来到北京,要求中国多买印度人造的波音飞机!

特朗普心腹来到北京,要求中国多买印度人造的波音飞机!

步论天下事
2026-05-13 09:46:03
5月14日,广东队传来3大消息:徐杰表态 萨林杰想降薪 奖金正常发

5月14日,广东队传来3大消息:徐杰表态 萨林杰想降薪 奖金正常发

锅锅爱历史
2026-05-14 14:09:35
菲律宾参议院枪声大作,杜特尔特和马科斯家族政治决战还未结束

菲律宾参议院枪声大作,杜特尔特和马科斯家族政治决战还未结束

心本来就不大
2026-05-14 14:31:30
小偷彻底失业了!根本不仅是监控多,而是偷东西不赚钱了

小偷彻底失业了!根本不仅是监控多,而是偷东西不赚钱了

猫叔东山再起
2026-05-14 10:15:08
海清自曝以第一名成绩考入北电,因班主任年仅二十五岁而心生怀疑

海清自曝以第一名成绩考入北电,因班主任年仅二十五岁而心生怀疑

小邵说剧
2026-05-14 07:49:11
形势已然大变!西方媒体集体改口:中国,无需再向世界证明什么

形势已然大变!西方媒体集体改口:中国,无需再向世界证明什么

小兰聊历史
2026-04-07 02:45:36
索尼发布2026年新品

索尼发布2026年新品

界面新闻
2026-05-14 06:49:18
樊振东拒绝回归原因曝光!王励勤不是没面子,而是小胖太想休息了

樊振东拒绝回归原因曝光!王励勤不是没面子,而是小胖太想休息了

郭揦包工头
2026-05-14 15:17:56
钱再多有什么用?2个女儿惨死3个儿子反目,资产1250亿也无人送终

钱再多有什么用?2个女儿惨死3个儿子反目,资产1250亿也无人送终

北纬的咖啡豆
2026-04-08 17:09:30
特朗普专机抵达北京!美两党126名议员警告,不能答应中国这件事

特朗普专机抵达北京!美两党126名议员警告,不能答应中国这件事

枫红染山径
2026-05-14 14:56:32
被指看起来很慈祥!迪丽热巴最新广告年龄感很明显,网辣评:老了

被指看起来很慈祥!迪丽热巴最新广告年龄感很明显,网辣评:老了

可乐谈情感
2026-05-14 08:53:46
5月横财运Top3:这3个生肖忙到起飞,月底数钱数到手软

5月横财运Top3:这3个生肖忙到起飞,月底数钱数到手软

毅谈生肖
2026-05-14 10:53:23
人活多久,看排汗就知道?寿命长的人,出汗一般有这5个特征!

人活多久,看排汗就知道?寿命长的人,出汗一般有这5个特征!

医学科普汇
2026-04-22 16:58:38
正式官宣!国乒亚运名单8人敲定,樊振东被弃用已确定,王皓发声

正式官宣!国乒亚运名单8人敲定,樊振东被弃用已确定,王皓发声

观察鉴娱
2026-05-14 10:13:32
30+8+6+3统治天王山!船记发文感慨:这就是要交易得到哈登的原因

30+8+6+3统治天王山!船记发文感慨:这就是要交易得到哈登的原因

体育见习官
2026-05-14 11:30:02
汪涵嚼槟榔被粉丝偶遇,网友:不是在嚼槟榔,就是在购买的路上

汪涵嚼槟榔被粉丝偶遇,网友:不是在嚼槟榔,就是在购买的路上

TVB的四小花
2026-05-14 12:44:38
美国对中国统一下达新结论:大陆只要按兵不动,越晚统一代价越小

美国对中国统一下达新结论:大陆只要按兵不动,越晚统一代价越小

华史谈
2026-05-13 08:49:26
2026-05-14 15:48:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
3179999文章数 7362关注度
往期回顾 全部

科技要闻

马斯克说会谈很顺利 黄仁勋点赞 库克比耶

头条要闻

男子称火车站走错口遭安检员追打 被认定互殴各拘5天

头条要闻

男子称火车站走错口遭安检员追打 被认定互殴各拘5天

体育要闻

登海报!哈登30+8+6创多项纪录 第8次赢天王山

娱乐要闻

肖战提名金海燕奖,这一步走得太稳

财经要闻

习近平同美国总统特朗普会谈

汽车要闻

云辇-P Ultra降维打击!三轮也能越野?方程豹豹8/豹5闪充版30.58万起

态度原创

房产
健康
手机
旅游
军事航空

房产要闻

海南楼市新政要出!拟调公积金贷款额度,最高可贷168万!

干细胞能让人“返老还童”吗

手机要闻

联发科官宣与iQOO开展了双方史上最深度技术合作

旅游要闻

别再只去寒山寺了!太湖边这座四百多年的古寺,趁没火赶紧去

军事要闻

美以伊战争期间以总理密访阿联酋

无障碍浏览 进入关怀版