网易首页 > 网易号 > 正文 申请入驻

Google I/O之后,AI的参照系变了

0
分享至


AI的下一个α在哪?

作者|景行

编辑|古廿

当前,Coding 时代的行业共识已经确立。

“尽管我们上调了Token价格,客户接受度依然很高,需求持续旺盛,甚至当前供应仍无法完全满足需求,仍有大量客户在排队等待服务。”

上周2026财年Q4财报会议上,阿里巴巴CEO吴泳铭用一番发言,道出Coding蛋糕的庞大。

AI终于从发布会走进了企业的生产预算,阿里解决了第一个问题:AI有没有真实需求?

第二个问题来自GoogleAI下一步会长成什么样?

北京时间5 月 20 日凌晨,Google I/O 2026如期开场。

这届大会的亮点,无疑是智能体与多模态能力的展示。在Gemini Omni Flash的发布中,Google对其有一段精确定义——支持任何模态的输入,生成任何模态的输出。


大会展示的视频输出只是一个开始,按照Google的规划,Omni有能力实现文图音视的全模态输出,并基于Gemini的世界模型能力,生成重力、动力更精确的物理效果。

对Google来说,Omni不再是一个视频模型,而是真正的超级内容创作入口,进而嵌入所有的创作者工作流程,创造一个比Coding想象空间更大的多模态应用市场。

相较编程,这是AI的真正富矿。从行业通用定价来看,每百万 tokens 的价格,视频模型要远高于图片和文本。这意味着,只要token调用量提升,视频将创造远超文本的API价值。

更重要的是,多模态正在迎来一个历史性的技术拐点。

对比早期文本模型+图像模型+视频模型的简单拼接模式,在2026年,以 Google Gemini Omni 为代表的统一基座全模态模型的出现,标志着行业即将进入一个全新的时代。


多模态,下一个Token拐点

OpenAI 首席执行官Sam Altman没想到的是,100万用户规模的成绩,发布初的ChatGPT要5天实现,GPT-4o图像生成只需要1个小时。

凭借高度还原的吉卜力画风,GPT-4o生图功能上线即爆红,OpenAI 不得不限制免费资格,并恳求用户不要再疯狂生图,让团队睡个好觉。

今年发布的图像生成模型Image 2,一小时全球新增用户破180万,再次打破GPT-4o纪录,一周时间内,全球活跃用户便超过1.2亿,带动ChatGPT Plus订阅量环比增长23%。

年初Google Nano Banana 2的发布,则实现了全球测试屠榜的盛况。产品将一张4K多细节图的生成时间,从分钟级压缩到秒级。

截至目前,Nano Banana系列累计生成图片已超过500亿张。媒体评价是,Google正在终结PS时代。

毫无疑问,颠覆级的多模态模型,拥有一锤定音的市场影响力。

在去年的Google I/O大会上,VEO 3一鸣惊人,切水果视频席卷了TikTok,仅用半年时间,生成视频总量就突破2.3亿条,有媒体撰文称,VEO 3挽救了谷歌的财报。

但更大的颠覆还在路上。

前几天有Reddit用户意外找到并分享了一则Gemini Omni的Demo,瞬间引爆了全球AI社区:

教师一边讲课,一边在黑板上写下公式,全程声音、画面、板书文字精确流畅,丝滑至极。

有X用户的评价是,视频模型的Nano Banana时刻要来了。

Gemini Omni的惊艳之处不仅于此,模型支持一键去除水印、替换物体并自适应光影,从演示效果看,其文字一致性、角色连贯性超越了过往所有视频模型。

跑出过火星文画面的AI用户都清楚,让AI做一个文字清晰准确的内容有多难,更不要说是数学公式,还是在课堂上边讲边写。

与VEO相比,Google Omni是真正意义上全模态输入、全模态输出的模型,支持用户通过任意模态内容混合输入,生成高质量的视频,同时支持对话编辑。

这意味着,Google Omni有能力将所有模态的分析与生成处理,在一个统一模型内部完成,而非调动多个系统后期整合。

按照Google的定义,Omni是Gemini主架构的进化,将Gemini从诞生起就具备的原生多模态能力,从输入端扩展到了输出端。

相比之下,VEO和Nano Banana并非独立产品,而是Omni身上的能力组件。

在现场演示中,Google高管展示了具体编辑场景——用户输入“把背景换成雪地”,模型就换掉视频环境;输入“改成从侧面跟拍的角度”,画面运镜就随之改变;输入“加上旁白”,视频就能生成解说及背景音乐。

自始至终,用户只要对话,就能像指挥员工一样修改视频,并精确到每一个细节,无需切换线程或重新上传。这就将VEO等上一代视频模型提示词生成、抽卡赌运气的模式完全改写。

DeepMind首席执行官德米斯·哈萨比斯则表示,未来Omni将能完成任意模态的输入及输出功能,入口覆盖Gemini应用、Google Flow和YouTube Shorts,更强的Omni版本会在后续推出。

背后Google的野心昭然若揭。它要做一个真正的世界模型,没有媒介限制,没有模态隔阂,AI 可以用任何人类能理解的方式,和世界进行交互,用一个模型定义AI的未来形态。

支撑这个野心的,正是全模态能力。

很多人没意识到,统一基座的全模态模型,其实在研发效率上更有优势。

在执行跨模态任务时,文本理解的提升,可以反哺图像和视频质量,让生成内容更符合逻辑;图像和视频的训练数据,又可以帮助模型更好地理解物理世界,提升文本推理和常识判断能力。

这是1+1>2的正向循环。也能解释为何杨立昆、李飞飞等大牛坚持认为,多模态世界模型才是AI的未来路径。

过去市场盯着Coding看,对多模态认知不足,这一思维范式正在被推翻。

摩根士丹利在近期研报中指出,Minimax的潜在价值被市场忽略,其ARR在2026年底将达到10亿美元。一个重要原因是,市场低估了多模态技术的商业价值,特别是大语言模型与多模态模型的相互促进。

这句话,点破了当前AI行业最大的视野盲区。


原生的五感全能战士?

看回国内市场,一轮技术驱动的增长正在酝酿中。

摩根士丹利指出,中国模型市场已经走到凸性爆发拐点,将复刻美国市场的超新星爆发速度。原因有二:一是模型能力已经接近甚至超越此前的美国头部产品,二是相比美国模型,中国模型定价普遍更有优势。

放眼国内市场,主要玩家的现阶段叙事逻辑高度趋同:争夺Claude平替这个生态位,再找独有优势,比如专攻长文本、专攻智能体、专攻推理,最后从订阅价格角度卷出优势,杀出红海。

但这并不是市场的全貌。

仍有玩家在技术路线上高度接近Gemini Omni的方向,有望率先在国内复刻这一生态位,就是Minimax

最近高盛发文将字节、阿里、Minimax三家并列,依据是中国独立AI厂商中,Minimax独一无二的全面全模态布局,以及其行业领先的高性价比、高灵活性计算架构。


高盛:中国多模态模型持续进军全球,关注Hailuo 3

按照高盛的预测,M3与Hailuo 3模型发布,将成为Minimax的重要里程碑,其文本API业务毛利率将达到40%,多模态API业务毛利率达到60-70%,高于同行水平。

瑞银则将Minimax的目标价设定为1000港元,原因是随着多模态能力潜力释放,不同模态间的协同研发,将带动训练成本的压缩,以及模型能力的快速提升。

换言之,多模态研发给Minimax带来的远不止产品矩阵,还包含更精细、高效的工程框架。这将令企业模型进一步降低门槛,从开发者向普通用户扩展。

摩根大通则给到Minimax“超配”评级,理由是“技术实力、多模态商业化潜力、全球可扩展性的罕见组合”。

Minimax不仅是国内唯一同时具备“文本+图像+视频+音频+音乐”全栈能力的独立大模型厂商,而且文本、语音、视频生成能力全部排在全球第一梯队。

过去的市场中,全模态很容易被误解成“功能表”,文本、图片、视频、语音、音乐,五个格子都打勾,就叫全模态。

但事实上,全模态的真正价值,不在于“能做什么”,而在于“这些能力能不能彼此增强”。这是先天路线选择和后天补丁式升级的本质区别。

视频生成就是一个最好的例子。

文本模型说自己理解物理世界,很难验证。你让它写一篇关于苹果落地的文章,它能写得头头是道,但你永远不知道它是不是真的理解万有引力。

但视频生成不一样,一秒钟就能露馅。手的位置对不对?物体运动的轨迹符不符合物理规律?镜头切换是否连贯?文字是否清晰准确?音画是否同步?一个地方出错,用户立刻能看出来。

这是对大模型理解世界能力的终极考验。不仅要更强的空间理解能力,还要因果推理、长程一致性和多对象关系建模能力。并反过来提升文本、Agent和工具调用性能。

换言之,统一基座全模态模型不是五个独立模型的简单相加,而是一个有机的整体。

这正是Minimax的路线,从M系列大语言模型,到海螺视频模型、Music音频模型,这种全模态自研+全模态落地的完整性,在国内独立AI企业中属于独一份。

这种底层颠覆性的先天一体路线,使Minimax能在更低成本下实现更流畅的全感官智能。

摩根士丹利测算,通过基础设施优化,Minimax在8卡H800推理服务器上,每分钟可产生约1美元收入,成本低于0.3美元,而行业平均水平只有约0.5美元/分钟。

招股书中有一段数据,成立以来,Minimax只花了5亿美元,就站上全球多模态能力第一梯队,这个费用规模,只有OpenAI的约1%。

文本大模型M2发布时在全球权威评测Artificial Analysis中,拿下开源第一的成绩,其综合推理成本也只有0.53美元/百万Token,只有Claude 4.5 Sonnet的8%,推理速度则是后者的两倍。

同时,在全模态模型的技术路线,Minimax有能力让文、图、音、视频能力协同迭代,突破迭代效率、训练成本与模型性能的不可能三角。

去年发布的Minimax的视频模型,仅用约一个月时间,已帮助全球创作者累计生成视频超过6亿个;语音模型则凭借全球顶尖的超低延时,累计生成语音超过2亿小时。

换句话说,凭借稳居全球第一梯队的多模态模型能力,Minimax模型早已成为全球多模态领域的核心基础设施。


Pure-Play的增长拐点

对于投资者来说,现在最关心的问题是:谁将在全模态的爆发中,成为下一颗新星?

答案很可能是展现出稀缺性资产质地的Minimax,其即将吃到三重历史性的红利。

第一重红利,是阿里巴巴MaaS业绩已经验证过的——Token量价齐升的行业β红利。

阿里巴巴2026财年财报显示,其包含百炼MaaS平台在内的AI模型与应用服务ARR(年化经常性收入)已突破80亿元人民币,到年底将突破300亿元。

吴泳铭用发言证明,Agent市场供不应求,卖方市场特征显著。背后,市场逻辑已经完全扭转。

摩根大通指出,当前市场主战场已经从Token价格转向模型能力,在需求高度强劲的背景下,最优策略不是降价,而是提升模型能力。技术方向与迭代速度更快的玩家,将站出来引领市场。

第二重红利,是Google全模态基座模型路线催化的,多模态估值重估的行业α。

过去纯文本模型公司享受了AI 行情的绝大多数估值溢价,而全模态基座模型将颠覆这一认知——所有需要视觉、听觉、空间感知的场景如教育、传媒、工业、医学、消费都有其施展空间,其商业上限将远超纯文本。

伴随超强理解能力的全模态基座模型问世,全模态将迎来一轮估值拐点。

第三重是作为中国独立AI企业,Pure-Play的估值弹性红利。

大厂的AI业务往往被稀释在巨量营收里。阿里的MaaS收入占比仍在低位,字节的AI能力被分散在多条产品线中,市场的估值锚点很难精确对应到AI业务上。

但Minimax的模型能力就是主引擎,收入全靠模型本身,没有被任何其他业务稀释。这样的纯度差异,会显著放大增长曲线的斜率。

这意味着,当大模型行业爆发时,Minimax的业绩弹性也会更大。

换句话说,阿里巴巴证明了行业β成立,逻辑闭环;谷歌将推动全模态技术路线的α;而Minimax承接的,是中国AI独一份的又一重α。

而即将发布的模型升级,将是这场重估的冲锋号。

在2025年财报会议上,Minimax创始人兼CEO闫俊杰明确透露,今年上半年发布的M3及Hailuo 3相关模型,将迈入中长篇生产级内容的直接生成阶段,届时将把平台的Token需求量,再带上一至两个数量级。

摩根士丹利则表示,M3有望匹敌世界顶级模型性能,并展现多模态理解能力。

Hailuo 3则有望复刻Seedance2.0的生态位。高盛表示,海螺下一代模型将在音视频同步、编辑能力、多分镜生成领域实现质变,同时降低普通用户的制作门槛。

更重要的是,Hailuo 3将是 Minimax 全模态基座的一部分。这意味着,Hailuo 3的技术路径将是与文本、图像、音频能力无缝融合,实现更加复杂的多模态任务。

不久后,我们将看到中国在全模态基座模型方向上,最接近Google理念的新的尝试。

正因如此,顶尖投行普遍认为Minimax是当前AI行业最具投资价值的标的之一。作为国内唯一一家全模态的独立大模型厂商,不仅技术路线最接近 Google,同时增长潜力尚未完全释放。

当M3 和 Hailuo 3 的发布窗口日益临近——Minimax 的稀缺性正在从"技术叙事"变成"财务现实"。待行业重估验证、新一代模型发布后,市场的判断可能会完全不同。



特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
麦当娜的风流往事:他的欲望太强,让她疲惫不堪又欲罢不能

麦当娜的风流往事:他的欲望太强,让她疲惫不堪又欲罢不能

钱小刀娱乐
2026-04-17 11:24:32
70万海归挤破头回国,一句“我们不承认”打回原形,董明珠说对了

70万海归挤破头回国,一句“我们不承认”打回原形,董明珠说对了

大鱼简科
2026-06-04 14:55:45
中国女排战报!第2局24-22被逆转:连丢4分先赢后输,泰国1-1追平

中国女排战报!第2局24-22被逆转:连丢4分先赢后输,泰国1-1追平

刘姚尧的文字城堡
2026-06-04 20:41:31
两名日方人员在吉林处理日军遗弃化学武器时手臂不慎染毒 中方立即进行诊疗并送医

两名日方人员在吉林处理日军遗弃化学武器时手臂不慎染毒 中方立即进行诊疗并送医

闪电新闻
2026-06-04 20:30:22
奇诚庸:韩国队能组织进攻的球员寥寥无几,与日本差距太大了

奇诚庸:韩国队能组织进攻的球员寥寥无几,与日本差距太大了

懂球帝
2026-06-04 16:22:21
小仙女段子看多了,花重金买商务舱只为遇到霸道总裁,结果太炸裂

小仙女段子看多了,花重金买商务舱只为遇到霸道总裁,结果太炸裂

今朝牛马
2026-06-03 21:40:33
华为正式表态感谢美国,Mate90系列提前上线,麒麟2026彻底逆袭

华为正式表态感谢美国,Mate90系列提前上线,麒麟2026彻底逆袭

小柱解说游戏
2026-06-04 15:21:37
河北固安突降冰雹近半小时,街面似被冰雪覆盖,当地居民:活了四十年头一次见

河北固安突降冰雹近半小时,街面似被冰雪覆盖,当地居民:活了四十年头一次见

极目新闻
2026-06-04 17:58:29
国羽3连败!混双新组合被逆转,2项剩独苗,李诗沣惨败,被轰21-6

国羽3连败!混双新组合被逆转,2项剩独苗,李诗沣惨败,被轰21-6

刘姚尧的文字城堡
2026-06-04 19:50:41
菲律宾要抢占安理会席位,中俄达成一致,把票投给菲律宾“对家”

菲律宾要抢占安理会席位,中俄达成一致,把票投给菲律宾“对家”

石江月
2026-06-03 17:12:32
6月1日起每月发300元,连发4个月!国家强制发,符合条件就能领

6月1日起每月发300元,连发4个月!国家强制发,符合条件就能领

李博世财经
2026-06-04 14:21:32
“同样是中国空调,差距怎么这么大?”男子晒马来西亚安装照

“同样是中国空调,差距怎么这么大?”男子晒马来西亚安装照

一丝不苟的法律人
2026-06-02 19:50:45
14岁李昊炎加盟巴萨!135名球迷凑1.35万奖学金 委托董路转交

14岁李昊炎加盟巴萨!135名球迷凑1.35万奖学金 委托董路转交

念洲
2026-06-04 21:03:06
背完这5句口诀,五行、八卦、天干、地支全搞懂,胜过翻10本书!

背完这5句口诀,五行、八卦、天干、地支全搞懂,胜过翻10本书!

老达子
2026-06-03 06:30:03
黎玉曾任山东省委书记,献巨额黄金拥重兵,建国后境遇骤降

黎玉曾任山东省委书记,献巨额黄金拥重兵,建国后境遇骤降

磊子讲史
2026-06-02 14:24:51
1989年安徽拍戏,25岁巩俐零替身出演,这片凭啥成经典

1989年安徽拍戏,25岁巩俐零替身出演,这片凭啥成经典

手工制作阿歼
2026-05-27 00:05:04
贵州女子刚生产完,丈夫冲到产房将其脑袋砍下:她死有余辜

贵州女子刚生产完,丈夫冲到产房将其脑袋砍下:她死有余辜

莫地方
2026-06-04 01:45:03
信号极其危险,战死兜底机制都出来了,日本做好大规模战争准备了

信号极其危险,战死兜底机制都出来了,日本做好大规模战争准备了

罗富强说
2026-06-04 13:37:07
"三哥,你尾款我不要了!"中国外贸人反杀印度老赖,招招绝了!

"三哥,你尾款我不要了!"中国外贸人反杀印度老赖,招招绝了!

明天后天大后天
2026-06-04 00:22:08
当不成总统了?特朗普体检报告被曝,快80岁的他,或将被迫下台

当不成总统了?特朗普体检报告被曝,快80岁的他,或将被迫下台

人间无味啊
2026-06-04 00:38:33
2026-06-04 22:36:49
市象 incentive-icons
市象
研究真问题,书写真洞察。
482文章数 26关注度
往期回顾 全部

科技要闻

历史最大IPO!马斯克下周冲击万亿富豪

头条要闻

60节火车皮价值千万玉米"不翼而飞" 法院:实际未装车

头条要闻

60节火车皮价值千万玉米"不翼而飞" 法院:实际未装车

体育要闻

欧冠决赛躺赢?他也曾是大巴黎的英雄

娱乐要闻

难怪奚梦瑶能嫁入豪门

财经要闻

SpaceX发行价135美元 6月12日上市交易

汽车要闻

北京现代5月销量强势反弹:国内17065辆 出口环比翻倍

态度原创

家居
时尚
亲子
教育
公开课

家居要闻

220平对味儿家 空间情绪宅

「与美偕行」高端访谈EP4 | 以个性化赋能自信,重塑医美专业价值

亲子要闻

我太了解妈妈了~

教育要闻

中考前一周,家长最该做的5件事(不是催孩子刷题)

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版