AI开源狂飙,OpenAI们慌了!GenAI大洗牌,2025趋势深度解读
来源:新智元
【导读】2025年,ChatGPT依旧领跑,但DeepSeek、Qwen等开源劲敌正加速追赶。从「推理革命」爆发到 DeepSeek开源,一场围绕算力、架构与生态的战争已悄然打响,开源势力正以星星之火之势挑战闭源巨头。
2025年,AI江湖风云再起!
第一季度过去了,OpenAI仍然处于全球领先地位。
但其他公司正在迅速追赶,尤其是国内开源AI模型紧追不舍,且接近顶尖水平。
独立机构Artificial Analysis,发布了2025年第一季度AI报告,总结了六大趋势,涵盖技术突破与市场格局演变。
报告亮点如下:
过去两年中,GPT-4级别推理成本下降了1000倍。
三大驱动力引发AI成本革命:更小的模型、推理优化和新一代硬件。
目前,智商天花板全是推理模型,但非推理模型还是性价比之王。
现在的AI能自主浏览代码库、创建文件、写代码、跑测试,不止补全代码。
多模态和智能体让AI从「单一工具」变成「全能助手」,离日常生活越来越近。
根据Artificial Analysis的官方分析,2025年初的AI有六大定义性结论:
1.前沿AI竞赛持续升温:顶级实验室正以每8-12周的速度推出新模型。
OpenAI仍处于领先地位;在其身后,不仅有谷歌和Anthropic等传统挑战者,xAI、DeepSeek和阿里也已加入,形成了紧密的追赶梯队。
2.推理模型投入实际应用:那些「先思考后回答」的模型,牺牲了一定的速度和成本,换取了更高的智能水平,使用的token数量和成本是非推理模型的10倍左右。
3.MoE模型已无处不在:混合专家模型(MoE)在为每个生成的token进行计算时,仅激活其总参数不到10%。目前,大多数顶级的开源权重模型均采用了MoE架构。
4.中国顶级实验室差距显著缩小:DeepSeek等中国公司正纷纷推出极具竞争力的模型,并常常选择公开模型权重。
5.AI智能体走向实用化:由LLM驱动、能自主行动并使用工具端到端完成任务的系统,正开始在实际工作中显现成效。新兴的AI智能体类别包括编程智能体、深度研究智能体(Deep Research Agent)以及计算机辅助使用智能体。
6.大语言模型原生支持多模态:大语言模型如今的输出已远不止于文本。GPT-4o目前在图像生成方面独占鳌头,同时各类语音到语音(Speech to Speech)模型也已相继问世。
AI大洗牌
推理模型称王
2024年末,OpenAI利用大规模强化学习训练的推理模型o1,将性能差距彻底拉开,颠覆了全球AI格局。
OpenAI全球领先,但竞争对手紧追不舍
如今,Llama Nemotron Ultra、Qwen3等开源模型,已成燎原之势。
私有模型和开源模型的差距变化
推理模型能够逐步拆解任务、自我校验,尤其在复杂问题如数学推理、研究辅助中表现出明显优势。
比如,Gemini 2.5 Pro遇到问题会先拆解步骤、自我纠错,像解数学题一样一步步来,虽然花21秒,输出1967个token,但答案准;而非推理模型(如GPT-4o)4秒输出185个token,结果答错了。
可以看到,在目前的Artificial Analysis智能指数中,最聪明的全是推理模型。
其中,o4-mini(high)排名第一,谷歌Gemini 2.5 Pro和Grok 3紧随其后。
开源模型(如DeepSeek R1、Qwen 3、Llama 3.1)性能虽然落后闭源模型,但两者非常接近。
「高情商」的推理模型,背后是高成本:要达到相同的性能,推理模型要使用非推理模型10倍以上的输出token!
尽管在效率方面取得了显著进展,推理速度比过去更快,但推理模型和智能体应用每次请求生成的token是过去一年平均水平的10多倍。
综合下来,用户反而要等待更长的时间。
LLM输出速度变化
非推理模型也没被淘汰,需要快速响应或省钱的场景,还是性价比之王。
开发者不能仅看单token定价,还需综合考虑token总使用量,才能准确评估推理成本。
实际上,如今的顶级AI模型参数规模更大,每次请求需要的token数总更多,现在的AI应用需要更多的算力。
因此,最新的模型开始探索如何在智能和成本之间取得平衡。
其中,最引人注目的进展来自架构上的权衡优化。
Epoch AI对每种算法进步的计算等效增益的估计
混合专家
省钱又提速
在本月中旬,DeepSeek创始人梁文峰署名的新文章,全面介绍了DeepSeek-V3的设计灵感和洞见。
DeepSeek-V3的混合专家(MoE)架构,如今已无处不在。
DeepSeek-V3基本架构
传统模型像全科医生,不管啥问题都调动全部知识;MoE像专科门诊,遇到不同问题找对应的专家(激活部分参数)。
如果说全连接模型是「广撒网捕鱼」,MoE则是「精准出击」,不仅能减少参数激活量,还大幅提升推理效率。
近期开源的前沿模型越来越多地使用MoE架构,每次输入仅激活部分参数。
前沿模型采用更稀疏的MoE设计,仅激活不到10%总参数,早期模型通常激活约25%的参数。
在推理和训练上,参数规模相同的MoE模型比稠密模型更高效。
此外,英伟达是算力领导者,Cerebras、SambaNova、Groq这些新玩家将「芯片+云服务」打包卖,通过垂直整合提供高性能推理,输出速度更快。
但开发者需要在性能、成本和上下文窗口之间权衡。
虽然服务速度更快,但这些芯片新玩家有时比其他服务商价格更贵,且上下文窗口更短。
智能体
自主干活的「虚拟员工」
智能体是2025年AI领域的重要趋势。
凭借LLM的推理能力,通过高效的工具使用和自主流程管理,大幅提升了任务完成的效率和智能化水平。
它们能自主完成复杂任务,尤其是编程、深度研究、操作计算机和客户支持。
从自动补全(2021年)到现在能自主浏览代码库、创建文件,比如让它搭个OAuth认证系统,它能自己写代码、跑测试,还能告诉你改了哪些文件。
比如问「AI对就业的影响」,它会自己拆分问题、查资料、整合答案。还能批量处理表格,打工人看了想流泪。
原生多模态
图像、视频、语音全面升级
OpenAI的GPT-4o画出的图又逼真又贴合需求。
字节跳动的Seedream 3.0、MiniMax的HiDream-I1-Dev一发布就冲进第一梯队。
以前OpenAI的Sora是视频界扛把子,现在谷歌Veo 3超越了它,MiniMax和快手也推出了能追上Sora的模型。
ElevenLabs的Scribe模型把语音转文字的错误率降到8%,比OpenAI的Whisper还准;文本转语音也更像真人了。
大型科技公司持续在所有领域全面发展,而较小的竞争者通常专注于特定的AI领域。
谷歌是AI价值链中垂直整合度最高的企业(从TPU加速器到Gemini模型);NVIDIA、微软、亚马逊等在硬件、云推理和应用层各有侧重。
未来AI会怎么发展?大概率会更全能、更聪明,也更接地气。
说不定下次开会,你的会议纪要就是AI智能体帮忙写的。
开源
大势所趋
随着越来越多的企业在业务中构建和部署AI驱动型解决方案,日益丰富的开源技术正成为首选,包括Meta的Llama系列、谷歌Gemma系列、艾伦人工智能研究所Ai2的OLMo系列、英伟达的NeMo系列、DeepSeek-R1等众多选择。
Mozilla基金会等机构联合开展了一项开创性调研,覆盖41个国家700多位技术负责人和资深开发者。
调研结果显示,企业在AI工具选择上日益偏向开源方案:
总体而言,超过四分之三的受访者预计他们的组织将在未来几年内增加对开源人工智能技术的使用。
这在一定程度上得益于开源工具在企业软件生态中的活跃表现,且长期以来始终是开发者社区的基础资源。
在Sequoia合伙人Lauren Reeder主持的一场圆桌讨论,揭示了关于开源AI模型当前状况和未来趋势的诸多关键见解。
目前在OpenRouter平台上运行的推理任务中,只有大约20%-30%使用的是开源模型。尽管如此,与会者对未来的增长充满信心。
本月OpenRouter的token使用总量排行榜
当被问及五年后开源与闭源模型在推理任务中的占比预估时,Jeffrey和Dmytro认为开源AI将和闭源AI分庭抗礼。
Jeffrey预测开源与闭源将各占一半,但也提到可以在开源与闭源模型之间智能切换的技术。
Dmytro也倾向于50/50的预测,但他指出开源生态将更加多样化:「闭源可能仍由少数几家主导……而开源则不会只有一个模型,会是更多的模型家族、微调版本和定制化方案。」
独立机构Artificial Analysis最近的报告,也印证类似的AI发展趋势。
Artificial Analysis认为虽然闭源推理模型整体上领先,但开源模型和闭源模型与2022年相比,差距已经变小。
而在非推理模型方面,开源模型反而比闭源的商用模型更具优势。
特别是国产开源AI模型,已经成为一股不容忽视的力量。
参考资料:
https://x.com/ArtificialAnlys/status/1924845419315777572
2030年前必须实现AGI!谷歌祖师爷现场「催更」DeepMind CEO
【导读】在谷歌I/O大会后,创始人谢尔盖·布林惊喜现身,与Hassabis深入探讨AI的推理能力、规模与算法、测试时计算及多模态智能体的应用前景。布林强调AI时代是计算科学家不应退休的黄金期,AI影响将远超互联网与手机。
谷歌的I/O大会证明蓝星的科技正统还在谷歌。
除了发布Gemini 2.5最新版本继续遥遥领先OpenAI的奥特曼以外,还掏出两幅眼镜来拳打苹果,脚踢Meta。
会后还把谷歌的「开山老祖」谢尔盖·布林(Sergey Brin)请了出来,逼Demis Hassabis赶紧在2030年前(也就5年内了)实现AGI。
主持人:AGI在2030年之前实现还是之后?
布林:好吧,如果你真以此为线的话,我认为是在之前实现吧。
Hassabis:我说之后吧。
两人相视一笑。
Hassabis:那我得回去努力的工作了。
谷歌I/O大会后,Demis Hassabis和谢尔盖·布林被叫到一起聊了一会。
涉及到AGI可能的实现日期、建立更多的数据中心、测试时计算让模型的能力更强、谷歌眼镜的时机成熟以及谢尔盖·布林为何选择这个时机重返谷歌。
谢尔盖·布林认为当前时期是人类最为特殊的一个时期,他认为:
现在任何的计算机科学家都不应该退休,而是要加入到AI研究中来。
人类世界还从来没有出现过如此大的机遇和技术突破。
谢尔盖·布林可以说是互联网1.0时代的缔造者和2.0时代的见证者,但是他依然认为AI时代会完全不一样。
网络和手机已经改变了世界,但是AI将会带来更大的变革,尤其是想到AGI的到来。
主持问谢尔盖·布林假如回到谷歌后,每天的工作是什么,谢尔盖·布林说我每天的工作就是「折磨」像Hassabis这样的人来早日实现AGI。
下面就来看看布林和Hassabis的高能对话。
规模与算法之争
访谈一开始,主持人Alex提出了最近大家一直在讨论的「规模」问题:模型的规模是主要因素还是只是个「配角」?
Hassabis认为数据规模与计算规模两者缺一不可,目前还没有发挥到极致。
但他同时认为也得投入大量精力去探索未来的突破,「可能在半年到一年后会有创新,能带来10倍的飞跃。」
布林也认为,算法的进步和计算能力的提升缺一不可。
更好、更多的芯片、更大的数据中心,这些都很重要。布林猜测,算法的突破可能比计算能力的提升更关键。
「不过现在两者都在快速发展,我们正在享受双重红利。」他说。
Hassabis说我们还需要更多的数据中心,不仅仅是为了训练,大家对模型的需求也非常大,比如Gemini 2.5 Pro。
尤其是最新的Gemini 2.5 Pro「Deep Think」模式,给它更多思考时间,表现会更好。
「这确实需要很多芯片支持。」
推理范式:测试时计算
推理模型已经成为当前AI的主流范式。
实验以及模型已经证实,更多的测试时计算,即给予模型更多的时间「思考」,在传统大型语言模型(LLM)上加入推理机制能带来提升。
推理范式带来的改进有多大?
Hassabis表示他一直很相信这种「思考范式」。
回顾谷歌早期在AlphaGo和AlphaZero上的工作,以及在游戏领域的智能体研究,这些系统都有一个「思考」属性。
这个效果是可以量化的。
以象棋或围棋为例,Hassabis说他们测试过关闭思考功能的AlphaGo和AlphaZero版本,模型只会直接给出第一个想法,表现也就大概是大师级别。
但一旦开启思考功能,表现就远超世界冠军级别,差距大概有600分。
这在游戏中已经很显著了,而现实世界比游戏复杂得多,加入思考范式的潜力可能会更大。
当然,测试时计算的挑战在于这种对比测试中的基础模型需要首先是一种「世界模型」,这比建一个简单游戏模型难得多。
就像Gemini一开始就选择走多模态的路线,虽然当时文本模型如日中天,但是谷歌DeepMind还是决定做正确但艰难的决定。
谢尔盖·布林说DeepMind确实在强化学习方面开创了很多先河。
他举了个例子,就像我们大多数人一样,思考后再说话总是有好处的,虽然我们并不经常这么做。
AI一旦有了这种「思考」能力,显然会变得更强大。
谢尔盖·布林觉得我们现在才刚触及冰山一角。
这些推理模型真正出现还不到一年(DeepSeek-R1是今年2月的事情)。
关于世界模型,Hassabis也提到了I/O大会上刚刚发布的Veo 3。
Veo 3能直觉地理解光线和重力的物理规律,以前制作电脑游戏,记得那时候得手动编程所有的光影效果、物理计算,超级复杂。
现在模型居然能自己「领悟」这些,真的很不可思议。
AGI
提到AGI,Hassabis认为这更像是一个理论上的概念:它指的是人类大脑这种结构本身,到底具备什么样的能力?
人类大脑之所以是一个重要的参照点,是因为它可能是宇宙中唯一证明了通用智能存在的证据。
那么,要达到这个标准,就必须证明系统能够做到那些历史上最杰出的人类——比如爱因斯坦、莫扎特、居里夫人等等——能够做到的各种事情。
Hassabis说,现在的系统显然还没到这步。
另外,他也觉得AGI的炒作有点过头了。因为现在的系统还不够稳定,不足以被称为「通用」。
它们能做很多事情,但你很容易在几分钟之内就能发现一些显而易见的缺陷。比如解不出一道高中数学题,或者玩不好某些简单的游戏。
对于Hassabis而言,一个系统要想被称为AGI,需要在各个方面都表现得比现在稳定一致得多,也许得让一个专家团队花上好几个月才能在里面找到一个明显的漏洞。
「而现在呢,普通人几分钟就能发现问题了。」
接着主持人问了一个更适合布林的问题:AGI会是一家公司「一统江湖」,还是谷歌、OpenAI、Anthropic等等人手一个?
布林说这是个好问题。他认为AGI不是一个特别精确的点,可能会有多个玩家同时接近那个水平。
之后会咋样呢?很难预测。
布林认为,AI领域现在竞争很激烈,一旦一家公司有了突破,其他公司很快就会跟上。这种竞争会让更多公司跨过门槛。
主持人Alex比较感兴趣的问题则是:AI需要有情感才能算是AGI吗?
Hassabis觉得AI可以理解情感,但是否需要模仿情感,需要选择。
Alex接着提到他上周看到Alpha Evolve的新闻,「吓得差点从椅子上掉下来。」
这个AI能帮助设计出更好的算法,甚至改进大模型的训练方式。
「你是想搞个『智能爆炸』吗?」他问Hassabis。
Hassabis大笑着说,这是个很有趣的实验,把进化编程技术跟最新的基础模型结合,确实有意思。
他希望看到更多组合式的探索。
确实,自我改进式的发现可能会让事情加速。
Hassabis之前在AlphaZero上见过类似的事情。它能从零开始,在不到24小时内自学国际象棋、围棋等双人游戏。
不过,那些都是规则清晰的游戏领域。现实世界则复杂得多,这种方法到底能不能更通用,还得看。
布林重回谷歌
主持人Alex问到布林,现在有很多很厉害的AI,大家都在赛跑,这就是你回谷歌的原因吗?
正如开头所说,布林说作为一个计算机科学家,现在是个很特别的历史时刻。
「任何一个搞计算机科学的人,现在都不应该退休,应该投身AI。」
布林说他重回谷歌倒不是因为竞赛——虽然他们绝对想让Gemini第一个实现AGI,但能参与这场技术革命,就足以激动人心了。
「我经历过Web 1.0,那会儿觉得挺激动,后来还有移动互联网什么的,也挺热闹。但AI从科学角度看,兴奋度完全不是一个级别!」布林说。
他认为AI对世界的影响会比网络和智能手机大得多。网络和手机已经改变了很多,但AI的变革会更彻底。
布林调侃他在谷歌的主要事情是「折磨」像Hassabis这样的人。
他表示自己每天都与Gemini文本模型、预训练、后训练的工作团队混在一起,偶尔也会掺和一些多模态的工作,比如Veo 3。
关于智能体
其他的科技公司做智能体,展示的通常是能理解上下文、语音交互、主要在屏幕上操作的系统。
但谷歌的演示常常是通过摄像头,特别强调视觉。
对此,Hassabis解释说DeepMind一直都对智能体很感兴趣,目标是打造AGI。
显然,这种智能体得理解你周围的世界。
在Hassabis看来,这有两个超级重要的应用场景:
一个真正有用的助理。能在你的日常生活中跟着你,而不是困在电脑或者某个设备上。它得在各种场景下都好用,理解你的物理环境。
机器人。随着最新版本的Gemini 2.5 Pro及即将推出的视频技术等,Hassabis觉得终于有了让机器人真正「开窍」的算法了,能够释放出巨大的潜力。
最终,AGI能做到所有这些事。
DeepMind一开始就定下了这个方向,所以Gemini从最早的版本就是多模态的。
「一开始做多模态比纯文本难多了,但现在我们开始看到回报了。」
关于谷歌最新的「八卦消息」
在这次采访中,谢尔盖和Hassabis也分享了一些关于谷歌的其他消息。
谷歌眼镜:时机成熟了吗?
虽然苹果发布了AppleVision,Meta发布了Meta Rayban,但要说起来第一家搞智能眼镜还是谷歌。
谢尔盖·布林承认那个时候犯了很多错误,谢尔盖说最大的问题是第一代的谷歌眼镜「太不像」眼镜。
现在的AI眼镜就没有过去那个复杂的臃肿的部分。
而且确实当时存在比较大的技术壁垒,2013年发布第一代谷歌眼镜时,大模型连影子都看不到。
另一个方面就是谢尔盖·布林承认他当时对电子供应链一无所知。(这就不得不想到库存大师库克,苹果后来的成功很大一部分真的是依赖于库克的供应链能力。)
现在谷歌在I/O发布了Android XR系列的AI眼镜,一个是对标苹果Apple Vision Pro的头戴设备,一个是对标Meta的正常眼镜。
Hassabis赶紧安慰老板,谷歌过去在玻璃眼镜上的经验都很有帮助,他们准备在产品完全准备好以后,再进行发布。
Hassabis解释说,为什么现在推出谷歌眼镜的时机成熟。
因为通用AI助手才是智能眼镜的杀手级应用,过去即使是硬件准备好,但是软件不够用。
而现在「模型即产品」的大模型能力加上越来越成熟的硬件技术,真正的智能眼镜马上就会到来。
数据管理
Hassabis也提到谷歌对于数据管理是非常严格的。
谷歌给他们所有的AI生成的视频都附加了一种隐形水印,可以用工具检测出来,并且这个工具也会同时公布出来。
这对于打击虚假和深度伪造信息非常重要。
最后主持问谢尔盖·布林,你觉得十年后的网络会是什么样子?
不管是谢尔盖还是Hassabis都觉得按照现在AI的发展速度,没有人能够想象10年后会是什么样子。
回望互联网走过的这三十年,似乎一切都是为了AI的到来做准备,是否人类是活在一种更高维生物制定的「模拟」之中?
Hassabis是如此认为的,他觉得物理学的终点就是信息论,人类生活在一个计算模拟宇宙之中,但目前还无法解释。
他说他将会在未来写一篇文章来介绍这么多年AlphaGo、AlphaFold以及AlphaEvolve系列真正意味着什么,以及他对模拟的看法。
谢尔盖说如果人类生活在模拟之中,那递归的想,模拟人类的物种也生活在另一个模拟之中,那么这个系统将无限递归下去,所以需要一个停止标准,但这个标准是什么?所以他并不认为人类活在这种模拟中。
从另一个角度,如果真的有一个比我们更高级的智慧生命在操纵人类,他具备某种和人类相似的欲望和意识,谢尔盖说如果现实真是这样,他还是挺失望的。
也许AGI的最终实现能帮他回答这个问题。
参考资料:
https://www.youtube.com/watch?v=M2ZtBQI2-GY&list=PLADd6sStSis77HKfbf4KCY6SvthfxeUgn&index=2
来源:新智元
为伟大思想而生!
AI+时代,互联网思想(wanging0123),
第一必读自媒体
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.