网易首页 > 网易号 > 正文 申请入驻

开源模型三城记

0
分享至

赶在WAIC结束后,抢在OpenAI发布GPT-5前,北京的智谱开源了新一代大模型GLM-4.5。仅在今年7月更新的开源模型,至少还包括了K2、Qwen3-2507系列、Qwen3-Coder、Wan2.2、Step-3,霸占了榜单的整个头部。这是中国与美国在AI领域的前沿竞争,也是北京、上海与杭州自己的三城演义。

美国发布AI之后,紧接着中国举办了一届规模空前的WAIC,展示中国将加快向全世界部署开源AI。而美国越来越忌惮中国的开源技术栈,无论是白宫的开源AI策略、OpenAI推迟发布的开源模型,还是Meta斥巨资打造超级AI梦之队后给Llama带来的悬念,在开源领域,美国遭遇的可能是又一个电动车的故事,至少榜单已经开始雷同了。

DeepSeek启动了中国开源模型的飞轮效应,引也发了一波又一波的价格战。开源模型就像是另一个在产业政策推动下处于“飞轮与内卷”中的行业。它们在全球争夺各种性能测试榜单最后那些百分点,展示各自的城市的雄心。

开源之都,继续开源

杭州最先举起了开源的大旗,从互联网之城向AI。前阵子黄仁勋在他,将它称为“中国的硅谷”,下次一定要去看看。

自年中开源Qwen3以来,阿里巴巴已经陆续更新了统一多模态理解与生成模型Qwen VLo、编码模型Qwen3-Coder,以及升级版的基础模型Qwen3-2507系列,最近又发布了全球首个开源MoE视频生成模型。此外,阿里巴巴还悄悄分享了中文方言的合成模型Qwen-TTS与支持92种语言的互译模型Qwen-MT。不少都集中在。

其中,Qwen3-Coder的旗舰模型,性能足以对标Claude Sonnet-4。它的总参数高达4800亿,每次激活350亿参数,最大的创新之一,在于具备智能体功能,一条命令接管整个代码仓库,实现“在世界中自主编程”。但它的平均价格只是Claude 4的1/3。如果还嫌贵,可以自己部署。Perplexity首席执行官Aravind Srinivas直呼“开源正在取胜”,HuggingFace首席执行官Clement Delangue更是在X上刷屏推荐。

Wan2.2则首次将MOE架构引入了视频生成。以往,视频生成消耗远高于文本与图像的token,采用MOE架构,可以使模型在推理成本几乎不变的前提下,提升总参数规模。它其实是一个双专家设计。Wan2.2先是将任务交给多个高噪专家构建主体结构,然后再由低噪专家补充细节。阿里团队还在训练中引入了电影工业标准的美学数据,包括光影、镜头与色彩。

开源不仅意味着技术创新,也意味着产品策略更切近社区。与不少模型厂商将“快思考”与“慢思考”整合到一起不同,这次阿里在更新基础模型Qwen3-2507时,仍然区分了非思考版的Instruct与推理版的Thinking。这是基于“与社区沟通和深思熟虑”后的决策。

目前,尽管外面吵得火热,DeepSeek仍然保持平静,只是在儿童节前悄悄丢了一个更新版的R1-0528,让人会更具“雄心”与“真诚”。DeepSeek领先的MOE、GRPO等技术,已经被对手超越;这个世界上唯一在前沿竞争却又不在乎商业化的AI实验室,也许有足够的定力,在GPT-5发布之后再度出手。

上海与北京紧跟

上海与北京加入开源的三城演义,是被DeepSeek逼出来的。从AI分析机构Artificial Analysis的前沿模型智能趋势就能发现,无论是上海的MiniMax,还是北京的月之暗面或智谱,首个纳入统计的模型都出现在2025年后。尤其是北京的两家,更是首次亮相。好在,它们正在迅速追齐。

上海的MiniMax与北京的月之暗面,一直都是市场“拱火”对象。去年,媒体攒局让两家的投资者坐在一起,尽诉分歧。结果,自去年底DeepSeek激活了开源模型的竞争后,两家初创企业至少在开源路线上达成了一致,迅速卷了起来。年初,MiniMax开源了MiniMax-01,月之暗面发布了K1.5;最近,MiniMax,拿出了长上下文推理大模型M1,月之暗面则拿出了的K2。

竞争太过激烈,月之暗面先开源了K2,上周才发布它的技术报告。除了之前已经披露过的更少的注意力头,更多的专家的MOE架构创新,以及与之配合的自研MuonClip优化器与QK-Clip技术,报告还揭示了更多训练细节。为了解决高质量数据不足的问题,提升每token有效学习信号,K2在训练中采用了重述法(rephrasing),把原始文本改写成不同的表达方式,让大模型多学几遍,同时又不至于过拟合,效果高出同一内容重复相同遍数约5个百分点。重述是自动化流水线(pipeline)的。

K2还引入了自我批评奖励机制,增强了对复杂、难以直接验证任务的处理能力,相当于扩展了,这也是扩展AGI能力边界的关键。

在WAIC前夜,上海的阶跃星辰则拿出了旗舰基础模型Step 3。这个3210亿总参数规模,每次激活380亿参数的模型,在多项基准测试中表现突出,阶跃星辰称之为“最强开源多模态推理模型”。作为推理模型,它具备视觉能力。多模态也正是阶跃星辰最擅长的,CEO姜大昕称,多模态领域也开始向强化学习过渡。这款模型将在7月31日正式开源,接受开发者在真实应用场景中的试用与评价。

为开发Step 3,该团队采用了AFD技术,也就是让注意力(Attention)模块与前馈神经网络(FFN)解耦为专门的子系统,更好地适应不同的硬件配置和性能需求,优化解码效率。在知乎上,该团队员工Yibo Zhu进一步解释称,DeepSeek之前提出的DeepEP(适用专家并行的数据库)方案,本质上就是AFD的特例;对于国产芯片设计来说,AFD技术也降低对单个芯片的高性能的过度依赖。

在WAIC结束后,智谱也加入了进来,开源了旗舰混合推理模型GLM-4.5与GLM-4.5-Air,以及这两个模型的基础模型(Base)与向量化版本(FP8),均采用MIT开源许可证发布,可用于商业用途和二次开发。GLM-4.5拥有3550亿总参数量,其中320亿活跃参数;GLM-4.5-Air更轻巧些,拥有 1060亿总参数量,其中120亿活跃参数。可以说是用更小的参数规模实现了相当水平的智能水平。除了比主流大模型更便宜,它的生成速度最快可至100tokens/s,超越了其他模型。此外,与Qwen3-Coder或K2类似,GLM-4.5也是一款智能体友好的模型;这是一大趋势。

三城演义与地缘竞争

阿里巴巴选择开源,无论是在技术路径上还是商业模式上,都与它云巨头的身份相契合。阿里云创始人王坚认为,与其他大多数生意都是“从商业出发”,用技术来支持商业不同,云计算必须是“先有技术”,而且也不是所有技术都能成为生意。AI何尝不是如此,电力、算力最终转化成token,模型要先有智能才能被应用所调用。

在面对黄仁勋时,王坚承认“开源模型正在改变我们的业务”。开源的生态,最终服务于阿里云,与通义大模型适配到一起,也对齐了阿里“让天下没有难做的生意”的使命。在互联网时代,免费就是平台经济的一种放大规模效应的竞争策略,在AI时代这一套同样有效,Qwen系列模型的累计下载量已超4亿次,衍生模型超14万,位居全球排名第一。

而对于DeepSeek这个独特的本土团队而言,开源不仅仅是商业策略,更是一种文化,吸引顶尖人才,逐步成为全球硬核创新贡献者。DeepSeek证明了通往AGI的路将是由本土华人与硅谷华人趟出来的。

不过,北京仍然具备显著的人才优势。黄仁勋说全世界一半的AI人才是华人,中国一半的顶尖AI人才应该在北京。Meta狂挖硅谷华人,几乎都是中国本科毕业的,再细节探究它新近曝光的,就可以发现清华贡献了最多的AI研究人才,北大同样贡献巨大。事实上,年初,DeepSeek横空出世的时候,胡佛研究所(Hoover Institution)的,就发现它的人才也离不开这两所高校。

这些顶尖人才也可以通过北京的开源模型厂商证明自己的价值。在发布K2后,月之暗面员工自述称,开源意味着更高的技术标准,会倒逼自己做出更好的模型,与 AGI 的目标更一致;唯一的遗憾就是,这条路不是自己率先走通的。相比投放流量,“硬实力就是最好的推广”。这一点,对于开源模型,对于AI人才而言,都同样有效。

上海正在奋起直追。从史上最大规模WAIC上,“东道主”的阶跃星辰与MiniMax动静就可以见一斑。MiniMax创始人闫俊杰在WAIC上的主旨演讲,被主办方恰好排在了之后。后者也是这届WAIC最大亮点之一。此前,Minimax五连发,终于让一心想做“模都”的上海,终于出了个能打上国际榜单的大模型。今年3月,上海将规划中的智算规模,从去年底“算力浦江”规划到2025年底的30EFLOPS,提升到2027年底的200EFLOPS,短短两年,足足增长6倍。

在开源路线上,深圳也重视起来了。最近,腾讯在WAIC上开源了混元3D世界模型1.0,并披露了包括端侧混合推理语言模型、多模态理解模型、游戏视觉模型等在内的一系列开源计划。

在中国,开源也在拥抱产业政策。在这一届WAIC上,《人工智能全球治理行动计划》提议打造跨国开源社区和安全、可靠开源平台,算是中国对美国《AI行动计划》的官方回应。智能将是出海的“新新三样”。新加坡数码发展及新闻部(MDDI)部长杨莉明就欢迎DeepSeek之类高性价比开源模型,帮忙覆盖东南亚数百种语言的市场需求。此外,中国的行动计划还提出要“公共部门率先部署应用”。这些城市的公共部门,一定会更加带头卷起来的。

创投机构Benchmark的Bill Gurley看到了这一点。他认为中国开放AI模型所产生的组合效应非常强大,模型之间都可以互相改进,新模型的推出也更容易。这种既开放又竞争的生态,创新力特别强劲,将轻松超越任何一家专有模型。底下,一位AI创业者评论称,任何“和它在一起”的国家,都会认识到这是软实力的新杠杆。这也是美国担心的。与特朗普关系越来越密切的奥特曼,就在6月底一份关于中国AI的研究中点名了智谱。

有创新的卷,要好过没有创新的。在卷的过程中暴露的问题,最终也将在应用落地时得以淘汰、迭代与进化。王坚非常喜欢“群体心智”(collective mind)这个概念。在他看来,AI是一场马拉松,今天的领先更像是进入下一阶段的一个“过程”而已。但是,“集体”推动可以实现非常快速的迭代,这也是中国AI“人才红利”的意义所在。

这轮你跑得快,下一轮可能换另一个人跑得快;节奏可能会慢下来,但只要你够好,你就还能追上来……这不是残酷,这是健康。因为你和最有竞争力的人在一起工作,这正是新技术诞生的方式。

事实上也是如此。这一个月来,全球最强开源模型的称号,已经迅速在R1-0528、K2、Qwen3-2507与GLM-4.5不断流转。现在的悬念是,在OpenAI发布GPT-5后,它会专注于拿出一个开源模型,从中国企业头上抢走桂冠吗?

但也许更重要的,是中国在开源的基础上建立起技术栈,在token经济上足以与美国的闭源前沿模型竞争。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一场120-107让西部季后赛大乱!雷霆巨星伤退,湖人冲击决赛有望

一场120-107让西部季后赛大乱!雷霆巨星伤退,湖人冲击决赛有望

小青年渌渌
2026-05-07 23:01:19
陈乔恩公开自己的素颜照,蛮漂亮的

陈乔恩公开自己的素颜照,蛮漂亮的

手工制作阿歼
2026-05-08 13:17:53
今晚起,CCTV-1黄金档又有2部王炸好剧来袭!阵容强大,开播必爆

今晚起,CCTV-1黄金档又有2部王炸好剧来袭!阵容强大,开播必爆

老吴教育课堂
2026-05-08 14:20:55
伊媒:霍尔木兹海峡附近局势已恢复正常

伊媒:霍尔木兹海峡附近局势已恢复正常

新京报
2026-05-08 07:13:14
定不下来的世界杯版权,不全是因为钱

定不下来的世界杯版权,不全是因为钱

体育产业生态圈
2026-05-08 12:16:41
巴西宣布对中国公民免签

巴西宣布对中国公民免签

新华社
2026-05-07 19:58:11
三星宣布停止在中国市场销售所有家电产品

三星宣布停止在中国市场销售所有家电产品

财联社
2026-05-06 19:32:22
受贿数额巨大,证监会党委巡视工作领导小组办公室原专职副主任杨春蕾获刑7年

受贿数额巨大,证监会党委巡视工作领导小组办公室原专职副主任杨春蕾获刑7年

新浪财经
2026-05-08 13:00:42
金平日:与金正日争权失败,驻外30年躲过暗杀,因这件事允许回国

金平日:与金正日争权失败,驻外30年躲过暗杀,因这件事允许回国

阿胡
2025-04-03 13:59:42
段永平调仓“入局”,泡泡玛特股价大涨

段永平调仓“入局”,泡泡玛特股价大涨

财联社
2026-05-08 10:12:04
世界杯国际足联开出天价版权:对中国开价近3亿美元,是印度的17倍,现“降”至1.2至1.5亿美元;电视转播谈判陷僵局

世界杯国际足联开出天价版权:对中国开价近3亿美元,是印度的17倍,现“降”至1.2至1.5亿美元;电视转播谈判陷僵局

浙江之声
2026-05-07 08:24:22
16岁女生玩秋千坠亡后续:多视角曝光,死因非没绑紧,细节披露

16岁女生玩秋千坠亡后续:多视角曝光,死因非没绑紧,细节披露

李晚书
2026-05-06 13:21:59
张凌赫晒出烤肉照片,横店一烤肉店爆火,老板直言十分感谢张凌赫

张凌赫晒出烤肉照片,横店一烤肉店爆火,老板直言十分感谢张凌赫

可爱的巴比龙
2026-05-08 14:22:54
她是美国最想挖走的中国人!美国专家见他毕恭毕敬,国人十万知一

她是美国最想挖走的中国人!美国专家见他毕恭毕敬,国人十万知一

朝子亥
2026-05-08 07:00:03
12 万亿遗产税结清!三星豪门全员凑钱,只为保住下一代“王位”

12 万亿遗产税结清!三星豪门全员凑钱,只为保住下一代“王位”

毒sir财经
2026-05-07 21:38:07
高岗自杀后,彭德怀、林彪的表现令人感慨

高岗自杀后,彭德怀、林彪的表现令人感慨

深度报
2026-04-25 22:55:42
酒局持续4小时,从下厨招待到拿刀拼命,妻子到底经历了什么

酒局持续4小时,从下厨招待到拿刀拼命,妻子到底经历了什么

笑谈历史阿晡
2026-05-04 12:02:08
美议员:感谢中方

美议员:感谢中方

观察者网
2026-05-08 08:29:30
无名无分45年,赚钱补贴原配还绝育,70岁才转正的她到底图啥?

无名无分45年,赚钱补贴原配还绝育,70岁才转正的她到底图啥?

星娱叨叨社
2026-05-07 14:35:16
程潇 x 美的好犯规

程潇 x 美的好犯规

小椰的奶奶
2026-05-08 11:35:00
2026-05-08 15:43:00
未尽研究 incentive-icons
未尽研究
新能源、人工智能、合成生物、地缘X
372文章数 63关注度
往期回顾 全部

科技要闻

SK海力士平均奖金600万 工服成相亲神器

头条要闻

向导掐人中救醒高反昏迷女子反遭掌掴 女子否认"装晕"

头条要闻

向导掐人中救醒高反昏迷女子反遭掌掴 女子否认"装晕"

体育要闻

他把首胜让给队友,然后用一年时间还清账单

娱乐要闻

古天乐被曝隐婚生子,新娘竟是她

财经要闻

一觉醒来,美伊又打起来了

汽车要闻

智能双舱大五座SUV 乐道L80将于5月15日正式上市

态度原创

艺术
房产
旅游
公开课
军事航空

艺术要闻

探索施密德的油画,感受无法抵挡的艺术魅力!

房产要闻

豪掷6.8亿拿地!何猷君大手笔投资三亚!

旅游要闻

枣庄山亭初夏草木葱茏 山花盛放迎客来

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗:最高领袖穆杰塔巴全面掌控局势

无障碍浏览 进入关怀版