网易首页 > 网易号 > 正文 申请入驻

开源模型三城记

0
分享至

赶在WAIC结束后,抢在OpenAI发布GPT-5前,北京的智谱开源了新一代大模型GLM-4.5。仅在今年7月更新的开源模型,至少还包括了K2、Qwen3-2507系列、Qwen3-Coder、Wan2.2、Step-3,霸占了榜单的整个头部。这是中国与美国在AI领域的前沿竞争,也是北京、上海与杭州自己的三城演义。

美国发布AI之后,紧接着中国举办了一届规模空前的WAIC,展示中国将加快向全世界部署开源AI。而美国越来越忌惮中国的开源技术栈,无论是白宫的开源AI策略、OpenAI推迟发布的开源模型,还是Meta斥巨资打造超级AI梦之队后给Llama带来的悬念,在开源领域,美国遭遇的可能是又一个电动车的故事,至少榜单已经开始雷同了。

DeepSeek启动了中国开源模型的飞轮效应,引也发了一波又一波的价格战。开源模型就像是另一个在产业政策推动下处于“飞轮与内卷”中的行业。它们在全球争夺各种性能测试榜单最后那些百分点,展示各自的城市的雄心。

开源之都,继续开源

杭州最先举起了开源的大旗,从互联网之城向AI。前阵子黄仁勋在他,将它称为“中国的硅谷”,下次一定要去看看。

自年中开源Qwen3以来,阿里巴巴已经陆续更新了统一多模态理解与生成模型Qwen VLo、编码模型Qwen3-Coder,以及升级版的基础模型Qwen3-2507系列,最近又发布了全球首个开源MoE视频生成模型。此外,阿里巴巴还悄悄分享了中文方言的合成模型Qwen-TTS与支持92种语言的互译模型Qwen-MT。不少都集中在。

其中,Qwen3-Coder的旗舰模型,性能足以对标Claude Sonnet-4。它的总参数高达4800亿,每次激活350亿参数,最大的创新之一,在于具备智能体功能,一条命令接管整个代码仓库,实现“在世界中自主编程”。但它的平均价格只是Claude 4的1/3。如果还嫌贵,可以自己部署。Perplexity首席执行官Aravind Srinivas直呼“开源正在取胜”,HuggingFace首席执行官Clement Delangue更是在X上刷屏推荐。

Wan2.2则首次将MOE架构引入了视频生成。以往,视频生成消耗远高于文本与图像的token,采用MOE架构,可以使模型在推理成本几乎不变的前提下,提升总参数规模。它其实是一个双专家设计。Wan2.2先是将任务交给多个高噪专家构建主体结构,然后再由低噪专家补充细节。阿里团队还在训练中引入了电影工业标准的美学数据,包括光影、镜头与色彩。

开源不仅意味着技术创新,也意味着产品策略更切近社区。与不少模型厂商将“快思考”与“慢思考”整合到一起不同,这次阿里在更新基础模型Qwen3-2507时,仍然区分了非思考版的Instruct与推理版的Thinking。这是基于“与社区沟通和深思熟虑”后的决策。

目前,尽管外面吵得火热,DeepSeek仍然保持平静,只是在儿童节前悄悄丢了一个更新版的R1-0528,让人会更具“雄心”与“真诚”。DeepSeek领先的MOE、GRPO等技术,已经被对手超越;这个世界上唯一在前沿竞争却又不在乎商业化的AI实验室,也许有足够的定力,在GPT-5发布之后再度出手。

上海与北京紧跟

上海与北京加入开源的三城演义,是被DeepSeek逼出来的。从AI分析机构Artificial Analysis的前沿模型智能趋势就能发现,无论是上海的MiniMax,还是北京的月之暗面或智谱,首个纳入统计的模型都出现在2025年后。尤其是北京的两家,更是首次亮相。好在,它们正在迅速追齐。


上海的MiniMax与北京的月之暗面,一直都是市场“拱火”对象。去年,媒体攒局让两家的投资者坐在一起,尽诉分歧。结果,自去年底DeepSeek激活了开源模型的竞争后,两家初创企业至少在开源路线上达成了一致,迅速卷了起来。年初,MiniMax开源了MiniMax-01,月之暗面发布了K1.5;最近,MiniMax,拿出了长上下文推理大模型M1,月之暗面则拿出了的K2。

竞争太过激烈,月之暗面先开源了K2,上周才发布它的技术报告。除了之前已经披露过的更少的注意力头,更多的专家的MOE架构创新,以及与之配合的自研MuonClip优化器与QK-Clip技术,报告还揭示了更多训练细节。为了解决高质量数据不足的问题,提升每token有效学习信号,K2在训练中采用了重述法(rephrasing),把原始文本改写成不同的表达方式,让大模型多学几遍,同时又不至于过拟合,效果高出同一内容重复相同遍数约5个百分点。重述是自动化流水线(pipeline)的。

K2还引入了自我批评奖励机制,增强了对复杂、难以直接验证任务的处理能力,相当于扩展了,这也是扩展AGI能力边界的关键。

在WAIC前夜,上海的阶跃星辰则拿出了旗舰基础模型Step 3。这个3210亿总参数规模,每次激活380亿参数的模型,在多项基准测试中表现突出,阶跃星辰称之为“最强开源多模态推理模型”。作为推理模型,它具备视觉能力。多模态也正是阶跃星辰最擅长的,CEO姜大昕称,多模态领域也开始向强化学习过渡。这款模型将在7月31日正式开源,接受开发者在真实应用场景中的试用与评价。

为开发Step 3,该团队采用了AFD技术,也就是让注意力(Attention)模块与前馈神经网络(FFN)解耦为专门的子系统,更好地适应不同的硬件配置和性能需求,优化解码效率。在知乎上,该团队员工Yibo Zhu进一步解释称,DeepSeek之前提出的DeepEP(适用专家并行的数据库)方案,本质上就是AFD的特例;对于国产芯片设计来说,AFD技术也降低对单个芯片的高性能的过度依赖。

在WAIC结束后,智谱也加入了进来,开源了旗舰混合推理模型GLM-4.5与GLM-4.5-Air,以及这两个模型的基础模型(Base)与向量化版本(FP8),均采用MIT开源许可证发布,可用于商业用途和二次开发。GLM-4.5拥有3550亿总参数量,其中320亿活跃参数;GLM-4.5-Air更轻巧些,拥有 1060亿总参数量,其中120亿活跃参数。可以说是用更小的参数规模实现了相当水平的智能水平。除了比主流大模型更便宜,它的生成速度最快可至100tokens/s,超越了其他模型。此外,与Qwen3-Coder或K2类似,GLM-4.5也是一款智能体友好的模型;这是一大趋势。


三城演义与地缘竞争

阿里巴巴选择开源,无论是在技术路径上还是商业模式上,都与它云巨头的身份相契合。阿里云创始人王坚认为,与其他大多数生意都是“从商业出发”,用技术来支持商业不同,云计算必须是“先有技术”,而且也不是所有技术都能成为生意。AI何尝不是如此,电力、算力最终转化成token,模型要先有智能才能被应用所调用。

在面对黄仁勋时,王坚承认“开源模型正在改变我们的业务”。开源的生态,最终服务于阿里云,与通义大模型适配到一起,也对齐了阿里“让天下没有难做的生意”的使命。在互联网时代,免费就是平台经济的一种放大规模效应的竞争策略,在AI时代这一套同样有效,Qwen系列模型的累计下载量已超4亿次,衍生模型超14万,位居全球排名第一。

而对于DeepSeek这个独特的本土团队而言,开源不仅仅是商业策略,更是一种文化,吸引顶尖人才,逐步成为全球硬核创新贡献者。DeepSeek证明了通往AGI的路将是由本土华人与硅谷华人趟出来的。

不过,北京仍然具备显著的人才优势。黄仁勋说全世界一半的AI人才是华人,中国一半的顶尖AI人才应该在北京。Meta狂挖硅谷华人,几乎都是中国本科毕业的,再细节探究它新近曝光的,就可以发现清华贡献了最多的AI研究人才,北大同样贡献巨大。事实上,年初,DeepSeek横空出世的时候,胡佛研究所(Hoover Institution)的,就发现它的人才也离不开这两所高校。


这些顶尖人才也可以通过北京的开源模型厂商证明自己的价值。在发布K2后,月之暗面员工自述称,开源意味着更高的技术标准,会倒逼自己做出更好的模型,与 AGI 的目标更一致;唯一的遗憾就是,这条路不是自己率先走通的。相比投放流量,“硬实力就是最好的推广”。这一点,对于开源模型,对于AI人才而言,都同样有效。

上海正在奋起直追。从史上最大规模WAIC上,“东道主”的阶跃星辰与MiniMax动静就可以见一斑。MiniMax创始人闫俊杰在WAIC上的主旨演讲,被主办方恰好排在了之后。后者也是这届WAIC最大亮点之一。此前,Minimax五连发,终于让一心想做“模都”的上海,终于出了个能打上国际榜单的大模型。今年3月,上海将规划中的智算规模,从去年底“算力浦江”规划到2025年底的30EFLOPS,提升到2027年底的200EFLOPS,短短两年,足足增长6倍。

在开源路线上,深圳也重视起来了。最近,腾讯在WAIC上开源了混元3D世界模型1.0,并披露了包括端侧混合推理语言模型、多模态理解模型、游戏视觉模型等在内的一系列开源计划。

在中国,开源也在拥抱产业政策。在这一届WAIC上,《人工智能全球治理行动计划》提议打造跨国开源社区和安全、可靠开源平台,算是中国对美国《AI行动计划》的官方回应。智能将是出海的“新新三样”。新加坡数码发展及新闻部(MDDI)部长杨莉明就欢迎DeepSeek之类高性价比开源模型,帮忙覆盖东南亚数百种语言的市场需求。此外,中国的行动计划还提出要“公共部门率先部署应用”。这些城市的公共部门,一定会更加带头卷起来的。


创投机构Benchmark的Bill Gurley看到了这一点。他认为中国开放AI模型所产生的组合效应非常强大,模型之间都可以互相改进,新模型的推出也更容易。这种既开放又竞争的生态,创新力特别强劲,将轻松超越任何一家专有模型。底下,一位AI创业者评论称,任何“和它在一起”的国家,都会认识到这是软实力的新杠杆。这也是美国担心的。与特朗普关系越来越密切的奥特曼,就在6月底一份关于中国AI的研究中点名了智谱。

有创新的卷,要好过没有创新的。在卷的过程中暴露的问题,最终也将在应用落地时得以淘汰、迭代与进化。王坚非常喜欢“群体心智”(collective mind)这个概念。在他看来,AI是一场马拉松,今天的领先更像是进入下一阶段的一个“过程”而已。但是,“集体”推动可以实现非常快速的迭代,这也是中国AI“人才红利”的意义所在。

这轮你跑得快,下一轮可能换另一个人跑得快;节奏可能会慢下来,但只要你够好,你就还能追上来……这不是残酷,这是健康。因为你和最有竞争力的人在一起工作,这正是新技术诞生的方式。

事实上也是如此。这一个月来,全球最强开源模型的称号,已经迅速在R1-0528、K2、Qwen3-2507与GLM-4.5不断流转。现在的悬念是,在OpenAI发布GPT-5后,它会专注于拿出一个开源模型,从中国企业头上抢走桂冠吗?

但也许更重要的,是中国在开源的基础上建立起技术栈,在token经济上足以与美国的闭源前沿模型竞争。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
27家公司预亏 商业航天概念股在列

27家公司预亏 商业航天概念股在列

每日经济新闻
2026-01-10 14:27:43
老艺术家从美国回来探亲,顺便演唱《打败美帝野心狼》?

老艺术家从美国回来探亲,顺便演唱《打败美帝野心狼》?

走读新生
2026-01-08 21:37:23
比亚迪唐9系、汉9系旗舰车型官宣

比亚迪唐9系、汉9系旗舰车型官宣

IT之家
2026-01-10 20:09:05
辽粤大战亨特了解萨姆纳,莫兰德也绝对不手软,虎口拔牙问题不大

辽粤大战亨特了解萨姆纳,莫兰德也绝对不手软,虎口拔牙问题不大

君马体育
2026-01-10 23:29:17
倒计时一个月,人类即将再次飞向月球

倒计时一个月,人类即将再次飞向月球

NASA航天爱好者
2026-01-09 08:53:57
大反转!500万欧中超内马尔接近加盟辽宁铁人:成最大牌外援

大反转!500万欧中超内马尔接近加盟辽宁铁人:成最大牌外援

邱泽云
2026-01-10 19:24:18
4万人观战 日本104届高中足球赛诞生决赛2强:90分钟绝杀 9-8鏖战

4万人观战 日本104届高中足球赛诞生决赛2强:90分钟绝杀 9-8鏖战

风过乡
2026-01-10 17:43:22
央媒集体发声,公积金制度要改革!不能再是部分高收入者的福利了

央媒集体发声,公积金制度要改革!不能再是部分高收入者的福利了

王五说说看
2026-01-10 12:18:13
目睹弟弟执教球队击败水晶宫,鲁尼情绪激动:我为他感到骄傲

目睹弟弟执教球队击败水晶宫,鲁尼情绪激动:我为他感到骄傲

懂球帝
2026-01-11 00:18:03
伊朗网络连接现多区域中断  IPv6网络全球切断

伊朗网络连接现多区域中断 IPv6网络全球切断

老马拉车莫少装
2026-01-09 01:37:03
U23国足战术有变!王钰栋或替补待命,两大王牌或首发出场

U23国足战术有变!王钰栋或替补待命,两大王牌或首发出场

徽派体育
2026-01-10 22:27:43
已确认,是75岁的王石!

已确认,是75岁的王石!

财经要参
2026-01-08 21:33:30
上海警方:对江某(女,30岁)、吴某(男,35岁)、吴某某(男,25岁)、漆某(男,48岁)作出行政处罚

上海警方:对江某(女,30岁)、吴某(男,35岁)、吴某某(男,25岁)、漆某(男,48岁)作出行政处罚

扬子晚报
2026-01-10 19:55:06
米体:国米上赛季收入意甲最高达5.45亿欧,多出那不勒斯3倍

米体:国米上赛季收入意甲最高达5.45亿欧,多出那不勒斯3倍

懂球帝
2026-01-10 23:18:19
真泪目了!于和伟新剧饰演伟人,简直像的吓人,这次该他拿奖了

真泪目了!于和伟新剧饰演伟人,简直像的吓人,这次该他拿奖了

娱乐圈笔娱君
2026-01-09 16:27:28
炸裂!成都大爷将红薯塞入肛门,做开腹手术取出!医生:有需求正常

炸裂!成都大爷将红薯塞入肛门,做开腹手术取出!医生:有需求正常

鋭娱之乐
2026-01-10 21:46:16
伊朗安全部队放下武器加入抗议,哈梅内伊倒计时开始

伊朗安全部队放下武器加入抗议,哈梅内伊倒计时开始

移光幻影
2026-01-07 15:18:07
上海二手房成交量爆了

上海二手房成交量爆了

魔都财观
2026-01-08 07:42:31
钱再多有什么用?站起来就想吐的周渝民,给所有中年男人提了个醒

钱再多有什么用?站起来就想吐的周渝民,给所有中年男人提了个醒

深析古今
2026-01-10 16:33:12
45岁男星晒上海新家!4万电视柜,15万沙发,没戏拍日子照样舒坦

45岁男星晒上海新家!4万电视柜,15万沙发,没戏拍日子照样舒坦

瓜汁橘长Dr
2026-01-09 17:44:33
2026-01-11 00:40:49
未尽研究 incentive-icons
未尽研究
新能源、人工智能、合成生物、地缘X
283文章数 61关注度
往期回顾 全部

科技要闻

必看 | 2026开年最顶格的AI对话

头条要闻

男子带父母去四川"纯玩" 不料消费7万连上厕所都收费

头条要闻

男子带父母去四川"纯玩" 不料消费7万连上厕所都收费

体育要闻

怒摔水瓶!杜兰特30+12 难阻火箭遭双杀

娱乐要闻

吴速玲曝儿子Joe是恋爱脑

财经要闻

这不算诈骗吗?水滴保诱导扣款惹众怒

汽车要闻

宝马25年全球销量246.3万台 中国仍是第一大市场

态度原创

家居
健康
教育
数码
公开课

家居要闻

木色留白 演绎现代自由

这些新疗法,让化疗不再那么痛苦

教育要闻

高考地理中的生物能源

数码要闻

音频硬件开始“长脑子”?直击CES 2026六大音频新品

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版