网易首页 > 网易号 > 正文 申请入驻

智谱突然掏出世界最强模型,行业大为震惊

0
分享至

智谱突然宣布自家的GLM-5.2模型上线并开源。

随后不久,整个AI圈都在传同一张榜单图片。



图源:智谱

在大模型盲测平台竞技场的Code Arena上,GLM-5.2拿下了1595分的高分,排名总榜第二,仅次于Anthropic的Claude Fable 5,在全球可用模型中排名第一。那个排第一的模型因为出口管制,普通开发者已经用不了了。而能用的模型里,GLM-5.2是全世界最强的。

不只是编程。在专门评测模型审美品味的Design Arena上,GLM-5.2更是直接拿下了全球第一。

这是中国AI公司第一次在Coding这个最硬核的赛道上,跟Claude和OpenAI平起平坐。



GLM-5.2有啥亮点

GLM-5.2最让峰哥感到惊喜的地方,是真正可用的1M无损上下文

1M上下文是什么概念?100万个Token,大约相当于可以一口气读完数百万字的长篇巨著、数百页的复杂PDF,或者一个中大型软件项目的完整代码库。

并且不一样的是,很多模型宣称支持长上下文,可一旦文本长度超过几十万Token,模型就开始遗忘前面的内容,读到后面忘了前面,理解能力断崖式下跌。

而自2025年初起,智谱便集中力量攻关代码基座,相继推出GLM-4.5与GLM-4.7。到了GLM-5.2,通过扩展Coding Agent的训练环境,有效解决了长文本劣化问题。以至于达到“无损”,即模型可稳定、无损地处理100万Token长度的文本。



图源:智谱

据了解,智谱技术团队花了几个月时间扩展1M Coding Agent的训练环境,覆盖自动化研究、性能优化等多个领域,使得GLM-5.2在1M上下文的solid表现有时甚至超过Claude Opus。

官方透露,在FrontierSWE(测试AI是否能够像软件工程师在数小时尺度上完成复杂技术项目的测试集)中,GLM-5.2 仅比 Opus 4.8 落后 1%,比 GPT-5.5 和 Opus 4.7 分别高出 1% 和 11%。



图源:智谱

而在实际测试中,GLM-5.2更是一次性完成了覆盖Web、移动端与小程序的完整应用开发交付,累计处理88万Token,几乎用满了1M窗口。

为什么要死磕这件事?

过去一年,行业衡量模型智能的标准正在迁移,大家不仅在乎“答得多好”,更在乎模型“能独立工作多久”。AI正在从对话者变成执行者。

一个持续工作数小时的智能体,要经历数千次工具调用、读写数万行代码、积累大量中间状态。上下文窗口不够长,模型就被迫不断压缩、丢弃、再回忆。每一次压缩都是信息损耗,每一次遗忘都可能让任务在第N步偏离第2步定下的约束。

长程任务的失败,很多时候不是模型不够聪明,而是它忘了。GLM-5.2的1M上下文,就是解决这个问题的基础设施。

根据官方描述,GLM-5.2只需用一句话描述需求,它就能自主完成开发、联调、测试到打包上线,几小时内交付一个网页、手机、小程序都能用的完整应用。而这些,过去往往需要一支团队干上数周。时代真的变了。

智谱强调,GLM-5.2专为长程任务能力打造,让模型在跨越数周、数月乃至数年的规划与执行中不健忘,更贴合程序员群体的使用需求。



数据是实打实的

仅从目前已公布的实测数据来看,GLM-5.2性能基本可以对标世界最前沿模型,实打实的国产之光。

除了前面提到的FrontierSWE基准测试,在Terminal-Bench 2.1评测中,GLM-5.2得分81.0,较前代GLM-5.1的63.5分大幅提升了17.5个百分点;在SWE-bench Pro评测中,GLM-5.2得分62.1。



图源:智谱

在Artificial Analysis综合榜单上,GLM-5.2更是取得51分,位列开源模型SOTA(STATE OF THE ART,代表某领域最先进的技术或成果)。

根据该榜单,AnthropicOpenAI智谱已经形成了“新御三家”格局。

要知道,此前提到AI界的御三家,大概率指向的是Claude、OpenAI和谷歌。但这次,从实打实的榜单能力来看,谷歌的Gemini实实在在地被GLM超越了。



图源:Artificial Analysis

而在Design Arena上,GLM-5.2以1360的高分位居全球第一。

可以说,在写代码审美品味这两个截然不同的维度上,GLM-5.2都站上了全球最顶尖的位置。



图源:X

有开发者打趣道:“以后通过中转站用Opus的用户得面对一个新问题:如果Opus是GLM-5.2冒充的,那用户可能真的分辨不出来。”这虽然是玩笑,但也从侧面说明了GLM-5.2在编程能力上已经达到了让开发者难以分辨的水准。

但也有开发者强调,目前从自己跑出来的数据和体感来看,GLM-5.2还远远谈不上世界第一。不少用户反馈存在自主性不强,运行拥堵、额度消耗快等问题。

好在瑕不掩瑜。



图源:X

下一步,智谱将瞄向完全自治的智能体系统(Autonomous Agent System)。让AI能够自主驱动、协同作业,构建7×24小时运转的智能体群体,实现“自动驾驶”级别的数字生产力。

这可不是智谱一家在画饼。今年1月,红杉资本公开喊话,称“长时程Agent实际上是通用人工智能(AGI),2026年将是他们的一年”。LangChain CEO也明确提出2026年是“长时程Agents元年”。

智谱创始人唐杰曾判断,这一能力将推动行业从“一人公司”快速演进至“无员工公司”,自主智能体系统将成为下一个技术前沿。从完成长周期任务到实现完全自主运行,每一个行业都将被重塑,不管是安全、金融、法律还是电商。

同样的,智谱团队还很清醒,他们明确意识到,在这个过程中,还需攻克Memory(记忆机制)、持续学习(Continual Learning)、自我评判(Self-Judge)等核心技术。



MIT协议开源,国产算力Day 0适配,时机踩得刚刚好

当然,技术强是一回事,让多少人能用是另一回事。GLM-5.2在这件事上做得比大多数对手都彻底。

模型权重以最宽松的MIT协议开源,已上线Hugging Face与ModelScope,支持自由下载、部署与商用。

MIT协议意味着什么?没有地域限制,没有使用限制,没有任何附加条件。企业可以拿去做商业产品,开发者可以自由微调,不用向任何人报备。

更关键的是算力基础设施。GLM-5.2在Day 0完成了与华为昇腾平头哥摩尔线程寒武纪昆仑芯沐曦海光壁仞等国产算力平台的推理适配。

这意味着,中国企业可以在完全国产的算力集群上部署和运行GLM-5.2,不依赖任何海外GPU。

据透露,下半年昇腾950超节点上市后,也将成为GLM-5.2强劲的算力底座。

而且智谱还在同步强化Infra优化,在1M上下文长度下,将单位Token的FLOPs降低至2.9倍。

更重要的是,GLM-5.2发布的时机,让人很难不怀疑是不是特意计算过的。

要知道就在前几天,美国AI公司Anthropic受紧急出口管制指令影响,暂停了Claude Fable 5、Mythos 5两款最新模型向全世界的开放。

而这边,智谱却又立刻宣布GLM-5.2全量开放。官方声明里写了一句话:“前沿智能不应只属于少数人,也不应被少数规则随时收回。它应该开放、可用、可构建,并服务于每一位开发者。”

当闭源海外大模型的服务可得性与合规性遭到冲击时,智谱释出了一个供给可控、可本地化部署且能力相当的选项。这个时间差,让GLM-5.2在发布之前就已经积累了极高的关注度。

在闭源巨头垄断编程模型话语权,并且随时可能收回访问权限的当下,GLM-5.2用开源将选择权交还给了广大开发者。

从智能助手走向数字员工,从一人公司走向无人公司,GLM-5.2只是这条路上的一个站点,但它的意义在于让中国AI第一次站到了通往这个终局的最前排。

最后,如果你想体验这款模型,可以关注下智谱官方的GLM Coding Plan以及官方API平台。当然,网页端的GLM-5.2目前也已上线。

作者| 刘峰

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
王皓刘国梁没料到,樊振东消失一年回归即巅峰,这人气国乒没谁了

王皓刘国梁没料到,樊振东消失一年回归即巅峰,这人气国乒没谁了

蹲坑看世界
2026-06-15 06:49:41
今年毕业季透着诡异:大批高材生不进大厂,全在抢这碗饭!

今年毕业季透着诡异:大批高材生不进大厂,全在抢这碗饭!

音乐时光的娱乐
2026-06-29 12:30:19
北京刚开了一家养老社区,环境是真不错。 但价格一算,心里拔凉

北京刚开了一家养老社区,环境是真不错。 但价格一算,心里拔凉

阿离家居
2026-07-01 18:58:59
金三角毒枭不怕武警手中的枪,他们忌惮的是一道30年没人动的密令

金三角毒枭不怕武警手中的枪,他们忌惮的是一道30年没人动的密令

磊子讲史
2026-07-01 14:01:21
冯德莱恩认清现实,热浪下,她见识到了:欧洲的无能,中国的高明

冯德莱恩认清现实,热浪下,她见识到了:欧洲的无能,中国的高明

体育小柚
2026-07-02 01:46:27
查尔斯终究出手了!威廉锁死的门,被国王亲手砸开

查尔斯终究出手了!威廉锁死的门,被国王亲手砸开

全球奇趣娱乐八卦
2026-07-01 06:25:08
吴昕感冒想买“白加黑”:年轻助理蒙了,说没听过,一查这药已停产6年;广告语曾是80后童年记忆,现已淡出大众视野

吴昕感冒想买“白加黑”:年轻助理蒙了,说没听过,一查这药已停产6年;广告语曾是80后童年记忆,现已淡出大众视野

鲁中晨报
2026-06-29 11:47:34
贵客抵达北京!不到24小时,美财长发火:全世界只有中国敢接单

贵客抵达北京!不到24小时,美财长发火:全世界只有中国敢接单

离离言几许
2026-07-02 02:22:55
公安部172号令落地,69岁C1、C2车主不用额外提交体检证明

公安部172号令落地,69岁C1、C2车主不用额外提交体检证明

沙雕小琳琳
2026-06-30 01:55:15
谁能进四强?世界杯1/4分区:法国vs巴拉圭,加拿大vs摩洛哥

谁能进四强?世界杯1/4分区:法国vs巴拉圭,加拿大vs摩洛哥

懂球帝
2026-07-01 07:28:02
100多位情妇,包养费上亿元,曾9女同床却沦落凄凉下场、人财两空

100多位情妇,包养费上亿元,曾9女同床却沦落凄凉下场、人财两空

傲傲讲历史
2026-06-11 16:24:18
最牛“汉奸”夏文运:吃日本饭睡日本女人,仅用8个字消灭2万日寇

最牛“汉奸”夏文运:吃日本饭睡日本女人,仅用8个字消灭2万日寇

大运河时空
2026-07-01 14:25:03
取消中考、高中免费?国务院文件给出准信

取消中考、高中免费?国务院文件给出准信

户外阿毽
2026-07-01 02:34:45
谁是内鬼?官方公布的英格兰首发,与媒体提前泄露的完全一致

谁是内鬼?官方公布的英格兰首发,与媒体提前泄露的完全一致

懂球帝
2026-07-01 23:01:08
财政压力的下半场:退休人员占比近四成,才是硬账

财政压力的下半场:退休人员占比近四成,才是硬账

超先声
2026-01-09 16:45:39
嫁法国老头真相大白后,41岁李宇春近况曝光,一点都不感到意外

嫁法国老头真相大白后,41岁李宇春近况曝光,一点都不感到意外

李侽在北漂
2026-06-28 18:23:13
二手豪华燃油车价格集体跳水 宾利仅27万 保时捷15万

二手豪华燃油车价格集体跳水 宾利仅27万 保时捷15万

CNMO科技
2026-07-01 14:50:05
WTT美国大满贯:女单爆冷!世界第9出局 朱雨玲3:1 蒯曼温瑞博狂胜

WTT美国大满贯:女单爆冷!世界第9出局 朱雨玲3:1 蒯曼温瑞博狂胜

童叔不飙车
2026-07-01 01:42:20
“谁能靠$24活一个月?”全美粮食券大缩水,低收入居民被迫变卖首饰买面包?

“谁能靠$24活一个月?”全美粮食券大缩水,低收入居民被迫变卖首饰买面包?

纽约时间
2026-07-01 03:39:49
利智:被李连杰宠爱37年,外人看来是掉进蜜罐,甜蜜背后全是眼泪

利智:被李连杰宠爱37年,外人看来是掉进蜜罐,甜蜜背后全是眼泪

乡野小珥
2026-07-02 01:47:57
2026-07-02 03:51:00
科技头版Pro incentive-icons
科技头版Pro
一起见证改变世界的力量
577文章数 178关注度
往期回顾 全部

科技要闻

Claude Code被曝“植入木马”识别中国用户

头条要闻

凯恩梅开二度 英格兰2-1逆转民主刚果将战墨西哥

头条要闻

凯恩梅开二度 英格兰2-1逆转民主刚果将战墨西哥

体育要闻

卖球衣救子的门将,把德国扑出了世界杯

娱乐要闻

77岁牛群公证裸捐全部财产,清贫独居坚持月捐

财经要闻

新氧贷款:宣传年化15%,实际顶格24%

汽车要闻

同比暴涨188.4% 方程豹6月热销35607台

态度原创

教育
本地
时尚
家居
公开课

教育要闻

高分人数太多!南京期末考试成绩出炉!速看!

本地新闻

强烈建议,全国高校都向这所大学看齐!

月入3万,时代红利砸向文科生

家居要闻

传奇筑 日常诗

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版