网易首页 > 网易号 > 正文 申请入驻

1M上下文+28%低幻觉率,智谱GLM-5.2凭什么杀入编程三强?

0
分享至

六月的AI圈,两件事撞在了一起。

Anthropic突然收到美国商务部信函,援引“国家安全”条款,要求立即切断Fable 5和Mythos 5面向外国公民的访问通道。Anthropic索性让这两款模型对全球用户集体下线。上线72小时、被寄予厚望的“全世界最强模型”,说没就没了。X上阅读量迅速破千万,一些依赖Fable 5构建产品的开发者睡醒后发现,工具链直接断裂。


几乎同一时间,智谱发布公告,将旗下最强模型GLM-5.2全量开放,宣言很直接:前沿智能属于所有人。更巧的是时间——Anthropic在5点21分收到信,智谱也选在5点21分开放了GLM-5.2。前沿智能刚被关上围墙,隔一秒就被智谱砸穿。

市场回应很快。智谱在港股市值盘中突破1万亿港元,年内涨幅超过1900%,成了中国首个万亿AI公司。真金白银的价格信号,正在给中国开源大模型重新定价。

如果你长期关注AI编程,对“最强Coding模型”的御三家不会陌生,过去圈内习惯把牌发给Claude、OpenAI和谷歌。现在GLM-5.2上桌了。

在汇集全球百万用户盲测的Code Arena上,GLM-5.2以1595分排总榜第二,仅次于暂不可用的Fable 5。也就是说,在当前所有可用的模型里,GLM-5.2是“现役最强”。Artificial Analysis的智能指数v4.1给了它51分,直接落在GPT-5.5和Opus 4.8之间。这是开源模型第一次杀到这个区间。以前是“开源追赶闭源”,现在变成了“平起平坐”。

再看更考验工程能力的长程编程基准FrontierSWE,GLM-5.2得分74.4,跟Opus 4.8的75.1差距不到1个百分点,顺带把GPT-5.5的72.6甩在了身后。专门测试Agent训练能力的PostTrainBench上同样排名第二,依然跟在Opus 4.8后面。谷歌的Gemini这次被确确实实地淘汰出了“御三家”。现在的三足鼎立是Claude、OpenAI和智谱。

国外开发者社区的反应更有意思。X上的博主AICodeKing内测完给了句评价:“模型品位出色,代码始终非常干净。”还有人表示,体感比Codex好很多,像花20万买国产电车,开起来比50万的BBA还好。前微软总裁Mat Velloso直接盖章,说这是他“第一个达到日常使用标准的开源模型”。

那些关于“国产大模型跟海外差距两三年”的说法,至少在Coding这件事上,可以收一收了。

不过光看跑分其实没什么意思。这两年AI圈一个趋势越来越明显:单次输出能力的差距正在被抹平,真正拉开模型档次的,是长时间干活靠不靠得住。就像面试时人人都说“我能行”,真上了班才知道谁在摸鱼。

想象这个场景:让AI智能体去处理一个真实项目,需要数千次调用工具、读写数万行代码,维持大量中间状态。如果上下文窗口不足,就得频繁压缩或丢弃早期信息。很多长任务失败,不是因为模型不够聪明,而是它忘了前面的内容。这就相当于让一个人边干活边扔笔记,干到最后铁定出岔子。“金鱼系AI”,说的就是这个。

GLM-5.2这次最大的升级,是把上下文窗口拉到了真正能用的1M token。这个数字什么意思?你基本可以把整个项目代码库、所有技术文档、需求说明、历史记录一次性全喂进去,它不仅吃得下,还记得住。相当于给AI装了个“1TB的大脑内存”,再也不怕它断片了。

实际效果呢?据智谱官方披露,有评测团队让GLM-5.2一次性承接完整全栈应用开发任务,从开发、联调、测试到打包上线全程自主完成,最终交付了覆盖网页端、移动端与小程序的完整应用。整个任务累计处理超过88万tokens,几乎用满了1M窗口。

过去这个体量的工程通常需要团队协作数周,而GLM-5.2在一个回合内完整保留了所有项目状态和约束,没有因上下文不足而在执行中途失忆。短上下文模型跑到后半段时,最初的需求细节和模块依赖关系早已被压缩丢弃,它能输出零散的代码片段,但整合不出可交付的完整产品。就像拼图拼到一半把图纸扔了,最后拼出个四不像。

这就是长上下文真正的意义,不是参数表上多一个更大的数字,而是让AI Coding从“会写一段代码”进化到“能做一段工程”。当然也得说实话,1M上下文不是万能的。如果只是改个小函数、补个简单脚本,把整个代码库塞进去反而是浪费,模型更容易过度设计。杀鸡用牛刀,牛刀也委屈。真正适合的场景是整库理解、跨文件追Bug、长期重构、复杂功能新增这类活儿。智谱这次也实在,在模型文档里专门讲了什么时候别用1M:大活用大窗,小活别硬塞。

看到这里,有一个疑问绕不开:GLM-5.2参数规模744B,采用MoE架构,活跃参数约40B。而Opus 4.8和GPT-5.5都是保守估计在1到2万亿参数区间的闭源模型。一个只有对手几分之一规模的模型,凭什么追得这么近?

因为更大的模型不必然更聪明。就像健身房里的肌肉男,不一定跑得过精瘦的马拉松选手。

Artificial Analysis的AA-Omniscience基准测试了一个很有价值的指标:幻觉率。也就是模型在面对自己不确定的问题时,是诚实地说“不知道”,还是自信地瞎编一个答案。结果颇令人震惊:GPT-5.5的幻觉率是86%,Claude Opus 4.8是36%,Fable 5是48%,而GLM-5.2只有28%。那些万亿参数巨兽,在面对知识边界之外的问题时,有超过八成的时间在自信地胡说八道。参数大,胆子更大,啥都敢编。

有人测试过,让DeepSeek V4 Pro和GLM-5.2分别设计一个Python自定义异步事件循环策略,其中包含一个技术上不可能完成的任务:在单线程中执行多路复用I/O而从不暂停或利用系统轮询。DeepSeek V4 Pro花了3分52秒、7700个推理token,生成了一份结构精美但完全错误的代码。而GLM-5.2只用了12秒、799个推理token,就直接指出这个需求在技术上不可行。

这好比装修时问师傅“能不能在不改动承重墙的前提下把客厅扩大一倍”。小模型说“这做不到”;大模型却说“没问题”,然后画出一份看似完美却根本没法施工的设计图。小模型是真良心师傅,大模型是纯忽悠大师。

更大的参数量、更长的推理时间,并不必然带来更好的判断力。在某些场景下,它们反而让模型更不愿意承认自己不知道。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
世界杯:佛得角0-0创历史!首次参赛就出线+将战阿根廷 沙特出局

世界杯:佛得角0-0创历史!首次参赛就出线+将战阿根廷 沙特出局

念洲
2026-06-27 10:09:07
人社部56号令落地!7月起工资、养老金迎来巨变!!

人社部56号令落地!7月起工资、养老金迎来巨变!!

陈博世财经
2026-06-27 10:54:50
北青:佛得角足协副主席称计划与中国队热身,对中国表达感谢

北青:佛得角足协副主席称计划与中国队热身,对中国表达感谢

懂球帝
2026-06-27 19:46:20
斯卡洛尼:梅西将在末轮替补,目标是让球队以同样的方式比赛

斯卡洛尼:梅西将在末轮替补,目标是让球队以同样的方式比赛

懂球帝
2026-06-27 17:30:44
韩国球迷集体表态,我们输给南非,是因为中国国足坑了我们

韩国球迷集体表态,我们输给南非,是因为中国国足坑了我们

酷侃体坛
2026-06-27 17:43:17
自家饮料连创始人都不愿喝?东鹏特饮市值蒸发20亿

自家饮料连创始人都不愿喝?东鹏特饮市值蒸发20亿

三言科技
2026-06-27 13:37:30
江西财经大学事件:“把你打到无法行走”、“每延迟一天拔一片指甲”、“让你怀孕再逼你流产。”

江西财经大学事件:“把你打到无法行走”、“每延迟一天拔一片指甲”、“让你怀孕再逼你流产。”

贴小君
2026-06-27 01:13:40
为什么千万不能去别人家里?网友:我亲戚的孩子从此消失了!

为什么千万不能去别人家里?网友:我亲戚的孩子从此消失了!

辉哥说动漫
2026-06-27 09:04:12
是灾难还是运气差?伊朗的世界杯之旅与VAR争议仍在继续

是灾难还是运气差?伊朗的世界杯之旅与VAR争议仍在继续

澎湃新闻
2026-06-27 17:04:32
沉默9天后,蒙古总理一锤定音,站队日本还是中国,答案终于揭晓

沉默9天后,蒙古总理一锤定音,站队日本还是中国,答案终于揭晓

夜里看海
2026-06-27 08:56:32
1-2,夺冠热门轰然倒下,送对手逆袭,人在做,天在看,上限16强

1-2,夺冠热门轰然倒下,送对手逆袭,人在做,天在看,上限16强

我就是一个说球的
2026-06-26 20:33:00
伊朗革命卫队:打击美军多个目标以回应美空袭伊朗

伊朗革命卫队:打击美军多个目标以回应美空袭伊朗

环球网资讯
2026-06-27 11:09:07
世界杯:韩国天塌了!萨尔传射盖耶双响 塞内加尔5-0九人伊拉克

世界杯:韩国天塌了!萨尔传射盖耶双响 塞内加尔5-0九人伊拉克

钉钉陌上花开
2026-06-27 05:04:35
中国菲律宾在黄岩岛发生武装对峙

中国菲律宾在黄岩岛发生武装对峙

凤眼论
2026-06-25 18:45:27
山东曲阜一牌坊顶部构件发生意外脱落致1死6伤

山东曲阜一牌坊顶部构件发生意外脱落致1死6伤

环球网资讯
2026-06-27 18:21:42
韩国队2天5次遭暴击!小组第3排名已跌至第8,最新出线概率仅44%

韩国队2天5次遭暴击!小组第3排名已跌至第8,最新出线概率仅44%

我爱英超
2026-06-27 13:11:45
一个身份不明的女人,凭什么“代表”14亿中国人向以色列道歉?

一个身份不明的女人,凭什么“代表”14亿中国人向以色列道歉?

子午线
2026-06-26 20:40:46
2026高考成绩公布后,张桂梅式教育被批,再次证明:父母放任不管的代价,远比想象中更残酷......

2026高考成绩公布后,张桂梅式教育被批,再次证明:父母放任不管的代价,远比想象中更残酷......

LULU生活家
2026-06-27 18:18:30
动辄没收,本质上是那灰色十年的思维

动辄没收,本质上是那灰色十年的思维

林中木白
2026-06-27 10:31:05
俄罗斯前防长谢尔盖·伊万诺夫去世,普京向其亲属表示慰问

俄罗斯前防长谢尔盖·伊万诺夫去世,普京向其亲属表示慰问

环球网资讯
2026-06-26 20:54:19
2026-06-27 20:15:00
硬核玩家2哈
硬核玩家2哈
沉淀中,勿扰
238文章数 34关注度
往期回顾 全部

科技要闻

GPT-5.6发布,你暂时用不了!Mythos也放行

头条要闻

乌克兰加大袭击 克里米亚宣布进入“紧急状态”

头条要闻

乌克兰加大袭击 克里米亚宣布进入“紧急状态”

体育要闻

世界杯最火门将,站到了阿根廷和梅西面前

娱乐要闻

四提白玉兰终封后,杨紫:仍觉不真实

财经要闻

OpenAI推迟IPO重创软银!

汽车要闻

搭载华为乾崑ADS 5 全新猛士M817上市售29.99万起

态度原创

艺术
教育
游戏
本地
公开课

艺术要闻

色彩丰富生动,皮埃尔·博纳尔的静物油画

教育要闻

告别分心!每天15分钟,30天练出超强专力

PS商城爆争议!删除用户购买的电影 闭口不谈补偿

本地新闻

世界杯球迷节:比球赛更好玩的派对

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版