网易首页 > 网易科技 > IT业界 > 正文

GLM-5.2初体验来了:像Claude,但还没那么听话

0
分享至

出品 | 网易智能

作者 | 小爪

编辑 | 王凤枝

GLM-5.2发布后,外网开发者的第一反应不是问价格。

便宜、能用、省钱,这些词贴在很多国产模型身上太久了。但这次讨论的语气变了一点点:它好像真的能干活了。

有人拿它和GLM-5.1做同一份1700行Python代码审查,结果不是准确率碾压,是同等准确率下,时间从124.8秒降到47.7秒,输出从3436个token收窄到1415个。也有人把它和Kimi K2.7放在同一个提示词下写Minecraft游戏页面,GLM-5.2慢了几分钟,却少了一轮修问题的提示。

GLM-5.2初体验来了:像Claude,但还没那么听话

外网用户不是在夸它写得更多。他们在说,它少废话、少返工,能把事情往前推。

也难怪Claude这个名字一直在讨论里反复出现。开发者太熟悉Claude那种感觉了:不确定时会问,看到风险会提醒,代码审查时能抓住问题。GLM-5.2让一部分用户第一次在国产模型上看到类似的影子。

但另一些用户马上踩到了反面:慢、拥堵、额度消耗快,甚至会用自己的默认设定覆盖用户指令。

它开始像Claude,也有时候像一个不太听话的版本。

先看这次发布了什么

6月13日,智谱把GLM-5.2先放进了GLM Coding Plan,没有先开API,也没有先放权重。

GLM-5.2初体验来了:像Claude,但还没那么听话

这个顺序本身就是信号。它默认开发者会先在编码工具里用,而不是先在聊天框里试。

几个细节能看出智谱的定位。Claude Code的配置示例里,glm-5.2被直接放进了Sonnet和Opus的位置;套餐里它被列为高阶档,对标Opus,额度也按这个档算。换句话说,智谱没把它当"便宜替代",而是当Claude的同位竞品在卖。

GLM-5.2初体验来了:像Claude,但还没那么听话

参数里最显眼的是100万上下文。在代码任务里,它对应的其实是一件具体的事:模型能不能吃下一个稍大的项目,能不能跟住一条长的修改链,能不能在第二十轮对话里还记得第三轮定下的约束。

加上订阅、编码工具接入、开源时间表一次给齐,这次发布不像在发一个模型,更像在发一个产品。

开发者拿它做了什么

这次反馈里,跑分不重要。要看的是开发者拿它做了什么。

有人测严格JSON输出、编程、推理、长上下文检索,也有人把它放进OpenCode和Coding Plan里跑最高档。前面那组Python代码审查数据只是单个开发者样本,不是正式基准测试,但方向很清楚:代码审查不需要模型把每件事解释得很满,更需要它短、快、抓重点。

另一个被反复提到的细节,是模型在任务不清楚时会先反问,而不是直接动手。这一点让人想到Claude。长上下文不稀奇。Gemini、Codex、Kimi都能做长任务。稀奇的是在长任务里知道什么时候该问一句,什么时候该继续。

还有一条更像真正的代码审查。有用户让GLM-5.2去审Fable 5之前做的一个大功能,再把GLM挑出的问题交给GPT-5.5复核,15个问题里,12个GPT-5.5觉得站得住。

这条互动量不高,时间点也得注意:测试做的时候Fable 5还能用,现在Fable 5对外国开发者已经停了,这条路径本身复现不了。但它至少说明,GLM-5.2已经能干"找问题"这种活,不只是写个能跑的demo。

和Kimi K2.7的对比也说明同一件事。那组Minecraft页面测试不是严格评测,不能推出"GLM-5.2全面赢Kimi"。但它把一个开发者真正关心的问题摆出来了:快几分钟不一定重要,少修一轮问题更重要。

GLM-5.2初体验来了:像Claude,但还没那么听话

三个不同的问题

对用户来说,慢和贵经常是同一种感受:等得久,额度还掉得快。但问题本身不在同一层。

第一层是服务体验。 有人说,用OpenCode加GLM-5.2最高档时,实际感受大致接近Claude Opus 4.6,但可能因为流量拥堵,速度非常慢。还有用户直接说它"慢得离谱"。这类问题更像基础设施和流量问题,扩容之后会缓解。

第二层是额度设计。 前面那位给出正面评价的开发者也提到,几个复杂任务就消耗了50%的5小时额度和10%周额度。模型越能做复杂任务,越容易把用户带进高消耗场景。如果用户的感受是"强但不敢多用",套餐设计就会变成问题。

第三层更麻烦,是模型行为。

有用户说,GLM-5.2在Coding Plan里仍然很慢,不如预期,而且会混淆指令。他举的场景是配置 *.anyrouter.dev,认为自己已经解释清楚,但模型仍然没有处理好。还有用户说,GLM-5.1是"你让它做什么它就做什么",但GLM-5.2会用自己的默认设定覆盖用户指令,需要反复把它拉回正轨。

GLM-5.2初体验来了:像Claude,但还没那么听话

这就尴尬了。

Claude的主动性之所以受欢迎,是因为它多数时候主动得对。该问时问,该提醒时提醒。但如果一个模型的主动性变成覆盖用户指令、替用户改默认设定,那就不再是"像Claude",而是像一个不太听话的Claude。

这不太像一个单纯靠提示词就能补齐的问题。它更像工程场景里的指令对齐:什么时候该追问,什么时候该照做;什么时候该提醒风险,什么时候不该替用户改主意。Claude花了很长时间才让开发者信任这种判断,GLM-5.2现在刚开始接受这类考验。

中文社区的反应

中文社区的反馈更直接。

小红书和B站这两天冒出来一堆标题:"实测GLM-5.2和Opus 4.8:差距比我想像的小"、"GLM-5.2实测:比跑分表现得更像前沿模型"、"智谱GLM-5.2强到可以冒充Claude Opus?"、"在Claude Code中配置GLM-5.2满血版的方法"。

标题归标题,正文有没有这么神是另一回事。但这些标题说明一件事:中文用户的第一反应是问它能不能冒充Opus、能不能接进Claude Code、能不能在自己的项目里顶上来。

B站也有泼冷水的。有视频标题直接写"速度快、幻觉低、不扯淡,但编程能力不敌顶模",还有人提醒"先别全量切",说要先看100万上下文怎么样、额度扛不扛得住、Claude Code切过去顺不顺。

一边在喊差距比想象小,一边在问能不能真当主力用。 这和外网的反馈其实是一回事:愿意认真测了,但还没到可以闭眼换的程度。

开源之后才是第二轮

发布时,智谱称GLM-5.2已面向GLM Coding Plan用户开放,API和聊天机器人服务随后上线,模型也将以MIT协议开源。

这个时间点也让GLM-5.2得到额外关注。Fable 5和Mythos 5因美国出口管制指令突然对外国国民暂停访问,让开发者社区重新意识到,前沿闭源模型的可用性并不完全由开发者自己掌控。 GLM-5.2的MIT权重承诺,不只是"开源社区会不会高兴"的问题,也关系到开发者是否相信这是一条能长期依赖的替代路线。

GLM-5.2初体验来了:像Claude,但还没那么听话

Reddit r/LocalLLaMA的讨论里,社区态度不是简单的"催更",更像一种有条件的耐心:可以理解公司先把模型放进Coding Plan,通过订阅回收一部分成本,但前提是权重真的按时兑现。如果延期,理解就会变成质疑。

如果权重这周按时放出,GLM-5.2的讨论会从服务体验进入更硬的阶段:量化、部署、推理成本、长上下文显存、vLLM/SGLang适配、真实SWE-bench和智能体基准测试。

到那时候,类似"47.7秒、1415个token"这样的单点测试,才会被更多人复现或推翻。 GLM-5.2的第二轮评价,也会比这两天更残酷。

真门槛不是速度,是该不该听话

GLM-5.2没有干掉Claude。

但它第一次让一部分海外开发者认真考虑,是不是可以把国产模型放进真实工作流。

过去国产模型在海外的好感度停在榜单、价格和开源标签上。

GLM-5.2这次已经让一些人愿意更深入尝试。速度、额度、开源都还能靠工程手段补,扩容、改套餐、按时放权重。

最难的是那条线:什么时候该主动,什么时候该听话。

这会决定GLM-5.2是一次令人惊喜的尝鲜,还是一个开发者愿意长期依赖的主力工具。

本周开源之后,第二轮测试才真正开始。

相关推荐
热点推荐
布伦森将赌注压在了自己和尼克斯身上,而尼克斯也回报了他的信任

布伦森将赌注压在了自己和尼克斯身上,而尼克斯也回报了他的信任

稻谷与小麦
2026-06-16 01:20:03
内马尔未婚妻现场观战巴西小组赛首战!超高颜值太吸睛 女儿超萌

内马尔未婚妻现场观战巴西小组赛首战!超高颜值太吸睛 女儿超萌

Emily说个球
2026-06-15 17:04:21
生活的小确幸:它们是散落的星辰,照亮平凡的每一天

生活的小确幸:它们是散落的星辰,照亮平凡的每一天

疾跑的小蜗牛
2026-06-15 21:20:34
618“值得捡漏”的一款大内存手机,骁龙8系+16GB+512GB仅1699元

618“值得捡漏”的一款大内存手机,骁龙8系+16GB+512GB仅1699元

小柱解说游戏
2026-06-14 15:48:28
7月1日起,医保退休和养老金正式分家!这3类人最该高兴

7月1日起,医保退休和养老金正式分家!这3类人最该高兴

笑熬浆糊111
2026-06-16 00:05:28
东莞地铁2号线有乘客翻越闸机,官方通报:涉事乘客共计6人,利用工作人员巡视空窗间隙跳闸,已向其足额追缴乘车票款,并予以治安处罚

东莞地铁2号线有乘客翻越闸机,官方通报:涉事乘客共计6人,利用工作人员巡视空窗间隙跳闸,已向其足额追缴乘车票款,并予以治安处罚

扬子晚报
2026-06-14 11:07:44
罗马中餐馆老板娘火了!直播说漏嘴:那座冠军奖杯,比黄金还金贵

罗马中餐馆老板娘火了!直播说漏嘴:那座冠军奖杯,比黄金还金贵

枫尘余往逝
2026-06-15 15:04:04
马科斯终于等到这天,国际刑事法院正式裁定,杜特尔特真的危险了

马科斯终于等到这天,国际刑事法院正式裁定,杜特尔特真的危险了

小影的娱乐
2026-06-16 00:39:28
哈马斯欢迎美伊达成谅解备忘录

哈马斯欢迎美伊达成谅解备忘录

财联社
2026-06-16 02:01:42
重案实录——不伦孽恋  苏州5.4餐馆命案纪实

重案实录——不伦孽恋 苏州5.4餐馆命案纪实

重案实录
2026-06-15 10:31:44
眼睛出现这4种异常,当心是大病前兆!尤其第3种,很多人不当回事

眼睛出现这4种异常,当心是大病前兆!尤其第3种,很多人不当回事

芹姐说生活
2026-06-15 22:59:58
世界杯围挡成精了?俩中国品牌在线“撒糖”

世界杯围挡成精了?俩中国品牌在线“撒糖”

DT商业观察
2026-06-15 15:06:21
油车预计多长时间会被完全淘汰?看网友评论 :引起万千共鸣

油车预计多长时间会被完全淘汰?看网友评论 :引起万千共鸣

夜深爱杂谈
2026-06-11 07:54:59
俄罗斯人被特朗普打醒了:就是出卖中国,美国也不可能放过他们

俄罗斯人被特朗普打醒了:就是出卖中国,美国也不可能放过他们

领悟看世界
2026-06-16 00:58:02
深圳顾客2小时试穿40件衣服,最后买下33件,老板当场笑出声…

深圳顾客2小时试穿40件衣服,最后买下33件,老板当场笑出声…

普陀动物世界
2026-06-15 17:03:47
雷军直播在线人数为何突然暴跌?

雷军直播在线人数为何突然暴跌?

娱圈观察员
2026-06-14 00:25:03
快讯!菲律宾传来新消息!

快讯!菲律宾传来新消息!

故事终将光明磊落
2026-06-15 09:51:57
“再降薪就没人踢了”,徐亮暴怒发声的原因出来了,范志毅说对了

“再降薪就没人踢了”,徐亮暴怒发声的原因出来了,范志毅说对了

李橑在北漂
2026-06-15 18:48:18
现场飘起五星红旗!郑钦文终于笑了 回应2-1大逆转:我会越打越好

现场飘起五星红旗!郑钦文终于笑了 回应2-1大逆转:我会越打越好

风过乡
2026-06-15 21:42:40
宋美龄钢笔字不如小学生!为什么书法老师不主张学《兰亭序》?

宋美龄钢笔字不如小学生!为什么书法老师不主张学《兰亭序》?

书画相约
2026-06-13 10:04:46
2026-06-16 02:59:00

科技要闻

白宫一个电话,最强Claude上线三天就没了

头条要闻

西班牙遭爆冷:0-0平佛得角 亚马尔完成首秀

头条要闻

西班牙遭爆冷:0-0平佛得角 亚马尔完成首秀

体育要闻

世界杯开赛4天,亚足联依然保持不败!

娱乐要闻

黄大炜猝逝过程太离奇,母亲追查真相

财经要闻

活鼠、活蛆、农残超标 山姆回应被约谈

汽车要闻

网易X智己 夏日尊享内购会,热力收官

态度原创

亲子
旅游
房产
家居
军事航空

亲子要闻

婴幼儿特应性皮炎药物Ⅲ期临床结果发布,破解“无药可用”困局

旅游要闻

“文创店里找故居” ,鲁迅先生能高兴吗?| 新京报社论

房产要闻

最低13100元/㎡!三亚新一轮安居房房源,开始登记!

家居要闻

绿意盎然 自然之境

军事要闻

特朗普:美伊协议已完成 开放霍尔木兹海峡

无障碍浏览 进入关怀版
×