你敢信?一个被美国列入实体清单、连英伟达芯片都买不到的中国AI实验室,居然在衡量真实职场能力的权威测试里,把GPT-5.5和谷歌所有模型都甩在了身后!
![]()
这可不是什么偏门榜单的意外。北京智谱AI旗下的GLM-5.2,在人工智能分析公司发布的GDPval-AA v2基准测试里,拿到了1524分的Elo评分,全球排第三——仅次于Anthropic的Claude Fable 5(1783分)和Claude Opus 4.8(1615分)。而OpenAI的GPT-5.5最高推理设置下才1509分,谷歌最好的Gemini 3.5 Flash更是只有1357分,全都被GLM-5.2压在了下面。
最让人震惊的不是排名,是这个测试到底测的是什么。传统AI测试都是考孤立的推理题或者编程题,像考试一样。但GDPval-AA完全不一样,它模拟的是真的能创造经济价值的知识工作:多轮对话、长时间跟进、真实的专业任务场景。GLM-5.2在测试里平均每项任务要完成31轮对话,这不是“回答一个问题”,而是“从头到尾推进一件事”——就像你在职场里跟同事协作完成项目一样。
人工智能分析团队用同一份真实任务清单,同时测了GLM-5.2和三个前沿模型:零售主管的日常业务清单、IEC紧急停止电路原理图分析、管弦乐情绪板设计。结果呢?GLM-5.2的表现和Claude Fable 5、GPT-5.5、Gemini 3.5 Flash完全在同一梯队,没有落下风。
![]()
这里有个细节,必须单独拿出来说:智谱AI从2025年1月起就被美国列入实体清单,根本买不到英伟达GPU。那GLM-5.2是怎么跑起来的?答案是华为昇腾芯片。这件事本身,就是对“芯片出口管制能遏制中国AI发展”最直接的打脸。
不仅如此,GLM-5.2还是开放权重模型,定价更是狠到离谱:每百万输入代币1.40美元,输出4.40美元。对比一下Claude Opus 4.8,输入15美元、输出75美元——贵了将近10倍!一个硬件受限、价格又这么低的开放模型,居然能在真实工作测试里跟顶级专有模型平起平坐,这背后的经济逻辑和地缘政治意义,早就超过了一张榜单本身。
而且智谱AI的迭代速度也吓人:GLM-5在2月发布,3月下旬就出了GLM-5.1,6月又推出GLM-5.2,平均每六周就有一个重要版本。GLM-5.1已经在SWE-Bench Pro软件工程测试里超越了GPT-5.4和Claude Opus 4.6,成为第一个在这个测试里登顶的中国模型。GLM-5.2则在更贴近真实应用的赛道上,继续把这个势头延伸下去。
可能有人会说,不就是个测试吗?但GDPval-AA的测试逻辑,跟你平时看到的AI考试完全不同。它不是让模型做几道选择题或者写段代码,而是让模型模拟真实的职场任务:比如零售主管要处理的日常业务,从库存管理到客户投诉;比如工程师要分析的电路原理图,得找出潜在问题;甚至是设计师要做的情绪板,得准确传达出管弦乐的氛围。这些任务都需要模型具备持续思考、多轮交互的能力,而不是一次性给出答案。
在另一个叫AA-Briefcase的专项测试里,GLM-5.2同样表现出色。这个测试专门针对研究、分析和结构化交付成果类工作,把评分通过率、分析质量和表达能力合并成综合Elo分数。GLM-5.2在这里拿到了1266分,超过GPT-5.5的1159分,再次成为开源模型里的第一名。
横向看,GLM-5.2的表现也不是偶然。在人工智能分析智能指数(AIAI)里它排第四,得分51分,只落后于三个专有闭源模型。在代理指数(Agentic Index)的开放权重分类里,它更是排名第一。智谱AI自己总结:所有测试结果高度一致,没有明显的短板。
![]()
开放权重模型本来就比闭源模型更有优势——开发者可以基于它二次开发,定制化程度更高。但GLM-5.2不仅开放,价格还低到让闭源模型汗颜。Claude Opus 4.8的价格是它的10倍,而性能却没拉开差距。这意味着什么?意味着中小企业甚至个人开发者,都能用得起接近顶级水平的AI模型,而不用被大厂的高价卡脖子。
这对整个AI行业的影响是巨大的。过去,顶级AI能力被几个大厂垄断,小公司根本用不起。但GLM-5.2的出现,可能会打破这种垄断格局。开放、低价、高性能——这三个关键词加起来,足以让更多人参与到AI创新里来,而不是只能看着大厂玩。
过去十二个月,行业里普遍认为“中国AI落后美国半年到一年”。但GLM-5.2的表现,正在一点点瓦解这个共识。从GLM-5.1在软件工程测试里登顶,到GLM-5.2在真实职场测试里超过GPT-5.5,中国AI的进步速度,显然超出了很多人的预期。
GLM-5.2不是终点,它更像是一个信号:这场AI竞争的格局,比大多数人想象的要复杂得多。美国的芯片管制,没有拦住中国AI的脚步;相反,可能还激发了更多的创新和突破。
你觉得,美国的芯片出口管制,真的能遏制中国AI的发展吗?GLM-5.2的表现,会不会改变你对中国AI实力的看法?这场AI竞赛,接下来会朝着什么方向发展?欢迎在评论区说出你的观点!
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.