美媒：中国新大模型测试全面击败OpenAI谷歌模型|glm|人工智能|知名企业|openai

美媒：中国新大模型测试全面击败OpenAI谷歌模型

2026-06-27 01:21:00　来源: 孤傲何妨初

四川举报

分享至

你敢信？一个被美国列入实体清单、连英伟达芯片都买不到的中国AI实验室，居然在衡量真实职场能力的权威测试里，把GPT-5.5和谷歌所有模型都甩在了身后！

这可不是什么偏门榜单的意外。北京智谱AI旗下的GLM-5.2，在人工智能分析公司发布的GDPval-AA v2基准测试里，拿到了1524分的Elo评分，全球排第三——仅次于Anthropic的Claude Fable 5（1783分）和Claude Opus 4.8（1615分）。而OpenAI的GPT-5.5最高推理设置下才1509分，谷歌最好的Gemini 3.5 Flash更是只有1357分，全都被GLM-5.2压在了下面。

最让人震惊的不是排名，是这个测试到底测的是什么。传统AI测试都是考孤立的推理题或者编程题，像考试一样。但GDPval-AA完全不一样，它模拟的是真的能创造经济价值的知识工作：多轮对话、长时间跟进、真实的专业任务场景。GLM-5.2在测试里平均每项任务要完成31轮对话，这不是“回答一个问题”，而是“从头到尾推进一件事”——就像你在职场里跟同事协作完成项目一样。

人工智能分析团队用同一份真实任务清单，同时测了GLM-5.2和三个前沿模型：零售主管的日常业务清单、IEC紧急停止电路原理图分析、管弦乐情绪板设计。结果呢？GLM-5.2的表现和Claude Fable 5、GPT-5.5、Gemini 3.5 Flash完全在同一梯队，没有落下风。

这里有个细节，必须单独拿出来说：智谱AI从2025年1月起就被美国列入实体清单，根本买不到英伟达GPU。那GLM-5.2是怎么跑起来的？答案是华为昇腾芯片。这件事本身，就是对“芯片出口管制能遏制中国AI发展”最直接的打脸。

不仅如此，GLM-5.2还是开放权重模型，定价更是狠到离谱：每百万输入代币1.40美元，输出4.40美元。对比一下Claude Opus 4.8，输入15美元、输出75美元——贵了将近10倍！一个硬件受限、价格又这么低的开放模型，居然能在真实工作测试里跟顶级专有模型平起平坐，这背后的经济逻辑和地缘政治意义，早就超过了一张榜单本身。

而且智谱AI的迭代速度也吓人：GLM-5在2月发布，3月下旬就出了GLM-5.1，6月又推出GLM-5.2，平均每六周就有一个重要版本。GLM-5.1已经在SWE-Bench Pro软件工程测试里超越了GPT-5.4和Claude Opus 4.6，成为第一个在这个测试里登顶的中国模型。GLM-5.2则在更贴近真实应用的赛道上，继续把这个势头延伸下去。

可能有人会说，不就是个测试吗？但GDPval-AA的测试逻辑，跟你平时看到的AI考试完全不同。它不是让模型做几道选择题或者写段代码，而是让模型模拟真实的职场任务：比如零售主管要处理的日常业务，从库存管理到客户投诉；比如工程师要分析的电路原理图，得找出潜在问题；甚至是设计师要做的情绪板，得准确传达出管弦乐的氛围。这些任务都需要模型具备持续思考、多轮交互的能力，而不是一次性给出答案。

在另一个叫AA-Briefcase的专项测试里，GLM-5.2同样表现出色。这个测试专门针对研究、分析和结构化交付成果类工作，把评分通过率、分析质量和表达能力合并成综合Elo分数。GLM-5.2在这里拿到了1266分，超过GPT-5.5的1159分，再次成为开源模型里的第一名。

横向看，GLM-5.2的表现也不是偶然。在人工智能分析智能指数（AIAI）里它排第四，得分51分，只落后于三个专有闭源模型。在代理指数（Agentic Index）的开放权重分类里，它更是排名第一。智谱AI自己总结：所有测试结果高度一致，没有明显的短板。

开放权重模型本来就比闭源模型更有优势——开发者可以基于它二次开发，定制化程度更高。但GLM-5.2不仅开放，价格还低到让闭源模型汗颜。Claude Opus 4.8的价格是它的10倍，而性能却没拉开差距。这意味着什么？意味着中小企业甚至个人开发者，都能用得起接近顶级水平的AI模型，而不用被大厂的高价卡脖子。

这对整个AI行业的影响是巨大的。过去，顶级AI能力被几个大厂垄断，小公司根本用不起。但GLM-5.2的出现，可能会打破这种垄断格局。开放、低价、高性能——这三个关键词加起来，足以让更多人参与到AI创新里来，而不是只能看着大厂玩。

过去十二个月，行业里普遍认为“中国AI落后美国半年到一年”。但GLM-5.2的表现，正在一点点瓦解这个共识。从GLM-5.1在软件工程测试里登顶，到GLM-5.2在真实职场测试里超过GPT-5.5，中国AI的进步速度，显然超出了很多人的预期。

GLM-5.2不是终点，它更像是一个信号：这场AI竞争的格局，比大多数人想象的要复杂得多。美国的芯片管制，没有拦住中国AI的脚步；相反，可能还激发了更多的创新和突破。

你觉得，美国的芯片出口管制，真的能遏制中国AI的发展吗？GLM-5.2的表现，会不会改变你对中国AI实力的看法？这场AI竞赛，接下来会朝着什么方向发展？欢迎在评论区说出你的观点！

声明：个人原创，仅供参考

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.