网易首页 > 网易号 > 正文 申请入驻

美媒:中国新大模型测试全面击败OpenAI谷歌模型

0
分享至

你敢信?一个被美国列入实体清单、连英伟达芯片都买不到的中国AI实验室,居然在衡量真实职场能力的权威测试里,把GPT-5.5和谷歌所有模型都甩在了身后!



这可不是什么偏门榜单的意外。北京智谱AI旗下的GLM-5.2,在人工智能分析公司发布的GDPval-AA v2基准测试里,拿到了1524分的Elo评分,全球排第三——仅次于Anthropic的Claude Fable 5(1783分)和Claude Opus 4.8(1615分)。而OpenAI的GPT-5.5最高推理设置下才1509分,谷歌最好的Gemini 3.5 Flash更是只有1357分,全都被GLM-5.2压在了下面。

最让人震惊的不是排名,是这个测试到底测的是什么。传统AI测试都是考孤立的推理题或者编程题,像考试一样。但GDPval-AA完全不一样,它模拟的是真的能创造经济价值的知识工作:多轮对话、长时间跟进、真实的专业任务场景。GLM-5.2在测试里平均每项任务要完成31轮对话,这不是“回答一个问题”,而是“从头到尾推进一件事”——就像你在职场里跟同事协作完成项目一样。

人工智能分析团队用同一份真实任务清单,同时测了GLM-5.2和三个前沿模型:零售主管的日常业务清单、IEC紧急停止电路原理图分析、管弦乐情绪板设计。结果呢?GLM-5.2的表现和Claude Fable 5、GPT-5.5、Gemini 3.5 Flash完全在同一梯队,没有落下风。



这里有个细节,必须单独拿出来说:智谱AI从2025年1月起就被美国列入实体清单,根本买不到英伟达GPU。那GLM-5.2是怎么跑起来的?答案是华为昇腾芯片。这件事本身,就是对“芯片出口管制能遏制中国AI发展”最直接的打脸。

不仅如此,GLM-5.2还是开放权重模型,定价更是狠到离谱:每百万输入代币1.40美元,输出4.40美元。对比一下Claude Opus 4.8,输入15美元、输出75美元——贵了将近10倍!一个硬件受限、价格又这么低的开放模型,居然能在真实工作测试里跟顶级专有模型平起平坐,这背后的经济逻辑和地缘政治意义,早就超过了一张榜单本身。

而且智谱AI的迭代速度也吓人:GLM-5在2月发布,3月下旬就出了GLM-5.1,6月又推出GLM-5.2,平均每六周就有一个重要版本。GLM-5.1已经在SWE-Bench Pro软件工程测试里超越了GPT-5.4和Claude Opus 4.6,成为第一个在这个测试里登顶的中国模型。GLM-5.2则在更贴近真实应用的赛道上,继续把这个势头延伸下去。

可能有人会说,不就是个测试吗?但GDPval-AA的测试逻辑,跟你平时看到的AI考试完全不同。它不是让模型做几道选择题或者写段代码,而是让模型模拟真实的职场任务:比如零售主管要处理的日常业务,从库存管理到客户投诉;比如工程师要分析的电路原理图,得找出潜在问题;甚至是设计师要做的情绪板,得准确传达出管弦乐的氛围。这些任务都需要模型具备持续思考、多轮交互的能力,而不是一次性给出答案。

在另一个叫AA-Briefcase的专项测试里,GLM-5.2同样表现出色。这个测试专门针对研究、分析和结构化交付成果类工作,把评分通过率、分析质量和表达能力合并成综合Elo分数。GLM-5.2在这里拿到了1266分,超过GPT-5.5的1159分,再次成为开源模型里的第一名。

横向看,GLM-5.2的表现也不是偶然。在人工智能分析智能指数(AIAI)里它排第四,得分51分,只落后于三个专有闭源模型。在代理指数(Agentic Index)的开放权重分类里,它更是排名第一。智谱AI自己总结:所有测试结果高度一致,没有明显的短板。



开放权重模型本来就比闭源模型更有优势——开发者可以基于它二次开发,定制化程度更高。但GLM-5.2不仅开放,价格还低到让闭源模型汗颜。Claude Opus 4.8的价格是它的10倍,而性能却没拉开差距。这意味着什么?意味着中小企业甚至个人开发者,都能用得起接近顶级水平的AI模型,而不用被大厂的高价卡脖子。

这对整个AI行业的影响是巨大的。过去,顶级AI能力被几个大厂垄断,小公司根本用不起。但GLM-5.2的出现,可能会打破这种垄断格局。开放、低价、高性能——这三个关键词加起来,足以让更多人参与到AI创新里来,而不是只能看着大厂玩。

过去十二个月,行业里普遍认为“中国AI落后美国半年到一年”。但GLM-5.2的表现,正在一点点瓦解这个共识。从GLM-5.1在软件工程测试里登顶,到GLM-5.2在真实职场测试里超过GPT-5.5,中国AI的进步速度,显然超出了很多人的预期。

GLM-5.2不是终点,它更像是一个信号:这场AI竞争的格局,比大多数人想象的要复杂得多。美国的芯片管制,没有拦住中国AI的脚步;相反,可能还激发了更多的创新和突破。

你觉得,美国的芯片出口管制,真的能遏制中国AI的发展吗?GLM-5.2的表现,会不会改变你对中国AI实力的看法?这场AI竞赛,接下来会朝着什么方向发展?欢迎在评论区说出你的观点!

声明:个人原创,仅供参考

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
你永远可以不信法国的第3轮?法国队连续9届大赛小组末战不胜

你永远可以不信法国的第3轮?法国队连续9届大赛小组末战不胜

懂球帝
2026-06-27 01:26:17
106岁宋美龄临终吐露心事,常年穿旗袍迎合蒋介石,一生隐忍到离世

106岁宋美龄临终吐露心事,常年穿旗袍迎合蒋介石,一生隐忍到离世

磊子讲史
2026-06-08 16:23:30
祁宏近况:定居上海做青训,50岁锋芒褪去,妻子不离不弃等他5年

祁宏近况:定居上海做青训,50岁锋芒褪去,妻子不离不弃等他5年

胡一舸南游y
2026-06-25 23:22:44
西方人突然发现,中国人对两次世界大战理解,似乎与他们不一样?

西方人突然发现,中国人对两次世界大战理解,似乎与他们不一样?

甜到你心坎
2026-06-26 03:13:42
安徽淮北警方通报买家购买榴莲后恶意申请“仅退款”并将榴莲线下销售牟利:已对犯罪嫌疑人采取刑事强制措施

安徽淮北警方通报买家购买榴莲后恶意申请“仅退款”并将榴莲线下销售牟利:已对犯罪嫌疑人采取刑事强制措施

环球网资讯
2026-06-26 19:48:11
发现一个有趣的现象:不管信不信,男人过了50,基本都有以下特征

发现一个有趣的现象:不管信不信,男人过了50,基本都有以下特征

小书虫妈妈
2026-06-25 12:36:46
国家大基金出手!136亿半导体“小巨人” 再遭减持

国家大基金出手!136亿半导体“小巨人” 再遭减持

21世纪经济报道
2026-06-26 23:33:57
联信检测回应网传甲酰胺相关检测报告:正式报告并未发出,属于无效报告

联信检测回应网传甲酰胺相关检测报告:正式报告并未发出,属于无效报告

界面新闻
2026-06-26 09:45:31
炸完莫斯科,再对付中国?乌克兰被曝与日本勾结,中方送出一句话

炸完莫斯科,再对付中国?乌克兰被曝与日本勾结,中方送出一句话

墨策史
2026-06-27 00:50:07
发现没:高考550分,早已不是中等生,而是多数人够不到的门槛

发现没:高考550分,早已不是中等生,而是多数人够不到的门槛

糖逗在娱乐
2026-06-26 13:40:14
我如今已68了,以亲身血泪教训告诉你:不要跟任何人,包括你的父母、子女、枕边人,分享这两件事

我如今已68了,以亲身血泪教训告诉你:不要跟任何人,包括你的父母、子女、枕边人,分享这两件事

心理观察局
2026-05-23 07:00:06
女星苗金凤病逝!她3岁丧父,离过两次婚,人生就像电视剧

女星苗金凤病逝!她3岁丧父,离过两次婚,人生就像电视剧

名人家事情事
2026-06-26 12:42:17
不用找人算命,守住这7条,你的运势自然越来越旺

不用找人算命,守住这7条,你的运势自然越来越旺

金沛的国学笔记
2026-06-18 21:35:00
吃他汀不能碰燕麦?医生苦劝:不只是燕麦,这5物能不吃就不吃!

吃他汀不能碰燕麦?医生苦劝:不只是燕麦,这5物能不吃就不吃!

路医生健康科普
2026-06-16 12:30:08
赖昌星前妻近状曝光:拒绝政府安置,独居3000平老宅,只做一件事

赖昌星前妻近状曝光:拒绝政府安置,独居3000平老宅,只做一件事

人生录
2026-06-01 13:52:39
周成虎,终成“虎”

周成虎,终成“虎”

新锐研究
2026-05-27 07:57:30
太惊悚了!网传杭州有针对年轻女性的黑色产业链,评论区彻底炸锅

太惊悚了!网传杭州有针对年轻女性的黑色产业链,评论区彻底炸锅

慧翔百科
2026-06-15 08:38:20
内马尔也没想到,被全足坛都往死里针对的他,如今对手却不敢铲?

内马尔也没想到,被全足坛都往死里针对的他,如今对手却不敢铲?

小莜读史
2026-06-26 18:46:05
一个中年女人自不自律,看她的“体态”就知道了,差距不是一般大

一个中年女人自不自律,看她的“体态”就知道了,差距不是一般大

健身狂人
2026-06-05 11:01:06
高兴早了?美军发起斩首行动后,不到一天,特朗普迎来4个坏消息

高兴早了?美军发起斩首行动后,不到一天,特朗普迎来4个坏消息

用冷眼洞悉世界
2026-06-27 01:53:10
2026-06-27 04:56:49
孤傲何妨初
孤傲何妨初
孤傲何妨初
1229文章数 51关注度
往期回顾 全部

科技要闻

拿了500亿的梁文锋,只挖地基,不信销售

头条要闻

白玉兰史上首个90后视后:爸妈 女儿没让你们失望

头条要闻

白玉兰史上首个90后视后:爸妈 女儿没让你们失望

体育要闻

我在世界杯的每次奔跑,都为了证明你没看错

娱乐要闻

玥儿不回北京,马筱梅解释后妈身份

财经要闻

"索具龙头"领大额罚单

汽车要闻

11.99万起 捷途自由者7 PLUS/山海T1四驱版上市

态度原创

艺术
亲子
家居
公开课
军事航空

艺术要闻

莫兰迪不多见的简约风景画!

亲子要闻

收邻居4根黄瓜被逼请客?宝妈硬气回怼:还你三根 再送一根,绝交

家居要闻

绿意盎然 自然之境

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗:驶离指定航线船舶不享有安全保障

无障碍浏览 进入关怀版