网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

实测翻车？GLM-5基准接近顶级，但真实编程任务仅完成75项引质疑

2026-02-13 13:02:15　来源: 知识圈

北京举报

0

分享至

日前，智谱 GLM-5发布，引发业界关注。海外知名科技账号 BridgeMind 发文称，“GLM-5 是一个基准测试很强、但难以在真实工作中生存的模型”。其表示自己花了一整天时间进行实测，并公布了多项对比数据。

根据其披露的数据，在“人工分析智能指数”这一基准测试中，GLM-5成绩不低，与Claude Opus 4.5并列50分，仅比Opus 4.6低3分。从这一指标来看，GLM-5在通用能力测试中表现接近业界头部水平。

但在Bridge Bench这一强调真实世界编程任务的测试中，结果出现明显差距。Claude Opus 4.6总分60.1，平均响应时间8.3秒，完成130个任务中的130个。GPT 5.2 Codex总分58.3，平均响应时间19.9秒，完成129个任务。GLM-5总分为41.5，平均响应时间达到156.7秒，仅完成约75个任务。

从分类成绩看，GLM-5在调试和算法类任务上仍有一定表现，调试得分70.1，算法61.5，但在安全、生成和UI等项目上明显落后，其中UI仅13.1分，安全23.2分。整体完成率和响应速度成为其在实际开发环境中的主要短板。

BridgeMind 表示，基准测试成绩并不能完全代表模型在生产环境中的表现。他认为，在真实复杂任务下，响应速度、稳定性和任务完成率更具参考价值。

目前相关数据尚未见官方回应，也缺乏更大规模的第三方交叉验证。但这一测试已引发不少网友讨论，GLM-5 在真实开发场景中的表现是否可靠，仍需更多公开、透明的实测数据支持。

【相关阅读】

智谱GLM-5被质疑蒸馏美国大模型，自我介绍自称“Claude”，网友：真不要脸

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

GLM-5封神，智谱市值五天翻倍，中国AI火力全开了

机器之心Pro 2026-02-13 15:30:39
0 跟贴 0
模型大战红包之后：DeepSeek上新，AI小龙们座次已变

雷科技 2026-02-12 22:15:24
3 跟贴 3

OpenAI史上最快模型降临，每秒1000Token！代码从此「炸出来」

新智元 2026-02-13 14:51:54
0 跟贴 0

AI能否「圣地巡礼」？多模态大模型全新评估基准VIR-Bench来了

机器之心Pro 2025-10-15 16:05:02
0 跟贴 0
5个月用AI做了120多个App，职高毕业的小伙在杭州上城开“一人公司” 火到了海外

都市快报橙柿互动 2026-02-13 12:48:31
1171 跟贴 1171

大模型碰到真难题了，测了500道，o3 Pro仅通过15%

机器之心Pro 2025-09-15 10:45:10
0 跟贴 0

具身智能如何抵达 “ChatGPT时刻”？智源院长、清华教授和3位创始人聊了聊

36氪 2026-02-13 18:54:07
0 跟贴 0
终极测试成绩创新高，谷歌Gemini 3深度思考模型重大升级，瞄准科研与工程应用

华尔街见闻官方 2026-02-13 03:11:53
0 跟贴 0

英伟达研究：看完44000小时人类视频后，机器人学会想象物理世界

DeepTech深科技 2026-02-13 17:38:23
0 跟贴 0
SOLO Coder 在现有项目基础上继续完善功能、修复问题

机器之心Pro 2025-11-13 14:18:40
0 跟贴 0
三维空间太难懂？2

机器之心Pro 2025-12-31 13:49:19
0 跟贴 0
未来医生摘得全球第一，临床安全有效性评估新基准

量子位 2025-11-19 11:14:03
0 跟贴 0
「Teamily AI」硅谷亮相，开启「人机共生」社交新元年

机器之心Pro 2026-02-13 18:19:04
0 跟贴 0
OpenClaw狂跑两周，打醒了硬件和Agent厂商

钛媒体APP 2026-02-13 18:33:07
0 跟贴 0
姚顺宇参与，谷歌最强Gemini推理模型发布！测评碾压Opus 4.6、GPT-5.2

智东西 2026-02-13 12:27:47
35 跟贴 35
一夜暴涨至2100亿！开源新王MiniMax M2.5，革了Opus 4.6的命

新智元 2026-02-13 14:53:32
0 跟贴 0
冯绍峰赵丽颖同框，尴尬指数爆表？揭秘背后真相

忘川无我n 2026-02-13 03:04:14
0 跟贴 0
这个春节，三亚彻底火了！游客8499元订的民宿被临时毁约，附近民宿涨到三四万，机票价同比翻倍！95后、00后也多起来了

每日经济新闻 2026-02-12 22:13:04
6132 跟贴 6132
项目经理不相信清洁工的话，结果酿成了悲剧

小小鱼追剧 2026-02-09 11:14:22
10 跟贴 10
阿三的一次治疗，人没了，但揪出一条黑产！

禾理说 2026-02-09 09:34:24
0 跟贴 0
中南大学湘雅医院2025年外籍患者就诊人次较前年翻6倍

澎湃新闻 2026-02-12 20:48:26
9421 跟贴 9421
部落女孩试婚三天，腰里有刀慎重，危险指数堪称五颗星！

陌陌说时尚 2026-02-12 16:52:00
0 跟贴 0
中方罕见评价日本选举发出“极其严厉的预警”

环球网 2026-02-13 14:17:34
80 跟贴 80
AI Coding点燃市场热情，智谱盘中股价创新高，市值突破2000亿港元

每日经济新闻 2026-02-13 17:53:07
0 跟贴 0
3分钟看完历史书不敢写的番外：国宝们的春节晚会实录

网易新闻出品 2026-02-13 11:00:06
3 跟贴 3
把海外网友晃瞎的神秘大模型，还是中国制造

差评XPIN 2026-02-13 00:07:09
2 跟贴 2
老牌军事网文平台铁血读书宣布关停

大风新闻 2026-02-12 20:17:04
6971 跟贴 6971
上海试管女孩儿撞脸陌生女孩儿，亲子鉴定是关键

小小段砸 2026-02-11 12:26:06
0 跟贴 0
风云T11探店实测，限时立减1万！大六座豪华 SUV 到底值不值冲？

科技客评 2026-02-11 14:23:40
2 跟贴 2
香港长江和记警告：将采取法律行动！

看看新闻Knews 2026-02-13 16:12:03
12 跟贴 12
央行：1月份人民币存款增加8.09万亿元

财联社 2026-02-13 17:08:04
48 跟贴 48
俄驻日大使：俄日关系跌至"战后最低点"

财联社 2026-02-13 15:56:14
1 跟贴 1
山路见真章，艾瑞泽8 山路实测！十万级家轿藏着钢炮魂

汽车有智慧 2026-02-12 08:30:00
0 跟贴 0
孙龙夺得短道速滑男子1000米亚军

人民网-人民日报 2026-02-13 05:27:54
3801 跟贴 3801
新年放烟花拍合照，谁知入镜的男子比烟花还要刺眼

探山城 2026-02-11 15:31:17
0 跟贴 0
小鸟从小比较娇贵，必须要手养它才行，有了模型养几十只不是问题

发怒的福猫 2026-02-13 13:39:20
2 跟贴 2
失踪热点案件社会百态

国朝风云录 2026-02-11 23:04:23
0 跟贴 0
一旦你活明白了，你就再也回不去了

记忆承载 2026-02-13 16:51:08
0 跟贴 0
10亿红包！千问“30亿”下半场即将开启，羊毛薅到爽

雷科技 2026-02-13 18:41:31
0 跟贴 0
视频丨多次成功应对外舰、外机挑衅！太原舰展示052D硬核实力

海外网 2026-02-13 07:35:14
1054 跟贴 1054

48岁保洁阿姨睡在公司1个月，老板打开了监控，第2天送给她20万

48岁保洁阿姨睡在公司1个月，老板打开了监控，第2天送给她20万

秀秀情感课堂

2025-12-12 14:20:05

太可惜！宁波百年秀水历史老街区改造翻车

太可惜！宁波百年秀水历史老街区改造翻车

记录生活日常阿蜴

2026-02-13 12:35:06

郑州男子出售前女友送的银镯，剪开发现竟是银包金：金子占30克，银子仅占10克；得知手镯“秘密”小伙难掩伤感

郑州男子出售前女友送的银镯，剪开发现竟是银包金：金子占30克，银子仅占10克；得知手镯“秘密”小伙难掩伤感

扬子晚报

2026-02-13 11:20:42

转会后三连胜哈登：忠诚被高估了普通职场也一样

转会后三连胜哈登：忠诚被高估了普通职场也一样

体坛周报

2026-02-13 18:43:16

不再隐瞒！多年无子的舒淇终于承认：我们不是丁克，是生不出来

不再隐瞒！多年无子的舒淇终于承认：我们不是丁克，是生不出来

不写散文诗

2026-02-12 12:37:04

罗永浩怼段永平“懂个屁”，这个全是“破烂”的时代

罗永浩怼段永平“懂个屁”，这个全是“破烂”的时代

不正确

2026-02-11 22:53:03

2026下半年财运上榜！这3对生肖CP注定翻身逆袭，一个比一个狠

2026下半年财运上榜！这3对生肖CP注定翻身逆袭，一个比一个狠

毅谈生肖

2026-02-13 15:49:26

郑恺下乡杀猪办宴，穿四川省服毫无违和感，洗菜烧柴还炒菜接地气

郑恺下乡杀猪办宴，穿四川省服毫无违和感，洗菜烧柴还炒菜接地气

最美的开始

2026-02-13 15:32:45

挖坟了！一女子网购敬酒服穿脏后焊接吊牌退货，网友扒出发货地址

挖坟了！一女子网购敬酒服穿脏后焊接吊牌退货，网友扒出发货地址

火山詩话

2026-02-12 08:23:01

银行内部人员提醒！2月起无论你存多少定期，这2件事一定要提前了解！

银行内部人员提醒！2月起无论你存多少定期，这2件事一定要提前了解！

王二哥老搞笑

2026-02-12 19:46:07

宁在国外种榴莲，也不回国执教，培养出92个世界冠军的李永波图啥

宁在国外种榴莲，也不回国执教，培养出92个世界冠军的李永波图啥

青梅侃史啊

2026-01-04 16:47:52

川大才女35岁掌管近700亿，受贿4900万元获刑

川大才女35岁掌管近700亿，受贿4900万元获刑

蓬勃新闻

2026-02-08 17:35:48

36岁便慷慨就义的瞿秋白，建国后毛主席为何会有 “以后少纪念他” 这样的评价？

36岁便慷慨就义的瞿秋白，建国后毛主席为何会有 “以后少纪念他” 这样的评价？

桃烟读史

2025-12-31 21:38:26

纽约时报发现：大批美国人想当“中式坏女孩”

纽约时报发现：大批美国人想当“中式坏女孩”

奇葩游戏酱

2026-02-13 14:11:19

记者：森林老板船王赛后在更衣室大声咆哮，并有撞击声传出

记者：森林老板船王赛后在更衣室大声咆哮，并有撞击声传出

懂球帝

2026-02-13 00:31:11

邮报：埃泽逐渐沦为边缘人，可能无缘英格兰队的世界杯阵容

邮报：埃泽逐渐沦为边缘人，可能无缘英格兰队的世界杯阵容

懂球帝

2026-02-13 16:47:23

2000万网红“听风的蚕”被封！彻底凉凉

2000万网红“听风的蚕”被封！彻底凉凉

TOP电商

2026-02-12 02:48:55

小伙开创业开奶茶店，半年亏掉30万，总结了6条血一般的教训

小伙开创业开奶茶店，半年亏掉30万，总结了6条血一般的教训

第一桶金学派

2025-01-03 09:37:42

詹姆斯是最老三双先生！历史前十七、他有16个位置！

詹姆斯是最老三双先生！历史前十七、他有16个位置！

氧气是个地铁

2026-02-13 17:07:14

赖清德率五大军头发出通牒，收到大陆信号的郑丽文，直接反将一军

赖清德率五大军头发出通牒，收到大陆信号的郑丽文，直接反将一军

东极妙严

2026-02-13 18:58:56

全球热点新闻资讯

183文章数 316913关注度

往期回顾全部

科技要闻

独家探访蔡磊：答不完的卷子死磕最后一程

头条要闻

首次访华前德国总理默茨在发言中将中欧对比引发关注

头条要闻

首次访华前德国总理默茨在发言中将中欧对比引发关注

体育要闻

这张照片背后，是米兰冬奥最催泪的故事

娱乐要闻

米兰冬奥摘银谷爱凌再遭美国网友网暴

财经要闻

华莱士母公司退市疯狂扩张下的食安隐忧

汽车要闻

探秘比亚迪巴西工厂居然是这个画风！

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

旅游

健康

数码

亲子

房产

旅游要闻

龙马精神迎新春，广州景区百余场活动贺岁

转头就晕的耳石症，能开车上班吗？

数码要闻

银昕推出2U Single服务器电源：ATX 3.1金牌，直出线设计

亲子要闻

2025-2026年2月秋冬儿童面霜推荐榜单｜宝妈实测+科学测评不踩坑

房产要闻

三亚新机场，又传出新消息！

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版