日前,智谱 GLM-5发布,引发业界关注。海外知名科技账号 BridgeMind 发文称,“GLM-5 是一个基准测试很强、但难以在真实工作中生存的模型”。其表示自己花了一整天时间进行实测,并公布了多项对比数据。
![]()
根据其披露的数据,在“人工分析智能指数”这一基准测试中,GLM-5成绩不低,与Claude Opus 4.5并列50分,仅比Opus 4.6低3分。从这一指标来看,GLM-5在通用能力测试中表现接近业界头部水平。
但在Bridge Bench这一强调真实世界编程任务的测试中,结果出现明显差距。Claude Opus 4.6总分60.1,平均响应时间8.3秒,完成130个任务中的130个。GPT 5.2 Codex总分58.3,平均响应时间19.9秒,完成129个任务。GLM-5总分为41.5,平均响应时间达到156.7秒,仅完成约75个任务。
从分类成绩看,GLM-5在调试和算法类任务上仍有一定表现,调试得分70.1,算法61.5,但在安全、生成和UI等项目上明显落后,其中UI仅13.1分,安全23.2分。整体完成率和响应速度成为其在实际开发环境中的主要短板。
BridgeMind 表示,基准测试成绩并不能完全代表模型在生产环境中的表现。他认为,在真实复杂任务下,响应速度、稳定性和任务完成率更具参考价值。
目前相关数据尚未见官方回应,也缺乏更大规模的第三方交叉验证。但这一测试已引发不少网友讨论,GLM-5 在真实开发场景中的表现是否可靠,仍需更多公开、透明的实测数据支持。
【相关阅读】
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.