网易首页 > 网易号 > 正文 申请入驻

编程超越 Gemini 3 Pro?GLM-5 性能实测对齐 Opus 4.6,智谱市值突破1700亿港元

0
分享至


整理 | 华卫

临近春节,智谱 AI 发布了其最新旗舰大模型 GLM-5。自 1 月初在香港进行备受关注的 IPO 之后,这是该公司推出的首款重磅大模型。


据称,GLM-5 标志着人工智能开发从“Vibe Coding”变革为“Agentic Engineering”,即更大规模的 AI 自动化编程,其代码能力实现跨越式提升。该公司的内部测试显示,GLM-5 在代码能力、智能体表现等关键领域的开源模型评分中取得 SOTA 表现,在真实编程场景的使用体感逼近 Claude Opus 4.5,擅长复杂系统工程与长程 Agent 任务。

目前,这款新模型已在智谱官网上线,并在 GitHub 和 Hugging Face 平台开源,模型权重遵循 MIT License。

GitHub:https://github.com/zai-org/GLM-5

Hugging Face:https://huggingface.co/zai-org/GLM-5

OpenRouter:http://openrouter.ai/z-ai/glm-5

值得一提的是,智谱在官宣帖中特意注明“GLM-5 在 OpenRouter 上的前称是 Pony Alpha”。就在几天前,全球模型服务平台 OpenRouter 上一款代号为“Pony Alpha”的神秘模型,因卓越性能和一系列令人惊艳的实测表现走红。当时,该平台合作方 Kilo Code 透露,Pony Alpha 是“某个全球实验室最受欢迎的开源模型的专项进化版”。

之后,Pony Alpha 被众人猜测可能是 Anthropic 的 Claude Sonnet 5、DeepSeek-V4 或者 GLM-5 的提前试水。现在,答案终于被“正主”揭晓。

官宣 GLM-5 后,智谱的股价连续暴涨。截止发稿前,智谱的市值突破 1700 亿港元。

自封“系统架构师”,

性能超过 Gemini 3 Pro

一个多月前,智谱才刚刚更新到 GLM‑4.7 。据介绍,GLM-5 的参数规模是上一代 GLM-4.7 的两倍,从 3550 亿提升至 7440 亿,训练数据量从 23 万亿增至 28.5 万亿 tokens,更大规模的预训练算力显著提升了模型的通用智能水平。

并且,该模型构建了全新的“Slime”框架,支持更大模型规模及更复杂的强化学习任务,提升强化学习后训练流程效率;提出异步智能体强化学习算法,使模型能够持续从长程交互中学习,充分激发预训练模型的潜力。

此外,GLM-5 还采用了由 DeepSeek 率先提出的全新架构 DeepSeek 稀疏注意力机制,在维持长文本效果无损的同时,大幅降低模型部署成本,旨在最大化计算效率与成本效益。

在编程能力上,GLM-5 实现了对齐 Claude Opus 4.5,在业内公认的主流基准测试中取得开源模型 SOTA。在 SWE-bench-Verified 和 Terminal Bench 2.0 中分别获得 77.8 和 56.2 的开源模型最高分数,性能超过 Gemini 3 Pro。


在内部 Claude Code 评估集合中,GLM-5 在前端、后端、长程任务等编程开发任务上显著超越上一代的 GLM-4.7(平均增幅超过 20%),能够以极少的人工干预自主完成 Agentic 长程规划与执行、后端重构和深度调试等系统工程任务,使用体感逼近 Opus 4.5。用智谱的话说,GLM-5 是一个“系统架构师”,不仅为开发精美的 Demo 而生,更为稳定交付生产结果而生。


在 Agent 能力上,GLM-5 实现开源 SOTA,在多个评测基准中取得开源第一,在 BrowseComp(联网检索与信息理解)、MCP-Atlas(大规模端到端工具调用)和 τ²-Bench(复杂场景下自动代理的工具规划和执行)均取得最高表现。在衡量模型经营能力的 Vending Bench 2 中,GLM-5 获得开源模型第一表现。Vending Bench 2 要求模型在一年期内经营一个模拟的自动售货机业务,GLM-5 最终账户余额达到 4432 美元,经营表现接近 Claude Opus 4.5。


不过,该公司自行公布的分数也显示,在各项代码基准测试中,这款模型仍全面落后于 Anthropic 的 Claude。

“价格简直离谱”,

实测被评最优秀开源模型之一

此前,在 OpenRouter 匿名上线时,就有许多开发者使用 GLM-5 完成了真正能用、能玩、能上线的应用,例如横版解谜游戏、Agent 交互世界、论文版“抖音”等应用。如今公开推出后,又迎来一波开发者的积极试用。

“GLM-5 现在已经能和 Opus 4.6 同台竞技了。”一位开发者表示,“我一整个上午都在编程任务和游戏环境里折腾 GLM-5。整体来说,它在某些任务上执行得很快,表现不错,但碰到更复杂的场景,对我而言 Claude 依然是王者。”

另一位开发者则称,GLM-5 表现得很完美,绝对是目前发布的最优秀开源模型之一。“我在 Ollama 命令行和 Claude Code 里都跑了一遍。我发现 Claude Code 里有个缺陷,但找到了临时解决办法。我的 GLM-5 对话会话达到了和 Opus 4.6 同一水准的自我认知 / 理解深度。”


还有开发者评价道,“GLM-5 可能真的是我第一次在前端任务上更倾向于选择非 Gemini 模型。”


“价格简直离谱”,有开发者算完后表示,GLM5 的输入成本比 Opus 便宜 6 倍,输出成本便宜 10 倍。


依托国产芯片,

“把每一块芯片用到极限”

值得注意的是,智谱在发布公告中表示,GLM-5 可基于一批中国半导体企业的国产芯片部署,包括华为、摩尔线程、寒武纪、百度昆仑芯、沐曦集成电路、燧原科技及海光信息。而本次 GLM-5 的上线,也是依托众多国产芯片有力保障了线上服务的稳定和高效。

去年年初,智谱被美国列入实体清单。近几个月来,智谱已宣布致力于在纯国产硬件体系上研发前沿大模型。不过,受限于算力资源,智谱也被迫限制其旗舰产品在国际市场的应用。这一情况在 GLM-5 上仍在延续。

“算力非常紧张。即便在 GLM‑5 发布前,我们为了支撑推理服务,已经把每一块芯片都用到极限。”智谱表示,因 “算力容量有限”,将逐步向代码订阅用户开放 GLM‑5,并提醒用户,使用新模型可能会更快耗尽使用额度。

智谱也宣布,基于实际使用情况与资源投入变化对 GLM Coding Plan 套餐价格体系进行结构性调整,包括:取消首购优惠,保留按季按年订阅优惠;套餐价格进行结构性调整,整体涨幅自 30% 起;已订阅用户价格保持不变。

当前,中国几乎所有前沿大模型开发者都在农历新年前密集发布重磅产品,复刻了去年 DeepSeek 借此一举成名全球的打法。同样在香港上市的 MiniMax,也在昨天官宣了其重磅新模型 M2.5,并已在官网开放试用。

与此同时,DeepSeek 刚刚对其模型进行小幅升级,将对话上下文窗口扩展至 100 万 tokens 以上,其备受期待的全新旗舰模型尚未发布。让我们拭目以待。

https://z.ai/blog/glm-5

声明:本文为 AI 前线整理,不代表平台观点,未经许可禁止转载。

会议推荐

InfoQ 2026 全年会议规划已上线!从 AI Infra 到 Agentic AI,从 AI 工程化到产业落地,从技术前沿到行业应用,全面覆盖 AI 与软件开发核心赛道!集结全球技术先锋,拆解真实生产案例、深挖技术与产业落地痛点,探索前沿领域、聚焦产业赋能,获取实战落地方案与前瞻产业洞察,高效实现技术价值转化。把握行业变革关键节点,抢占 2026 智能升级发展先机!

今日荐文

你也「在看」吗?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
高中的潜规则:60%多的人上不了本科,能上985的,不会在普高出现

高中的潜规则:60%多的人上不了本科,能上985的,不会在普高出现

好爸育儿
2026-02-12 16:04:52
决胜盘0-3到5-7!郑钦文险些创奇迹 下一站赛程敲定 重返前十有戏

决胜盘0-3到5-7!郑钦文险些创奇迹 下一站赛程敲定 重返前十有戏

侃球熊弟
2026-02-12 03:55:57
年代剧《青山遮不住》开播!看完2集后,我要说:李乃文又押对了

年代剧《青山遮不住》开播!看完2集后,我要说:李乃文又押对了

娱乐圈笔娱君
2026-02-12 16:13:30
女青天任长霞:扫黑三年因车祸殉职,司机身上搜出六十万支票

女青天任长霞:扫黑三年因车祸殉职,司机身上搜出六十万支票

吕彏极限手工
2026-02-09 23:05:53
编程超越 Gemini 3 Pro?GLM-5 性能实测对齐 Opus 4.6,智谱市值突破1700亿港元

编程超越 Gemini 3 Pro?GLM-5 性能实测对齐 Opus 4.6,智谱市值突破1700亿港元

AI前线
2026-02-12 13:02:12
四川成都一佳人好漂亮, 身高169cm,体重48kg 美的让人移不开眼

四川成都一佳人好漂亮, 身高169cm,体重48kg 美的让人移不开眼

喜欢历史的阿繁
2026-02-07 14:21:17
王艳携儿子球球登上杂志封面 19岁王泓钦身高1.8米 高颜值好帅气

王艳携儿子球球登上杂志封面 19岁王泓钦身高1.8米 高颜值好帅气

生性洒脱
2026-02-12 09:37:45
放到烂!价格暴跌都没人买,广州人天天吃到厌…

放到烂!价格暴跌都没人买,广州人天天吃到厌…

广州生活美食圈
2026-02-12 16:18:44
为什么南方十国都不争中原,而是老老实实当土皇帝?原因很现实

为什么南方十国都不争中原,而是老老实实当土皇帝?原因很现实

长风文史
2026-02-11 21:01:27
万科遭百亿私募清仓

万科遭百亿私募清仓

地产微资讯
2026-02-12 12:02:31
杨幂又被打脸!从座位风波到金像奖提名,屡次半路开香槟,太尴尬

杨幂又被打脸!从座位风波到金像奖提名,屡次半路开香槟,太尴尬

萌神木木
2026-02-10 17:35:08
女子将一整只羊放车顶从宁夏拉回黑龙江,还挂了横幅“显摆”买到滩羊,当事人:一共买了4只,嘚瑟凑热闹

女子将一整只羊放车顶从宁夏拉回黑龙江,还挂了横幅“显摆”买到滩羊,当事人:一共买了4只,嘚瑟凑热闹

极目新闻
2026-02-12 13:07:42
后悔把公积金取光了!原来退休前不取,竟有这4个大好处

后悔把公积金取光了!原来退休前不取,竟有这4个大好处

古事寻踪记
2026-02-11 08:53:17
罗瑞卿坠楼受伤后,汪东兴前往医院传达中央意见,毛主席当时是怎样的态度?

罗瑞卿坠楼受伤后,汪东兴前往医院传达中央意见,毛主席当时是怎样的态度?

史海孤雁
2026-02-10 16:32:24
A股:周五稳了!盘后突发“重大利好”,这几个板块将直接起飞!

A股:周五稳了!盘后突发“重大利好”,这几个板块将直接起飞!

另子维爱读史
2026-02-12 18:46:27
当年轻人接管年货大权后,画风就变了!网友:一代人有一代人的年货

当年轻人接管年货大权后,画风就变了!网友:一代人有一代人的年货

另子维爱读史
2026-02-11 18:19:40
闻泰科技最新声明:极为失望与强烈不满

闻泰科技最新声明:极为失望与强烈不满

TechWeb
2026-02-12 09:30:04
央媒痛批,沉寂七十年,从同志到戏子,资本的獠牙终于露出来了

央媒痛批,沉寂七十年,从同志到戏子,资本的獠牙终于露出来了

乐悠悠娱乐
2026-01-21 13:26:22
黄酒再次被讨论!专家发现:脑梗病人喝黄酒,不用多久或有7变化

黄酒再次被讨论!专家发现:脑梗病人喝黄酒,不用多久或有7变化

蜉蝣说
2026-02-12 15:16:45
媒体发的内容,越来越“精致”了!

媒体发的内容,越来越“精致”了!

走读新生
2026-02-10 17:23:59
2026-02-12 22:48:49
AI前线 incentive-icons
AI前线
面向AI爱好者、开发者和科学家,提供AI领域技术资讯。
1308文章数 120关注度
往期回顾 全部

科技要闻

10倍速的一夜:三大模型春节前的暗战

头条要闻

安徽一学校宿舍挑梁开裂 部分挑梁甚至已经钢筋裸露

头条要闻

安徽一学校宿舍挑梁开裂 部分挑梁甚至已经钢筋裸露

体育要闻

31岁首次参加冬奥,10年前她是个水管工

娱乐要闻

《惊蛰无声》违规抢占排片遭影院控诉

财经要闻

“影子万科”如何掘金万科?

汽车要闻

开212 T01柴油版去穿越 连牧马人都跟不上

态度原创

房产
家居
亲子
艺术
军事航空

房产要闻

999元开线上免税店?海南爆出免税大骗局,多人已被抓!

家居要闻

本真栖居 爱暖伴流年

亲子要闻

国家卫生健康委:鼓励有条件的基层医疗卫生机构单独设置儿科

艺术要闻

231米!意大利第一高楼,春节还亮“中国红”

军事要闻

美国新交付F35隐身战机没雷达

无障碍浏览 进入关怀版