网易首页 > 网易号 > 正文 申请入驻

国产AI春晚炸场!GLM-5深夜开源,据说是程序员最好的春节礼物

0
分享至

昨天晚上,智谱GLM-5 开源发布,算是打响了2026年AI春晚的第一枪,据说不仅在编程能力上直逼Claude Opus 4.5,Agent的工程能力更是有了大幅提升。

作为重度模型应用用户,我看到信息后,其实就想了解四个问题,一、相比之前的GLM-4.5,4.7,GLM-5提升了哪些部分?二、与目前主流模型对比有哪些优势?三、GLM-5适合哪些场景,哪些用户?最后,AI春节档,国内各个AI大厂都在等着春节之后发布新品,智谱为什么要在春节前发布?

于是,我把这四个问题给到了GLM-5,希望它通过一篇文章告诉我答案,其实一开始有些调侃的意味,所以在提示词上并没有做任何工程化的处理,但,实话实说,效果还不错。


以下是GLM-5回答我的全文(包括配图),未做任何修改。

一句话先说结论

GLM-5 不是“又一个大模型更新”,而是智谱在“开源、工程化、智能体”三个方向上同时发力:

相比自家上一代,它在编程和 Agent 能力上整体提升 20% 以上,幻觉率大幅下降,长上下文、推理效率明显增强。

对比国际主流模型,它在权威榜单上冲到全球第四、开源第一,价格却只有 Claude / GPT 系列的几分之一。

最适合需要“写工程”而不是“写代码片段”的开发者和企业,尤其是要做智能体、复杂工作流的团队。

在“AI 春晚”的调侃背后,智谱选在春节前发布,是技术成熟度、资本窗口和竞争节奏共同作用的结果。

GLM-5 相比之前:从“写代码”进化到“写工程”

1. 规模与架构:从 355B 到 744B,更“稀疏”也更高效

参数规模翻倍:

GLM-4.5 一代是 355B 总参数 / 32B 激活;GLM-5 扩展到 744B 总参数 / 40B 激活,是前代的两倍多。

预训练数据扩容:

训练数据从 23T 增加到 28.5T tokens,在更大算力规模下持续提升通用智能。

引入 DeepSeek 稀疏注意力(DSA):

这是 DeepSeek-V3 / V3.2 同款技术,在保持长文本效果的前提下,显著降低部署和推理成本。

MoE + 多 Token 预测:

架构为 78 层隐藏层,256 个专家模块,每次推理激活 8 个,激活参数约 44B,稀疏度 5.9%,上下文窗口最高 202K token。

对普通用户来说,这些数字意味着:

更大的模型 + 更稀疏的激活,让它在长文档、长任务场景下“既聪明又不算太贵”。

200K 级上下文,可以一次性塞下完整代码库、长篇技术方案、大量历史对话,不用频繁切分。

2. 编程能力:从“补全代码”到“完成系统工程”

官方给 GLM-5 的定位非常直接:

最新一代旗舰级对话、编程与智能体模型,重点强化复杂系统工程与长程 Agent 任务。

关键变化有两点:

从“写代码片段”到“写工程”

在内部 Claude Code 任务分布评估中,GLM-5 在前端、后端和长程任务上,平均性能比 GLM-4.7 提升超过 20%。

在 SWE-bench Verified 和 Terminal Bench 2.0 上,GLM-5 分别拿到 77.8 和 56.2 的开源模型最高分,整体性能超过 Gemini 3 Pro。

官方强调,真实编程环境中的体感已逼近 Claude Opus 4.5 水平。

更强的“系统工程”意识

GLM-5 不再只是帮你写一个函数、一个页面,而是能像“架构师”一样,理解多文件、多模块、多服务的工程逻辑,进行后端重构、深度调试、跨文件改动。

智谱官方用了一个很直白的说法:从 “Vibe Coding(氛围编程)” 进化到 “Agentic Engineering(智能体工程)”——也就是从“写得像样”变成“真正能完成复杂工程任务”。

3. Agent 能力:开源模型里的“长跑选手”

GLM-5 把 Agent 能力提到了前所未有的高度:

在 BrowseComp(联网检索与信息理解)、MCP-Atlas(大规模端到端工具调用) 和 τ²-Bench(复杂多工具场景下的规划与执行) 三项评测中,GLM-5 均取得开源模型最优表现。

Artificial Analysis 的 Agentic Index 上,GLM-5 在开源模型中得分 63,排名第一,整体排名第三,仅次于 Claude Opus 4.6 和 GPT-5.2(high)。

这意味着:

它不只是“能写代码”,而是能在多步骤任务里,自己规划、自己调用工具、自己纠正错误,适合构建长周期的 Agent 工作流。

4. 幻觉率与知识可靠性:显著“更敢认怂”

Artificial Analysis 的数据让 GLM-5 的“保守”变得可量化:

Intelligence Index:

GLM-5 得分 50,成为新的开源权重模型第一名;

GLM-4.7 之前只有 42,GLM-5 一下子提升了 8 分。

AA-Omniscience Index(知识可靠性 / 幻觉):

GLM-5 得到 -1,比 GLM-4.7 的 -36 提升了 35 分;

幻觉率相比 GLM-4.7 降低了 56 个百分点。

简单说:

GLM-5 在“不知道就别乱编”这件事上,做到了目前行业里最好之一。

对需要严肃信息、专业知识的场景(医疗、金融、科研、工程文档)来说,这一点比单纯的“更会聊天”重要得多。

5. 效率与成本:更聪明的“输出策略”

在运行 Artificial Analysis Intelligence Index 时,GLM-5 使用了约 1.1 亿输出 token,而 GLM-4.7 用了约 1.7 亿,却在分数上全面领先。

这意味着:在同样的任务下,GLM-5 更“省话”,用更少的输出换来更好的结果,对 API 调用成本非常友好。

与当前主流模型对比:GLM-5 的优势在哪?

先用一个简化的“象限图”来理解 GLM-5 在市场中的位置:


1. 排名与“硬实力”:全球第四、开源第一

Artificial Analysis 榜单中,GLM-5 在所有模型里位居 全球第四,在开源模型中排名第一。

Intelligence Index 上,它是首个得分超过 50 的开源模型,超过 Kimi K2.5、MiniMax 2.1、DeepSeek V3.2 等强力开源选手。

2. 对比 Claude / GPT / Gemini:能力逼近,价格“断崖式”便宜

编程与工程能力:

在 SWE-bench Verified 上,GLM-5 的 77.8 已经非常接近 Claude Opus 4.5 的 80.9;在 Terminal Bench 2.0 上也显著优于许多闭源模型。

价格对比:

GLM-5:官方价格 输入 $1 / 百万 token,输出 $3.2 / 百万 token;

Claude Opus 4.6:输入 $5、输出 $25;

GPT-5.2:输入 $1.75、输出 $14。

→ 换算下来,GLM-5 在输入端大约是 Opus 的 1/6,输出端大约是 1/10。

对于大量调用 API 的开发者来说,这是一个“数量级”级别的成本优势。

3. 对比其他开源模型:更偏“工程”和“Agent”

和 DeepSeek、Qwen、Kimi、MiniMax 等国产开源模型相比,GLM-5 的差异主要在于:

更激进的“智能体工程”定位:

官方直接把 GLM-5 定位为“智能体工程时代”的开源模型,强调长程任务、多工具协作。

更强的幻觉控制:

在 Artificial Analysis 的 Omniscience 指数上,GLM-5 的 -1 是目前所有模型中的最佳之一,专门针对“少编造、多认怂”做了优化。

完整的开源 + MIT 协议:

模型权重在 Hugging Face 和 ModelScope 以 MIT 协议开源,允许商用、修改、再分发。

这意味着企业可以在自己机房内部署,不用担心“黑盒模型”带来的合规和数据安全问题。

4. 国产算力适配:对国内政企、信创环境非常关键

GLM-5 已与华为昇腾、摩尔线程、寒武纪、昆仑芯、沐曦、燧原、海光等 主流国产芯片平台 完成深度推理适配与算子级优化。

对于政务、金融、能源等有信创和自主可控要求的场景,这一点是很多国外模型完全无法提供的。

适合哪些场景?哪些人?

1. 场景:从“聊天助手”到“工程协作伙伴”

结合官方定位和实测数据,GLM-5 特别适合:

复杂软件开发与重构

多模块服务拆分、老系统重构、跨文件改动。

需要“理解整体工程”而不是“只看当前文件”的场景。

智能体(Agent)工作流

自动化运维、自动测试、自动运维巡检。

多工具协同:调用数据库、API、内部服务,完成“端到端”任务。

长文档与知识密集型场景

200K 上下文支持长篇技术文档、论文、合同、法规的批量阅读与总结。

低幻觉率让它更适合做知识库问答、合规问答、专业问答。

企业内部“私有化大模型”

开源 + MIT 协议,可在内网部署,满足数据安全与合规要求。

对已有国产算力集群(昇腾、寒武纪等)的企业,可以做到“模型 + 算力双自主”。

2. 适合的人群

可以用一个简单的决策树来判断:


总结下来,这几类人会特别受益:

后端 / 全栈开发者:需要重构老项目、搭建新服务,希望有一个“能自己跑完项目”的智能助手。

AI 工程师 / Agent 开发者:要构建多步骤工具调用、自动化工作流,需要一个擅长长程规划和工具使用的底座模型。

企业 IT 与数据团队:有私有化部署、国产算力适配、数据合规等强需求。

对成本敏感的中重度 API 用户:比如做 AI 编程 SaaS、自动化测试平台、企业知识库产品的公司。

为什么偏偏选在“春节前”?——在“AI 春晚”背后的算盘

全网都在调侃“国内 AI 春晚”,智谱偏偏选在春节前发布 GLM-5,并不是单纯的“蹭热度”。

1. 技术节奏:从“上牌桌”到“冲 Top1”的时间表

2025 年底,智谱内部就明确了节奏:

4 月发一个“稳住阵脚”的模型;

年中发一个“上牌桌”的模型;

年底发一个 Top1 的模型。

2026 年 1 月 8 日,智谱在港交所挂牌上市,首席科学家唐杰在上市当天的内部信中明确:“GLM-5 很快将推出”,并提出 2026 年要“全面回归基础模型研究”。

也就是说,GLM-5 的发布时间,是按照技术迭代节奏早就定好的,春节档只是恰好赶上。

2. 资本窗口:刚上市,需要用“硬核产品”兑现想象

智谱被称为“全球大模型第一股”,1 月 8 日港股上市,募资约 43 亿港元,市值一度突破 1000 亿港元。

在这个时间点,投资者最关心的是:

“你的模型到底强不强?”

“是不是只是故事好,但没有硬核技术?”

GLM-5 在发布后,智谱股价在首个交易日上涨约 26%,本周累计涨幅约 70%,市值达到约 1756 亿港元——市场对“硬核模型”的认可非常直接。

春节前发布,可以让年报 / 季报前有一个强有力的技术故事,帮助资本市场形成持续预期。

3. 行业竞争:春节档就是“中国 AI Hunger Games”

2026 年春节档,DeepSeek 新版、MiniMax M2.5、阿里 Qwen3.5、字节 Seedance 2.0 等扎堆发布,媒体直接把这波称为“国产 AI 春晚”“中国 AI Hunger Games”。

对智谱来说,如果不在春节前拿出 GLM-5,很容易在舆论和资本层面被其他声音淹没。

通过“Pony Alpha”匿名测试提前在海外开发者圈层“预热”,再在春节档正式官宣,是一个典型的产品节奏 + 营销节奏组合拳。

4. 开源与生态:用“节日流量”放大开发者影响力

GLM-5 选择在春节前开源,并同步在 Hugging Face、ModelScope 和自研平台上线。

春节期间,大量开发者有时间写项目、做实验,是模型“出圈”的好窗口。

通过“开源 + MIT 协议 + 国产算力适配”,智谱希望把 GLM-5 打造成国产开发者的默认选择之一,从而形成生态壁垒。

总结:GLM-5 把国产大模型推到了一个“新阶段”

综合来看:

对智谱自己:GLM-5 是从“对话模型”向“智能体工程模型”转型的关键一步,兑现了“年底 Top1 模型”的内部目标。

对开发者:它提供了一个真正可用、开源、价格友好、长上下文和 Agent 能力都很强的模型,特别适合写工程、做 Agent。

对企业:开源 + MIT 协议 + 国产算力适配,让它成为私有化部署、信创环境里的重要选项。

对行业:GLM-5 把开源模型的能力推到了可以和顶级闭源模型“掰手腕”的程度,也在“AI 春晚”的喧嚣中,给国产大模型加了一记实打实的“技术注脚”。

如果你是开发者或企业决策者,现在就可以在 Z.ai、智谱清言或开源平台上体验 GLM-5,重点测试:

长文档 + 多轮工程修改;

多步骤工具调用与 Agent 工作流;

与你现有开发工具(IDE、CI/CD、监控系统)的集成效果。

这样你才能判断:在你的具体场景里,GLM-5 是“又一个模型”,还是真正能帮你“写工程、跑项目”的那一个。

END本文来自至顶AI实验室,一个专注于探索生成式AI前沿技术及其应用的实验室。致力于推动生成式AI在各个领域的创新与突破,挖掘其潜在的应用场景,为企业和个人提供切实可行的解决方案。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
李家诚控告周秀娜诽谤骚扰,周秀娜曾否认传闻

李家诚控告周秀娜诽谤骚扰,周秀娜曾否认传闻

现代快报
2026-02-13 20:50:05
2100枚核弹24小时待命,张召忠曾发出警告:一旦开战,将无处可逃

2100枚核弹24小时待命,张召忠曾发出警告:一旦开战,将无处可逃

近史博览
2026-01-22 12:52:47
愿答应中方要求,立陶宛沉默6天后,对台称呼变了,中方大获全胜

愿答应中方要求,立陶宛沉默6天后,对台称呼变了,中方大获全胜

福建平子
2026-02-14 08:30:08
6年了,郭麒麟的反击几乎断送了朱亚文的演艺生涯

6年了,郭麒麟的反击几乎断送了朱亚文的演艺生涯

小熊侃史
2025-12-25 11:24:12
中产阶级的公主梦破碎了。

中产阶级的公主梦破碎了。

微微热评
2026-02-13 22:21:29
全程垫底毫无反抗!林孝埈英雄迟暮,遗憾未把黄金期献给中国短道

全程垫底毫无反抗!林孝埈英雄迟暮,遗憾未把黄金期献给中国短道

杨华评论
2026-02-13 04:54:37
“00后”陈某某被押赴刑场 执行死刑

“00后”陈某某被押赴刑场 执行死刑

闪电新闻
2026-02-07 16:53:35
闫学晶儿子被曝冒名顶替?中戏两位系主任投案自首,再也瞒不住了

闫学晶儿子被曝冒名顶替?中戏两位系主任投案自首,再也瞒不住了

社会酱
2026-02-13 16:23:30
日媒透露,高市或在11月访华!话音刚落,58条中日航线全部取消

日媒透露,高市或在11月访华!话音刚落,58条中日航线全部取消

古史青云啊
2026-02-13 09:25:52
金博洋:完美的一届冬奥会

金博洋:完美的一届冬奥会

中国青年报
2026-02-14 08:30:16
杜若溪带上海公婆回娘家,坐18小时绿皮车险丢行李,老公提前到了

杜若溪带上海公婆回娘家,坐18小时绿皮车险丢行李,老公提前到了

疯说时尚
2026-02-14 08:02:19
谢贤前女友CoCo直播爆猛料,大谈谢霆锋和张柏芝结婚内幕,真敢说

谢贤前女友CoCo直播爆猛料,大谈谢霆锋和张柏芝结婚内幕,真敢说

科学发掘
2026-02-12 19:42:16
爱泼斯坦案亚裔受害者发声:被带进红房间,被逼迫带女孩同行

爱泼斯坦案亚裔受害者发声:被带进红房间,被逼迫带女孩同行

法老不说教
2026-02-11 17:08:59
张凌赫丁禹兮前线见证《微博之夜》C位风波!张凌赫反应笑麻了

张凌赫丁禹兮前线见证《微博之夜》C位风波!张凌赫反应笑麻了

一盅情怀
2026-02-13 13:07:17
不查不知道一查吓一跳,掌管少林寺38年的释永信,私下到底多享受

不查不知道一查吓一跳,掌管少林寺38年的释永信,私下到底多享受

凡知
2025-08-16 09:25:44
泰国拟将免签停留期从60天缩短至30天

泰国拟将免签停留期从60天缩短至30天

曼谷陈大叔
2026-02-13 16:19:13
李在明当众宣告尹锡悦最终结局,手段狠辣引韩国民众广泛关注

李在明当众宣告尹锡悦最终结局,手段狠辣引韩国民众广泛关注

至死不渝的爱情
2026-02-13 18:56:52
菲律宾经济濒临崩溃,喊话中国希望伸出援手,我国回应大快人心

菲律宾经济濒临崩溃,喊话中国希望伸出援手,我国回应大快人心

东风寄的千愁
2026-02-13 06:54:35
买断市场最新预测!勇士错失汤普森,掘金获得球哥

买断市场最新预测!勇士错失汤普森,掘金获得球哥

奕辰说球
2026-02-13 12:00:39
乌东防线多米诺效应开始了

乌东防线多米诺效应开始了

星火聊天下
2026-02-12 08:49:13
2026-02-14 09:20:49
至顶AI实验室 incentive-icons
至顶AI实验室
一个专注于探索生成式AI前沿技术及其应用的实验室。
1848文章数 161关注度
往期回顾 全部

科技要闻

独家探访蔡磊:答不完的卷子 死磕最后一程

头条要闻

37年悬案告破 香港女总督察被认出是昔日TVB女主播

头条要闻

37年悬案告破 香港女总督察被认出是昔日TVB女主播

体育要闻

一年怒亏2个亿,库里和安德玛的“孽缘”

娱乐要闻

大衣哥女儿风光出嫁,农村婚礼超朴素

财经要闻

华莱士母公司退市 疯狂扩张下的食安隐忧

汽车要闻

星光730新春促销开启 80天销量破2.6万台

态度原创

教育
时尚
艺术
家居
健康

教育要闻

内蒙古2026年普惠性幼儿园覆盖率达到93%以上

穿上这些鞋拥抱春天

艺术要闻

石墙上的毛主席诗词引发热议,60字作品背后高人是谁?

家居要闻

中古雅韵 乐韵伴日常

转头就晕的耳石症,能开车上班吗?

无障碍浏览 进入关怀版