大模型行业正经历从参数竞赛到可交付智能的关键转折。GLM-5的推出不仅标志着开源模型的重大突破,更将竞争焦点从单纯的代码生成转向了完整的工程交付能力。本文将深度剖析行业面临的三大迁移趋势、当前卡脖子的交付难题,以及未来3-5年Agentic Engineering将如何重构企业生产力体系。
一、行业背景:从“参数竞赛”换挡到“可交付智能”
过去两年,我最直观的感受是:大模型行业的重心不止一次挪位,尤其有三次迁移非常清晰。
1)从通用对话到垂直落地:企业越来越不为“会聊天”买单,而是为“能把任务做完”付费。
2)从单轮能力到长程任务:写一段代码、改一句文案的边际价值在下降;能跨文件、跨工具、跨阶段推进,把事情从头到尾跑完的价值在上升。
3)从闭源垄断到开源追赶:尤其在国内市场,在外部限制与成本约束下,“可控、可部署、可定制”的本地方案越来越像默认选项。路透社也提到智谱发布 GLM-5(开源)并强调编程与长程 Agent 能力,同时还提到其训练使用了华为昇腾等国产芯片,这背后对应的是供应链与算力自主的战略语境。
所以在我看来,GLM-5 的意义不在“指标又涨了多少”,而在于它把大模型的主战场从“写代码”更明确地推向了“写工程/交付工程(Agentic Engineering)”。官方文档甚至直接把它定位为“面向 Agentic Engineering 打造”。
二、当前问题:行业卡在“能用”与“可交付”之间
如果把企业对大模型的期待拆成三层:可用(能答)—可控(能按规则答)—可交付(能完成任务并验收),那目前最卡的其实是第三层。
1)“会写”不等于“能跑”
很多模型在 demo 里看起来很强,但一进真实工程就露馅:依赖版本对不上、项目结构不一致、测试缺失、边界条件漏掉……最后还是工程师来补齐“让 AI 产物可运行、可验收”的那一大段脏活累活。
2)长程任务的“目标漂移”
Agent 一旦跨多步,常见问题是越做越偏:计划与执行脱节、记忆混乱、工具调用不稳定、局部最优把整体带沟里。GLM-5 把“长程 Agent 任务”当作核心卖点,本质上就是瞄准这类痛点。
3)成本结构开始反噬规模应用
当应用从试点走向日常高频调用,推理成本和工程效率就不再是“优化项”,而是硬约束。与此同时商业化压力也在上升:路透社报道智谱因需求增长上调 GLM 编程订阅价格(至少 30%),这说明开发者侧的付费意愿与供给成本之间,正在重新做账。
![]()
三、核心矛盾:开源“逼近顶级闭源” vs 真实交付的系统性门槛
我对 GLM-5 的核心判断是:它代表了一条“更强的基座 + 更工程化的后训练 + 更低部署成本”去打穿交付门槛的路线。但真正决定胜负的矛盾,往往不在“模型会不会”,而在“系统能不能把模型能力稳定兑现”。
这件事可以拆成两股对冲力量:
能力侧在加速:GLM-5 在官方信息中强调参数规模、数据规模、异步强化学习框架(“Slime”)与稀疏注意力(集成 DeepSeek Sparse Attention)来提升长上下文效率与部署成本;并给出 200K 上下文窗口、128K 最大输出等工程向指标。
兑现侧的摩擦更真实:企业落地时,真正决定成败的是评测体系、工具链、权限/审计、知识库与数据治理、回滚机制、可观测性(为什么错、错在哪里),以及“人类接管”的流程设计。
一句话:模型能力在逼近,但交付链条并不会自动补齐。GLM-5 讲“面向 Agentic Engineering”,其实是在把竞争从“比聪明”推到“比系统工程”。
![]()
四、趋势判断:未来两年,大模型竞争会从“模型战”变成“交付战”
结合 GLM-5 这类发布,我更愿意把接下来两年的变化概括成三条趋势。
趋势1:模型将被重新定价,价值从“回答”迁移到“执行”
当开源模型在 coding/agent 评测上不断刷新上限(GLM-5 在 SWE-bench-Verified、Terminal Bench 2.0 等指标上宣称取得开源最高分,并在 BrowseComp、MCP-Atlas、τ²-Bench 等 Agent 评测上强调开源第一),市场会逐渐把“能答对”当作门槛,而不是溢价来源。
真正能卖出溢价的,会变成:更稳定的工具调用、更少的幻觉、更强的长程规划与自检、更可控的输出结构。
趋势2:评测会从“静态题库”走向“真实工作流基准”
传统 benchmark 只能代表能力的某个切片,而 Agentic 工程需要端到端的指标:完成率、回滚率、人工介入次数、平均修复轮次、单位交付成本。GLM-5 把“复杂系统工程、长程任务执行”推到前台,本质上是在押注:下一代评测标准会更贴近真实工作流。
趋势3:国内市场会更强调“可部署、可控与供应链确定性”
路透社提到 GLM-5 使用国产芯片训练,这不只是技术叙事,也是商业叙事:对政企与强监管行业来说,“可控可管可审计”往往比“全球最强”更重要。
![]()
五、未来3–5年推演:GLM-5 这类路线会把行业带到哪里?
下面这段我更想谈“产业演化”:不盯单点指标涨幅,而看竞争格局与产品形态怎么变。
1)第1阶段(未来12个月):Agentic Coding 先成为开发者侧的默认工作方式
开发者场景需求最清晰、ROI 最直接。GLM-5 明确强化编程与工程交付,并提供长上下文与工具调用能力支持(Function Call、结构化输出、上下文缓存等)。
但这阶段的胜负手不只是模型本身,更在:IDE/CLI 集成、仓库级理解、测试生成与自动修复,以及和企业代码规范/权限体系的融合。
2)第2阶段(1–3年):企业“业务 Agent”从试点走向规模化,同时经历一次“幻觉治理”与“责任归属”重构
当 Agent 真正接触业务系统(工单、CRM、财务、采购),幻觉不再是体验问题,而是风险问题。企业会更强硬地要求:
可追溯:每一步引用了什么数据、调用了什么工具
可审计:权限最小化、数据不出域
可回滚:错误动作可撤销
这会倒逼平台层(而不只是单一模型)形成护城河:观测、治理、沙箱、审批流、红队测试。
3)第3阶段(3–5年):基座模型趋于“半商品化”,差异化上移到“行业工作流 + 数据飞轮 + 组织适配”
如果开源模型持续逼近顶级闭源,企业最终会把基座当作可替换件。届时真正拉开差距的,是三件事:
行业知识的结构化沉淀(知识库、图谱、流程与规则)
真实任务数据闭环(哪些任务失败、失败模式是什么、如何再训练/再对齐)
组织层面的“人机分工”制度化(谁批准、谁复核、出错谁负责)
从这个视角看,GLM-5 的战略价值并不是“它有多像某个顶级闭源模型”,而是它把国内厂商的竞争拉进一个更现实的战场:谁能把 Agent 变成可交付的生产力系统。这也解释了为什么媒体报道会把它与“复杂系统工程”和“长程 Agent”强绑定,并强调其逼近闭源顶尖体验。
![]()
结语:我对 GLM-5 的独立观点
GLM-5 最值得关注的,不是“开源又追平了谁”,而是它把行业叙事从“聊天更像人”推进到“交付更像团队”。当模型把“写工程”作为主目标时,行业会被迫承认一个事实:未来的大模型竞争,本质是系统工程竞争。模型只是发动机,真正决定体验与价值的是整套传动系统、刹车系统与仪表盘。
如果你正在做大模型产品或企业落地,我建议把评估重点从“单次回答效果”迁移到三类指标:
1)端到端交付率(完成任务并可验收)
2)人工介入成本(需要多少次接管)
3)失败可控性(错了能否定位、回滚、复盘)
谁能在这三项上建立长期优势,谁就更可能在未来 3–5 年的“交付战”里胜出。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.