年底了，我在智谱 GLM-4.7 上收获了更多信心|调用|编程|工作流|glm|智谱gl|深度思考按钮

分享至

智谱的GLM-4.7，这两天在海外讨论度不低。

GLM-4.7 和 MiniMax-M2.1，这两款开源、可用权重模型，已经在多个核心基准上，贴近甚至追平了闭源顶级实验室的水平。

Reddit上还看到一个好玩的，GLM-4.7上了AMA（Ask Me Anything），可以自由向研究员们提问交流。

看到有海外用户评价 “the gap is shrinking fast”，还有的说法更直接：“China’s play is simple”。

够强的开源基础模型，非常平权地放出来，剩下的事情，就交给创业者、研究者和产品团队。

提出的很多问题，也非常具体真实，比如关于成本测算、关于低成本调用：

也有很忠实的GLM开发者，一向认同GLM的开源理念，也提出了实际开发中的问题：

“如何大幅提升前端输出”，也是我特别好奇的问题，因为能感觉到GLM做前端的效果，明显提高了。

得到的回答也很具体，从数据流水线到前端输出都做了说明。

感觉GLM是真的很开发者友好，很有平等互动的社区交流感，新鲜热乎的反馈、疑问、建议，就这么AMA一问一答聊出来了。

还记得年初DeepSeek带来的是惊喜，到现在已经是自信，我也开始感觉，GLM-4.7 在榜单上赢了谁、超了谁，已经没有那么那么重要了。

关键是，它代表了中国开源模型持续迭代发展的力量：

像前段时间 AutoGLM 开源，对手机Agent、对端到端的应用落地，都往前推了一步。

再到这次的4.7，可以本地部署、可以深度微调、可以被塞进任何一个真实产品里，不是永远停留在 API 调用额度和使用条款里。

当模型能力逼近 SOTA，差异就不再只存在于参数量，开始转移到，能不能真正把模型能力变成自己的能力，而不是调用API来的的能力。

这，也是开源模型正在日渐放大的优势。

在当前的大模型竞争环境中，开源早就不只是开放权重的问题，更关乎模型是否具备在真实世界被反复拆解、调用、放大的能力。

智谱这次选择 MIT 协议，相当于主动接受来自研究、工程、商业三个层面的交叉检验。

能感觉到，智谱有自信——模型好不好，就让最严格的开发者环境来检验。

看发布节奏，GLM-4.7也没搞高密度宣传。

深夜悄悄上线，之后在好几个平台同步开放用，国外的声音评价和国内的差不多都有。

像智谱MaaS平台、z.ai、智谱清言，还有海外的OpenRouter接口，都能找到它。

很多时候不用多说，把模型直接丢进真实使用环境，让开发者和用户自己去验证，能直观感受到模型的实际表现。

现在行业竞争重点，从功能效果转向工程落地稳定性。

GLM-4.7直接死磕【编程】这个硬核场景，目标很明确——做国内最强、开源里最强的Coding模型。

它的成绩也确实亮眼。

全球百万开发者参与的Code Arena盲测榜里，它是开源第一、国产第一，甚至超过了GPT-5.2。

在需要修复真实GitHub问题的SWE-bench Verified基准上，它以73.8%的通过率刷新了开源模型纪录。

实际用下来，编程体感快赶上Claude Sonnet 4.5了，完全能当它的平替。

对用户来说，用起来都很简单：

国内B端与C端用户：可以通过 智谱官方MaaS平台（bigmodel.cn） 的API、z.ai 的全栈开发模式以及 智谱清言 应用立即体验；TRAE、CodeBuddy等主流开发者工具也能调用。
海外开发者：可以通过 z.ai 或 OpenRouter 平台使用其API服务。
企业与深度用户：企业客户可直接在 bigmodel.cn 购买专属的Coding Plan企业版套餐；而已订阅GLM Coding Plan包月套餐的个人用户，系统已自动为其升级至GLM-4.7，无需任何额外操作。
开源爱好者与研究者：模型即将以MIT协议在Hugging Face和ModelScope社区发布，支持自由商用与研究。

Coding 作为能力分水岭的现实背景

在实际用的时候，我发现Coding能力特别像模型的放大镜。

代码生成要管好多事：理解需求、搭结构、拆逻辑、调用工具、记上下文。

每个环节出点偏差，最后结果里都会看得很明显。

文本生成还能靠润色遮遮问题，代码执行可没这种模糊空间。

所以过去好长时间，Claude Sonnet系列在开发者里口碑很稳。

我研究了一下，它的优势不只是单轮生成质量，更在连续任务里的一致性、能稳住上下文，还能遵守复杂的工程约束。

国产模型追这个赛道，本质是攒长期工程能力。

要优化训练数据结构、推理策略、工具链配合，还有模型行为稳定性，没法靠单个指标就跨过去。

看公开评测结果，我认为GLM-4.7在开源模型里算领先的。

比如LiveCodeBench V6、LMArena Code Arena这些测试。这些榜单不考单一题型，从算法实现、修工程bug到抽象真实项目问题都覆盖了。

比起某一项拿高分，我感觉模型在不同测试里的稳定性更值得参考。

这说明它没盯着某类题“死记硬背”，在各种任务里表现都比较稳——做实际开发，这点特别重要。

从使用体验来说，这种稳定性会直接体现在输出的结构完整度和逻辑连贯性上。

Agentic Coding 能力的实际体现

在GLM-4.7的设计里，Agentic Coding是绝对的核心。

我研究了下，它能有这么稳的提升，根源是推理内核做了工程化改造。它加了个“慢思考”机制，会先好好规划，不着急立刻回应。

更突破的是“保留式思考”。我发现以前多轮对话，模型容易忘复杂推理。但GLM-4.7不一样，它会像管项目文档那样，自动存关键思考，后面接着用。

它能自己拆任务、做规划、去执行、还会修正——这才是它的关键能力。

具体用的时候，细节里都能体现。

面对长需求，它会先搭整体结构，再填细节，很有工程化思路。

执行中碰到冲突或逻辑漏了，它会主动补说明、给替代方案。

做后端开发，它能提升接口完整度、异常处理覆盖；做前端，能优化组件拆分、状态管理和页面可维护性。

这样一来，花几小时调代码、开发功能都能实现。信息丢得少，逻辑不容易断，用着更像和人类工程师协作。

我认为它这强内核，在严测试里也得到了验证。

除了Code Arena和SWE-bench的好成绩，其他评测也是开源领先：

- 终端操作：Terminal Bench 2.0通过率41%

- 网页任务：BrowseComp评测拿67.5分

- 交互式工具调用：τ²-Bench测到87.4分，超过Claude Sonnet 4.5

- 复杂推理：HLE测试得42.8%，比前代高41%，还超过GPT-5.1

看这些数据，“国内最强编程模型”这个定位很靠谱。开发者用它，也能更有底气。

Coding Plan 与工具链协同的变化

协同能力强，用起来就顺手。

比如说借助GLM-4.7模型，可以自己完成浏览器的搜索、检索、阅读，跟最后的总结。信息处理效率就高多了。

除了模型本身，GLM-4.7在Coding Plan体系里的整合方式，也是这次升级的重点。

我发现，它和Claude Code这类主流编程工具配合时，对思考模式的支持更灵活了。

可以在不同轮次里选要不要开推理过程，这对长任务的性能控制、结果稳定性影响很直接。

工具调用这块它针对Skills、Subagent、Claude.md这些能力做了定向优化。

现在工具链路更简洁，中间状态的不确定因素少了很多。

还有智谱专属的MCP，不用安装就能集成。

视觉理解、搜索、网页读取这些能力，在同一个工作流里就能完成。你试试就知道，从找信息到写代码，中间的麻烦少多了。

这些变化不是靠某一个功能体现的。我感觉用的时候能慢慢发现，最实在的是任务完成率上去了，返工的成本也降了。

非技术场景中的能力外溢

这次升级，GLM-4.7有个“隐形”进步——生成内容的美感和对话情商提上来了。以前它像只懂逻辑的理科生，现在更像有审美、会聊天的搭档。

它的功能不只是给开发者用。办公、做创意时，变化也很明显。比如 Vibe Coding（审美编码）能力强多了。生成的网页结构干净，组件层级清楚，配色、样式也更现代；做的PPT结构合理，很多能直接用。

我在实际测试里，它对16:9宽屏的适配率高了，页面差不多能直接用。

结合图片搜索和模板选，生成结果风格更统一，看着也整齐，不像以前AI做PPT总有拼贴感。

做海报、宣传物料时，它对排版、留白、色彩的把控更稳，符合常规设计规范。非设计背景的朋友，用起来会更顺手。

比如这里我输入ppt的内容和模版。

生成的PPT从内容到设计都做到了极致。

与此同时，GLM-4.7的通用对话能力也有显著提升。官方说它回复更简洁智能，还带人情味，我觉得这点很明显。

写东西、玩角色扮演，文采和沉浸感都更好了。跟小白聊需求，或者写创意文案，它给的回应更自然，也更贴需求。你试试就知道。

除了文本和视觉输出，我认为它在语言表达上成熟多了。遇到要判断情境、多方权衡的任务，它会给结构化回应，不随便简化问题，也不只给一个结论。这种变化不是多了情绪，而是语气和信息组织更像实际沟通。

往大了看，GLM-4.7发布，说明国产大模型在Coding这个高门槛领域又往前迈了一步。这步不是靠某一项指标领先，而是整体工程能力、工具协同和稳定性一起提上来了。

现在模型能力越来越像，我感觉真正的竞争在“长期能用”上。复杂任务里能稳定输出、少让人插手的模型，才能进核心生产环节。GLM-4.7的能力组合，说明国产模型已经有基础在这方面长期竞争了。

最关键的是，它不只是个孤立的代码生成器了。更像全栈技能调度中心。在z.ai平台，用新的Skills模块，能统一规划、调用家族里的视觉、语音、文本能力。

你提个复杂需求试试，比如“给产品写介绍文案，配图做成PPT”。它不光会规划流程，还会自己调合适的专家模型一起做。

从理解需求到落地，初步能打通全流程了。感觉已经成为了一个专门的职场技能专家。

生态整合与开源信号：为何是现在？

GLM-4.7这时候以最强状态开源，还推出很有竞争力的订阅方案，给我的感觉是，智谱的战略，更清晰了。

能开箱即用，能力还拔尖，能当Claude Code等最强AI编程工具的最佳平替。

直接嵌进全球开发者现有的工作流里，还能大幅降低使用高性能AI模型的门槛。

如果GLM-4.7能凭借开源和高性价比，快速扎进全球开发者的工作流，成为大家搭下一代AI应用时，最信得过、最依赖的基础设施之一，也许也能构建强的用户壁垒。

我只觉得，有了扎实的工程基础，国产大模型正变得兼具逻辑和审美，还能协同合作。

不再只是实验室里分数高的纸面第一，是懂项目压力、懂审美需求、还考虑长期维护成本的“靠谱搭子”。

当然，差距也依然存在。

不管是模型侧还是产品侧，Gemini、ChatGPT等同样没有减速，相比之下，智谱的有些细节完成度还显不足。

单说AI编程的工业级效果，Gemini和Claude在一些具体功能实现上，仍然有稍优于GLM-4.7的表现。

在AGI这场世纪级的豪赌里，中国公司在迅速发展迭代，也暴露出不少问题。

每一个问题的解决，每一次模型的升级，都是在向前。

也许在2026，在国产开源大模型领域，我们可以有更多自信。

更多的开发者和创业者，也能站在智谱等公司的肩膀上，做出更多好产品、好作品。

最后还发现有个小彩蛋。

用户在调用

GLM-4.7编程时，会弹出一个对话，

沪上阿姨新品奶茶免费送。

Bigmodel.cn上，正在订阅Coding Plan的用户，在Claude Code等编程工具中，输入口令「阿姨助我！」，即刻领取一张沪上阿姨新品「QQ美莓奶茶」兑换券。

来试试

GLM-4.7

吧！

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.