智谱的GLM-4.7,这两天在海外讨论度不低。
GLM-4.7 和 MiniMax-M2.1,这两款开源、可用权重模型,已经在多个核心基准上,贴近甚至追平了闭源顶级实验室的水平。
Reddit上还看到一个好玩的,GLM-4.7上了AMA(Ask Me Anything),可以自由向研究员们提问交流。
![]()
![]()
看到有海外用户评价 “the gap is shrinking fast”,还有的说法更直接:“China’s play is simple”。
够强的开源基础模型,非常平权地放出来,剩下的事情,就交给创业者、研究者和产品团队。
![]()
提出的很多问题,也非常具体真实,比如关于成本测算、关于低成本调用:
![]()
也有很忠实的GLM开发者,一向认同GLM的开源理念,也提出了实际开发中的问题:
![]()
“如何大幅提升前端输出”,也是我特别好奇的问题,因为能感觉到GLM做前端的效果,明显提高了。
![]()
得到的回答也很具体,从数据流水线到前端输出都做了说明。
感觉GLM是真的很开发者友好,很有平等互动的社区交流感,新鲜热乎的反馈、疑问、建议,就这么AMA一问一答聊出来了。
还记得年初DeepSeek带来的是惊喜,到现在已经是自信,我也开始感觉,GLM-4.7 在榜单上赢了谁、超了谁,已经没有那么那么重要了。
关键是,它代表了中国开源模型持续迭代发展的力量:
像前段时间 AutoGLM 开源,对手机Agent、对端到端的应用落地,都往前推了一步。
再到这次的4.7,可以本地部署、可以深度微调、可以被塞进任何一个真实产品里,不是永远停留在 API 调用额度和使用条款里。
当模型能力逼近 SOTA,差异就不再只存在于参数量,开始转移到,能不能真正把模型能力变成自己的能力,而不是调用API来的的能力。
这,也是开源模型正在日渐放大的优势。
![]()
在当前的大模型竞争环境中,开源早就不只是开放权重的问题,更关乎模型是否具备在真实世界被反复拆解、调用、放大的能力。
智谱这次选择 MIT 协议,相当于主动接受来自研究、工程、商业三个层面的交叉检验。
能感觉到,智谱有自信——模型好不好,就让最严格的开发者环境来检验。
看发布节奏,GLM-4.7也没搞高密度宣传。
深夜悄悄上线,之后在好几个平台同步开放用,国外的声音评价和国内的差不多都有。
像智谱MaaS平台、z.ai、智谱清言,还有海外的OpenRouter接口,都能找到它。
很多时候不用多说,把模型直接丢进真实使用环境,让开发者和用户自己去验证,能直观感受到模型的实际表现。
现在行业竞争重点,从功能效果转向工程落地稳定性。
GLM-4.7直接死磕【编程】这个硬核场景,目标很明确——做国内最强、开源里最强的Coding模型。
它的成绩也确实亮眼。
全球百万开发者参与的Code Arena盲测榜里,它是开源第一、国产第一,甚至超过了GPT-5.2。
![]()
在需要修复真实GitHub问题的SWE-bench Verified基准上,它以73.8%的通过率刷新了开源模型纪录。
实际用下来,编程体感快赶上Claude Sonnet 4.5了,完全能当它的平替。
对用户来说,用起来都很简单:
国内B端与C端用户:可以通过 智谱官方MaaS平台(bigmodel.cn) 的API、z.ai 的全栈开发模式以及 智谱清言 应用立即体验;TRAE、CodeBuddy等主流开发者工具也能调用。
海外开发者:可以通过 z.ai 或 OpenRouter 平台使用其API服务。
企业与深度用户:企业客户可直接在 bigmodel.cn 购买专属的Coding Plan企业版套餐;而已订阅GLM Coding Plan包月套餐的个人用户,系统已自动为其升级至GLM-4.7,无需任何额外操作。
开源爱好者与研究者:模型即将以MIT协议在Hugging Face和ModelScope社区发布,支持自由商用与研究。
在实际用的时候,我发现Coding能力特别像模型的放大镜。
代码生成要管好多事:理解需求、搭结构、拆逻辑、调用工具、记上下文。
每个环节出点偏差,最后结果里都会看得很明显。
文本生成还能靠润色遮遮问题,代码执行可没这种模糊空间。
所以过去好长时间,Claude Sonnet系列在开发者里口碑很稳。
我研究了一下,它的优势不只是单轮生成质量,更在连续任务里的一致性、能稳住上下文,还能遵守复杂的工程约束。
国产模型追这个赛道,本质是攒长期工程能力。
要优化训练数据结构、推理策略、工具链配合,还有模型行为稳定性,没法靠单个指标就跨过去。
看公开评测结果,我认为GLM-4.7在开源模型里算领先的。
比如LiveCodeBench V6、LMArena Code Arena这些测试。这些榜单不考单一题型,从算法实现、修工程bug到抽象真实项目问题都覆盖了。
![]()
比起某一项拿高分,我感觉模型在不同测试里的稳定性更值得参考。
这说明它没盯着某类题“死记硬背”,在各种任务里表现都比较稳——做实际开发,这点特别重要。
从使用体验来说,这种稳定性会直接体现在输出的结构完整度和逻辑连贯性上。
Agentic Coding 能力的实际体现
在GLM-4.7的设计里,Agentic Coding是绝对的核心。
![]()
我研究了下,它能有这么稳的提升,根源是推理内核做了工程化改造。它加了个“慢思考”机制,会先好好规划,不着急立刻回应。
更突破的是“保留式思考”。我发现以前多轮对话,模型容易忘复杂推理。但GLM-4.7不一样,它会像管项目文档那样,自动存关键思考,后面接着用。
它能自己拆任务、做规划、去执行、还会修正——这才是它的关键能力。
具体用的时候,细节里都能体现。
面对长需求,它会先搭整体结构,再填细节,很有工程化思路。
执行中碰到冲突或逻辑漏了,它会主动补说明、给替代方案。
做后端开发,它能提升接口完整度、异常处理覆盖;做前端,能优化组件拆分、状态管理和页面可维护性。
这样一来,花几小时调代码、开发功能都能实现。信息丢得少,逻辑不容易断,用着更像和人类工程师协作。
![]()
我认为它这强内核,在严测试里也得到了验证。
除了Code Arena和SWE-bench的好成绩,其他评测也是开源领先:
- 终端操作:Terminal Bench 2.0通过率41%
- 网页任务:BrowseComp评测拿67.5分
- 交互式工具调用:τ²-Bench测到87.4分,超过Claude Sonnet 4.5
- 复杂推理:HLE测试得42.8%,比前代高41%,还超过GPT-5.1
![]()
看这些数据,“国内最强编程模型”这个定位很靠谱。开发者用它,也能更有底气。
Coding Plan 与工具链协同的变化
协同能力强,用起来就顺手。
比如说借助GLM-4.7模型,可以自己完成浏览器的搜索、检索、阅读,跟最后的总结。信息处理效率就高多了。
除了模型本身,GLM-4.7在Coding Plan体系里的整合方式,也是这次升级的重点。
我发现,它和Claude Code这类主流编程工具配合时,对思考模式的支持更灵活了。
可以在不同轮次里选要不要开推理过程,这对长任务的性能控制、结果稳定性影响很直接。
工具调用这块它针对Skills、Subagent、Claude.md这些能力做了定向优化。
现在工具链路更简洁,中间状态的不确定因素少了很多。
![]()
还有智谱专属的MCP,不用安装就能集成。
视觉理解、搜索、网页读取这些能力,在同一个工作流里就能完成。你试试就知道,从找信息到写代码,中间的麻烦少多了。
这些变化不是靠某一个功能体现的。我感觉用的时候能慢慢发现,最实在的是任务完成率上去了,返工的成本也降了。
非技术场景中的能力外溢
这次升级,GLM-4.7有个“隐形”进步——生成内容的美感和对话情商提上来了。以前它像只懂逻辑的理科生,现在更像有审美、会聊天的搭档。
它的功能不只是给开发者用。办公、做创意时,变化也很明显。比如 Vibe Coding(审美编码)能力强多了。生成的网页结构干净,组件层级清楚,配色、样式也更现代;做的PPT结构合理,很多能直接用。
我在实际测试里,它对16:9宽屏的适配率高了,页面差不多能直接用。
结合图片搜索和模板选,生成结果风格更统一,看着也整齐,不像以前AI做PPT总有拼贴感。
做海报、宣传物料时,它对排版、留白、色彩的把控更稳,符合常规设计规范。非设计背景的朋友,用起来会更顺手。
比如这里我输入ppt的内容和模版。
![]()
生成的PPT从内容到设计都做到了极致。
![]()
![]()
与此同时,GLM-4.7的通用对话能力也有显著提升。官方说它回复更简洁智能,还带人情味,我觉得这点很明显。
写东西、玩角色扮演,文采和沉浸感都更好了。跟小白聊需求,或者写创意文案,它给的回应更自然,也更贴需求。你试试就知道。
除了文本和视觉输出,我认为它在语言表达上成熟多了。遇到要判断情境、多方权衡的任务,它会给结构化回应,不随便简化问题,也不只给一个结论。这种变化不是多了情绪,而是语气和信息组织更像实际沟通。
往大了看,GLM-4.7发布,说明国产大模型在Coding这个高门槛领域又往前迈了一步。这步不是靠某一项指标领先,而是整体工程能力、工具协同和稳定性一起提上来了。
现在模型能力越来越像,我感觉真正的竞争在“长期能用”上。复杂任务里能稳定输出、少让人插手的模型,才能进核心生产环节。GLM-4.7的能力组合,说明国产模型已经有基础在这方面长期竞争了。
最关键的是,它不只是个孤立的代码生成器了。更像全栈技能调度中心。在z.ai平台,用新的Skills模块,能统一规划、调用家族里的视觉、语音、文本能力。
你提个复杂需求试试,比如“给产品写介绍文案,配图做成PPT”。它不光会规划流程,还会自己调合适的专家模型一起做。
从理解需求到落地,初步能打通全流程了。感觉已经成为了一个专门的职场技能专家。
生态整合与开源信号:为何是现在?
GLM-4.7这时候以最强状态开源,还推出很有竞争力的订阅方案,给我的感觉是,智谱的战略,更清晰了。
能开箱即用,能力还拔尖,能当Claude Code等最强AI编程工具的最佳平替。
直接嵌进全球开发者现有的工作流里,还能大幅降低使用高性能AI模型的门槛。
如果GLM-4.7能凭借开源和高性价比,快速扎进全球开发者的工作流,成为大家搭下一代AI应用时,最信得过、最依赖的基础设施之一,也许也能构建强的用户壁垒。
我只觉得,有了扎实的工程基础,国产大模型正变得兼具逻辑和审美,还能协同合作。
不再只是实验室里分数高的纸面第一,是懂项目压力、懂审美需求、还考虑长期维护成本的“靠谱搭子”。
当然,差距也依然存在。
不管是模型侧还是产品侧,Gemini、ChatGPT等同样没有减速,相比之下,智谱的有些细节完成度还显不足。
单说AI编程的工业级效果,Gemini和Claude在一些具体功能实现上,仍然有稍优于GLM-4.7的表现。
在AGI这场世纪级的豪赌里,中国公司在迅速发展迭代,也暴露出不少问题。
每一个问题的解决,每一次模型的升级,都是在向前。
也许在2026,在国产开源大模型领域,我们可以有更多自信。
更多的开发者和创业者,也能站在智谱等公司的肩膀上,做出更多好产品、好作品。
最后还发现有个小彩蛋。
用户在调用
GLM-4.7编程时,会弹出一个对话,
沪上阿姨新品奶茶免费送。
Bigmodel.cn上,正在订阅Coding Plan的用户,在Claude Code等编程工具中,输入口令「阿姨助我!」,即刻领取一张沪上阿姨新品「QQ美莓奶茶」兑换券。
来试试
GLM-4.7
吧!
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.