始智AI wisemodel.cn社区是源自中国的中立开放的AI开源社区。正在,欢迎加入共同成长。A800/H20等算力6.25元/卡时,支持在线微调训练,及线部署和。
大语言模型 的目标是在广泛领域达到人类认知水平,而非针对特定任务而设计专家模型。一个优秀的大语言模型必须具备通用问题解决、泛化能力、 常识推理和自我改进等核心能力。过去五年里,OpenAI 的 GPT-3 学会了常识知识,而 o1 模型则通过强化学习实现了“先思考后回答”,在编程、数据分析和复杂数学问题上的推理能力得到了显著提升。
然而,现有模型仍 然算不上真正的通用模型:有些擅长编程,有些精于数学,有些在推理方面表现出色,但没有一个能在所有任务上都达到最佳表现。GLM-4.5力求将推理、编码和智能体能力统一到一个模型中,以满足快速增长的智能体应用日益复杂的需求。
GLM-4.5 和 GLM-4.5-Air 都是混合推理模型,提供用于复杂推理和工具使用的 思考 模式,以及用于即时响应的 非思考 模式。 GLM-4.5 拥有3550亿总参数和 320 亿激活参数,而 GLM-4.5-Air 拥有 1060 亿总参数和 120 亿激活参数。 GLM-4.5系列 已上线始智AI-wisemodel开源社区,欢迎体验。
模型地址
https://wisemodel.cn/organization/ZhipuAI
01.
三大技术解读
模型架构和预训练![]()
在 GLM-4.5 系列模型中,团队采用了 MoE(专家混合)架构,这种架构能够显著提升训练和推理时的计算效率。在 MoE 层采用了 loss-free balance 路由和 sigmoid gate 机制。
与 DeepSeek-V3 和 Kimi K2 的设计思路不同,团队选择了"瘦高"的模型结构——减少模型的宽度(包括隐藏维度和路由专家的数量),同时增加模型的深度(层数)。团队发现,更深的模型在推理能力上表现更加出色。在自注意力机制方面,团队采用了 partal RoPE 的分组查询注意力(Grouped-Query Attention)。
另外,团队将注意力头的数量增加到了 2.5 倍(在 5120 的隐藏维度下使用 96 个注意力头)。有意思的是,虽然增加注意力头的数量并没有让训练 loss 更低,但在 MMLU 和 BBH 等推理基准测试中,模型的表现却得到了稳定提升。
GLM-4.5 使用了 Muon 优化器,这个优化器不仅能加快模型收敛速度,还能在更大的 Batch Size 下相比 AdamW 保持更好的收敛效果,从而提升训练效率。团队还引入了 QK-Norm 技术来提升注意力 logits 的数值稳定性。GLM-4.5 和 GLM-4.5-Air 都加入了 MTP(Multi Token Predition)层,用于在推理阶段实现推测解码,进一步提升推理效率。
基础模型经历了几个训练阶段。在预训练期间,模型首先在 15T token 的通用预训练语料库上训练,然后在 7T token 的代码和推理语料库上训练。预训练后,团队引入了 Mid-Training 阶段来进一步提升模型在专有领域上的性能。
基于 slime 的大模型强化学习![]()
为了支持 GLM-4.5 这样的大模型进行高效的强化学习(RL)训练,团队设计、开发并开源了slime。这是一个在灵活性、效率和可扩展性方面都表现卓越的 RL 框架,欢迎社区使用并参与贡献。
slime 旨在解决强化学习中的常见瓶颈,并针对复杂的智能体任务做了优化。
灵活的混合训练架构:slime 的核心优势在于其多功能的混合架构。它既支持同步、集中式训练(适合推理和通用强化学习训练),也支持分布式、异步训练模式。这种异步模式对于Agentic RL 至关重要,因为在这类场景中,数据生成往往是一个缓慢的外部过程。通过将训练与数据收集解耦,团队可以确保训练 GPU 始终保持满负荷运行,最大化硬件利用率。
面向智能体的解耦设计:Agentic RL 经常面临环境交互时延迟高且分布长尾的问题,这严重限制了训练吞吐量。为此,slime 实现了完全解耦的基础架构,将环境交互引擎与训练引擎分离。这两个组件在不同的硬件上独立运行,将数据生成的瓶颈转化为可并行化的非阻塞过程。这种设计是加速长序列智能体任务的关键。
混合精度加速数据生成:为了进一步提升吞吐量,slime 采用混合精度推理来加速环境交互。它使用 FP8 格式进行数据生成 (Rollout) ,同时在模型训练中保留 BF16 以确保 训练 稳定性。这种技术在不影响训练质量的前提下,大幅提升了数据生成速度。
这种整体化的设计使得 slime 能够无缝集成多个智能体框架,支持各种任务类型,并通过统一而强大的接口高效管理长序列环境交互。
增强智能体能力的后训练![]()
后训练对大语言模型至关重要,模型通过自主探索和积累经验来不断优化策略。强化学习(RL)是突破模型能力边界的关键步骤。GLM-4.5 不仅整合了 GLM-4-0414 的通用能力和 GLM-Z1 的推理能力,还重点提升了智能体能力,包括智能体编程、深度搜索和通用工具使用。
训练过程首先在精选的推理数据和合成的智能体场景上进行监督微调,然后通过专门的强化学习阶段分别训练专家模型。
虽然强化学习训练只针对有限的可验证任务,但获得的能力提升可以迁移到相关领域,比如通用工具使用能力。最后,团队通过专家蒸馏将这些专门技能整合起来,使 GLM-4.5 在各项任务上都具备全面的能力。
推理能力训练:团队 在完整的 64K 上下文长度上进行单阶段强化学习,采用基于难度的课程 学习来进行多阶段 RL 。为了确保训练稳定性,团队引入了改进的技术:使用动态采样温度来平衡探索与利用。
智能体任务训练: 训练聚焦于两个可验证的任务:基于信息检索的问答和软件工程任务。团队开发了可扩展的策略来合成基于搜索的问答对,方法是通过人工参与的内容提取和选择性地模糊网页内容。编程任务则通过在真实软件工程任务上基于执行结果的反馈来驱动。
02.
整体性能测试
团队在涵盖智能体(3项)、推理(7项)和编程(2项)的12个基准测试上将GLM-4.5 与来自OpenAI、Anthropic、Google DeepMind、xAI、阿里巴巴、月之暗面和深度求索的各种模型进行了比较。总体而言,GLM-4.5 排名第3,GLM-4.5 Air 排名第6。
智能体任务![]()
GLM-4.5 是一个为智能体任务优化的基础模型。它提供 128k 的上下文长度和原生函数调用能力。智谱在 τ-bench 和 BFCL-v3(Berkeley Function Calling Leaderboard v3)上测量了其智能体能力。在这两个基准测试上,GLM-4.5 与 Claude 4 Sonnet 的性能相匹配。
网页浏览是一个流行的智能体应用,需要复杂的推理和多轮工具使用。团队在 BrowseComp 基准测试上评估了 GLM-4.5,这是一个具有挑战性的网页浏览基准测试,包含需要简短回答的复杂问题。借助网页浏览工具,GLM-4.5 对 26.4% 的问题给出了正确回答,明显优于 Claude-4-Opus(18.8%),接近 o4-mini-high(28.3%)。下图显示了 GLM-4.5 在 BrowseComp 上随测试时扩展的准确性提升。
推理![]()
在思考模式下,GLM-4.5 和 GLM-4.5-Air 可以解决复杂的推理问题,包括数学、科学和逻辑问题。
对于 AIME 和 GPQA 基准测试,智谱分别报告了 32 个和 8 个样本的平均准确率(Avg@32,Avg@8)以减轻结果方差。使用 LLM 进行自动答案验证。对于 HLE 基准测试,仅评估基于文本的问题,正确性由 gpt-4o 判断。
编程![]()
GLM-4.5 擅长编程,包括从头开始构建编程项目和在现有项目中作为智能体解决编程任务。
它可与现有编程工具无缝结合,如Claude Code、Roo Code 和CodeGeex。为了评估编程能力,团队在 SWE-bench Verified 和 Terminal-Bench 上比较了不同模型。下表展示了结果。
1 对于 SWE-bench Verified,团队使用 OpenHands v0.34.0,运行限制为 100 次迭代,并截断历史记录以防止超过 128K 上下文限制,配置为 temperature=0.6,top_p=1.0。
2 对于 Terminal-Bench,团队使用 Terminus 框架进行评估。团队使用标准函数调用而不是直接提示进行评估。
团队对所有比较模型进行了帕累托前沿分析(如下图所示)。GLM-4.5 和 GLM-4.5-Air 相对于相似规模的模型表现出优越的性能,在性能-参数量权衡上实现了最佳效率。
为了评估 GLM-4.5 的智能体编程能力,团队使用 Claude Code 作为评测工具,将其与 Claude 4 Sonnet、Kimi K2 和 Qwen3-Coder 进行对比。测试涵盖了 52 个编程任务,包括前端开发、工具开发、数据分析、测试和算法实现等多个领域。
所有评测都在独立的 Docker 容器中进行,并通过多轮人机交互并采用标准化的评估准则确保测试的一致性和可重复性。实验结果显示,GLM-4.5 对 Kimi K2 的胜率达到 53.9%,对 Qwen3-Coder 更是取得了 80.8% 的压倒性优势。尽管 GLM-4.5 展现出了不错的竞争力,但与 Claude-4-Sonnet 相比,仍有进一步优化的空间。
值得注意的是,GLM-4.5 的平均工具调用成功率最高(90.6%),优于 Claude-4-Sonnet(89.5%)、Kimi-K2(86.2%)和 Qwen3-Coder(77.1%),展示了在智能体编程任务中的可靠性。所有 52 个编程任务的轨迹公开在此处供社区进一步研究。
03.
体验示例演示
Artifacts![]()
GLM-4.5 增强了 GLM-4-0414 的复杂代码生成能力。GLM-4.5 可以创建复杂的 Artifacts,包括小游戏、小工具、物理模拟动画等,支持 HTML、SVG、Python 等多种语言。
Flappy Bird游戏:
3D 第一人称迷宫奔跑者:
带有拖拽和搜索功能的 TODO 看板:
幻灯片创建![]()
在 GLM-4.5 工具使用和 HTML 编码能力的基础上,团队开发了一个模型原生的 PPT/ Poster 智能体。无论用户需要简单还是复杂的设计,或是上传文档资料,GLM-4.5 Agent 都能自动搜索网络资源、获取相关图片,并生成相应的幻灯片。
塔代伊·波加查尔的成就:
蒙娜丽莎的内心独白:
全栈开发![]()
GLM-4.5 在前后端开发上游刃有余,是构建现代 Web 应用的利器。为了充分展现这一能力,团队借鉴 Claude Code 框架打造了一款编码智能体。基于预置的全栈网站框架,用户可以一句话生成完整网站,并通过多轮对话轻松添加新功能、完善项目细节。
宝可梦:
赛博朋克卡牌生成:
----- END -----
wisemodel相关:
系统升级:
系列模型:
关于wisemodel更多
1
欢迎持续关注和支持
开源社区建设需要长期坚持和投入,更需要广大用户的积极参与、贡献和维护,欢迎大家加入wisemodel开源社区的志愿者计划和开源共创计划。期待更多开发者将开源成果,包括模型、数据集和代码等发布到 wisemodel.cn 社区,共建中立、开放的AI开源社区生态。欢迎扫码添加wisemodel微信,申请加入wisemodel社群,持续关注wisemodel.cn开源社区动态。
2
欢迎加盟wisemodel开源社区
始智AI wisemodel社区自2023年9月上线以来,逐渐成为影响力日益扩大的中立开放的AI开源社区,为了加快公司发展,我们长期需要技术、运营等人才加盟,技术侧重在AI infra、后端开发,熟悉K8S、模型训练和推理等技术, 以及熟悉开发者生态运营的成员,欢迎感兴趣的朋友加盟,可以通过添加wisemodel微信,或者将简历投递到邮箱:liudaoquan@wisemodel.cn
3
欢迎投稿优质内容
欢迎投稿分享人工智能领域相关的优秀研究成果,鼓励高校实验室、大企业研究团队、个人等,在wisemodel平台上分享各类优质内容,可以是AI领域最新论文解读、最新开源成果介绍,也可以是关于AI技术实践、应用和总结等。投稿可以发邮件到liudaoquan@wisemodel.cn,也可以扫码添加wisemodel微信。
4
关于wisemodel开源社区
始智AI wisemodel.cn开源社区由清华校友总会AI大数据专委会副秘书长刘道全创立,旨在打造和建设中立开放的AI开源创新社区,将打造成“HuggingFace”之外最活跃的AI开源社区,汇聚主要AI开源模型、数据集和代码等,欢迎高校科研院所、大型互联网公司、创新创业企业、广大个人开发者,以及政府部门、学会协会、联盟、基金会等,还有投资机构、科技媒体等,共同参与建设AI开源创新生态。
向上滑动查看
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.