不用人类手写训练框架了！AI自己写代码，训出1B端侧「小钢炮」|算法|调用|预训练|客户端节点

分享至

机器之心编辑部

你的电脑里，或许很快会住进一只会聊天的「小怪兽」。

它不需要庞大的云端算力，也不必每一次对话都把请求发往远处的数据中心。它可以安静地待在本地设备里，随时被唤醒，陪你聊天、回答问题、处理简单任务，甚至在没有网络的时候继续运行。

这听起来像是一个轻量、有趣的 AI「桌宠」场景，但背后其实对应着大模型行业正在发生的一次路线分化。

过去很长一段时间，大模型给人的印象都是庞然大物：数百亿甚至上千亿参数起步，推理依赖云端数据中心，背后是高昂的算力、电力和调用成本。模型越大，能力越强，几乎成了行业默认的进步方向。

但端侧模型不能简单复制这条路。

它要进入个人电脑、手机、车机和边缘设备，就必须足够高效、足够快，也必须足够省资源；并且，端侧模型要真正留在用户身边，还需要低延迟、低成本，最好还能本地运行、断网可用。

这也是面壁一直押注的方向：用极致高效模型，尽可能换取极强的能力。

5 月 25 日，面壁开源最新一代端侧文本基座大模型 MiniCPM5-1B。这是一款面向开发者和终端设备的 1B 级「小钢炮」模型，主打低成本部署、高效运行和端侧友好

相比动辄几十亿、几百亿参数的主流模型，面壁发布的 1B 规模已经小到一个近乎反直觉的程度。但在终端设备上，这个模型已经具备本地部署的基础条件，可以支撑一类轻量、本地化的 AI 应用，如回答问题，辅助工作，陪你聊天，甚至驱动一只桌面上随时待命的数字「桌宠」。

基于面壁 MiniCPM 系列端侧模型开发的 AI 桌宠交互演示。项目地址：https://github.com/OpenBMB/MiniCPM-Desk-Pet（本项目基于 clawd-on-desk 项目二次开发）

面壁想让 MiniCPM5-1B 成为「每个人都养得起的 AI」。

更特别的是，MiniCPM5-1B 背后还「站着」ForgeTrain，全球首个完全由 AI 编写的生产级大模型训练框架，训练效果与英伟达 Megatron 对齐，训练速度比后者快 10%，相当于同等算力下成本降低 10%。

也就是说，面壁这次不只是开源了一个 1B 小尺寸模型，更是一条完整的路线：用 AI 编写预训练框架，再由这个框架参与端侧基座模型的预训练，已经跑通了。

榜单上的小钢炮：仅凭 1B 参数，超越不止一档

端侧模型的难点在于，模型越小，能力损失往往越明显。

在云端，大模型可以通过更大的参数规模、更高的训练成本、更复杂的推理机制来换取能力。

但端侧模型不能简单走这条路，它需要在有限参数、有限算力、有限内存中，尽可能榨出更高的智能密度。还要尽可能减少延迟，在网络不稳定甚至断网的情况下保持可用。

这也是 MiniCPM5-1B 最值得关注的地方。它不是单纯把参数规模压到 1B，而是在压缩模型体量的同时，尽可能保住了端侧模型最需要的通用能力。

在公开榜单中，MiniCPM5-1B 在同尺寸模型中打出了很强的竞争力：综合知识、数学推理、代码编程、工具调用等核心能力维度，均超越了同规模的主要竞争对手，包括 Qwen3.5-0.8B/think 和 LFM2.5-1.2B-Thinking 等。

在权威模型评测榜单 Artificial Analysis Intelligence Index（AA-Index）上，MiniCPM5-1B 再次刷新模型的智能密度上限：仅以 1B 参数规模取得17.9 分位列「小尺寸模型」榜单第一，超越了所有 2B 参数以下模型，相比 3 个月前发布的 Qwen3.5-2B（16.3 分），MiniCPM5-1B 不仅效果更优，参数量还减少了一半。

这一结果进一步验证了面壁持续观察到的密度定律大模型的智能密度正在以约每 3.5 个月翻一番的速度持续提升。更小的模型，正在承载更高的智能密度

由此可见，MiniCPM5-1B 的应用边界被进一步打开。过去，这类小模型更多被用于简单对话、基础问答和轻量任务；但 MiniCPM5-1B 的表现说明，在有限参数和有限算力条件下，小尺寸模型也可以承载更复杂的推理、代码和工具调用能力。

低门槛部署，才是端侧 AI 的入口

对于开发者来说，MiniCPM5-1B 最实在的价值在于：它真的很好部署。

这件事听起来简单，但在端侧大模型里并不容易。很多模型在论文和榜单上表现不错，一到真实设备上就会遇到各种问题：模型权重太大，普通电脑内存根本吃不消；显存要求太高，消费级设备跑不动；量化后能力掉点明显；推理框架适配麻烦；环境配置复杂；换一台设备，又要重新踩一遍坑。

结果就是，模型虽然开源了，但真正能把它顺利跑起来的开发者并不多。对普通用户而言，更不用说把它放进本地应用里长期使用了。

这正是端侧模型面临的困境：它不只是要「开源可下载」，还要「本地能部署」。MiniCPM5-1B 很好的解决了这些问题。

从精度选择上看，FP16 精度权重约 2GB，适合 GPU 和高端笔记本以及服务器；INT8 量化后约 1GB，几乎无性能损失，覆盖主流笔电和边缘计算盒子；INT4 / Q4 量化后仅 0.5GB，手机、平板、车机都能跑。也就是说，一张半张 SD 卡的空间，就能装进一个达到同级全球最优水平的语言模型。

更进一步，MiniCPM5-1B 还支持纯 CPU 环境运行，也可以在浏览器中部署。这表明它不再只属于服务器和高端显卡，更是有机会进入普通设备，成为一个真正本地化的语言模型。

这带来的变化很直接：许多轻量 AI 应用不必再完全依赖云端 API，也不必每一次交互都把请求发往数据中心。只要设备性能满足要求，模型就可以在本地完成推理，在弱网甚至离线环境下继续运行。

这也是端侧模型真正走向应用的前提：不是让用户知道模型已经开源，而是让开发者真的能把它装进设备、接入应用，并在真实场景里跑起来。

从本地助手到 AI 桌宠：小模型真正进入应用

一个端侧模型好不好用，还取决于能不能方便微调、推理、部署和集成。

MiniCPM5-1B 在微调侧支持 LlamaFactory、ms-swift，开发者如果想基于私有数据做领域适配，可以直接接入已有工具链，而不必从头搭建训练流程。

推理侧，支持 SGLang、vLLM、llama.cpp、Ollama、Hugging Face、ArcLight 等工具和框架，如此一来开发者不需要从零搭建一整套模型使用链路，而可以在已有生态中快速上手。

更进一步，面壁还提供了安装部署相关的 skills。用户可以直接调用自己的龙虾，或者使用 Claude Code 等代码智能体，按照 skills 自动完成安装和部署。这进一步降低了从「下载模型」到「本地跑起来」之间的操作门槛。

Skills 链接：https://github.com/OpenBMB/MiniCPM/tree/minicpm5#agent-skills--one-click-deploy--finetune

上述这些能力对端侧模型来说非常重要。

因为端侧应用的场景非常碎片化，大家需求各不相同，比如离线客服、桌面宠物、车机交互等，这些场景有一个共同点，它们不一定需要最大的模型，但需要一个足够轻、便宜、容易部署、还足够稳定的模型。

MiniCPM5-1B 正好适配这些场景，它让开发者有机会把一个具备真实语言能力的模型，放进日常的终端入口里。

前面提到的 AI 桌宠就是一个很好的例子。

首先，桌宠需要长期常驻。它不能像一个临时打开的网页应用，用完即走，而是要像一个轻量系统组件一样停留在用户桌面上。这就要求模型足够小，不能长期占用太多内存和算力。

其次，桌宠需要即时响应。用户问它一个问题，或者让它提醒一个事项，它都要快速给出反馈。如果每次都依赖云端调用，不仅延迟更高，成本也会随着使用频率迅速增加。

这正是 MiniCPM5-1B 这类端侧模型的优势所在。它小到可以被放进普通终端，支持本地运行，可以减少对云端 API 的依赖；还保留了对话、理解、推理和工具调用等基础能力，足以支撑一类轻量但高频的本地 AI 应用。

MiniCPM5-1B 不仅能聊天，更拥有深入系统底层的端侧 Agent 自主执行能力。

当模型足够小，开发者才有空间把它放进更多设备；从而围绕它做二次开发。这是大模型走向「个人 AI」时代的一个微小但坚实的脚印。

模型尺寸变小以后，数据质量变得更重要

性能跃升的背后，是数据质量的底层支撑。

这次，面壁同步开放了数据治理相关成果，包括开源高质量预训练数据集 UltraData（含最新版本Ultra‑FineWeb‑L3）。

现阶段，大模型训练中有一个逐渐被行业接受的判断：单纯扩大数据规模的边际收益在下降，模型能力的提升越来越依赖数据质量而不是数据数量。

这对小尺寸模型尤其重要。

大模型参数多，多少还能吸收一部分数据噪声；但对 1B 级模型来说，什么数据进入训练集、数据如何配比、低质量数据如何剔除等等，都会直接影响最终能力。

面壁建立了一套从 L0 到 L4 的分级数据治理体系，对高知识密度的中文网页、英文网页和数学语料进行了大量数据合成工作，最终形成的开源数据集随模型一起发布。

来源论文：https://arxiv.org/pdf/2602.09003

基于这套开源数据，开发者可以直接微调或训练自己的小模型，而不必从头建立数据处理管线。这是面壁在小模型路线上一贯的开放策略，开源不只是发布权重，而是把整个工程体系的关键环节都开放出来。

ForgeTrain：AI 写出的训练框架

MiniCPM5-1B 有两个发布版本：一个后训练版本；另一个是预训练完成的 Base Model 版本。而这个 Base Model，有一个不寻常的出身，由 ForgeTrain 参与预训练完成。

ForgeTrain 是一个大模型训练框架，类似于英伟达的 Megatron。但 ForgeTrain 有一个根本性的不同：构成它的每一行代码，没有一位人类工程师参与，都是由 AI 完成的

这和 Vibe Coding 有根本上的不同，ForgeTrain 使用 Harness + Agent loop 技术，一旦 Agent 开始编写代码，不需要人类介入。此外，作为训练框架，它要处理分布式训练、并行策略、显存管理、通信效率、算子调用、硬件适配和训练稳定性。任何一个细节出错，都可能让一次预训练消耗掉大量算力。

所以，ForgeTrain 真正要证明的是 AI 能不能写出一套能支撑真实模型训练的生产级系统软件。

其结果是，在英伟达 H100 GPU 上，ForgeTrain 的训练效果与 Megatron 对齐，速度领先 10%。换算成成本，相当于同等计算预算下，训练成本有望下降约 10%。在大模型预训练这种高成本环节里，几个百分点的效率提升，都会直接对应算力、电力和时间成本的下降。

更重要的是，ForgeTrain 也完成了对华为昇腾系列等国产算力的适配。ForgeTrain 在华为昇腾上预训练 MiniCPM5-1B，相比昇腾大模型训练框架 MindSpeed 也有10%的加速。

未来国产芯片的软件生态，或许不再需要完全依赖人力去一点点修补和追赶，而可以由 AI 快速「锻造」出来。

由此可见，MiniCPM5-1B 不只是一个模型版本，它更像是一次真实压力测试：AI 写出的训练框架，已经开始参与训练新的 AI 模型。

这也是「AI 制造 AI」在这次发布中最实在的一层含义：AI 还没有替代完整模型研发流程，但已经进入了模型生产链路中的关键软件环节。

业内对这一方向已有共识。Anthropic 创始人 Dario Amodei 将自动化 AI 研究定性为 AGI 时间表最强的加速器；OpenAI、谷歌 DeepMind、xAI 也把「AI 加速 AI 研究」写进战略核心；Andrej Karpathy 今年 3 月提出的 AutoResearcher，则从算法层面展示了 AI 自主优化模型的可行性。

但在此之前，所有探索都停留在算法层面或研究原型阶段。面壁的 ForgeTrain，第一次在「生产级训练框架」这一基础设施粒度上完成了验证，是率先交卷的。

这背后，是面壁首创的「锻造工程」（Forge Engineering）软件范式在支撑，它不是维护一个通用框架，而是让 AI 为每一款芯片、每一个模型「现场锻造」出专属的、高效的软件。

结语

MiniCPM5-1B 背后，是面壁两年多来在「极致端侧大模型」这条路上的持续积累。

2024 年 2 月，第一代 MiniCPM 以 2.4B 的身躯超越了 Mistral-7B，打响了「小钢炮」系列的第一炮。MiniCPM 3.0 将 4B 参数做出了超越 GPT-3.5 的水准，量化后仅 2GB 内存，让「端侧 ChatGPT 时刻」第一次不再是噱头。MiniCPM 4.0 则把稀疏架构引入端侧，以 22% 的训练开销追平 Qwen3-8B，并实现了 600 Token/s 的极速推理。

而 MiniCPM5-1B 的特殊之处在于两点：能力更强，用 1B 体量实现对同级甚至更高级模型的性能超越；出身不同，其基座模型版本，由 AI 自己编写的训练框架 ForgeTrain 锻造而成。

面壁选择的这条路线，从来不是单纯把模型做小。而是在小参数、低内存、低算力的约束下，依然保住足够高的智能密度。

MiniCPM5-1B 要回答的，正是这个问题：当一个模型足够轻、足够便宜、足够容易部署时，它还能不能足够聪明？

这一次，面壁给出的答案不只来自模型本身。ForgeTrain 参与 Base Model 预训练，表明 MiniCPM5-1B 是「AI 制造 AI」路线的一次模型级验证；UltraData 则指向另一条暗线，小规模模型要做强，不能只靠堆数据规模，更要依赖高质量的数据治理。

MiniCPM5-1B 的发布，不只是「小钢炮」系列的又一次升级。它更像是面壁把端侧模型背后的生产方式也一起推到了台前：模型能力、训练框架、数据治理、部署生态，共同决定了一个 1B 模型能走多远。

如果说云端大模型的主战场是能力上限，那么端侧模型的主战场就是智能密度。MiniCPM5-1B 的意义正在于此：一个足够小的模型，也可以在合适的工程体系支撑下，进入个人电脑、手机、车机和边缘设备，成为开发者真正能部署、用户真正能感知的本地智能。

现在，MiniCPM5-1B 已经开源，部署指南与微调文档同步上线。

下一只住进你电脑里的 AI「桌宠」，或许就从这个 MiniCPM5-1B 模型开始。

最后，附上一些链接供大家参考：

Hugging Face 链接：https://huggingface.openbmb.com/model/openbmb/MiniCPM5-1B
GitHub 链接：https://github.com/OpenBMB/MiniCPM
ModelScope 链接：https://modelscope.cn/models/OpenBMB/MiniCPM5-1B
GitCode：https://ai.gitcode.com/OpenBMB/MiniCPM5-1B
魔乐社区：https://modelers.cn/models/OpenBMB/MiniCPM5-1B
ForgeTrain开源链接：https://github.com/OpenBMB/ForgeTrain

文中视频链接：https://mp.weixin.qq.com/s/2tdHV01FL_YGUmZQ12DS2A

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.