网易首页 > 网易号 > 正文 申请入驻

刚刚,国产AI自己造了AI,全球首例!

0
分享至

金磊 发自 凹非寺
量子位 | 公众号 QbitAI

造AI这件事,现在的主角变成了AI。

因为就在刚刚,一个国产AI先自己写出了一套大模型预训练框架,然后再用这套预训练框架,训练出了一个新的小尺寸模型!



这就是面壁智能搞出来的big news。

这套由AI写出来的预训练框架叫做ForgeTrain,它是全球首个完全由AI编写的生产级大模型预训练框架,性能甚至超越了英伟达的Megatron

并且ForgeTrain在华为昇腾上预训练MiniCPM5-1B,相比昇腾的框架也有10%的加速。

围绕它,面壁智能还提出了一套新的软件编程范式,叫Forge Engineering

更直白一点说,就是当AI写代码的成本越来越低,未来软件不一定非要做成一套通用大框架,也可以针对不同模型、不同硬件、不同任务,现场锻造一套专用代码。

而被ForgeTrain训练出来的新模型,就是MiniCPM5-1B

至于三者的关系,我们用一张图来解释:



虽然过去行业里关于“AI制造AI”的声音不断,但总归来说,都还停留在特定的环节,比如写一段函数、改一个脚本、调一组参数等等。

不过这一次,中国大模型公司第一次把“AI制造AI”从概念,推进到了可展示、可评测、可复现的工程样本。

AI造出来的AI,能干啥?

既然MiniCPM5-1B是ForgeTrain训练出来的模型,最直接的问题来了:

AI造出来的AI,到底能干什么?

先看一个最直观的场景——桌宠。

这个1B参数规模的小模型,它可以常驻在电脑桌面上,变成一个随时响应的AI小伙伴。你可以跟它聊天,让它根据上下文接话,也可以给它设置不同的人格。



视频地址:
https://mp.weixin.qq.com/s/Ci0BXKMJHy086MycdqH77w

(本项目基于clawd-on-desk项目二次开发:
https://github.com/OpenBMB/MiniCPM-Desk-Pet)

这个桌宠的重点在于,它不是一定要跑在云端的大模型服务,1B规模意味着它足够小,部署门槛也足够低。

按照面壁智能官方的说法,MiniCPM5-1B在FP16精度下权重体积约2GB,适合GPU、高端笔电和服务器;INT4/Q4精度约0.5GB,可以面向手机、平板、车机等设备。

MiniCPM5-1B想证明的,是1B模型也可以更能打。

在综合知识、数学推理、代码推理、工具调用等方向上,MiniCPM5-1B都拿出了面向同尺寸端侧模型的对比结果。

公开评测中,MiniCPM5-1B/think平均分为42.57;在MMLU-Pro、MMLU-Redux、AIME-2025、AIME-2026、BFCL-v4、AA榜单等项目上,也给出了对应成绩。



尤其值得一提的是,MiniCPM5-1B再次刷新了小模型的智能密度上限。

仅以1B参数规模,它就在国际知名榜单AA-Index上超越了所有2B参数以下模型。相比3个月前发布的Qwen3.5-2B,MiniCPM5-1B不仅效果更优,参数量还减少了一半。

这背后其实指向一个越来越清晰的趋势:模型能力提升,不再只靠把参数规模越堆越大。更小的模型,也正在承载更高的智能密度。按照这一趋势观察,大模型的智能密度正在以约每3.5个月翻一番的速度持续提升。



这也让MiniCPM5-1B的价值更明确了,它不只是一个小尺寸模型,而是一个在参数规模、部署成本和实际能力之间重新找平衡点的端侧模型。

除此之外,它还可以自定义人格



视频地址:
https://mp.weixin.qq.com/s/Ci0BXKMJHy086MycdqH77w

虽然这听起来像聊天产品里的基础功能,但在端侧模型上意义更大,因为端侧模型离用户更近,更容易成为本地设备上的轻量级智能入口。

它可以记住用户偏好的交互方式,也可以根据不同场景切换风格。

如果大模型要从云端走向每个人的设备,模型必须足够小、足够便宜、足够好用,还要有完整工具链。

这也是它强调开发者友好的原因。

MiniCPM5-1B提供了模型、推理、微调相关工具链。推理侧支持SGLang、vLLM、llama.cpp、Ollama、Hugging Face、ArcLight等;微调侧支持LLaMA-Factory、ms-swift等工具。

对开发者来说,这比单纯给一个模型权重更重要。

因为模型能不能被用起来,往往不只取决于模型本身,也取决于部署、推理、量化、微调、接入工作流是不是顺手。

还超过了英伟达Megatron

如果说MiniCPM5-1B是AI制造AI的产品,那么ForgeTrain就是AI制造AI的工厂。而这个工厂,本身也是AI造出来的。

面壁智能把AI制造AI分成了L1到L5五个阶段:

  • L1:AI 只给建议,人类执行所有操作(代表:Github Copilot)
  • L2:AI 辅助研发,完成具体环节(代表:Cursor,Claude Code)
  • L3:AI 端到端产出下一代模型(代表:ForgeTrain)
  • L4:AI 递归自改进,改造训练管线和自身
  • L5:AI 自主设定研究议程,开放式探索

ForgeTrain对应的正是L3-L4这个阶段。它还没有到AI自己发明下一代Transformer的程度,但它已经进入了大模型研发最核心的基础设施层——预训练框架。

在此之前,全世界很多大模型预训练框架,都是人类程序员一行一行写出来的。英伟达的Megatron、Meta的 Fairseq、谷歌的TensorFlow,无一不是如此。

但面壁智能提出了一个完全不同的思路,Forge Engineering

过去的软件工程强调通用框架,一个框架要兼容各种模型、各种硬件、各种训练任务。好处是代码可以复用,代价是很难把每个具体场景都压榨到极致。就像一件均码的衣服,谁都能穿,但谁都穿不合身。

Forge Engineering的思路则激进得多:既然AI写代码越来越快,代码生产成本越来越低,那我们为什么还要追求通用?我们完全可以给不同的模型、不同的硬件、不同的任务,分别写专用的代码。

这就像从工业化的批量生产,回到了高级定制。AI就是那个不知疲倦的顶级工匠,可以为每一个需求量身打造最适合的代码。

但AI自己写预训练框架,难点不只在写代码。更难的是:它怎么知道自己写对了?怎么知道速度够不够快?怎么知道显存、并行、通信、稳定性有没有问题?

这就需要Harness

咱们可以把Harness理解成一个考场,AI被放进这个考场里,一轮轮生成代码、运行测试、拿到反馈、继续修改。这个过程完全自动,不需要人类干预。

面壁智能采用了三阶段构建方法论:

  1. 从现有预训练框架采集关键数据,形成评测标准和Harness
  2. 从评测Harness构建二进制一致的预训练框架版本
  3. 解除二进制一致的限制,迭代优化到超越参考实现

最终的结果是,ForgeTrain不仅在功能上完全对齐了英伟达Megatron,而且在相同的硬件条件下,训练速度还要快10%。

这意味着,同样的算力,用ForgeTrain可以节省10%的训练时间和成本。

这是一件值得被重视的事情

看到这里,你可能觉得这是一场很酷的技术秀。但透过现象看本质,面壁智能的这次发布,正在揭示大模型行业正在发生的一场剧变。

首先,大模型的竞争,正在从堆资源走向极致提效率。

过去几年,所有大模型厂商都在拼大力出奇迹,拼参数、拼语料、拼算力、拼十万卡集群。但这条Scaling Law的路,它是有尽头的。

当堆料走到天花板,接下来的胜负手是什么?是效率。

在同样的算力预算下,谁能产出更多的研发迭代?谁的单代研发周期更短?面壁智能的AI制造AI给出了答案:

用AI去替代人类研发管线中的重复劳动,把人类数周的代码开发压缩到几十分钟。这是唯一能对抗资源瓶颈,实现大模型能力继续指数级攀升的解法。

其次,AI研究员的角色,正在发生不可逆转的改变。

在ForgeTrain这样的系统里,人类的角色正在发生迁移。从Human in the loop(在循环中执行具体代码)变成了Human on the loop(在循环外进行监督和设计)。

未来的AI科学家,不再需要亲自去写那无穷无尽的CUDA算子和底层通信逻辑。他们将变成研发系统的设计者和守界者。他们只需要定义目标、搭建Harness,剩下的脏活累活,全交给不知疲倦的AI去完成。

最后,对于国产大模型和国产芯片而言,这是弯道超车的绝佳契机。

过去,我们评价国产大模型,眼睛总是盯着参数大小、榜单跑分、长文本能力。但真正决定一家公司、一个生态长期核心竞争力的,其实是底层系统——生产模型的能力。

谁能更快地训练出模型,谁能以更低的成本试错,谁就能在残酷的百模大战中活到最后。

更深远的战略意义在于国产算力生态。众所周知,华为昇腾等国产芯片在硬件算力上正在疯狂追赶,但最大的短板在于软件生态。英伟达有数以百万计的开发者花了十五年时间踩坑、优化,这是国产芯片靠人力很难在短时间内抹平的差距。

但ForgeTrain提供了一种破局的可能。

如果人不够,那就用AI来凑!通过AI自动生成适配各种新模型、新硬件的专属预训练框架,国产芯片将有机会借由AI的生产力,极大缩短追赶国际顶尖生态的时间差。

当AI学会了造AI,齿轮就已经开始加速转动。一个新的纪元,正在我们眼前展开。

MiniCPM5-1B 现已全面开源:

Hugging Face链接:
https://huggingface.openbmb.com/model/openbmb/MiniCPM5-1B

GitHub链接:
https://github.com/OpenBMB/MiniCPM

ModelScope链接:
https://modelscope.cn/models/OpenBMB/MiniCPM5-1B

AtomGit:
https://ai.gitcode.com/OpenBMB/MiniCPM5-1B

魔乐社区:
https://modelers.cn/models/OpenBMB/MiniCPM5-1B

ForgeTrain开源链接:
https://github.com/OpenBMB/ForgeTrain(5.26晚后上线)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
最新:乌克兰连续攻入俄领土两大重镇!导弹与战机协同打击

最新:乌克兰连续攻入俄领土两大重镇!导弹与战机协同打击

项鹏飞
2026-05-25 20:15:26
国产显卡1000块秒没:60人抢1块的疯狂

国产显卡1000块秒没:60人抢1块的疯狂

山月不知2
2026-05-25 21:54:35
绕开光刻机仅一招,炸出一群科技霸权,华为另起炉灶刺痛了谁?

绕开光刻机仅一招,炸出一群科技霸权,华为另起炉灶刺痛了谁?

林子说事
2026-05-26 13:36:46
丁俊晖的至暗时刻:高端局一胜难求39岁中国龙急需破局之道

丁俊晖的至暗时刻:高端局一胜难求39岁中国龙急需破局之道

带你逛体坛
2026-05-26 12:33:38
中国人不买了!在华暴跌48%大溃败,谁亲手终结了本田神话?

中国人不买了!在华暴跌48%大溃败,谁亲手终结了本田神话?

胖福的小木屋
2026-05-25 11:46:31
伊朗使用新武器

伊朗使用新武器

鲁中晨报
2026-05-26 09:06:47
俄罗斯第二款五代机来了?疑似苏-75首飞画面曝光

俄罗斯第二款五代机来了?疑似苏-75首飞画面曝光

三叔的装备空间
2026-05-25 11:04:53
柬媒爆料:中国15家企业承诺,送50万人去柬!1000多条评论很一致

柬媒爆料:中国15家企业承诺,送50万人去柬!1000多条评论很一致

消失的电波
2026-05-22 21:31:30
“基辅所有地区均遭破坏”,英法等五国否决加大对乌援助方案

“基辅所有地区均遭破坏”,英法等五国否决加大对乌援助方案

近距离
2026-05-25 12:08:12
这几天被这个消息霸屏了,娇贵的上海会同步推进吗?

这几天被这个消息霸屏了,娇贵的上海会同步推进吗?

慧翔百科
2026-05-26 17:25:34
中国铝业、洛阳钼业、南山铝业、铜陵有色,反转潜力谁大?

中国铝业、洛阳钼业、南山铝业、铜陵有色,反转潜力谁大?

长风价值掘金
2026-05-26 15:54:57
中国本想在沙漠种麦保粮食,结果却意外发现“治沙密码”,专家都看傻了

中国本想在沙漠种麦保粮食,结果却意外发现“治沙密码”,专家都看傻了

起喜电影
2026-05-26 07:44:23
司机称行车记录仪时速不到60km/h,监控抓拍达121km/h 交警:设备无问题 律师释法

司机称行车记录仪时速不到60km/h,监控抓拍达121km/h 交警:设备无问题 律师释法

红星新闻
2026-05-26 16:49:49
越是上流人越“下流”?狗仔再曝景甜猛料,远比私密照抵债更可怕

越是上流人越“下流”?狗仔再曝景甜猛料,远比私密照抵债更可怕

叨唠
2026-05-23 23:06:54
半导体大利好!13家先进封装集体涨停,高盛提前埋伏5家低至40亿

半导体大利好!13家先进封装集体涨停,高盛提前埋伏5家低至40亿

长风价值掘金
2026-05-25 20:35:03
李德维拿出关键证据,给金溥聪致命一击,金溥聪要急?

李德维拿出关键证据,给金溥聪致命一击,金溥聪要急?

潋滟晴方DAY
2026-05-26 13:25:13
为什么猪没在进化中灭绝?网友:六边形战士,几乎没有弱点

为什么猪没在进化中灭绝?网友:六边形战士,几乎没有弱点

夜深爱杂谈
2026-05-13 22:38:24
太辣眼了!网红白冰,出轨聊天记录曝光, 其中到底有多炸裂?

太辣眼了!网红白冰,出轨聊天记录曝光, 其中到底有多炸裂?

川渝视觉
2026-05-24 20:57:57
毛主席哭着给刘胡兰题词,随后指示徐向前:将阎锡山往死里揍!

毛主席哭着给刘胡兰题词,随后指示徐向前:将阎锡山往死里揍!

阿器谈史
2026-05-26 14:37:02
超市里这6样东西,尽量不要买,懂行的人很少碰

超市里这6样东西,尽量不要买,懂行的人很少碰

复转这些年
2026-05-24 18:24:08
2026-05-26 20:52:49
量子位 incentive-icons
量子位
追踪人工智能动态
12689文章数 176471关注度
往期回顾 全部

科技要闻

中国AI要向外卷,而不只是做第二个OpenAI

头条要闻

山西矿难幸存者拒绝家人"不再下矿"要求:债还没还完

头条要闻

山西矿难幸存者拒绝家人"不再下矿"要求:债还没还完

体育要闻

上赛季差点降入英甲,下赛季要踢英超了

娱乐要闻

台媒贴脸!S妈被问大S嗑药当场沉默

财经要闻

中国铝行业爆单 下一个“煤炭”大周期?

汽车要闻

涉水加强 福特烈马亚马逊限量版上市 售价39.98万

态度原创

数码
健康
旅游
亲子
军事航空

数码要闻

小米海外推出REDMI Headphones Neo头戴式耳机

外泌体抗衰,什么时候能用上?

旅游要闻

漫步虎山公园 邂逅泰安初夏的温柔

亲子要闻

儿童高热惊厥抽搐,急救记好这六点

军事要闻

美伊在阿巴斯港附近短暂交火 交战过程披露

无障碍浏览 进入关怀版