网易首页 > 网易号 > 正文 申请入驻

面壁智能放大招!开源全尺寸BitCPM-CANN:国产算力首次跑通1.58-bit训练,推理显存省5/6

0
分享至


智东西
作者 王涵
编辑 漠影

2026年,AI专用HBM内存价格暴涨超165%,显存/HBM正在成为模型扩展最昂贵、最稀缺的资源之一,模型公司的核心推理成本居高不下;

而另一边,高端AI芯片对华出口管制反复横跳,让国产算力生态在面临高昂过路费与供应链安全风险的夹缝中艰难求生。

两件事叠加,指向同一个问题:在硬件受限的情况下,国产模型厂商,该怎么继续做模型?

智东西5月25日报道,在2026年5月23日的华为昇腾开发者大会上,面壁智能联合清华大学、OpenBMB开源社区,正式发布了BitCPM-CANN——全球首个完全基于国产华为昇腾平台训练并开源的三值(1.58-bit)大模型。0.5B到8B全尺寸开源,推理显存节省5/6

BitCPM-CANN有什么不同?它的亮相意味着什么?国产芯片训练的路,又能不能走通呢?

一、1.58-bit三值权重如何跑通昇腾,省下6倍显存?

BitCPM-CANN是全球首个完全基于国产算力平台(华为昇腾)训练并开源的三值(1.58-bit)大模型。

那什么是三值?普通大模型的参数通常用16位或8位浮点数表示,而BitCPM-CANN每个参数只能取三个值:-1、0、+1。理论上,其每个参数平均只需1.58 bit来存储。

为了节省显存,业界的传统思路一般是把32位精度降到8位,这样确实会损失一些精度,但能换来4倍的显存节省。而BitCPM-CANN路线不太一样:团队认为压缩后的每一个比特,都应该尽可能多地学进知识,而不是白白浪费掉。

所以,虽然BitCPM-CANN只有1.58 bit,但是它的信息密度其实非常高,不是“牺牲精度换内存”的妥协。这个特点,在HBM紧缺、长上下文处理、MoE扩展这类特别吃显存的场景里,尤其能发挥价值。

那BitCPM-CANN是怎么做到的?其技术路线可以划分为三个关键步骤:

第一步:把1.58-bit三值权重跑进训练算子。

研发团队采用STE(直通估计器)方案,在训练阶段保留全精度残差用于梯度更新,在导出阶段则输出严格的三值权重,从而将离散权重真正嵌入华为昇腾的训练算子中。

第二步:用完整QAT加后训练蒸馏守住模型能力。

团队在昇腾上完整部署了量化感知训练(QAT)与后训练蒸馏流程,在保证模型效果不下降的前提下,将训练吞吐量的损失控制在仅5%的水平。

第三步:把低比特能力沉淀为MindSpeed训练基础设施。

团队还基于Megatron‑LM框架嵌入可插拔的QAT并行线性层,统一了checkpoint格式并支持32K长序列训练,使低比特训练能力成为昇腾平台上可复用、可扩展的公共底座

二、60B入终端:BitCPM-CANN撬动端侧AI落地

目前,BitCPM-CANN已开源0.5B到8B的全尺寸版本,在1B、3B、8B三个规格上,模型均保留了全精度版本95.7%以上的能力,其中3B版本达到97.2%。即使在数学、代码等高敏感任务上,3B版本的表现也已进入接近全精度的区间。

这些数据意味着1.58-bit已经具备面向真实模型族、真实评测集、真实训练栈的工程说服力。


端侧,这是BitCPM-CANN价值最容易被感知到的地方,因为端侧的用户最多,场景也最广。

拿8B模型来说,传统BF16格式要占大约16GB显存,这个数字已经超过绝大多数手机的内存容量了,更别提还要留给其他应用空间。

BitCPM-CANN把它压缩到2-3GB,手机内存就能轻松跑起来。手机厂商不需要为了跑大模型去堆昂贵的超大内存,普通旗舰机就能流畅运行8B级别的对话模型。

如果再往前走一步,结合MoE架构——每次只激活一部分参数——未来甚至有望把60B级别的模型塞进笔记本电脑、平板,甚至高端手机里。

硬件这边也在同步推进。高通的8850/8397等新一代端侧芯片,已经原生支持2-bit以下的低比特推理。芯片厂商早就把跑道铺好了,就差一个好模型。BitCPM-CANN刚好提供1.58-bit的权重,跟硬件能力完美匹配。

更值得关注的是,BitCPM-CANN全都基于华为昇腾芯片搭建,实现了全链路原生适配国产算力,跟英伟达CUDA生态没有依赖关系。

这意味着其整个训练流程——前向计算、反向传播、量化算子的实现、分布式训练的调度——全部在昇腾上原生完成,中间不需要去CUDA上跑一遍验证再搬回来。

这是昇腾平台上第一个完整跑通1.58-bit训练,并且做了全精度对标评测的公开成果,模型规模直接推到了8B量级,不是几百兆的小模型演示。

国产NPU在大规模三值量化训练这个方向上,之前几乎没有公开的系统化成果,BitCPM-CANN算是把这块空白补上了。

未来,昇腾生态里的低比特模型研发,都可以依托这套底座往前走。环境层、长序列支持、并行策略、融合算子、调试工具,一套链路已经沉淀下来了。后续其他团队想在昇腾上做低比特训练,不需要再从零开始踩坑。

国产芯片、国产模型、国产训练框架一体化的自主产业链条,正在一点点变成现实。

三、四年深耕,全栈自研:面壁智能如何掌握端侧AI话语权?

BitCPM-CANN并非凭空出现,而是面壁智能在端侧AI这条路线上长期深耕的自然结果。

针对端侧AI,面壁已形成自己的模型矩阵——“小钢炮”系列(MiniCPM)。顾名思义,这是参数虽小、能力却强的一系列模型。MiniCPM在GitHub上累计收获超3万星标,Hugging Face开源总下载量超过3000万,成为中国端侧AI领域最受欢迎的开源模型家族之一。


但把时间拨回面壁成立之初,情况远没有这么乐观。2022年,国产芯片在训练大模型上尚不成熟,国内AI基础设施与国外差距明显。也正因如此,绝大多数公司选择了最省事的路径——直接依赖英伟达CUDA生态。

然而,面壁智能却做了一个截然不同的决定:自己写框架,自己搭底座。面壁智能从一开始就不绑定CUDA,换句话说,面壁智能的工程师从头就已经在亲手解决那些底层问题,例如显存怎么分配、通信怎么优化、算子怎么融合。

更重要的是,这个起点引发了一连串的技术积累。此后,他们自研了一套训练框架,取名BM-Train(Big Model Train)。

从稀疏架构InfLLM到低比特量化方法BitCPM、推理框架CPM.cu,面壁智能逐步构建起覆盖训练到推理的全栈端侧技术体系。正是这些积累,让面壁智能能够把验证成熟的1.58-bit训练方法,完整地搬到昇腾平台上,做出BitCPM-CANN,从底层算子到训练框架,全链路在昇腾原生跑通。

更难得的是,他们在国产芯片生态上的积累远不止昇腾一家。此前,面壁智能曾参与协助华为昇腾、鲲鹏,以及寒武纪、天数智芯等国产芯片构建和优化软件栈。这些经历让面壁智能建立起了对国产芯片生态的独特认知:知道坑在哪,也知道怎么绕过去。

端侧大模型的性能释放,离不开模型厂商与芯片厂商的共同投入。在这个赛道上,面壁智能追求的从来不只是参与,而是成为推动者与构建者。

结语:硬件受限,模型效率先行

过去两年,行业把Scaling Law奉为圭臬,算力成了唯一的门槛。

而BitCPM-CANN代表了另一条路线:在硬件给定的前提下,把模型的信息密度推向极限。更重要的是,BitCPM-CANN证明了这条路线可以在国产算力上完整跑通。

回到最开头的那个问题“在硬件受限的情况下,国产模型厂商,该怎么继续做大模型?”

面壁智能用BitCPM-CANN给出了答案:当硬件追赶需要时间,模型效率可以先行。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
1-0!水晶宫创造历史,英超有望包揽欧战冠军,考验阿森纳

1-0!水晶宫创造历史,英超有望包揽欧战冠军,考验阿森纳

我的护球最独特
2026-05-28 05:00:18
LV家族超模太子妃怀第6胎!从俄贫民窟卖水果到千亿帝国阔太,44岁人生太彪悍!

LV家族超模太子妃怀第6胎!从俄贫民窟卖水果到千亿帝国阔太,44岁人生太彪悍!

英国报姐
2026-05-27 21:40:51
法网再曝冷门,2-1.2-0,中国金花又赢了,又一个大满贯冠军出局

法网再曝冷门,2-1.2-0,中国金花又赢了,又一个大满贯冠军出局

林子说事
2026-05-28 04:32:44
马刺心灰意冷选择摆烂,NBA联盟彻底陷入慌乱!

马刺心灰意冷选择摆烂,NBA联盟彻底陷入慌乱!

田先生篮球
2026-05-27 20:51:10
中国被曝限制AI人才出境,阿里DeepSeek核心人员出国要先获批

中国被曝限制AI人才出境,阿里DeepSeek核心人员出国要先获批

桂系007
2026-05-26 23:43:08
白宫称伊朗媒体发布的美伊谅解备忘录内容“不实”

白宫称伊朗媒体发布的美伊谅解备忘录内容“不实”

新华社
2026-05-27 22:55:14
夫妻割麦被刁难后续:村书记当场承诺 村民爆猛料 明年恐不会来了

夫妻割麦被刁难后续:村书记当场承诺 村民爆猛料 明年恐不会来了

小鋭有话说
2026-05-27 22:17:26
祝霍启刚张维为合作之路越走越宽!

祝霍启刚张维为合作之路越走越宽!

不主流讲话
2026-05-27 15:32:36
女明星景甜被爆料代孕的真相:男友的假“百亿富豪”身份被识破

女明星景甜被爆料代孕的真相:男友的假“百亿富豪”身份被识破

总在茶余后
2026-05-27 17:45:52
消息人士:落选世界杯名单后,霍尔决定代表爱尔兰效力

消息人士:落选世界杯名单后,霍尔决定代表爱尔兰效力

懂球帝
2026-05-27 15:34:11
湖北大娘硬讹收割机升级!大批车主逃离,小麦烂地里,也没人敢去

湖北大娘硬讹收割机升级!大批车主逃离,小麦烂地里,也没人敢去

奇思妙想草叶君
2026-05-28 04:11:15
荷兰世界杯大名单:范戴克领衔,德容、德佩在列,弗林蓬落选

荷兰世界杯大名单:范戴克领衔,德容、德佩在列,弗林蓬落选

懂球帝
2026-05-27 20:28:41
伟伟道来 | 谈判迟滞战事再起,到底哪方更拖得起

伟伟道来 | 谈判迟滞战事再起,到底哪方更拖得起

经济观察报
2026-05-27 15:31:04
5月27日俄乌最新:卢比奥展现“鹰派”本色?

5月27日俄乌最新:卢比奥展现“鹰派”本色?

西楼饮月
2026-05-27 20:55:53
血债惊全球!47条人命炸穿底线!中方怒斥:这事没完!

血债惊全球!47条人命炸穿底线!中方怒斥:这事没完!

达文西看世界
2026-05-26 15:42:43
以色列:穆罕默德·奥达和他妻子,遇袭身亡

以色列:穆罕默德·奥达和他妻子,遇袭身亡

南方都市报
2026-05-27 14:40:28
父亲当街多次脚踹女儿,路过男子制止时将其放倒致轻伤;一审被判构成故意伤害罪,二审发回重审

父亲当街多次脚踹女儿,路过男子制止时将其放倒致轻伤;一审被判构成故意伤害罪,二审发回重审

极目新闻
2026-05-27 18:44:06
死亡人数高达31人,我们低估了这场暴雨

死亡人数高达31人,我们低估了这场暴雨

凤凰WEEKLY
2026-05-27 17:06:50
国内将逐渐停止"肠镜检查"?做完对身体有无影响?医生告诉您真相

国内将逐渐停止"肠镜检查"?做完对身体有无影响?医生告诉您真相

垚垚分享健康
2026-05-27 11:20:11
这和不穿有啥区别?徐璐真空上阵、腰细胯大,抢了所有女星风头

这和不穿有啥区别?徐璐真空上阵、腰细胯大,抢了所有女星风头

林轻吟
2026-05-27 17:04:43
2026-05-28 06:39:00
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
11912文章数 117085关注度
往期回顾 全部

科技要闻

韬定律:全球在卷纳米数 华为换了一把尺子

头条要闻

特朗普:伊朗即使放弃高浓缩铀也无法获得解除制裁

头条要闻

特朗普:伊朗即使放弃高浓缩铀也无法获得解除制裁

体育要闻

这群老阿姨,是最硬核的马刺球迷

娱乐要闻

王鹤棣风波连累父亲炸串店遭差评?

财经要闻

中国半导体的阳谋

汽车要闻

限时补贴价9.28-10.98万 MG 4X正式上市

态度原创

艺术
健康
时尚
本地
数码

艺术要闻

蚂蚁新总部封顶了!大圆环到底有啥魔力,科技公司都抢着用?

打外泌体会比干细胞更安全吗

这几件单品太火了,今年流行的风格都离不开它

本地新闻

用剪纸的方式,打开江苏扬州

数码要闻

别盲目跟风!今年618买笔记本,认准这6款就够了

无障碍浏览 进入关怀版