网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

仅需0.4GB，参数只有0和±1！微软开源首个原生1 bit模型，CPU轻松跑

2025-04-19 15:55:20　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：定慧好困

【新智元导读】微软研究院开源的原生1bit大模型BitNet b1.58 2B4T，将低精度与高效能结合，开创了AI轻量化的新纪元。通过精心设计的推理框架，BitNet不仅突破了内存的限制，还在多项基准测试中表现出色，甚至与全精度模型不相上下。

大模型轻量化终于又有好玩的了。

就在最近，微软亚研院开源了第一款参数量达到20亿，并且还是原生1bit精度的LLM——BitNet b1.58 2B4T。

论文地址：https://arxiv.org/abs/2504.12285

这个模型好玩在三个点上，其实都在模型名字里了：

1. b1.58量化

这个模型里的参数，一共只有{-1, 0, +1}三种数值，很难想象知识是如何压缩在里面的！（根据信息论计算公式，这个模型的精度就是≈1.58，如果是纯粹的1bit量化，那么只有两个数值）。

2. 模型非常的小！

参数只有2B，和动辄14B、32B、617B等全量模型相比，大小还不到他们零头，并且由于参数的精度压缩到极低，所以这个模型只有0.4GB的大小。

3. 针对CPU的推理框架

使用为CPU架构专门设计的开源推理框架BitNet来运行，微软已经花了1-2年的时间来完善了这个框架。

这种低精度、低参数，并且能在CPU上原生推理的大模型，为端侧AI开启了无限可能性。

甚至未来有可能可以部署在家里的电饭煲或者冰箱中，成为真正的「AI智能体」。

首个开源原生1bit模型

微软推出的BitNet b1.58 2B4T是首个开源的、原生1 bit的LLM，参数规模达到20亿。

该模型在包含4万亿个Token的语料库上进行训练，别看它小，这个模型在涵盖语言理解、数学推理、编码熟练度和对话能力的基准测试中都进行了严格评估。

只有三种参数的BitNet b1.58 2B4T的性能与同类大小全精度的LLM相当。

上图可以看到，BitNet b1.58 2B4T在30亿参数以下的模型中，就性能与内存而言，取得了不错的平衡。

在11个基准测试中的平均分已经和1.5B和2B的全精度模型相当，用微软自己的话说就是，「推进了由领先的开放权重LLMs定义的帕累托前沿，展示了更高的效率」。

同时，BitNet b1.58 2B4T在计算效率方面提供了显著优势，包括大幅减少的内存占用、能耗和解码延迟。

该模型的权重已经通过 Hugging Face 发布，并提供了针对GPU和CPU架构的开源推理实现。

极限的技术探索

开源LLMs已经是AI领域非常重要的一股力量，但是由于部署和推理所需的大量计算资源（简单说就是没卡）阻碍了社区发展——虽然开源了，但是大部分人都玩不了。

1-bit LLMs，代表了一种极端但是非常有前景的模型量化形式。

当模型的权重被限制为二进制{-1, +1}或三进制{-1, 0, +1}，通过大幅减少存储权重所需的内存并实现高效的位运算，它们有可能显著降低部署成本、减少能耗并加速推理速度。

微软的这项工作证明，当原生1 bit LLMs在大规模上数据集有效训练时，可以实现与全精度类似规模的模型相媲美的性能。

BitNet b1.58 2B4T的架构采用标准的Transformer模型，并基于BitNet框架进行了修改，该模型完全从零开始训练——参数并不是后期量化成{-1, 0, +1}，而是原生训练。

预训练技术路线

预训练语料库由公开可用的文本和代码数据集组成，包括大型网络爬虫数据集，如DCLM和教育网页数据集，如 FineWeb-EDU。

为了增强数学推理能力，还加入了合成生成的数学数据。

在预训练之后，模型进行了有监督微调（SFT），以提高其指令跟随能力，并改善其在对话互动格式中的表现。

SFT阶段使用了多种公开可用的指令跟随和对话数据集。

为了进一步增强特定能力，特别是在推理和复杂指令遵循方面，还补充了使用GLAN和 MathScale方法生成的合成数据集。

为了进一步使模型的行为与人类对有用性和安全性的偏好保持一致，在SFT 阶段之后应用了直接偏好优化（DPO）。

DPO是一种比传统的RLHF更高效的替代方法，它通过直接优化语言模型并利用偏好数据，避免了训练单独奖励模型的需求。

DPO 阶段进一步精炼了模型的对话能力，并使其更好地与实际使用中的预期交互模式保持一致。

性能评估

通过多种基准测试来衡量模型的表现，这些基准测试包括了：

语言理解与推理
世界知识
阅读理解
数学与代码
指令跟随与对话

如表1所示，BitNet b1.58 2B4T展现了显著的资源效率。

与所有评估过的全精度模型相比，它的非嵌入内存占用和解码过程中估算的能耗明显较低。

内存占用为0.4GB，输出延迟为29ms。

在任务表现方面，BitNet b1.58 2B4T也表现得非常具有竞争力。

它在多个涵盖推理、知识和数学能力的基准测试中取得了最佳结果。

进一步通过与Qwen2.5 1.5B的后训练量化（PTQ）版本进行比较，探索效率与性能之间的权衡，使用了标准的INT4方法（GPTQ和AWQ）。

INT4量化虽然成功地减少了全精度模型的内存占用（从2.6GB下降到0.7GB），但由于原生的1 bit架构，BitNet b1.58 2B4T的内存需求更低。

更重要的是，这种卓越的内存效率并没有牺牲与量化模型相比的性能。

标准的后训练量化（PTQ）技术会导致相较于原始全精度模型，性能出现明显下降（从平均55.72下降到了51.17）。

相比之下，BitNet b1.58 2B4T在评估的基准测试中表现优于Qwen2.5-1.5B的INT4量化版本。

最后，将BitNet b1.58 2B4T与其他针对或量化到接近1 bit精度的模型进行比较。

评估结果明确地将BitNet b1.58 2B4T定位为该类别的领先模型。

BitNet b1.58 2B4T在大多数基准测试中取得了最高分，表现远超所有其他比较的 1 位模型。

推理部署：GPU/CPU都能跑

高效的推理对于LLM的部署至关重要，尤其是在资源受限的环境中。

BitNet b1.58 2B4T采用1.58位权重和8位激活的独特量化方案，因此需要专门的实现方式，因为标准的深度学习库通常缺乏针对这种混合精度、低位格式的优化内核。

为了解决这个问题，微软开发并开源了专门的推理库，支持GPU和CPU平台，特别地，针对CPU开发了bitnet.cpp。

bitnet.cpp是一个C++库，作为1 bit大规模语言模型（LLM）在CPU上推理的官方参考实现，bitnet.cpp提供了针对标准CPU架构优化的内核，旨在高效执行。

但路还很长

微软研究院提供了一个在线的，已经部署好的体验网站。

并且分为了CPU部署和GPU A100部署两种模式。

让我们实测一下，这个模型到底能不能用？

可以看到，不论是CPU还是GPU，输出内容的都还不错。

看来微软所言非虚，这次这个模型还得很能打的。

简单测试一下数学问题，整体输出还是OK的，输出速率在27 token/s。

写代码也不在话下。

总而言之，微软研究院发布的BitNet b1.58 2B4T模型，以其仅20亿参数、创新的原生1.58位量化技术（参数仅为{-1, 0, +1}）和仅0.4GB的大小，代表了LLM轻量化的一次重要探索。

虽然各个指标方面都追求极致的缩小，但是这个模型保持了与同等规模全精度模型相当性能。

尽管实际测试显示其在特定任务（如非英语处理）上仍有局限。

但其开源特性和展现出的潜力，无疑为资源受限的端侧AI部署开启了新的想象空间。

1-bit的尝试是极限的，但是通往未来AI的道路是无限的。

作者介绍

韦福如

韦福如博士现任微软杰出科学家，领导团队从事基础模型、自然语言处理、语音处理和多模态人工智能等领域的研究。

近年来，他还致力于领导和推进通用型人工智能的基础研究和创新。

韦博士还担任西安交通大学和中国科技大学兼职博士生导师，香港中文大学教育部-微软重点实验室联合主任。

马树铭

马树铭（Shuming Ma）是微软亚洲研究院（MSRA）自然语言计算组的研究员，工作地点位于中国北京。

在加入微软亚洲研究院之前，于2019年获得了北京大学的硕士和学士学位，研究方向主要为自然语言处理。

马树铭的研究兴趣集中在大规模预训练语言模型领域。已经在顶级学术会议上发表了30多篇论文，包括ICML、ICLR、ACL、EMNLP等。

王鸿钰

现为中国科学院（CAS）三年级博士研究生。本科毕业于中国科学技术大学（USTC）计算机科学与技术系，期间在钱超副研究员的指导下进行学习和研究。

目前在微软亚洲研究院（MSRA）通用人工智能组（GenAI）担任研究实习生，受韦福如博士和马树铭博士的指导，实习时间为2021年8月至今。

参考资料：

https://arxiv.org/abs/2504.12285

https://huggingface.co/papers/2504.12285

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

2026年全国高考报名人数为1290万人

央视新闻客户端 2026-06-03 14:02:58
13881 跟贴 13881
媒体：继稻城亚丁后湖北神农架也被指“圈路收费”，游客被迫多绕百公里

澎湃新闻 2026-06-03 17:13:12
4721 跟贴 4721

李亚飞任南京师范大学副校长

江苏新闻 2026-06-03 07:36:49
114 跟贴 114

业主多次投诉小区违建别墅结果房屋越建越高各方回应

贵州日报 2026-06-03 19:33:06
176 跟贴 176
张成渊任福建省自然资源厅副厅长

人民资讯 2026-06-03 19:51:04
3 跟贴 3

“让人无语！”小区电瓶车扫码充电要过五关，关关都有广告，一不小心就被引导去充值

都市快报橙柿互动 2026-06-03 16:48:38
567 跟贴 567

光明网评论员：电车该如何参与道路养护

澎湃新闻 2026-06-02 23:08:03
1033 跟贴 1033
成龙向全球发出入境游邀约：欢迎感受无滤镜的真实中国

新京报 2026-06-01 12:09:13
430 跟贴 430

山东枣庄一高校成立枣庄辣子鸡产业学院

中国山东网 2026-06-03 11:08:29
53 跟贴 53
阿里副总裁张凯夫离职创业，已开始招募人才

界面新闻 2026-06-03 12:43:36
42 跟贴 42
创业板指涨逾4% 三市上涨个股近2000只

每日经济新闻 2026-06-03 13:10:07
352 跟贴 352
人民锐评：外卖骑手过剩？解决老问题当有新思维

澎湃新闻 2026-06-02 23:29:03
831 跟贴 831
日经指数涨幅扩大，最新上涨2.5%

每日经济新闻 2026-06-03 10:19:11
761 跟贴 761
31条中日航线5月取消全部航班

财联社 2026-06-03 15:56:05
0 跟贴 0
晋陕联动一张票可在壶口瀑布两侧景区跨区游览

大象新闻 2026-06-03 08:31:03
132 跟贴 132
挪威深海发现载有中国瓷器的18世纪沉船：大量青花瓷碗重见天日，文物达数千件，目前正开展船只溯源工作并努力还原历史真相

大风新闻 2026-06-02 12:15:18
0 跟贴 0
景区机器人表演踢到小观众，道歉称都怪师傅是张三丰

界面新闻 2026-06-03 20:57:10
1 跟贴 1
【第一现场】今天下午河口镇天池路十字路口，两车相撞，过程触目惊心

我爱栟茶论坛 2026-06-03 20:49:51
0 跟贴 0
5000辆“电鸡”找家，1100个棚位塞满！佛山一小区电鸡外移两月回访：物业尽力了，街坊还是难

佛山电视台小强热线 2026-06-03 20:47:16
0 跟贴 0
霍尔木兹大消息，美军宣布：“林肯”号航母参与封锁，战机空袭开往伊朗哈尔克岛油轮，致机舱起火！国际油价上涨，特朗普：尽快达成协议

每日经济新闻 2026-06-03 07:49:10
0 跟贴 0
双色球2026062期中出一等奖30注筹集公益金1.44亿元

齐鲁壹点 2026-06-03 16:51:53
0 跟贴 0
顾客未消费遭店员大骂？涉事品牌行星系统及深圳K11回应

南方都市报 2026-06-03 20:54:28
0 跟贴 0

运动员哪能这么白这么露？铁三女神冯竟爽再次夺冠，回击流言蜚语

运动员哪能这么白这么露？铁三女神冯竟爽再次夺冠，回击流言蜚语

杨华评论

2026-06-03 02:20:48

彻头彻尾的民族败类，外交部发言人此语何意

彻头彻尾的民族败类，外交部发言人此语何意

上观新闻

2026-06-03 08:12:57

回顾：女儿多次被虐待浑身淤青，父亲冲进教室，怒砍校霸13刀致死

回顾：女儿多次被虐待浑身淤青，父亲冲进教室，怒砍校霸13刀致死

就一点

2026-06-02 10:42:14

豪门婆婆有多豪？赌王送四太的传家澳白，儿媳大婚直接拿来撑场面

豪门婆婆有多豪？赌王送四太的传家澳白，儿媳大婚直接拿来撑场面

一盅情怀

2026-06-03 15:32:19

极氪在基辅的销售中心被俄罗斯空袭多人遇难

极氪在基辅的销售中心被俄罗斯空袭多人遇难

鸿雁复北翔热评

2026-06-03 14:50:09

学历大放水！清华一年毕业3000多博士，比哈佛耶鲁等五所世界名校加起来多出30%

学历大放水！清华一年毕业3000多博士，比哈佛耶鲁等五所世界名校加起来多出30%

爆角追踪

2026-06-02 22:12:58

夏天，遇见这肉再贵也要吃，比牛羊肉补，一周吃2次，健脾强免疫

夏天，遇见这肉再贵也要吃，比牛羊肉补，一周吃2次，健脾强免疫

阿龙美食记

2026-06-03 14:09:28

妻子穿几十元T恤，丈夫满身名牌做医美车内常备上万现金，却不愿出2500生活费！遭多年家暴，女子起诉离婚，发现1400万元已被转走

妻子穿几十元T恤，丈夫满身名牌做医美车内常备上万现金，却不愿出2500生活费！遭多年家暴，女子起诉离婚，发现1400万元已被转走

华商网

2026-06-03 17:03:16

31条中日航线5月取消全部航班

31条中日航线5月取消全部航班

财联社

2026-06-03 15:56:05

这4个行业，已经发不出工资了！真的很严重了

这4个行业，已经发不出工资了！真的很严重了

世界圈

2026-06-03 10:19:49

OECD报告称中国大规模补贴扭曲全球市场，外交部回应

OECD报告称中国大规模补贴扭曲全球市场，外交部回应

澎湃新闻

2026-06-03 17:02:19

唐山货车司机大热天捎七旬老人40公里，临下车老人突然变脸讹钱

唐山货车司机大热天捎七旬老人40公里，临下车老人突然变脸讹钱

听心堂

2026-06-02 12:03:05

圣彼得堡经济论坛召开之际，乌克兰无人机来了

圣彼得堡经济论坛召开之际，乌克兰无人机来了

山河路口

2026-06-03 14:23:11

刷屏！北京大学饶毅教授直言：中国学术不端比例世界空前

刷屏！北京大学饶毅教授直言：中国学术不端比例世界空前

TOP大学来了

2026-06-02 19:24:41

问界回应M9起火事件：前车掉落金属部件拖行引燃，非车辆自身原因

问界回应M9起火事件：前车掉落金属部件拖行引燃，非车辆自身原因

热点科技

2026-06-03 14:01:20

杨瀚森缺席，中国男篮半场落后7分！徐昕8分4板3帽，杜锋太尴尬了

杨瀚森缺席，中国男篮半场落后7分！徐昕8分4板3帽，杜锋太尴尬了

侃球熊弟

2026-06-03 20:21:33

头号大热出炉！世界杯6大夺冠热门来了！阿根廷仅第4，葡萄牙第5

头号大热出炉！世界杯6大夺冠热门来了！阿根廷仅第4，葡萄牙第5

球叮足球

2026-06-03 09:47:29

今年高考很平静：只有985、211找得到好工作，其他80%都是销售相关工作

今年高考很平静：只有985、211找得到好工作，其他80%都是销售相关工作

老郭在学习

2026-06-03 13:31:11

钟景辉，今日在睡梦中离世

最江阴

2026-06-03 14:08:54

苏州一地厂房发生爆炸？当地政府回应：系废品回收仓库发生火灾，2人灼伤

苏州一地厂房发生爆炸？当地政府回应：系废品回收仓库发生火灾，2人灼伤

都市快报橙柿互动

2026-06-03 19:07:55

AI产业主平台领航智能+时代

15376文章数 66899关注度

往期回顾全部

科技要闻

传DeepSeek融资意向500亿：腾讯投100亿

头条要闻

一个月内两位院士候选人接连被查均是科研专家

头条要闻

一个月内两位院士候选人接连被查均是科研专家

体育要闻

选择中国品牌的库里，和他们的巨大野心

娱乐要闻

官方痛批乱象刘涛郑恺等艺人遭点名

财经要闻

AI，开始偷懒了？

汽车要闻

专访蒋平：安全不做高低配长安要让安全技术普惠

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

游戏

时尚

家居

亲子

军事航空

LPL淘汰赛：绝对压制，BLG零封EDG，晋级下一轮

休闲T恤舒适感极佳，夏天必不可少！轻轻松松拿捏日常的造型

家居要闻

江畔轻奢观云大宅

亲子要闻

#闪闪小葵花成长正当时亲子欢乐派对圆满收官游戏、展演、问答轮番上线，乐享亲子时光

军事要闻

媒体：美伊和谈以方却从中作梗内塔尼亚胡有私人算计

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版