网易首页 > 网易号 > 正文 申请入驻

微软发布全球首个1-bit大模型:内存缩至0.4 GB,参数只有0和±1,性能追平全精度

0
分享至


大数据文摘出品

微软的BitNet b1.58 2B4T 的技术报告悄然上线。

其实在开源社区里,关于极致低比特量化的大模型早就有各种传闻,这次微软研究院终于亮出底牌。

——全球首个原生1-bit、规模高达20亿参数的开源大模型。


图注:这张图表明,在同等内存占用下,BitNet b1.58 2B模型取得了更高的性能分数,比当前主流开源模型更高效

别看名字有点拗口,b1.58 2B4T,背后可不简单,这玩意不仅在性能上追平甚至部分超越同级别全精度模型,更是把内存、能耗和推理速度都拉低到令人发指的地步。

而且,模型权重直接上 Hugging Face,推理代码 GPU、CPU 双版本全开源,门槛之低,真是让人有点小震撼。

01 BitNet b1.58 2B4T 到底是什么?

一句话总结:
这是世界首个原生1-bit、20亿参数、性能媲美全精度的开源大模型。

大家都知道,大模型开源越来越卷,LLaMA、Qwen、Gemma、MiniCPM 各种百花齐放。但有个痛点始终没解决——太吃资源。


于是,极致量化被推上风口——1-bit(极端比特化,只允许权重取-1、0、+1)。

说起来简单,真要规模化落地,性能往往一落千丈,之前不是只能做小模型,就是性能掉得让人心疼。

BitNet b1.58 2B4T 这次直接原生1-bit训练,参数上到2B,训练数据高达4万亿token,目标就是:

做到极致高效的同时,性能绝不妥协。


图注:在苹果M2 CPU上都能快速运行

02 架构和训练怎么炼成的?

核心创新点有三:

1.BitLinear 层

用自研 BitLinear 替换掉传统 Transformer 的全精度线性层。权重量化到1.58 bit(三值:-1、0、+1),激活也量化到8 bit。这样不仅模型文件暴减,推理也能用比特操作加速。

2.训练方案极致调优

  • 预训练用两阶段学习率+权重衰减,先大步快走,再精细收敛。

  • 数据集涵盖超大规模网页、代码、数学合成数据,两阶段分别喂不同质量的数据。

  • SFT(监督微调)和 DPO(直接偏好优化)全都用上,还专门调大了学习率和轮数,让1-bit模型也能吃透任务。

3.推理实现

为了让1.58-bit和8-bit混合矩阵乘法在GPU/CPU上都能跑起来,团队还专门造了 CUDA kernel 和 C++ 库,模型权重直接高效打包,能在普通笔电、服务器、边缘设备都无压力上线。


03 性能表现:效率+能力双丰收

  • 内存占用:0.4GB(非embedding部分),是同级全精度模型的1/4甚至更低。

  • 推理延迟:29ms/Token(CPU上),比LLaMA 1B等快出一大截。

  • 能耗:仅0.028J/Token,低到离谱。

  • 综合能力:平均分 54.19,逼近 Qwen2.5-1.5B(55.23),大幅超越 MiniCPM、Gemma、LLaMA 等同级模型。

  • 单项指标:在 ARC-Challenge、GSM8K、CommonsenseQA 等关键任务上还反超大部分对手。


图注:如图所示,BitNet b1.58 2B 在内存、延迟、能耗三项指标上全面领先

更狠的是,和常见的 INT4 量化模型比,BitNet b1.58 2B4T 在内存进一步压缩的情况下,性能反而更稳,几乎没有明显损失。

而且,不只是干掉传统PTQ量化,放到同类1-bit模型里,BitNet b1.58 2B4T 也是一骑绝尘,甚至比部分更大参数、后量化的模型还强。

04 one more thing

BitNet b1.58 2B4T 已经是1-bit模型的天花板,但团队还留了不少悬念:

  • 如何实现更大规模扩展(7B、13B)?

  • 怎样支持更长上下文,挑战大段落、复杂推理任务?

  • 多语言、多模态集成,让1-bit模型也能“看图说话”

  • 软硬件协同,期待新一代AI芯片为低比特模型量身定做

  • 理论层面,1-bit训练为啥能这么有效?还有哪些魔法值得挖掘?

附:模型和推理工具全开源

技术报告:https://arxiv.org/abs/2504.12285

GPU/CPU推理库:https://aka.ms/bitnet

GPU算力按需租用

A100/H100 GPU算力按需租用,

秒级计费,平均节省开支30%以上!

扫码了解详情☝


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
西媒:输给巴萨后,皇马更衣室内部:防守这么糟糕,想进欧协都难

西媒:输给巴萨后,皇马更衣室内部:防守这么糟糕,想进欧协都难

直播吧
2025-05-13 09:51:31
查索夫亚尔失守!全城守军被歼,司令部全员投降,防线崩溃

查索夫亚尔失守!全城守军被歼,司令部全员投降,防线崩溃

忆丹倾城
2024-11-30 18:44:24
数学天才姜萍,若参加2025高考能否逆袭名校?网友:不该给她资格

数学天才姜萍,若参加2025高考能否逆袭名校?网友:不该给她资格

妍妍教育日记
2025-05-13 20:46:50
辽宁省委省政府通报:这些企业受表扬!

辽宁省委省政府通报:这些企业受表扬!

黄河新闻网吕梁频道
2025-05-13 14:43:59
安徽将迎大雨暴雨39℃高温

安徽将迎大雨暴雨39℃高温

鲁中晨报
2025-05-13 16:44:05
上海和睦家医院医生涉嫌造假

上海和睦家医院医生涉嫌造假

闪电新闻
2025-05-13 08:27:20
找一个人和你做爱到老有多难

找一个人和你做爱到老有多难

曾奇峰心理工作室
2025-04-19 11:59:48
就在今天,5月13日凌晨,跳水队传来全红婵、陈芋汐、昌雅妮消息

就在今天,5月13日凌晨,跳水队传来全红婵、陈芋汐、昌雅妮消息

杨哥历史
2025-05-13 09:51:37
台媒警告大陆:一旦台海爆发战事,台军将首先击沉解放军的航母

台媒警告大陆:一旦台海爆发战事,台军将首先击沉解放军的航母

子墨君
2025-05-12 00:26:14
25:0再次震惊世界!中国重新定义战争规则!我们还需要警惕什么?

25:0再次震惊世界!中国重新定义战争规则!我们还需要警惕什么?

头条爆料007
2025-05-12 19:47:32
8个中央指导组进驻,有何深意

8个中央指导组进驻,有何深意

中国新闻周刊
2025-05-13 14:46:29
47岁陈楚河与“青堂堂主”聚会!留长发喝2000元洋酒,动作好调皮

47岁陈楚河与“青堂堂主”聚会!留长发喝2000元洋酒,动作好调皮

鑫鑫说说
2025-05-13 10:07:18
孙俪女儿舞蹈比赛夺冠,被男老师亲脸引发争议!原来老师身份特殊

孙俪女儿舞蹈比赛夺冠,被男老师亲脸引发争议!原来老师身份特殊

露珠聊影视
2025-05-12 23:49:14
水果也塌了,央视曝光7大“水果骗局”,越看越害怕,别再踩坑了

水果也塌了,央视曝光7大“水果骗局”,越看越害怕,别再踩坑了

景来律师
2025-03-30 10:44:56
寿命与起夜次数有关?研究发现:寿命长的人,每晚起夜在这个次数

寿命与起夜次数有关?研究发现:寿命长的人,每晚起夜在这个次数

奇妙的本草
2025-05-11 19:00:06
一句“你拿了我家娃钢笔”,让家长气到睡不着:有钱也教不出好孩子

一句“你拿了我家娃钢笔”,让家长气到睡不着:有钱也教不出好孩子

熙熙说教
2025-05-13 20:45:06
长沙开福区针对黑代孕机构成立工作专班:已控制6名涉案人员

长沙开福区针对黑代孕机构成立工作专班:已控制6名涉案人员

大象新闻
2025-05-13 10:58:26
惊天反转!王思聪承认女儿存在,不用亲子鉴定,闪闪可享千亿继承

惊天反转!王思聪承认女儿存在,不用亲子鉴定,闪闪可享千亿继承

八星人
2025-05-12 16:12:06
树林里停着面包车,女子全副武装偷偷上车,路人:她以为没人看见

树林里停着面包车,女子全副武装偷偷上车,路人:她以为没人看见

唐小糖说情感
2025-05-12 08:53:08
儿子因公殉职3年后,母亲爬山偶遇酷似儿子的男子,鉴定后崩溃了

儿子因公殉职3年后,母亲爬山偶遇酷似儿子的男子,鉴定后崩溃了

清茶浅谈
2025-05-01 16:49:14
2025-05-13 21:48:49
大数据文摘 incentive-icons
大数据文摘
专注大数据,每日有分享!
6620文章数 94408关注度
往期回顾 全部

科技要闻

京东外卖首战业绩如何?创新业务狂揽57亿

头条要闻

中央公开通报:10名干部违规吃喝 1人饮酒后死亡

头条要闻

中央公开通报:10名干部违规吃喝 1人饮酒后死亡

体育要闻

离开曼联,他在马拉多纳的城市成为明星

娱乐要闻

张柏芝母亲节上热搜!3个儿子引热议

财经要闻

老股民被收割670万 杀猪盘牵出20亿大案

汽车要闻

或2027年发布 全新宝马1系假想图曝光

态度原创

亲子
本地
健康
艺术
公开课

亲子要闻

保护孩子宝妈必学,孩子这样有问题吗?

本地新闻

春色满城关不住|溪水浣青苔 钟乳洞藏多少光阴

唇疱疹和口腔溃疡是"同伙"吗?

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版