网易首页 > 网易号 > 正文 申请入驻

Bonsai 8B:极致量化的小模型

0
分享至



LLM研究一直被两个相反的方向拉扯。一方竞相追求规模——更多参数、更强能力。另一方竞相追求效率——更小的模型、更低的内存占用、在受限硬件上更快的推理。多年来,这两个目标似乎根本对立。你只能拥有一个强大的模型,或者一个可部署的模型。很少能兼得。

模型量化一直是效率阵营的主要工具。想法很简单:不是将模型中的每个权重存储为32或16位浮点数,而是用更少的位来表示。8位,然后4位,然后2位。每下降一步都会节省内存并加速推理,但通常以模型质量为代价。这种权衡感觉像是一个硬性物理定律。从经验来看,4位量化似乎总是硬性极限——再压缩下去,模型就没用了。

PrismML认为他们找到了绕过这个硬性极限的方法。2026年3月31日,他们发布了一份白皮书,介绍了1位Bonsai 8B——一个80亿参数的语言模型,压缩到每个权重仅1.125位,完全装入1.15 GB。作为对比,相同模型在标准FP16精度下占用16.38 GB。这是14.2倍的压缩,基准分数仍与同级别的全精度模型具有竞争力。




1、底层:1位Bonsai 8B的架构

关于1位Bonsai 8B,首先值得澄清的一点是,PrismML并没有从头构建新的模型架构。该架构完全基于阿里巴巴Qwen团队发布的Qwen3-8B。

使Bonsai 8B与众不同的是,在此架构的权重到达设备之前对它们进行的处理。

在标准部署中,这种规模的模型将以FP16权重分发——每个参数16位,总计16.38 GB。PrismML的贡献是一种压缩方法,将网络中的每个主要权重矩阵减少到每个权重1位。这不仅应用于注意力投影,而是端到端:嵌入、注意力层、MLP层和语言模型头都以1位表示。

结果是一个保留了Qwen3-8B完整架构表达能力的模型——36层、32个注意力头、65K上下文窗口——同时仅占1.15 GB,14.2倍压缩

2、"1位"实际上意味着什么?

要理解1位Bonsai 8B的非凡之处,从神经网络权重实际是什么开始会有帮助。

在标准模型中,每个权重是一个浮点数——比如0.823、-0.341或0.092。这些数字编码了模型在训练期间学到的所有内容。当你通过模型运行提示时,每个token经过数十次矩阵乘法,每次将数千个这些权重结合起来产生输出。这些权重的精度——用于表示每个权重的位数——直接决定了模型的质量和运行成本。

1位量化将其推向绝对逻辑极端。不是65,536个可能值,每个权重只有两个:正或负。单个位。1或0。

明显的问题是,如果每个权重坍缩到只有1或0,你就会丢失所有幅度信息。一个原始为0.003的权重和一个为2.7的权重变成相同的东西。直观上,这似乎应该摧毁模型。而这正是1位模型大多停留在理论上的核心原因。

3、Bonsai如何解决:组尺度s_g

Bonsai引入了一个共享尺度因子,称为s_g——每128个连续权重一组一个。想法很简单。不是在推理期间每个权重只是0或1,而是128个权重组中的每个权重要么是 +s_g,要么是-s_g,其中s_g是整个组共享的单个FP16数字。

在推理时,重建一个权重是两步操作:

w_i = s_g × (2b_i − 1)其中 b_i ∈ {0, 1}

如果存储的位b_i是1,权重变为 +s_g。如果是0,权重变为-s_g。尺度s_g均匀应用于组中的每个权重。



在Bonsai 8b中,二进制权重被重建为s_g或-s_g

4、1位模型到底有多好?

当听到14倍压缩时,自然的怀疑很简单:你到底放弃了什么?

PrismML在六个基准类别上评估了1位Bonsai 8B——知识、推理、数学、编码、指令遵循和工具调用——将其与11个全精度8B模型在相同基础设施和相同生成设置下进行比较。Bonsai 8B平均得分70.5,与Ministral3 8B和Olmo 3 7B相差不到半分,而这两个模型在内存上都超过14倍。 1位压缩的真实成本体现在顶部:FP16格式的Qwen3 8B得分79.3,因此与基础模型相比确实存在8.8分的差距。如果你需要峰值能力且内存不受限制,FP16仍然更好。

但这种比较错过了重点。对于部署来说,相关的问题不是"1位与其自己的FP16版本相比如何?"而是"我能在该设备上实际运行的最佳模型是什么?"在iPhone上,FP16格式的8B模型根本无法装入。1位Bonsai 8B可以——而且在iPhone 17 Pro Max上运行速度约为每秒44个token

这个视频是实际效果。

这是一个完整的8B级模型解决数学问题,完全在设备上运行,无需互联网连接。

5、Bonsai 8B内部的黑盒

结果令人印象深刻。但仔细阅读白皮书,PrismML展示的内容与解释的内容之间存在明显差距。

最基本的开放问题是1位权重实际上是如何产生的。量化训练模型有两种广泛的方法:训练后量化(PTQ),压缩已经训练好的模型,以及量化感知训练(QAT),模型在训练期间本身学会对低精度具有鲁棒性。这种区分在极端压缩水平下非常重要。白皮书没有说明PrismML使用了哪一种。

同样未披露的是组尺度s_g是如何得出的——这个单一值决定了128个权重组中每个重建权重的幅度。做好这一点很可能是Bonsai在1位下仍能保持竞争力的核心原因。论文描述了s_g的存在。但关于如何计算它只字未提。

这引发了一个白皮书未解决的实际问题:你能将相同的量化应用于其他模型吗?几乎可以肯定不会。GGUF Q1_0_g128格式是开放的,但将一个好的1位模型从全精度模型产生的过程似乎是被保护的部分。你不能简单地像Gemma 4或GPT-OSS这样的模型,通过标准量化工具运行,并期望获得Bonsai级别的结果。

6、我们从这里走向何方?

1位Bonsai 8B是一个真正有趣的结果。不是因为它是最智能的可用模型——它不是——而是因为它挑战了一个悄然塑造AI部署的假设:有用的智能需要大量内存。一个1.15 GB的竞争性8B级模型,在手机上以每秒44个token的速度运行,改变了边缘设备上可能实现的事情。私有的设备上推理不再是妥协,而开始成为可行的首选。

也就是说,压缩方法是专有的,我们不知道这种方法是否适用于其他架构。它确实令人信服地表明,1位领域不再是纯粹理论的。有时,单个位,如果尺度正确,就足够了。

原文链接: Tiny Models are Getting Really Good

汇智网翻译整理,转载请标明出处


原文链接:Bonsai 8B:极致量化的小模型 - 汇智网

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
脑不萎缩,80不痴呆!建议中老年:多吃这1样“补脑菜”补脑益智

脑不萎缩,80不痴呆!建议中老年:多吃这1样“补脑菜”补脑益智

阿龙美食记
2026-04-01 13:01:34
伊朗总统:愿继续谈判!美媒:伊朗称最多暂停铀浓缩5年,特朗普拒绝!伊革命卫队:若战争继续,将启用“新军事能力”

伊朗总统:愿继续谈判!美媒:伊朗称最多暂停铀浓缩5年,特朗普拒绝!伊革命卫队:若战争继续,将启用“新军事能力”

每日经济新闻
2026-04-14 10:02:46
使馆回应中国女子在堪培拉遭陌生人殴打:要求澳警方彻查案件

使馆回应中国女子在堪培拉遭陌生人殴打:要求澳警方彻查案件

南方都市报
2026-04-14 17:07:26
王毅访朝24小时内,韩国38线裁军,半岛局势转变

王毅访朝24小时内,韩国38线裁军,半岛局势转变

全球直击
2026-04-15 01:40:38
51岁李健,每天只吃一餐,每周4次健身,身体状态像20岁小伙子

51岁李健,每天只吃一餐,每周4次健身,身体状态像20岁小伙子

马拉松跑步健身
2026-04-13 22:00:23
交警提醒:路口新标线已启用,违规直接扣6分罚200,开车务必留意

交警提醒:路口新标线已启用,违规直接扣6分罚200,开车务必留意

复转这些年
2026-04-14 12:08:14
富国银行跌幅扩大至7.1%,创下年内最大单日跌幅

富国银行跌幅扩大至7.1%,创下年内最大单日跌幅

每日经济新闻
2026-04-14 22:34:04
张雪宣布将骑车飞跃长江:这次一定能成功!网友:好好造车别冒险

张雪宣布将骑车飞跃长江:这次一定能成功!网友:好好造车别冒险

念洲
2026-04-14 11:45:29
段永平:泡泡玛特壁垒远比想象中强大,我现在是王宁粉丝!只要潮玩有持续性,它就是非常好的生意,此前称看不懂这家公司不会投资

段永平:泡泡玛特壁垒远比想象中强大,我现在是王宁粉丝!只要潮玩有持续性,它就是非常好的生意,此前称看不懂这家公司不会投资

每日经济新闻
2026-04-14 12:20:08
靠“汉芯一号”骗取11亿研究经费,后逃到美国的陈进,结局如何?

靠“汉芯一号”骗取11亿研究经费,后逃到美国的陈进,结局如何?

阿凫爱吐槽
2026-04-14 02:01:01
斯诺克最新战报!周跃龙单杆制胜,高阳大逆转,泰国名将开门红!

斯诺克最新战报!周跃龙单杆制胜,高阳大逆转,泰国名将开门红!

刘姚尧的文字城堡
2026-04-14 18:30:00
杨紫真的太清醒太有头脑了!
网传她在北京有一套四层豪宅

杨紫真的太清醒太有头脑了! 网传她在北京有一套四层豪宅

小光侃娱乐
2026-04-14 16:43:09
伊朗革命卫队发布声明

伊朗革命卫队发布声明

鲁中晨报
2026-04-12 09:24:09
国篮希望!17岁天才!首轮12顺位?终于等到了?

国篮希望!17岁天才!首轮12顺位?终于等到了?

篮球盛世
2026-04-14 17:35:58
美国是如何把孔宋家族收割干净?当时孔祥熙可是全球富豪榜第三名

美国是如何把孔宋家族收割干净?当时孔祥熙可是全球富豪榜第三名

贱议你读史
2026-04-14 18:37:12
早上为什么不建议吃馒头?忠告:不止馒头,这5类食物,尽量少吃

早上为什么不建议吃馒头?忠告:不止馒头,这5类食物,尽量少吃

白话电影院
2026-04-05 22:37:36
特朗普开先例后,赖清德慌了,解放军重器升空,民进党欲断尾求生

特朗普开先例后,赖清德慌了,解放军重器升空,民进党欲断尾求生

走过海棠
2026-04-14 23:27:39
预测:2026年NBA季后赛湖人对阵火箭的3大大胆预测

预测:2026年NBA季后赛湖人对阵火箭的3大大胆预测

好火子
2026-04-15 03:55:36
特朗普不演了,警告中国有大麻烦,话音刚落,美国人推动罢免总统

特朗普不演了,警告中国有大麻烦,话音刚落,美国人推动罢免总统

共工之锚
2026-04-15 00:35:56
是时候摊牌了,中方明确信号:要打,战火必须烧进美国本土!

是时候摊牌了,中方明确信号:要打,战火必须烧进美国本土!

史说方休
2026-04-11 01:23:59
2026-04-15 04:51:00
呼呼历史论
呼呼历史论
分享有趣的历史
440文章数 16832关注度
往期回顾 全部

科技要闻

离职同事"炼化"成AI?这届公司不需要活人了

头条要闻

以色列开出与伊朗停战先决条件

头条要闻

以色列开出与伊朗停战先决条件

体育要闻

带出中超最大黑马!他让球迷们“排队道歉”

娱乐要闻

网曝钟丽缇代孕要了个男孩 备孕近10年

财经要闻

许家印认罪,他和恒大还有多少欠债?

汽车要闻

售12.99万起/续航2000km 风云T9L上市

态度原创

数码
游戏
房产
手机
公开课

数码要闻

三款小平板扎堆发布!红魔、红米、OPPO,谁会是大家的菜?

系好安全带!原作者确认《地铁2039》将比前作更黑暗

房产要闻

改善标杆,1.5w+起横扫国兴!海口楼市,打出最猛一张牌!

手机要闻

颜值天花板!OPPO A6s Pro发布:首销1999元起 六年流畅

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版