Bonsai 8B：极致量化的小模型|尺度|神经网络

Bonsai 8B：极致量化的小模型

2026-04-12 20:58:53　来源: 呼呼历史论

辽宁举报

分享至

LLM研究一直被两个相反的方向拉扯。一方竞相追求规模——更多参数、更强能力。另一方竞相追求效率——更小的模型、更低的内存占用、在受限硬件上更快的推理。多年来，这两个目标似乎根本对立。你只能拥有一个强大的模型，或者一个可部署的模型。很少能兼得。

模型量化一直是效率阵营的主要工具。想法很简单：不是将模型中的每个权重存储为32或16位浮点数，而是用更少的位来表示。8位，然后4位，然后2位。每下降一步都会节省内存并加速推理，但通常以模型质量为代价。这种权衡感觉像是一个硬性物理定律。从经验来看，4位量化似乎总是硬性极限——再压缩下去，模型就没用了。

PrismML认为他们找到了绕过这个硬性极限的方法。2026年3月31日，他们发布了一份白皮书，介绍了1位Bonsai 8B——一个80亿参数的语言模型，压缩到每个权重仅1.125位，完全装入1.15 GB。作为对比，相同模型在标准FP16精度下占用16.38 GB。这是14.2倍的压缩，基准分数仍与同级别的全精度模型具有竞争力。

1、底层：1位Bonsai 8B的架构

关于1位Bonsai 8B，首先值得澄清的一点是，PrismML并没有从头构建新的模型架构。该架构完全基于阿里巴巴Qwen团队发布的Qwen3-8B。

使Bonsai 8B与众不同的是，在此架构的权重到达设备之前对它们进行的处理。

在标准部署中，这种规模的模型将以FP16权重分发——每个参数16位，总计16.38 GB。PrismML的贡献是一种压缩方法，将网络中的每个主要权重矩阵减少到每个权重1位。这不仅应用于注意力投影，而是端到端：嵌入、注意力层、MLP层和语言模型头都以1位表示。

结果是一个保留了Qwen3-8B完整架构表达能力的模型——36层、32个注意力头、65K上下文窗口——同时仅占1.15 GB，14.2倍压缩。

2、"1位"实际上意味着什么？

要理解1位Bonsai 8B的非凡之处，从神经网络权重实际是什么开始会有帮助。

在标准模型中，每个权重是一个浮点数——比如0.823、-0.341或0.092。这些数字编码了模型在训练期间学到的所有内容。当你通过模型运行提示时，每个token经过数十次矩阵乘法，每次将数千个这些权重结合起来产生输出。这些权重的精度——用于表示每个权重的位数——直接决定了模型的质量和运行成本。

1位量化将其推向绝对逻辑极端。不是65,536个可能值，每个权重只有两个：正或负。单个位。1或0。

明显的问题是，如果每个权重坍缩到只有1或0，你就会丢失所有幅度信息。一个原始为0.003的权重和一个为2.7的权重变成相同的东西。直观上，这似乎应该摧毁模型。而这正是1位模型大多停留在理论上的核心原因。

3、Bonsai如何解决：组尺度s_g

Bonsai引入了一个共享尺度因子，称为s_g——每128个连续权重一组一个。想法很简单。不是在推理期间每个权重只是0或1，而是128个权重组中的每个权重要么是 +s_g，要么是-s_g，其中s_g是整个组共享的单个FP16数字。

在推理时，重建一个权重是两步操作：

w_i = s_g × (2b_i − 1)其中 b_i ∈ {0, 1}

如果存储的位b_i是1，权重变为 +s_g。如果是0，权重变为-s_g。尺度s_g均匀应用于组中的每个权重。

在Bonsai 8b中，二进制权重被重建为s_g或-s_g

4、1位模型到底有多好？

当听到14倍压缩时，自然的怀疑很简单：你到底放弃了什么？

PrismML在六个基准类别上评估了1位Bonsai 8B——知识、推理、数学、编码、指令遵循和工具调用——将其与11个全精度8B模型在相同基础设施和相同生成设置下进行比较。Bonsai 8B平均得分70.5，与Ministral3 8B和Olmo 3 7B相差不到半分，而这两个模型在内存上都超过14倍。 1位压缩的真实成本体现在顶部：FP16格式的Qwen3 8B得分79.3，因此与基础模型相比确实存在8.8分的差距。如果你需要峰值能力且内存不受限制，FP16仍然更好。

但这种比较错过了重点。对于部署来说，相关的问题不是"1位与其自己的FP16版本相比如何？"而是"我能在该设备上实际运行的最佳模型是什么？"在iPhone上，FP16格式的8B模型根本无法装入。1位Bonsai 8B可以——而且在iPhone 17 Pro Max上运行速度约为每秒44个token。

这个视频是实际效果。

这是一个完整的8B级模型解决数学问题，完全在设备上运行，无需互联网连接。

5、Bonsai 8B内部的黑盒

结果令人印象深刻。但仔细阅读白皮书，PrismML展示的内容与解释的内容之间存在明显差距。

最基本的开放问题是1位权重实际上是如何产生的。量化训练模型有两种广泛的方法：训练后量化（PTQ），压缩已经训练好的模型，以及量化感知训练（QAT），模型在训练期间本身学会对低精度具有鲁棒性。这种区分在极端压缩水平下非常重要。白皮书没有说明PrismML使用了哪一种。

同样未披露的是组尺度s_g是如何得出的——这个单一值决定了128个权重组中每个重建权重的幅度。做好这一点很可能是Bonsai在1位下仍能保持竞争力的核心原因。论文描述了s_g的存在。但关于如何计算它只字未提。

这引发了一个白皮书未解决的实际问题：你能将相同的量化应用于其他模型吗？几乎可以肯定不会。GGUF Q1_0_g128格式是开放的，但将一个好的1位模型从全精度模型产生的过程似乎是被保护的部分。你不能简单地像Gemma 4或GPT-OSS这样的模型，通过标准量化工具运行，并期望获得Bonsai级别的结果。

6、我们从这里走向何方？

1位Bonsai 8B是一个真正有趣的结果。不是因为它是最智能的可用模型——它不是——而是因为它挑战了一个悄然塑造AI部署的假设：有用的智能需要大量内存。一个1.15 GB的竞争性8B级模型，在手机上以每秒44个token的速度运行，改变了边缘设备上可能实现的事情。私有的设备上推理不再是妥协，而开始成为可行的首选。

也就是说，压缩方法是专有的，我们不知道这种方法是否适用于其他架构。它确实令人信服地表明，1位领域不再是纯粹理论的。有时，单个位，如果尺度正确，就足够了。

原文链接: Tiny Models are Getting Really Good

汇智网翻译整理，转载请标明出处

原文链接：Bonsai 8B：极致量化的小模型 - 汇智网

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.