随着内存限制和能源成本正考验着AI扩展的极限,压缩正成为业界最活跃的研究领域之一。谷歌最新发布的TurboQuant针对的是键值缓存——推理过程中最耗内存的组件之一(延展阅读:)。而现在,一家新创公司正致力于压缩模型本身。
![]()
PrismML由加州理工学院研究人员创立,已走出隐身模式,获得1625万美元种子轮融资,并开源发布了其所谓的"1-bit"大语言模型家族。公司称其方法可以显著减少模型大小和能耗,同时保持与标准16-bit模型相当的性能。
Bonsai模型家族的旗舰模型是Bonsai 8B,一个在谷歌v4 TPU上训练的80亿参数模型。据PrismML介绍,该模型在MMLU Redux、MuSR、GSM8K、HumanEval+、IFEval和BFClv3等基准测试套件中表现不俗,但内存占用仅约1GB,而同等规模的典型16-bit模型约需16GB。PrismML还发布了1-bit Bonsai 4B和1.7B模型,内存占用分别为0.5GB和0.24GB。
PrismML表示,其模型实现了端到端的完全二值化,所有权重在嵌入层、注意力层和MLP块中都被约束为单个比特,"没有任何高精度逃生通道"。虽然量化技术已被广泛使用,但将整个网络推至1-bit历来会降低模型质量,尤其是在推理任务上。公司将其成果归功于在加州理工学院开发的新数学框架,但尚未详细说明训练方法或稳定技术。
![]()
PrismML CEO、加州理工学院计算机科学家和数学家Babak Hassabi将这种方法描述为AI的新范式,能够适应多样化的硬件环境。"我们花了数年时间开发压缩神经网络而不损失推理能力所需的数学理论,"Hassibi在一份声明中说,"我们将1-bit视为起点,而非终点。"
公司声称其1-bit模型在现有硬件上可实现高达8倍的加速,能耗降低75-80%。PrismML还预测,未来针对1-bit操作优化的硬件可通过用更简单的算术运算替代复杂的乘法,进一步提高效率。
参与种子轮的Khosla Ventures公司的Vinod Khosla将这项工作描述为"数学突破",有潜力重塑AI系统的部署方式。"AI的未来不由谁能建造最大的数据中心来定义,而将由谁能以单位能源和成本提供最多智能来定义。PrismML代表了这种突破,"他在声明中说。
这一观点反映了AI不会局限在数据中心,而是将部署在边缘设备和本地环境的理念。PrismML表示其模型设计用于在消费级和边缘设备上运行,可能在智能手机、可穿戴设备和机器人中实现更强大的AI应用,而无需依赖云端基础设施。
PrismML关于全1-bit模型能匹敌高精度系统能力的声明,尚需在公司自有基准结果之外得到验证。极端量化技术历来难以在复杂推理任务中保持准确性。独立的第三方基准测试和实际部署将是判定PrismML方法代表真正突破还是有限优化的关键。
在一篇博客文章中,PrismML描述了所谓的"智能密度",这一指标试图衡量模型在单位大小下提供多少能力。公司表示,其1-bit模型重新定义了模型大小与性能之间的权衡,以极小的占用保持了竞争力。不过,该指标取决于公司的基准选择和定义本身,尚未得到独立验证。
![]()
目前,此次发布是效率驱动AI设计的又一个例子,业界正在寻找模型规模和基础设施成本不断攀升的替代方案。虽然谷歌TurboQuant等近期研究专注于压缩推理的特定组件,但PrismML雄心勃勃的模型压缩可能大大扩展AI模型可以实际运行的范围及其部署方式。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.