一个半G不到的文件,能在你的笔记本上跑过OpenAI最新的云端大模型。这听起来像玩笑,但有人真的做了对比测试。
开发者Vilius Vystartas在Mac上跑了10个编程代理任务,对比了8款本地模型。没有云、没有API密钥、没有按token计费。结果他跑了两遍确认——545MB的量化模型,得分80%,而GPT-5.4是75%。
![]()
这个模型叫Bonsai 4B,用的是1-bit量化。1-bit是什么概念?每个参数只用1个比特存储,传统FP16是16比特。压缩到极致,体积只有545MB,但处理速度比同系列的Qwen模型快3倍——需要计算的内容更少,延迟几乎为零。
![]()
更意外的是4-bit量化的表现。Qwen的4-bit版本约5GB,得分82-83%,追平了Claude Sonnet 4的云端成绩。这不是玩具级别的演示,是实打实的生产力工具。
测试还暴露了一个反直觉的结论:2-bit(三值量化)在1.7B参数规模确实有优势,80%对73%。但到了4B和8B规模,1-bit和2-bit得分完全相同,都是80%。多出来的那1个比特,让磁盘占用翻倍(1.0GB对545MB,2.1GB对1.1GB),收益却是零。模型越大,1-bit量化越能榨干全部潜力。
![]()
对医疗、金融、政府这类强监管行业,这意味着什么?数据不出设备,不用和云厂商签API协议,不用跟踪每次请求的账单。合规成本从谈判桌和审计流程,变成了一次性的本地部署。
完整测试结果在benchmarks.workswithagents.dev持续更新,每次运行都会刷新,云端模型也在同一榜单上直接对比。作者的原话是:"我没想到545MB的量化模型能打败前沿云API。但事实如此。"
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.