网易首页 > 网易号 > 正文 申请入驻

OpenClaw太贵?QuantClaw帮你挑精度,成本砍掉21%,还能提速15%

0
分享至



华为联合新加坡国立大学和中国科学技术大学研究人员提出 QuantClaw。

这是一款面向 OpenClaw 的即插即用动态模型精度路由插件,基于大规模低精度量化实证研究,让模型精度成为可动态分配的资源,实现服务质量不降反升、成本下降、延迟降低的三重收益。



项目主页:https://sparkengineai.github.io/QuantClaw/

GitHub 仓库:https://github.com/SparkEngineAI/QuantClaw-plugin

arXiv 论文:https://arxiv.org/abs/2604.22577

OpenClaw 很强大,但成本让人头疼

2026 年,OpenClaw 已经成长为最火爆的开源 AI Agent 框架之一。它不只是「聊天机器人」,而是能操控浏览器、执行 Shell 命令、读写文件、管理记忆的全功能数字助手。但真正用过 OpenClaw 的开发者和用户都知道一个痛点:Token 消耗太猛了。

一个看似简单的查询,可累积消耗超 23 万 Token,你付的钱不只是为了那个最终答案,而是在为整个 Agent 系统的「运行开销」买单。更糟的是,目前这些系统通常以固定精度运行。无论任务是简单查个资料,还是写一段复杂代码,模型都在全力输出,导致不同任务复杂度与计算资源之间缺乏匹配机制。该策略同时带来不必要的计算开销、推理延迟增加以及整体成本上升。

破局思路:不是每个任务都需要「超算级」精度

量化(Quantization)是业界常用的降本手段。把模型的数值精度从 32 位浮点压缩到 4 位甚至 2 位,能显著减少内存占用和计算量。但问题是:量化对复杂 Agent 任务的影响到底有多大?所有任务都适合压低精度吗?目前仍缺乏系统性的研究来回答这一问题。

华为联合新加坡国立大学、中国科学技术大学,对 OpenClaw 工作负载进行了系统性的量化研究,基于 ClawEval 评测集(release v0.0.0),覆盖 24 类任务、104 个实例、6 个主流大模型(9B–744B),系统揭示了 OpenClaw 框架下 Agent 量化的核心规律:

(1)Scaling Effect:模型越大,量化容忍度越高



在 OpenClaw 量化评测结果上,研究团队发现了一个清晰的模型规模和性能下降之间的关系:

  • 小模型(<30B):量化后性能下降 3-5%。
  • 中等模型(30B-70B):下降通常在 2% 以内。
  • 大模型(200B+):下降不到 2%,部分模型(如 GLM-5、MiniMax-M2.5)量化后反而有轻微性能提升(+0.9% 到 +1.4%)。

实验结果显示,模型规模与量化误差容忍度呈正相关,这可能源于更大参数量的模型拥有更高的表征冗余,从而削弱了量化噪声的影响。

(2)量化对 Agent 的影响,显著依赖任务类型

研究团队对所有测试模型的结果取平均值并进行任务敏感度分析,根据敏感度将 OpenClaw 任务分为三类:高、中、低。



  • 高精度敏感区(推荐 16bit/8bit):涉及代码生成、安全关键决策和复杂操作工作流的任务对量化高度敏感。这些领域的共同特征是需要精确的边界判断,模型输出的微小扰动都可能导致性质完全错误的行为,例如错误的工具调用、策略违规或代码逻辑错误。
  • 低精度友好区(推荐 4bit):知识检索、分析类与问答类任务对量化具有较强容忍度,有的甚至还能小幅提升。这可能是因为量化充当了隐式正则化器的角色,从而促进更具泛化性的表示。

(3)如何实现得分、速度与成本的平衡?



真正决定是否应该对某个任务使用低精度,不能只看分数变化,必须把速度和成本一起纳入考量。基于任务敏感性分析,研究团队给出了两种实用的优化视角:

  • 得分 vs 速度(更快):在不牺牲质量的前提下降低推理时延,优先选择速度收益大于分数边际变化的任务。
  • 得分 vs 成本(更便宜):在质量基本持平的情况下压低推理成本,重点关注成本降低时仍能保持或提升质量的任务。

QuantClaw:开箱即用的精度调度引擎

基于以上发现,研究团队推出了 QuantClaw,一个为 OpenClaw 设计的即插即用的任务路由量化插件。



(1)QuantClaw 的工作逻辑非常清晰:

  • 任务识别:用户发来请求,QuantClaw 首先判断它属于哪种任务类型。
  • 精度路由:根据预设的「任务-精度敏感度档案」,自动将请求分配给 4bit、8bit 或 16bit 的模型实例。
  • 透明执行:用户无感知,不用手动选择精度,系统在后台完成一切。

(2)QuantClaw 的架构设计兼顾了实用性和灵活性:





实测效果:省钱、提速、分数还涨了

研究团队在 PinchBench 上进行端到端评估。结果表明,QuantClaw 在省钱提速的同时,任务完成质量反而更高。低敏感任务用低精度高效执行,高敏感任务保留高精度确保可靠,实现整体上更好的质量、成本和时延平衡。

(1)GLM-4.7-Flash(PinchBench v1.2.0):相比 BF16 基线,得分 +2.85,成本 -21.6%,延迟 -8.4%



(2)GLM-5(PinchBench v2.0.0):相比 FP8 基线,得分 +2.09,成本 -21.4%,延迟 -15.7%



展望

QuantClaw 不止是一个插件,更提供了一种将精度纳入系统调度的实现路径:把精度当作像算力、内存一样的动态调度资源;轻任务跑低成本配置,重任务保留高精度。

当精度成为可动态调配的资源,Agent 系统才能真正从演示场景走向生产级应用。未来,个人 AI 助手不再是「单模型满负荷跑」,而是多精度、多能力协同的智能系统。QuantClaw 正是这一方向的关键一步。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
吴宜泽好友实锤:别造神了!所谓寒门励志是误会,经济压力大≠穷

吴宜泽好友实锤:别造神了!所谓寒门励志是误会,经济压力大≠穷

一盅情怀
2026-05-08 09:07:04
开发者怒停更!华为被指套取合作信息,用于鸿蒙适配招标!

开发者怒停更!华为被指套取合作信息,用于鸿蒙适配招标!

云头条
2026-05-09 23:07:28
马纳法致敬安佩姆!拳击张志雄染红,或追加停赛,申花只剩单外援

马纳法致敬安佩姆!拳击张志雄染红,或追加停赛,申花只剩单外援

奥拜尔
2026-05-09 21:45:37
汉坦病毒阳性乘客登上邮轮的前一天,中国乘客陈勇下船离开:已向防疫部门报备并在家自我隔离

汉坦病毒阳性乘客登上邮轮的前一天,中国乘客陈勇下船离开:已向防疫部门报备并在家自我隔离

极目新闻
2026-05-08 19:09:52
嫁入豪门的女同学突然加微信晒不差钱!网友预测:下一步就是借钱

嫁入豪门的女同学突然加微信晒不差钱!网友预测:下一步就是借钱

另子维爱读史
2026-05-09 10:01:47
左派、右派、左倾、右倾、左翼、右翼有什么区别?

左派、右派、左倾、右倾、左翼、右翼有什么区别?

长风文史
2026-05-07 12:13:11
“过气超女”黄雅莉:没工作没积蓄,已生子,住5㎡三室一厅,活成了城市版李子柒

“过气超女”黄雅莉:没工作没积蓄,已生子,住5㎡三室一厅,活成了城市版李子柒

可读
2026-05-08 20:53:44
整条未拆香烟能放多久?烟草员工实锤真相,90%烟民都错了

整条未拆香烟能放多久?烟草员工实锤真相,90%烟民都错了

老特有话说
2026-05-08 14:47:21
王思聪洛杉矶近照曝光!一身LV却白发驼背,原来钱真买不回心气儿

王思聪洛杉矶近照曝光!一身LV却白发驼背,原来钱真买不回心气儿

老吴教育课堂
2026-05-07 18:00:58
豪门梦碎!阿隆索直言执教皇马是巨大错误:权力斗争已让战舰失控

豪门梦碎!阿隆索直言执教皇马是巨大错误:权力斗争已让战舰失控

星耀国际足坛
2026-05-09 21:58:29
中东局势进入战和转换关键阶段,美国和伊朗相互试探韧性

中东局势进入战和转换关键阶段,美国和伊朗相互试探韧性

澎湃新闻
2026-05-08 17:48:29
特朗普心腹来华,逼购波音,王毅摊牌:别绕圈子,先解决核心问题

特朗普心腹来华,逼购波音,王毅摊牌:别绕圈子,先解决核心问题

兰妮搞笑分享
2026-05-08 19:59:09
特朗普访华中国迟迟不官宣,美媒破防:原来中国早就看不上我们了

特朗普访华中国迟迟不官宣,美媒破防:原来中国早就看不上我们了

娱乐圈的笔娱君
2026-05-09 17:50:06
瓦伦丁直播,把整个机车圈的脸打肿了!张雪:我的车手不借钱参赛

瓦伦丁直播,把整个机车圈的脸打肿了!张雪:我的车手不借钱参赛

童叔不飙车
2026-05-08 22:05:01
R级片一刀未剪进院线,华纳这次赌对了什么

R级片一刀未剪进院线,华纳这次赌对了什么

全栈遛狗员
2026-05-08 11:10:55
跟普京一同前往红场阅兵的外宾,有两人不在俄方公布的名单中

跟普京一同前往红场阅兵的外宾,有两人不在俄方公布的名单中

阿离家居
2026-05-09 17:44:56
妈生“整容脸”,戏红人不红,32岁的她却为何深得大家的喜欢?

妈生“整容脸”,戏红人不红,32岁的她却为何深得大家的喜欢?

娱人细品
2026-05-08 18:54:03
王小骞也没想到,患上矮小症的女儿,会在自己52岁这年迎来逆袭

王小骞也没想到,患上矮小症的女儿,会在自己52岁这年迎来逆袭

流云随风去远方
2026-05-08 12:21:02
比亚迪先发制人:可变磁通电机量产,迎战电耗大考

比亚迪先发制人:可变磁通电机量产,迎战电耗大考

沙雕小琳琳
2026-05-09 17:39:45
G2广东102-99绝杀北京3喜1忧!胡明轩奎因太好用,2将证明价值!

G2广东102-99绝杀北京3喜1忧!胡明轩奎因太好用,2将证明价值!

篮球资讯达人
2026-05-09 22:26:51
2026-05-10 00:03:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12957文章数 142646关注度
往期回顾 全部

科技要闻

美国政府强力下场 苹果英特尔达成代工协议

头条要闻

演员文章面馆大火后又开酒吧 多位明星到场母亲也现身

头条要闻

演员文章面馆大火后又开酒吧 多位明星到场母亲也现身

体育要闻

成立128年后,这支升班马首夺顶级联赛冠军

娱乐要闻

50岁赵薇脸颊凹陷沧桑得认不出!

财经要闻

多地号召,公职人员带头缴纳物业费

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

游戏
时尚
教育
艺术
本地

《明末》被收购后国内首条动态:江湖又见!

伊姐周六热推:电视剧《喀什恋歌》;电视剧《低智商犯罪》......

教育要闻

@2026高三毕业生,高中毕业证正在印刷!附:档案封装、打印教程

艺术要闻

齐白石 紫藤蜜蜂

本地新闻

用苏绣的方式,打开江西婺源

无障碍浏览 进入关怀版