网易首页 > 网易号 > 正文 申请入驻

首次系统评估Qwen3在量化下的鲁棒性:8bit下仍保持近乎无损性能

0
分享至

北航联合团队 投稿
量子位 | 公众号 QbitAI

Qwen3强势刷新开源模型SOTA,但如何让其在资源受限场景中,既能实现低比特量化,又能保证模型“智商”不掉线?

来自北京航空航天大学西安电子科技大学苏黎世联邦理工学院的联合研究团队找到了破局关键。

团队对Qwen3的5种后训练量化技术进行了首次系统性评估,涵盖从1比特到8比特的位宽和多个数据集,此外还与LLaMA3进行了量化比较。

研究发现,Qwen3在中度位宽下保持了竞争性能,但在超低精度下,语言任务性能显著下降,和LLaMA3相比差异则更加明显,亟需进一步解决方案以减轻性能损失。

Qwen3登场:优势与挑战并存

阿里巴巴集团开发的Qwen系列,是基于Transformer架构、极具竞争力的开源自回归大型语言模型(LLM)

自发布以来,Qwen展现出了卓越的可扩展性,其70亿参数模型在某些基准测试中甚至可与更大的专有模型,如GPT-3.5相媲美。

最近推出的Qwen3,参数规模从6亿到2350亿不等,通过在多样化、高质量语料库上的精炼预训练进一步提升了性能。

这使得Qwen家族成为最具能力的开源LLM之一,适应多种部署场景。

尽管Qwen3具有诸多优势,但其实际部署因高计算和内存需求而面临挑战。

低比特量化已成为缓解这些问题的重要技术,能够在资源受限设备上实现高效推理。然而,量化往往会导致性能下降。

Qwen3的尖端能力为重新评估量化技术提供了及时机会,以揭示其在尖端模型上的效能与局限性。

在本实证研究中,系统性地评估了Qwen3在后训练量化(PTQ)方法下的鲁棒性。

团队测试了5种经典PTQ方法,包括Round-To-Nearest(RTN)GPTQAWQSmoothQuantBiLLM,覆盖从1比特到8比特的位宽。

评估涵盖多种语言任务,使用了如Perplexity(WikiText2、C4)0-shot常识推理(PIQA、ARC-Easy/Challenge、HellaSwag、Winogrande、BoolQ)5-shot MMLU等基准测试。

本研究旨在:

  1. 基准量化引起的性能权衡。
  2. 识别特定位宽下的最佳方法。
  3. 突出未解决的挑战,特别是在超低比特场景中。

团队希望研究结果能为未来研究提供指导,推动压缩模型实现更高精度,提升Qwen3及后续LLM的实用性。

深度剖析Qwen3量化的背后

实验设置

团队评估了Qwen3后训练模型(0.6B、1.8B、4B、7B、14B和72B)及其预训练版本(Qwen3-0.6/1.8/4/7/14B-Base)的低比特量化性能,预训练权重来源于官方仓库。

  • 量化方法:

为全面评估Qwen3的量化鲁棒性,研究人员选择了5种具有代表性的后训练量化(PTQ)方法,涵盖多种技术路线。

所有实现均遵循其原始开源代码库。实验在1块NVIDIA A800 80GB GPU上进行,以确保评估条件一致。

  • 量化协议:

为确保所有量化方法的公平比较,研究人员保持以下三项一致性措施:

  1. 所有方法使用相同的校准数据(来自C4数据集的128个样本,序列长度为2048)。对于每组量化,通道分组采用128的块大小,遵循LLM量化的既定实践。
  2. 对于每组量化,通道分组采用128的块大小,遵循LLM量化的既定实践。
  3. 权重量化统一应用于1到8比特。

这些控制变量使得量化方法的性能可以直接比较,同时最大限度减少干扰因素。

在权重-激活量化方法中,激活值被量化为4或8比特,这是最常用的设置,因为更低位宽通常会导致显著的性能下降。

  • 评估协议:

为进行全面的PTQ评估,团队在WikiText2和C4的256个样本子集上测量困惑度(PPL),序列长度为2048。

零样本准确性通过六个公认的推理基准测试进行评估:PIQA、Winogrande、ARC-Easy、ARC-Challenge、HellaSwag和BoolQ

少样本能力通过5-shot MMLU进一步检验。这一多维评估框架为量化后的Qwen3在不同任务类型和难度水平上的能力提供了严格评估。

PTQ结果

下面详细展示了实验结果(表1,表2,表3,表4),并根据数据提供了直观的视觉图示(图1,图2,图3,图4)

表1展示了Qwen3-Base模型每通道2到8位的PTQ结果,展现了在Wikitext2和c4上的困惑度、零样本推理任务以及5样本MMLU性能。其中W表示权重量化位宽,A表示激活量化位宽。

表2是Qwen3模型每通道2到8位的PTQ结果。

表3是Qwen3-Base模型每组1到8位的PTQ结果,验证了在Wikitext2和c4上的困惑度、零样本推理任务以及5样本的MMLU性能。其中G表示组大小。

表4是Qwen3模型每组1到8位的PTQ结果。

  • 权重量化的影响:

在8比特时,Qwen3始终保持接近无损的性能,表明高比特量化在实际部署中仍具有很大潜力。

然而,当位宽降低到4比特时,所有量化方法均显示出明显的性能下降。例如,Qwen-8B的MMLU分数从74.7降至69.3。

当位宽进一步降至3比特时,尽管AWQ仍保留一定能力,但原始模型的大部分优势已丧失。

在2比特时,仅有像GPTQ这样利用校准补偿的方法能够保持最低限度的性能。

同时,团队观察到二值化方法Bi-LLM表现出相对有前景的结果,在32B模型中甚至超越了3比特的AWQ,凸显了二值化的潜力。

  • 激活量化的影响:

在应用经典激活量化方法SmoothQuant时,团队观察到即使在w8a8设置下,与全精度模型相比,性能已有明显下降。

当位宽降至w4a8时,模型性能显著下降,远不如仅权重量化。

这一结果与近期研究发现一致,表明大型模型可能对激活量化特别敏感,可能是由于激活值异常导致的显著性能下降。


  • 不同参数规模的比较:

团队观察到较大模型在量化下表现出更强的稳定性。

具体来说,Qwen3-14B在4比特GPTQ下的MMLU性能仅下降1%,而Qwen3-0.6B在相同设置下下降约10%,这凸显了较大参数空间缓解量化噪声的能力。

  • 与LLaMA3的比较:

团队此前对LLaMA3进行了经典方法的实验。

与LLaMA3的先前结果相比,Qwen3在低比特量化(3比特或更低)下表现出更显著的性能下降。

具体来说,在LLaMA3-8B中,AWQ的w3a16g128量化使C4上的PPL从9.2仅增至11.6,而在Qwen3-8B-Base中,相同AWQ设置使PPL从10.4增至23.8。

这与团队之前的实证观察和假设一致:更彻底的预训练过程可能导致更强的LLM中冗余表示更少,使其对量化更敏感。


结论与展望

新发布的Qwen3系列已成为最强大的开源大型语言模型(LLM)家族之一,吸引了学术界和工业界的广泛关注。

本研究首次系统性地评估了Qwen3在多种低比特量化方案下的鲁棒性,特别聚焦于后训练量化方法。

通过全面的量化分析,旨在为在资源受限场景下部署Qwen3建立实际界限。

实验结果表明,Qwen3在较高位宽(4比特及以上)下保持了竞争性能,但与前几代模型相比,在量化为3比特或以下时,性能下降更为明显。

这一观察与团队的假设一致,即Qwen3广泛采用的先进预训练技术往往生成参数冗余较少的模型,从而使其对量化引起的信息损失更为敏感,尤其在复杂推理任务和少样本学习场景中,性能下降尤为显著。

这些发现凸显了两个关键含义:

  1. 当前的量化技术需要进一步创新,以更好地保留Qwen3的先进能力;
  2. 对于尖端LLM,模型压缩与性能保留之间的权衡需要仔细重新考虑。

研究团队相信,这一实证分析为LLM量化的未来研究方向提供了宝贵指导,特别是在开发能够在超低位宽下保持高准确性的方法方面。

随着领域的进步,研究团队期待这些见解将有助于像Qwen3这样强大模型的更高效部署,最终在降低计算开销的同时推动大型语言模型的实际应用。

未来该团队计划评估更高级的量化方法,例如基于通道重排序的方法基于旋转的量化策略,以评估Qwen3在这些技术下的性能,特别是它们对激活量化的影响。

论文链接:https://arxiv.org/pdf/2505.02214
项目链接:https://huggingface.co/collections/Efficient-ML/qwen3-quantization-68164450decb1c868788cb2b

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
住建部已查清全国房子数量,过剩问题有多严重?楼市或迎来新变局

住建部已查清全国房子数量,过剩问题有多严重?楼市或迎来新变局

猫叔东山再起
2026-02-15 11:30:03
最后一圈冲刺失误!刘少昂自责:只能说抱歉,是我的失败,我错了

最后一圈冲刺失误!刘少昂自责:只能说抱歉,是我的失败,我错了

风过乡
2026-02-16 21:05:12
黑龙江一男子捡到苹果手机,刷机送给外甥女使用,失主坚持不懈寻找2年追回:重要资料已被删,共赔偿8500元

黑龙江一男子捡到苹果手机,刷机送给外甥女使用,失主坚持不懈寻找2年追回:重要资料已被删,共赔偿8500元

大象新闻
2026-02-16 13:43:04
沦为歌舞剧的春晚,再也装不下观众的笑声

沦为歌舞剧的春晚,再也装不下观众的笑声

局部有语
2026-02-16 23:38:18
颠覆认知!超150万人数据证实:打牌、麻将动脑型久坐,反而有益认知健康

颠覆认知!超150万人数据证实:打牌、麻将动脑型久坐,反而有益认知健康

医诺维
2026-02-14 16:34:57
内塔尼亚胡宣布:十年时间切断美国军事援助

内塔尼亚胡宣布:十年时间切断美国军事援助

看看新闻Knews
2026-02-16 14:36:18
中戏反腐爆大雷啦!当年送钱的学生,现在慌得觉都睡不着!

中戏反腐爆大雷啦!当年送钱的学生,现在慌得觉都睡不着!

达文西看世界
2026-02-16 12:10:45
2月16日俄乌最新:惊人的转变

2月16日俄乌最新:惊人的转变

西楼饮月
2026-02-16 17:08:41
中国欢喜过大年,1亿多日本人却迎来噩耗,高市被紧急送往医院

中国欢喜过大年,1亿多日本人却迎来噩耗,高市被紧急送往医院

独醉笑清风
2026-02-17 01:57:32
独家揭秘:“两个蔡明”春晚同台背后的仿生黑科技|甲子光年

独家揭秘:“两个蔡明”春晚同台背后的仿生黑科技|甲子光年

甲子光年
2026-02-16 21:02:24
春晚收视第一,却被网友骂上了热搜?辽视这次确实玩砸了!

春晚收视第一,却被网友骂上了热搜?辽视这次确实玩砸了!

天天热点见闻
2026-02-16 08:47:13
我看完今年的马年春晚后,说几句肺腑之言,都是自己的真感受

我看完今年的马年春晚后,说几句肺腑之言,都是自己的真感受

神牛
2026-02-16 23:55:46
欧洲小偷,都传疯了,达成了一个行业共识,中国人的钱包,随便拿

欧洲小偷,都传疯了,达成了一个行业共识,中国人的钱包,随便拿

西楼知趣杂谈
2026-02-14 18:35:51
我就说像王菲怎么会喜欢上窦唯呢?看了这张照片我才明白

我就说像王菲怎么会喜欢上窦唯呢?看了这张照片我才明白

手工制作阿歼
2026-02-16 23:02:59
8死2伤!江苏烟花爆燃死伤者身份曝光,责任人被控制大量内幕披露

8死2伤!江苏烟花爆燃死伤者身份曝光,责任人被控制大量内幕披露

博士观察
2026-02-16 23:12:50
冯小刚新作!《抓特务》发布新春特别海报

冯小刚新作!《抓特务》发布新春特别海报

草莓解说体育
2026-02-16 21:57:41
春晚14个亮点!张艺谋唱哭网友,沈腾马丽很无聊,李健王菲全真唱

春晚14个亮点!张艺谋唱哭网友,沈腾马丽很无聊,李健王菲全真唱

杨仔述
2026-02-17 00:31:52
莫斯科遭大规模袭击,俄罗斯将马斯克告上联合国

莫斯科遭大规模袭击,俄罗斯将马斯克告上联合国

史政先锋
2026-02-16 16:50:29
微信可以发金色朋友圈了,腾讯公关总监亲自下场示范

微信可以发金色朋友圈了,腾讯公关总监亲自下场示范

界面新闻
2026-02-16 11:36:09
今年春晚,机器人刷屏

今年春晚,机器人刷屏

第一财经资讯
2026-02-16 22:20:37
2026-02-17 03:56:49
量子位 incentive-icons
量子位
追踪人工智能动态
12173文章数 176385关注度
往期回顾 全部

科技要闻

阿里除夕发布千问3.5,性能媲美Gemini 3

头条要闻

"王菲接班李谷一"上热搜 窦靖童发文"挖嘞个亲娘"

头条要闻

"王菲接班李谷一"上热搜 窦靖童发文"挖嘞个亲娘"

体育要闻

全明星正赛美国星辰队夺冠 爱德华兹MVP

娱乐要闻

王菲六登春晚献唱 水滴钻石耳环再出圈

财经要闻

2025,中国商业十大意外,黄金只排第九

汽车要闻

叫停纯屏操作 工信部拟推车内实体操作件强制国标

态度原创

教育
艺术
手机
家居
公开课

教育要闻

幼儿园遇到这种事,找对方家长解决不了问题!

艺术要闻

名家笔下话过年,别有风味!

手机要闻

3月4日晚上10点见:苹果发布新品邀请函,向马年春节献礼

家居要闻

中古雅韵 乐韵伴日常

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版