网易首页 > 网易号 > 正文 申请入驻

字节开源大模型量化新思路,2-bit量化模型精度齐平fp16

0
分享至



AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

随着深度学习大语言模型的越来越火爆,大语言模型越做越大,使得其推理成本也水涨船高。模型量化,成为一个热门的研究课题。

近日,字节跳动语音团队推出一个全新的量化思路,抛弃传统的量化范式,从数学优化的角度来对量化任务建模。文章放在了 arXiv,代码已经开源,可以一键复现文中的所有结果:



论文链接:
https://arxiv.org/abs/2404.12759

项目链接:
https://github.com/bytedance/decoupleQ

W2 算子:
https://github.com/NVIDIA/TensorRT-LLM/pull/1568

1. 背景

大模型的迅速发展,使得推理成本越来越高。模型量化,作为一个降低推理成本的技术方案,得到了越来越多的关注与研究。然而,在传统的量化范式下,模型的精度在极低比特下会迅速下降。基于此,作者们提出了一种新的量化思路,将模型参数解耦为整数部分和浮点部分,从数学优化的角度来对量化任务建模,使得在极低比特下,模型依然能保持较高的精度。这样做的优势是明显的,我们不再需要关注量化特有的问题,比如如何处理敏感通道,如何处理 outlier 等等,而是只需要将量化问题进行数学建模,找到一个合适的优化目标函数,然后去求解该函数。

2. 传统量化



3. decoupleQ





4. W2 算子实现

要对量化后的模型进行推理,需要量化算子的支持,在业界没有现成的 w2a16 的算子可用,作者们基于 Tensorrt-LLM 中的 w4 算子开发了 w2 的 Gemm cuda kernel, 实现了 w2a16 模型的高效推理。

量化模型本身是以 2bit weight 的形式加载和存储在显存中,因此会占用比较小的显存。我们的 cuda kernel 通过在运行时将 2bit 的 weight 加载到寄存器中,再利用硬件指令高效转换成 bf16 的形式与 activation 进行 gemm 运算。因为我们的场景受限于 latency, generation 阶段的 batchsize 比较小,此时矩阵乘受限于 weight 的访存,这种实现会大大减少访存量,提升模型的性能。在实现过程中,结合了算法搜索以及 SpiltK Parallel Reduce,进一步能提升模型的性能,实测在 batchsize=1 的情况下,在 L 卡上 w2a16 Gemm 性能相比 w4a16 能提升 1.4x-1.7x 不等。

算子链接:
https://github.com/NVIDIA/TensorRT-LLM/pull/1568



w2 cuda kernel的实现原理

5. 实验

作者在文章给出了字节跳动内部的 ASR 实验结果,和开源的实验对比结果:

其中内部实验结果是:



该表格中,作者用 word err rate (WER) 来衡量 ASR 的准确率。作者尝试使用不同的方法将模型量化为 W2A16g64。量化前的浮点模型的 wer 是 6.68%,使用 GPTQ【1】量化以后是 6.83%,带有 block 最小化的 decoupleQ 量化以后的 wer 是 6.70%,该结果与量化前的浮点模型的 wer 很接近。同时也 report 了量化所需要的耗时。量化高精度的代价,是量化耗时较长。在实际业务中,在使用 decoupleQ 对模型量化完毕以后,固定整数部分,使用有标签数据集微调 scale 和 zero,模模型精度有进一步的提升。

开源对比实验结果是:



该表格是 decoupleQ 和其他方法在 Llama-1/2 上的量化结果比较。以 perplexity (PPL) 作为评价指标。可以看出,在同样的量化配置下,deoucpleQ 的 PPL 在绝大多数时候会低于其他方法。

6. 业务收益

decoupleQ 量化技术在字节跳动语音部门现在被广泛使用。已经上线于语音生成模型(Text-to-Speech),语音识别模型(automic speech recognition)等等,落地于豆包、飞书、抖音等产品中。大量上线业务表明,基于 decoupleQ 的量化,W4A16 的推理精度已经完全能和 fp16/bf16 推理持平;W2A16 的精度只略差于 fp16/bf16 精度(对浮点部分 sft 以后,精度能和 fp16/bf16 持平)。尽管论文中只介绍了 weight-only 的量化,但是在实际业务中,在 weight 获得良好的量化以后,对 activation 的量化也便能简单许多。

在硬件加速上相比 fp16、w8fp16、w4fp16 获得了不错的加速效果,在小 batch 下 w2 矩阵乘的性能相比 fp16 提升 5-6 倍,相比 w4 提升 1.5-1.7 倍。在内部业务模型上,w2fp16 相比 fp16 性能有 3-5 倍的提升, 相比 w4fp16 性能有 1.25-1.4 倍的性能提升,同时也会使得模型 weight 占用显存大幅下降,为 runtime 的显存利用提供更多空间。





7. 总结与讨论



参考文献:

【1】Elias Frantar, Saleh Ashkboos, Torsten Hoefler, and Dan Alistarh. Optq: Accurate quantization for generative pretrained transformers. In The Eleventh International Conference on Learning Representations, 2022.

【2】Wenqi Shao, Mengzhao Chen, Zhaoyang Zhang, Peng Xu, Lirui Zhao, Zhiqian Li, Kaipeng Zhang, Peng Gao, Yu Qiao, and Ping Luo. Omniquant: Omnidirectionally calibrated quantization for large language models. arXiv preprint arXiv:2308.13137, 2023

【3】Ji Lin, Jiaming Tang, Haotian Tang, Shang Yang, Xingyu Dang, and Song Han. Awq: Activation-aware weight quantization for llm compression and acceleration. arXiv preprint arXiv:2306.00978, 2023.

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
利物浦:我谢谢你!费内巴切仅1负99分夺亚军,加拉塔萨雷2负夺冠

利物浦:我谢谢你!费内巴切仅1负99分夺亚军,加拉塔萨雷2负夺冠

直播吧
2024-05-27 18:12:04
内地男香港坐地铁头等舱未付够钱,被罚1000港币狂喊冤,补票被拒

内地男香港坐地铁头等舱未付够钱,被罚1000港币狂喊冤,补票被拒

科学发掘
2024-05-28 17:14:42
如果独行侠获得总冠军,可能将产生五个神奇的蝴蝶效应!

如果独行侠获得总冠军,可能将产生五个神奇的蝴蝶效应!

百里无心
2024-05-27 07:18:40
A股:别猜了,今天下跌的原因不足为虑,明天有更大级别变盘?

A股:别猜了,今天下跌的原因不足为虑,明天有更大级别变盘?

静守时光落日
2024-05-28 16:52:27
深夜突发王炸利好,比降印花税还要劲爆!A股周三或一柱擎天

深夜突发王炸利好,比降印花税还要劲爆!A股周三或一柱擎天

静守时光落日
2024-05-28 16:53:14
美国电视明星遭偷车贼枪击殒命,年仅37岁,“没有试图搏斗”

美国电视明星遭偷车贼枪击殒命,年仅37岁,“没有试图搏斗”

译言
2024-05-27 07:39:39
黄宗泽晒中学青涩照,初中已当选校草冠军:在比帅,他从来没输过

黄宗泽晒中学青涩照,初中已当选校草冠军:在比帅,他从来没输过

圈里的甜橙子
2024-05-28 16:00:27
山西一女子车祸身亡,骑摩托车看手机脖子被撞断,现场惨不忍睹

山西一女子车祸身亡,骑摩托车看手机脖子被撞断,现场惨不忍睹

180°视角
2024-05-27 13:15:09
怪不得歼20让随便拍了!中航宣传片中出现疑似六代机,外型科幻

怪不得歼20让随便拍了!中航宣传片中出现疑似六代机,外型科幻

家有悦味呀
2024-05-28 05:46:56
大连热电:被诉赔偿6100万及相关诉讼费用

大连热电:被诉赔偿6100万及相关诉讼费用

每日经济新闻
2024-05-28 17:20:15
CCTV5今日直播:19:30世界女排联赛-中国澳门站(巴西-日本)

CCTV5今日直播:19:30世界女排联赛-中国澳门站(巴西-日本)

元爸体育
2024-05-28 09:52:36
河南:新娘一动不动,新郎拼命压抑着情绪,网友:何必让对方难堪

河南:新娘一动不动,新郎拼命压抑着情绪,网友:何必让对方难堪

百晓史
2024-05-27 08:30:47
郭德纲大方晒出不满座演出现场,黑人外国安保小哥抢镜成功

郭德纲大方晒出不满座演出现场,黑人外国安保小哥抢镜成功

蜜桔娱乐
2024-05-28 06:15:02
“我不想赚人民币”,台湾艺人杨绣惠深夜发不当言论,引发众怒!

“我不想赚人民币”,台湾艺人杨绣惠深夜发不当言论,引发众怒!

小毅讲历史
2024-05-27 05:34:24
一夜涨价72万!彻底爆了

一夜涨价72万!彻底爆了

21世纪经济报道
2024-05-28 16:10:13
笑话,支持乌克兰就不配做中国人?

笑话,支持乌克兰就不配做中国人?

非虚构故事
2024-05-26 14:50:31
低头看了看 然后还是拿头发遮住吧

低头看了看 然后还是拿头发遮住吧

影视评论阿劲
2024-05-28 16:09:08
穆雷父母发表声明:他选择了结束自己的生命

穆雷父母发表声明:他选择了结束自己的生命

高尔夫杂志
2024-05-27 08:19:26
“暮气沉沉的年轻人,朝气蓬勃的老年人”引共鸣,这个世界怎么了

“暮气沉沉的年轻人,朝气蓬勃的老年人”引共鸣,这个世界怎么了

阿康四岁啦
2024-05-28 14:15:41
杜兰特加盟独行侠!欧文高喊建立王朝,爱德华兹:他不再是我偶像

杜兰特加盟独行侠!欧文高喊建立王朝,爱德华兹:他不再是我偶像

刺头体育
2024-05-28 17:03:28
2024-05-28 19:44:49
机器之心Pro
机器之心Pro
专业的人工智能媒体
9027文章数 141933关注度
往期回顾 全部

科技要闻

4月中国手机需求回升 iPhone出货量增长52%

头条要闻

监狱管理局原局长落马 老上级曾让假"中纪委干部"逼供

头条要闻

监狱管理局原局长落马 老上级曾让假"中纪委干部"逼供

体育要闻

阿根廷一代神锋,击碎了沙特的金元足球梦

娱乐要闻

昆凌晒三胎正面照,2岁妹妹超像周杰伦

财经要闻

东方通收购藏雷 花6亿买来"业绩变脸"

汽车要闻

三联屏/纯电续航318km 岚图FREE 318官图发布

态度原创

本地
旅游
家居
房产
公开课

本地新闻

食味印象|歙县限定!枇杷味儿的清甜初夏

旅游要闻

画面曝光!五台山保安与游客起冲突 有人用手捂头

家居要闻

圆的世界 流动的曲线与自如的空间

房产要闻

有点猛!最新房价:海南每㎡跌了2000多!

公开课

近视只是视力差?小心并发症

无障碍浏览 进入关怀版