网易首页 > 网易号 > 正文 申请入驻

清华开源混合精度推理系统MixQ:大模型近无损量化并提升推理吞吐

0
分享至

PACMAN实验室 投稿
量子位 | 公众号 QbitAI

一键部署LLM混合精度推理,端到端吞吐比AWQ最大提升6倍!

清华大学计算机系PACMAN实验室发布开源混合精度推理系统——MixQ

MixQ支持8比特和4比特混合精度推理,可实现近无损的量化部署提升推理的吞吐

△图1 MixQ吞吐与已有开源工作比较

MixQ同时量化权重和激活,使用低精度张量核心(INT8/INT4 Tensor Core)实现推理加速;同时,MixQ提取激活中少量的离群值,使用高精度张量核心(FP16 Tensor Core)保持推理准确性,通过系统优化掩盖高精度访存开销。

不仅保持推理的准确性,而且通过使用低精度算力有效提升吞吐,充分发挥硬件计算潜力(图1)。

同时,研究团队提供了基于VLLM和Tensorrt-LLM的混合精度推理,用户可以方便地一键部署模型。

△图2 使用VLLM一键部署4比特和8比特混合精度量化并推理

MixQ已支持多个主流大模型LLaMA3,Qwen2,Baichuan2,ChatGLM等。据了解,目前MixQ开源技术已被清程极智等AI行业公司应用在实际产品中。

该工作同时于高性能计算领域顶级国际会议SC’24发表,第一作者清华大学博士后陈逸东、通讯作者为翟季冬教授。

研究背景:已有量化技术总结

量化的主要技术路线有两条,第一条是权重量化

权重量化的理论加速比是16/量化的比特数。例如,将模型压缩成为4bit,那么理论加速比为16/4=4倍。

然而,当服务商面临大量的用户同时访问时,权重量化的系统吞吐会低于FP16的吞吐,其主要原因是权重量化计算过程中将低精度权重恢复成FP16然后计算,这导致权重量化并不使用低精度算力,当场景表现为compute bound的时候,性能较低。

△图3 用户请求多权重量化吞吐低于FP16

第二条技术路线是量化权重和激活,使用低精度的张量核心来提升系统的吞吐。

直接将激活量化为低比特可能会出现较大的精度损失。其原因在于激活矩阵中存在离群值(图4)。

一个有效的方法是SmoothQuant,主要思想是通过平滑激活矩阵来降低量化激活的误差。

△图4 激活矩阵中存在离群值

混合精度量化则是一类全新的量化方法,该方案先做了一个矩阵分解,对绝大部分权重和激活用低比特存储,将离群值用FP16存储,分别做矩阵乘法。

△图5 混合精度量化示意图

混合精度量化的一个优势就是可以实现近乎无损精度的量化。使用混合精度量化的LlaMA模型在MMLU 20个领域上的数据集进行推理准确率测试表明,采用8bit混合精度量化后的准确率下降不到0.1%

△图6 混合精度量化分类准确率

不过,此前已有的混合精度量化的系统的性能普遍不高,主要瓶颈在针对离群点进行查找、访存和计算的开销占比大。

以混合精度库Bitsandbytes为例,实测试表明,Bitsandbytes在用户请求数量为512时仅有1.08倍的加速。

△图7 Bitsandbytes的在LLaMA70B上的Kernel性能测试

△图8 Atomic operator是混合精度推理系统的瓶颈之一

那么,如何优化对离群点的查找、访存和计算的开销呢?

MixQ的解决方案

MixQ的核心思想是基于离群点的局部性对混合精度的计算图做等价变换,使得变换后的混合精度的计算图可以避免离群点查找的额外开销;在此基础上,通过图层融合和设计高效的混合精度数据结构降低访存开销;最后通过CUTLASS生成高性能的混合精度算子,达到提升系统性能的效果。

MixQ的设计基于以下的观察:

离群点的局部性。对LLM的激活矩阵分析发现,在不同的decode阶段的离群点的分布是有规律的

如图9,红色的点表示的是第一次出现的离群点,绿色的点表示的是重复出现的离群点,随着decode的进行,多数离群点出现在了固定的channel。

△图9 decode阶段离群点的分布规律

因此,研究人员得到一个重要的结论:在大部分的decode阶段是不需要重复检测离群点的,也就是说我们可以避免检查离群点的开销。

剩下的问题是,如何知道哪些时候不需要重复检查离群点呢?这个答案就隐藏在量化系数中。

在量化的过程中需要对矩阵进行amax的操作。因此,通过amax得到的结果可以判断矩阵中是否存在离群点。如amax的值大于阈值,那矩阵中存在离群点。反之则不存在。

更重要的是,amax操作可以和前一个操作融合。这样不仅以极低的代价检测离群点的存在,还通过对图层进行融合来降低量化的开销。

基于以上的分析,MixQ的设计使用了三个关键技术:

一是对计算图的等价变换

针对混合精度的计算逻辑进行了等价变换以后,通过计算激活矩阵的amax的值,避免了检测离群点的开销。

△图10 优化混合精度的计算逻辑

二是设计混合精度数据结构

MixQ将离群点“拼接”成了一个新的矩阵。这一方法相较于ATOM采用的重排列(reorder)具有更低的开销。

△图11 MixQ:order-reserved数据结构

三是使用CUTLASS编写高性能的混合精度的算子,这一关键技术的实现依赖于NVIDIA提供的高性能矩阵乘法模板CUTLASS 3.x。

MixQ在寄存器中反量化低精度的计算结果并与高精度的结果进行相加。

△图12 融合dequantize、scale和add操作

下面来看MixQ的实验结果,以LLaMA 70B为例。

在准确率表现方面,MixQ的准确率和Bitsandbytes一致。

△图13 MixQ的推理精度

在性能表现方面,MixQ 8bit kernel是Bitsandbytes的1.9倍。

MixQ 4bit Kernel的性能达724TFLOPs,是FP16的3.13倍。

△图14 MixQ Kernel性能

端到端测试下,MixQ在batch=512相对Bitsandbytes和AWQ加速1.78和6倍。

△图15 多batch测试;上:MIXQ的推理输出(19.21it/s);下:FP16的推理输出 (13.56it/s)

项目地址:
[1]https://github.com/Qcompiler/MixQ_Tensorrt_LLM
[2]https://github.com/Qcompiler/MIXQ
[3]https://github.com/Qcompiler/vllm-mixed-precision

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
平均每人负债1300万,书记吴仁宝去世10年后,华西村的现况如何?

平均每人负债1300万,书记吴仁宝去世10年后,华西村的现况如何?

哄动一时啊
2026-01-24 21:29:54
大学生凌晨3点突发剧烈腹痛,血液变成“牛奶血”,只因寒假吃喝无节制

大学生凌晨3点突发剧烈腹痛,血液变成“牛奶血”,只因寒假吃喝无节制

环球网资讯
2026-02-07 07:23:51
将189具尸体藏在一建筑内,美国一殡仪馆老板被判40年监禁

将189具尸体藏在一建筑内,美国一殡仪馆老板被判40年监禁

新京报
2026-02-07 15:00:14
泰军:查封柬埔寨边境园区发现大量诈骗证据包括山寨上海公安局

泰军:查封柬埔寨边境园区发现大量诈骗证据包括山寨上海公安局

环球趣闻分享
2026-02-04 16:41:58
帕尔默:我之前从没受过伤,这赛季却没达到过100%健康的状态

帕尔默:我之前从没受过伤,这赛季却没达到过100%健康的状态

懂球帝
2026-02-08 04:59:05
延迟退休后,1976年5月出生的女职工,2027年退休,为何更划算?

延迟退休后,1976年5月出生的女职工,2027年退休,为何更划算?

碎月导师
2026-02-08 07:00:03
乌克兰:悔到肠子青,当年卖给中国三架“废铁”,今成大国重器?

乌克兰:悔到肠子青,当年卖给中国三架“废铁”,今成大国重器?

素衣读史
2026-01-26 18:51:48
埃迪-豪:这场比赛很奇怪;我们在第3个失球上表现得非常糟糕

埃迪-豪:这场比赛很奇怪;我们在第3个失球上表现得非常糟糕

懂球帝
2026-02-08 05:10:06
日本演员吃23年中国饭,娶中国妻子却发出辱华言论,如今怎么样了

日本演员吃23年中国饭,娶中国妻子却发出辱华言论,如今怎么样了

不写散文诗
2026-01-14 11:52:15
《太平年》7位美女颜值排名,梅婷第5,周雨彤第3,第1实至名归

《太平年》7位美女颜值排名,梅婷第5,周雨彤第3,第1实至名归

娱君坠星河
2026-02-05 23:30:15
25岁小伙身高60厘米,智力也停留在幼儿园阶段,20岁妹妹抱他出门

25岁小伙身高60厘米,智力也停留在幼儿园阶段,20岁妹妹抱他出门

江山挥笔
2026-02-06 10:44:53
身价碾压阿尔瓦雷斯!阿森纳挖到真金,23 岁“超巨”已成非卖品

身价碾压阿尔瓦雷斯!阿森纳挖到真金,23 岁“超巨”已成非卖品

奶盖熊本熊
2026-02-08 03:00:30
什么是性成瘾?患者自述:比烟瘾、酒瘾厉害多了,比戒毒还难

什么是性成瘾?患者自述:比烟瘾、酒瘾厉害多了,比戒毒还难

泠泠说史
2025-10-30 15:20:45
“除夕摆6果,福气家中坐”,有钱没钱都摆上桌,大吉大利过年

“除夕摆6果,福气家中坐”,有钱没钱都摆上桌,大吉大利过年

小茉莉美食记
2026-02-08 00:45:03
电磁弹射:中压直流那么优秀,为什么美国一开始就选了中压交流?

电磁弹射:中压直流那么优秀,为什么美国一开始就选了中压交流?

星辰大海路上的种花家
2026-02-06 09:40:04
快船成NBA新格局推手?美媒:他们摧毁了NBA!

快船成NBA新格局推手?美媒:他们摧毁了NBA!

爱体育
2026-02-07 23:00:28
微博之夜红毯:舒淇好美,姚晨裙子看不懂,李宇春难得没压轴出场

微博之夜红毯:舒淇好美,姚晨裙子看不懂,李宇春难得没压轴出场

八卦先生
2026-02-05 21:31:30
发现个奇怪现象:电车没有“干掉”油车,却“干掉”了汽车修理厂

发现个奇怪现象:电车没有“干掉”油车,却“干掉”了汽车修理厂

刘哥谈体育
2026-01-19 11:46:50
撕破脸了!马筱梅正面硬刚S家,道出孩子缺席忌日真相,句句扎心

撕破脸了!马筱梅正面硬刚S家,道出孩子缺席忌日真相,句句扎心

小椰的奶奶
2026-02-08 05:12:42
杨幂开撕微博风波发酵!辛芷蕾大粉开撕,杨幂工作室彻底怒了!

杨幂开撕微博风波发酵!辛芷蕾大粉开撕,杨幂工作室彻底怒了!

古希腊掌管月桂的神
2026-02-07 19:17:33
2026-02-08 07:35:00
量子位 incentive-icons
量子位
追踪人工智能动态
12132文章数 176373关注度
往期回顾 全部

科技要闻

小米千匹马力新车亮相!问界M6双动力齐报

头条要闻

印度飞饼师傅被认定"外籍专家"领千元慰问费 多方发声

头条要闻

印度飞饼师傅被认定"外籍专家"领千元慰问费 多方发声

体育要闻

铜牌与苏翊鸣的这四年,他说:我对得起自己

娱乐要闻

金晨处罚结果曝光!肇事逃逸被罚款

财经要闻

金价高波动时代来了

汽车要闻

工信部公告落地 全新腾势Z9GT焕新升级

态度原创

游戏
教育
数码
本地
公开课

“索尼又干了”地平线最新手游因DEI元素深陷争议

教育要闻

汉中十校联盟揭秘!高效冲刺高考有妙招

数码要闻

冠捷推出26.5英寸AOC G4白色显示器:LGD四代WOLED,2919元

本地新闻

围观了北京第一届黑色羽绒服大赛,我笑疯了

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版