网易首页 > 网易号 > 正文 申请入驻

清华开源混合精度推理系统MixQ:大模型近无损量化并提升推理吞吐

0
分享至

PACMAN实验室 投稿
量子位 | 公众号 QbitAI

一键部署LLM混合精度推理,端到端吞吐比AWQ最大提升6倍!

清华大学计算机系PACMAN实验室发布开源混合精度推理系统——MixQ

MixQ支持8比特和4比特混合精度推理,可实现近无损的量化部署提升推理的吞吐

△图1 MixQ吞吐与已有开源工作比较

MixQ同时量化权重和激活,使用低精度张量核心(INT8/INT4 Tensor Core)实现推理加速;同时,MixQ提取激活中少量的离群值,使用高精度张量核心(FP16 Tensor Core)保持推理准确性,通过系统优化掩盖高精度访存开销。

不仅保持推理的准确性,而且通过使用低精度算力有效提升吞吐,充分发挥硬件计算潜力(图1)。

同时,研究团队提供了基于VLLM和Tensorrt-LLM的混合精度推理,用户可以方便地一键部署模型。

△图2 使用VLLM一键部署4比特和8比特混合精度量化并推理

MixQ已支持多个主流大模型LLaMA3,Qwen2,Baichuan2,ChatGLM等。据了解,目前MixQ开源技术已被清程极智等AI行业公司应用在实际产品中。

该工作同时于高性能计算领域顶级国际会议SC’24发表,第一作者清华大学博士后陈逸东、通讯作者为翟季冬教授。

研究背景:已有量化技术总结

量化的主要技术路线有两条,第一条是权重量化

权重量化的理论加速比是16/量化的比特数。例如,将模型压缩成为4bit,那么理论加速比为16/4=4倍。

然而,当服务商面临大量的用户同时访问时,权重量化的系统吞吐会低于FP16的吞吐,其主要原因是权重量化计算过程中将低精度权重恢复成FP16然后计算,这导致权重量化并不使用低精度算力,当场景表现为compute bound的时候,性能较低。

△图3 用户请求多权重量化吞吐低于FP16

第二条技术路线是量化权重和激活,使用低精度的张量核心来提升系统的吞吐。

直接将激活量化为低比特可能会出现较大的精度损失。其原因在于激活矩阵中存在离群值(图4)。

一个有效的方法是SmoothQuant,主要思想是通过平滑激活矩阵来降低量化激活的误差。

△图4 激活矩阵中存在离群值

混合精度量化则是一类全新的量化方法,该方案先做了一个矩阵分解,对绝大部分权重和激活用低比特存储,将离群值用FP16存储,分别做矩阵乘法。

△图5 混合精度量化示意图

混合精度量化的一个优势就是可以实现近乎无损精度的量化。使用混合精度量化的LlaMA模型在MMLU 20个领域上的数据集进行推理准确率测试表明,采用8bit混合精度量化后的准确率下降不到0.1%

△图6 混合精度量化分类准确率

不过,此前已有的混合精度量化的系统的性能普遍不高,主要瓶颈在针对离群点进行查找、访存和计算的开销占比大。

以混合精度库Bitsandbytes为例,实测试表明,Bitsandbytes在用户请求数量为512时仅有1.08倍的加速。

△图7 Bitsandbytes的在LLaMA70B上的Kernel性能测试

△图8 Atomic operator是混合精度推理系统的瓶颈之一

那么,如何优化对离群点的查找、访存和计算的开销呢?

MixQ的解决方案

MixQ的核心思想是基于离群点的局部性对混合精度的计算图做等价变换,使得变换后的混合精度的计算图可以避免离群点查找的额外开销;在此基础上,通过图层融合和设计高效的混合精度数据结构降低访存开销;最后通过CUTLASS生成高性能的混合精度算子,达到提升系统性能的效果。

MixQ的设计基于以下的观察:

离群点的局部性。对LLM的激活矩阵分析发现,在不同的decode阶段的离群点的分布是有规律的

如图9,红色的点表示的是第一次出现的离群点,绿色的点表示的是重复出现的离群点,随着decode的进行,多数离群点出现在了固定的channel。

△图9 decode阶段离群点的分布规律

因此,研究人员得到一个重要的结论:在大部分的decode阶段是不需要重复检测离群点的,也就是说我们可以避免检查离群点的开销。

剩下的问题是,如何知道哪些时候不需要重复检查离群点呢?这个答案就隐藏在量化系数中。

在量化的过程中需要对矩阵进行amax的操作。因此,通过amax得到的结果可以判断矩阵中是否存在离群点。如amax的值大于阈值,那矩阵中存在离群点。反之则不存在。

更重要的是,amax操作可以和前一个操作融合。这样不仅以极低的代价检测离群点的存在,还通过对图层进行融合来降低量化的开销。

基于以上的分析,MixQ的设计使用了三个关键技术:

一是对计算图的等价变换

针对混合精度的计算逻辑进行了等价变换以后,通过计算激活矩阵的amax的值,避免了检测离群点的开销。

△图10 优化混合精度的计算逻辑

二是设计混合精度数据结构

MixQ将离群点“拼接”成了一个新的矩阵。这一方法相较于ATOM采用的重排列(reorder)具有更低的开销。

△图11 MixQ:order-reserved数据结构

三是使用CUTLASS编写高性能的混合精度的算子,这一关键技术的实现依赖于NVIDIA提供的高性能矩阵乘法模板CUTLASS 3.x。

MixQ在寄存器中反量化低精度的计算结果并与高精度的结果进行相加。

△图12 融合dequantize、scale和add操作

下面来看MixQ的实验结果,以LLaMA 70B为例。

在准确率表现方面,MixQ的准确率和Bitsandbytes一致。

△图13 MixQ的推理精度

在性能表现方面,MixQ 8bit kernel是Bitsandbytes的1.9倍。

MixQ 4bit Kernel的性能达724TFLOPs,是FP16的3.13倍。

△图14 MixQ Kernel性能

端到端测试下,MixQ在batch=512相对Bitsandbytes和AWQ加速1.78和6倍。

△图15 多batch测试;上:MIXQ的推理输出(19.21it/s);下:FP16的推理输出 (13.56it/s)

项目地址:
[1]https://github.com/Qcompiler/MixQ_Tensorrt_LLM
[2]https://github.com/Qcompiler/MIXQ
[3]https://github.com/Qcompiler/vllm-mixed-precision

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
笑死!威廉不想理他爹,查尔斯找儿媳救场,凯特:这家没我铁定散

笑死!威廉不想理他爹,查尔斯找儿媳救场,凯特:这家没我铁定散

DailyFlora
2025-09-17 12:36:25
特朗普下令,分两路人马和中国商量,马斯克:美政府没救了

特朗普下令,分两路人马和中国商量,马斯克:美政府没救了

诗意世界
2025-09-16 21:56:01
有情况?关晓彤生日引评论区炸锅,鹿晗发文:开心!

有情况?关晓彤生日引评论区炸锅,鹿晗发文:开心!

默默有话说
2025-09-17 10:05:12
0-3!1-2!亚冠悲喜夜:海港惨败,蓉城被绝杀,中超3队排名倒数

0-3!1-2!亚冠悲喜夜:海港惨败,蓉城被绝杀,中超3队排名倒数

侃球熊弟
2025-09-17 22:14:00
为什么一定要接初中孩子放学?一位老教师的答案点醒无数家长

为什么一定要接初中孩子放学?一位老教师的答案点醒无数家长

育儿成长法1
2025-09-11 13:52:13
北舞校花周静波绝了!172cm 身高,颜值能打,身体柔软似精灵!

北舞校花周静波绝了!172cm 身高,颜值能打,身体柔软似精灵!

可乐谈情感
2025-09-16 09:34:06
世界大赛初体验!世锦赛女子200米:小孩姐陈妤颉23秒26止步预赛

世界大赛初体验!世锦赛女子200米:小孩姐陈妤颉23秒26止步预赛

全景体育V
2025-09-17 19:11:34
王朔:只要不碰车贷、房贷、传宗接代,一个月三千,也活得很自在

王朔:只要不碰车贷、房贷、传宗接代,一个月三千,也活得很自在

清风拂心
2025-09-09 15:15:04
就在刚刚,女篮新消息:郭振明、宫鲁鸣、张子宇动态更新

就在刚刚,女篮新消息:郭振明、宫鲁鸣、张子宇动态更新

铿锵格斗
2025-09-17 10:59:02
当代家长对早恋的态度好超前!网友:一觉醒来跟不上时代了!

当代家长对早恋的态度好超前!网友:一觉醒来跟不上时代了!

墙头草
2025-09-17 08:27:40
震碎三观的“人乳交易”、“成人奶妈”,1500元竟能躺在怀里喝

震碎三观的“人乳交易”、“成人奶妈”,1500元竟能躺在怀里喝

听风听你
2025-09-06 22:05:26
阅兵刚结束,唐国强就出事?被骂滚回美国,真相藏在一件白衬衫里

阅兵刚结束,唐国强就出事?被骂滚回美国,真相藏在一件白衬衫里

诗意世界
2025-09-12 16:22:30
关键时刻央妈来了,武大已无处遁身,她还会继续装下去吗

关键时刻央妈来了,武大已无处遁身,她还会继续装下去吗

平老师666
2025-09-14 21:59:21
再见勇士!告别辉煌,与科尔决裂,库里第五冠成谜

再见勇士!告别辉煌,与科尔决裂,库里第五冠成谜

李斄在北漂
2025-09-16 19:49:27
单节13分引一波流:杨舒予25+5三分全场欢呼 女篮第一尖刀蜕变

单节13分引一波流:杨舒予25+5三分全场欢呼 女篮第一尖刀蜕变

颜小白的篮球梦
2025-09-17 21:16:25
国务院国资委:目前中央企业管理人员与业绩挂钩的浮动工资占比超过60%

国务院国资委:目前中央企业管理人员与业绩挂钩的浮动工资占比超过60%

北京商报
2025-09-17 11:07:48
十分魔幻:当代美国的“极左”和“极右”,连希特勒看了都懵圈

十分魔幻:当代美国的“极左”和“极右”,连希特勒看了都懵圈

黄娜老师
2025-09-14 23:09:45
冲上热搜!查查你的支付宝,赶紧解除,有人被“偷”不少钱

冲上热搜!查查你的支付宝,赶紧解除,有人被“偷”不少钱

大风新闻
2025-09-16 17:59:07
越扒越有!宋伊人和于朦胧暧昧对话细思恐极,好友终于发声了!

越扒越有!宋伊人和于朦胧暧昧对话细思恐极,好友终于发声了!

古希腊掌管月桂的神
2025-09-15 20:09:41
糖尿病到最后都是咋去世的?医生叹息:去世前,一般都有2个症状

糖尿病到最后都是咋去世的?医生叹息:去世前,一般都有2个症状

宝哥精彩赛事
2025-09-10 16:48:27
2025-09-17 22:48:49
量子位 incentive-icons
量子位
追踪人工智能动态
11332文章数 176279关注度
往期回顾 全部

科技要闻

网易评测iPhone 17系列:今年升级值得买吗

头条要闻

多名钓鱼博主自发清理贵州北盘江垃圾 当地政府出手

头条要闻

多名钓鱼博主自发清理贵州北盘江垃圾 当地政府出手

体育要闻

什么小火龙?申京已经是MVP水平!

娱乐要闻

第六代导演为什么没办法成为市场主流?

财经要闻

今晚,全球屏息:美联储重启降息……

汽车要闻

以用户为锚,“听劝”的岚图一路狂飙

态度原创

亲子
家居
房产
艺术
健康

亲子要闻

即将和老翟家高层领导合作共赢

家居要闻

功能兼备 温暖白色城堡

房产要闻

当海口书包房卷向「未来」,这里的孩子和房价,都在高速超车!

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

内分泌科专家破解身高八大谣言

无障碍浏览 进入关怀版