网易首页 > 网易号 > 正文 申请入驻

解码加速15倍!EdgeRazor助推大模型在PC/移动端“狂飙”

0
分享至



近年来,大语言模型参数的持续膨胀,带来了极高的显存占用和算力需求,在 PC、手机和 IoT 等资源受限的端侧设备上部署前沿大模型十分困难。因此大语言模型轻量化的研究势在必行,量化(Quantization)成为主流的轻量化方案。然而,量化端侧部署目前受制于 “不可能三角”:后训练量化(PTQ)在极低比特下精度崩塌;量化感知训练(QAT)算力成本极高;而现有的量化感知蒸馏(QAD)又缺乏灵活性。

由南京大学机器学习与数据挖掘研究所(LAMDA)和微软 AI 联合推出的开源工具库 EdgeRazor,直击端侧部署的核心痛点,一举打破了极低比特大语言模型 “能力塌陷” 的魔咒;其核心采用混合精度量化感知蒸馏(MPQAD),不仅保障了更低成本的训练,更支持了灵活的训练数据配比,成功构建出一个开源、即插即用的轻量化框架。论文通讯作者为南京大学 LAMDA 团队张绍群助理教授。



  • 论文标题:EdgeRazor: A Lightweight Framework for Large Language Models via Mixed-Precision Quantization-Aware Distillation
  • 论文地址:https://arxiv.org/abs/2605.04062
  • GitHub 链接:https://github.com/zhangsq-nju/EdgeRazor
  • Hugging Face 链接:https://huggingface.co/collections/zhangsq-nju/edgerazor-nbit
  • Playground 链接:https://huggingface.co/spaces/zhangsq-nju/EdgeRazor-PlayGround

端侧破局:兼得 SOTA 与 15 倍加速



图 1:EdgeRazor 和基线算法在基础型、指令微调型和多模态大模型上的性能表现

全面评测,性能领跑:EdgeRazor 在基础型(MobileLLM-350M)、指令微调型(Qwen3-0.6B/1.7B)和多模态(Qwen2.5-Omni-7B)大模型上开展了系统的性能评测。评测范围包括常识推理、指令遵循、数学推理、代码生成以及视频理解类型的 16 个下游任务。如图 1 所示,面对当前主流 PTQ、QAT 及 QAD 方法,EdgeRazor 在各类模型架构和比特位宽下均保持性能的领先,确立了全新的 SOTA 性能基准。



图 2:Qwen3-1.7B-EdgeRazor 在 PC 端和手机端部署效果演示

端侧部署,丝滑落地:为了展示真实受限资源下的工程落地,EdgeRazor 提供了适配于端侧部署的 DEMO。如图 2 所示,在 PC 端和手机端的 CPU 部署场景下,EdgeRazor 释放出极高的推理潜能。相较于 16-bit 基座模型,其解码速度分别实现了 16× 和 12× 的飞跃,整体端到端响应速度也获得了 10× 和 11× 的大幅提升,真正赋予了本地轻量化模型丝滑、“秒回” 的体验。



图 3:EdgeRazor 和基线算法在 Qwen3-0.6B 模型上 2-bit 量化尺度的性能表现

打破魔咒,拒绝塌陷:在极低比特位宽下,量化模型的复杂推理能力往往最先遭遇灾难性衰退,但 EdgeRazor 打破了这一魔咒。如图 3 所示,在 GSM8K(数学推理)和 HumanEval(代码生成)复杂任务上,现有主流 2-bit 方法普遍出现性能的断崖式下跌,甚至面临彻底失效的困境。相比之下,EdgeRazor 即使在 1.88-bit 这种极低比特预算下,依然展现出较好的稳健性,其任务表现显著优于同类 2-bit 方法。



图 4:EdgeRazor 和 ParetoQ 在 MobileLLM-350M 模型上的性能表现和训练开销

十倍轻训,降本增效:高质量的低比特模型往往依赖庞大的训练开销,而 EdgeRazor 彻底打破了这一现状。如图 4 所示,在 MobileLLM-350M 上,EdgeRazor 不仅在全比特位宽下超越了性能最强的 QAT 基线 ParetoQ,更在训练效率上实现了大幅优化。其训练所需的 tokens 数量缩减了 75%–90%(最低仅需 3.1B,而基线高达 30B)。



图 5:EdgeRazor 和基线算法在 Qwen3-0.6B 模型下的量化比例和压缩比

全员量化,刷新极限:传统的量化方法往往因规避精度崩溃而对嵌入层和语言模型头 “手下留情”。如图 5 所示,这导致模型整体的真实量化参数覆盖率仅 73.89%,然而 EdgeRazor 突破了这一妥协,实现了 99.99% 的极高量化参数覆盖率,并且在 1.58-bit 极低比特下达到了突破性的 7.03× 压缩比,远超传统方法 2.94× 的瓶颈。



图 6:EdgeRazor 在 llama.cpp 推理框架上测试 Qwen3-0.6B 的效率表现

EdgeRazor 选取 Qwen3-0.6B 为基座模型,依托开源推理框架 llama.cpp,在纯 CPU 算力环境下(Apple M4 Pro)进行推理效率评测。

  • 百兆体积,轻量部署:如图 6 所示,相较于 16-bit 基座模型,1.58-bit EdgeRazor 量化模型将磁盘占用压缩至 1/5.8(仅约 190MB),峰值运行内存降至 1/2.9。百兆级别的轻量资源占用,扫清了大模型向智能手机、IoT 等内存受限设备迁移的物理障碍。
  • 十五倍速,解码狂飙:如图 6 所示,1.58-bit EdgeRazor 量化模型的预填充吞吐量不仅达到了基座模型的 2.11×,在对用户体验起决定性作用的自回归解码环境,速度更是实现了 15.16× 的爆炸级提升。这标志着端侧大模型迈入 “秒回” 级别的全新阶段。

即插即用:一键训练轻量化大模型



图 7:EdgeRazor 用于轻量化模型训练的流程图

EdgeRazor 不仅在性能与效率上追求极致,在工程易用性上也同样力求开发者友好。如图 7 所示,EdgeRazor 被设计为一个高度模块化的开源工具库。开发者无需精通底层的复杂量化感知蒸馏逻辑,通过统一的配置文件(配置量化比例、目标比特数和蒸馏损失等内容),将庞大的 16-bit 模型训练为 1.58-bit 轻量化模型。其核心使用优势包括:

  • 代码解耦,即插即用:零侵入式设计。只需寥寥数行代码配置,EdgeRazor 就能无缝并入开发者现有的全精度大模型训练流水线,完全不需要重构底层的训练代码。
  • 极简配置,一键启动:EdgeRazor 通过三个输入(16-bit 模型、自由配比的数据和配置文件),即可输出各种低比特模型(例如,1.58-bit 模型)。
  • 混合数据,配比自由:相比于传统的 QAD 方法只支持蒸馏 16-bit 模型的数据进行训练,EdgeRazor 还支持人类标注数据和高质量模型合成数据,训练数据配比自由。
  • 繁杂底层,自动接管:框架内部接管了繁杂的底层操作。从加载各种格式的配置,利用量化选择器为特定层注入量化实现(QAT 模块),到同步计算各种蒸馏损失(KD 模块),全流程自动化闭环。
  • 算力降维,单机可训:告别传统 QAT 方法对庞大算力的依赖(例如,ParetoQ 使用了 16 张显卡,消耗了 30B tokens)。EdgeRazor 在常规单机多卡环境下即可完成训练(相同模型只使用了 8 张显卡,消耗了 3.1B tokens)。

核心架构:三大模块攻克极低比特



图 8:EdgeRazor 框架的核心模块

开发者友好的易用性背后,是核心算法的支撑。如图 8 所示,EdgeRazor 采用混合精度量化感知蒸馏范式来压缩各类型的大模型,其核心创新主要由以下三个模块构成:

  • 混合精度的结构量化(Structural Quantization with Mixed Precision, SQMP):打破传统量化统一位宽的设定。SQMP 支持将 4-bit 和 1.58-bit 在输入通道维度进行细粒度的灵活混合(例如实现 1.88-bit 或 2.79-bit 的平均位宽)。这不仅能精准契合实际硬件的资源预算,交错的 4-bit 高精度行还能作为 “缓冲区”,有效吸收激活异常值带来的量化误差。
  • 层自适应的特征蒸馏(Layer-Adaptive Feature Distillation, LAFD):告别盲目的人工调参。LAFD 通过计算教师模型相邻层的余弦相似度(表征结构变换程度),自适应地找出对特征转换最关键的 Top-k 层进行重点特征蒸馏。从而将 “好钢用在刀刃上”,不仅避免了盲目依赖人工经验去启发地选择蒸馏层,还有效阻止了量化误差在层间的放大。
  • 熵感知的 KL 散度(Entropy-Aware KL Divergence, EAKLD):摆脱了对教师模型生成数据的强依赖。EAKLD 纯粹依靠教师模型输出分布的熵来动态调节前向 KL 散度与反向 KL 散度的比例。这使得 EdgeRazor 能够完美兼容人工标注数据和高质量模型合成数据,实现了训练数据的配比自由。

总结

回归到轻量化的初衷,EdgeRazor 想解决的并不是单纯的 “跑个分”,而是一个更底层且务实的问题:如何通过一套统一的算法框架,让各种架构、各种参数规模的大模型低成本地转化为在资源受限环境(例如,手机和 PC 等端侧设备)下可部署的低比特轻量化版本。其实现的开源工具库打通了 “低成本量化”、“轻量化训练” 与 “极低成本部署” 的 AI 全生态链路,为个人 AI 助理的普惠化与私密化提供有力的解决方案。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
上海踩场两大外动态更新!洛夫顿参加训练右肩下沉,白边缺席!

上海踩场两大外动态更新!洛夫顿参加训练右肩下沉,白边缺席!

篮球资讯达人
2026-05-28 12:17:16
问界M9预售47.98万起 余承东:地球上已上市车里最强悍SUV

问界M9预售47.98万起 余承东:地球上已上市车里最强悍SUV

毛启盈Ai圈
2026-05-27 18:08:19
广州珠江新城一知名商场,“卖”了!

广州珠江新城一知名商场,“卖”了!

南方都市报
2026-05-28 08:35:29
南部战区对荷兰侵入舰机警示电子干扰,专家:已相当克制

南部战区对荷兰侵入舰机警示电子干扰,专家:已相当克制

环球网资讯
2026-05-27 22:59:11
新华社调查:“垃圾不够烧”真相

新华社调查:“垃圾不够烧”真相

澎湃新闻
2026-05-27 08:54:15
新加坡到底在害怕什么?

新加坡到底在害怕什么?

智先生
2026-05-25 21:59:53
难以置信!中山一工厂发布“自愿离职”通知,直言员工有负面情绪

难以置信!中山一工厂发布“自愿离职”通知,直言员工有负面情绪

火山詩话
2026-05-28 07:50:43
安顺一养猪场发生中毒和窒息事故3人死亡,贵州省安委会挂牌督办

安顺一养猪场发生中毒和窒息事故3人死亡,贵州省安委会挂牌督办

极目新闻
2026-05-28 10:09:18
51岁姜超近况曝光!裸婚娶圈外美女张蒨,如今一家三口生活很幸福

51岁姜超近况曝光!裸婚娶圈外美女张蒨,如今一家三口生活很幸福

代军哥哥谈娱乐
2026-05-27 09:04:53
周琦再开炮!北京队老大太多,4股人马互相不服,许利民无计可施

周琦再开炮!北京队老大太多,4股人马互相不服,许利民无计可施

体坛大事记
2026-05-27 15:39:53
一条蛇藏了160年,科学家才发现我们认错了它的家族

一条蛇藏了160年,科学家才发现我们认错了它的家族

万物皆可科普啊
2026-05-27 12:16:02
胡衡华辞去重庆市长职务

胡衡华辞去重庆市长职务

观察者网
2026-05-28 11:16:17
重磅!蒙古高控卫试训雄鹿 首位NBA球员?中国后卫断档太久

重磅!蒙古高控卫试训雄鹿 首位NBA球员?中国后卫断档太久

你看球呢
2026-05-28 10:05:39
最成功的业界内容创作者之一Morgpie

最成功的业界内容创作者之一Morgpie

吃瓜党二号头目
2026-05-25 08:22:25
1935年刘志丹等人被捕,得知即将被处决,主席:杀头不能像割韭菜

1935年刘志丹等人被捕,得知即将被处决,主席:杀头不能像割韭菜

大运河时空
2026-05-27 12:20:03
耿同学回应:接广告是为了挣钱,骂杰青是为了爽,毕竟水货从不为难水货

耿同学回应:接广告是为了挣钱,骂杰青是为了爽,毕竟水货从不为难水货

新浪财经
2026-05-27 16:06:50
黄仁勋啥都有了,唯独一点:儿子和闺女都三十多岁,依然未婚

黄仁勋啥都有了,唯独一点:儿子和闺女都三十多岁,依然未婚

草莓解说体育
2026-05-28 04:07:52
9亿市值跌到3亿,每台车狂降几千!没有张雪的凯越,正沦为组装厂

9亿市值跌到3亿,每台车狂降几千!没有张雪的凯越,正沦为组装厂

刘哥谈体育
2026-05-28 01:47:08
朱芳雨痛批广厦队1人:胡打,乱打,是输球的关键因素!

朱芳雨痛批广厦队1人:胡打,乱打,是输球的关键因素!

体育哲人
2026-05-27 17:26:40
浙江省政府领导有调整

浙江省政府领导有调整

农民日报
2026-05-28 11:12:04
2026-05-28 13:08:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13099文章数 142653关注度
往期回顾 全部

科技要闻

台积电3纳米下半年涨价15% 明年或再涨10%

头条要闻

民进党发言人称受不了国台办 陈斌华回应时战术性喝水

头条要闻

民进党发言人称受不了国台办 陈斌华回应时战术性喝水

体育要闻

如果雷霆拼图是这水平 马刺确实打不过

娱乐要闻

曝大嫂冒充七七同学,林俊杰删掉合照

财经要闻

长鑫科技IPO过会,市值会到几万亿?

汽车要闻

限时补贴价9.28-10.98万 MG 4X正式上市

态度原创

时尚
教育
游戏
手机
数码

丑到离谱的牛马鞋,新中产抢疯了

教育要闻

倒计时10天 | 笃行不怠,赴一场华南理工之约

在《战术小队:破晓攻势》里,我找回了第一次上战场的感觉"/> 主站 商城 论坛 自运营 登录 注册 在《战术小队:破晓攻势》里,我找回了第一次上战场的感...

手机要闻

华为Pura 90 Pro系列推送鸿蒙新版本,新增三种色彩限时水印

数码要闻

三星Galaxy Watch 9与Ultra 2泄漏汇总 或支持无创血糖监测

无障碍浏览 进入关怀版