网易首页 > 网易号 > 正文 申请入驻

给AI做微创手术:哈工大博士发明新算法,5分钟让大模型减重近半

0
分享至

作为一名 AI 领域的博士生,徐玉庄的经历比较特殊。本科毕业于国防科技大学,随后在部队工作了 5 年,接着在清华大学获得硕士学位,目前在哈尔滨工业大学读博。


图 | 徐玉庄(来源:徐玉庄)

由其担任第一作者的一篇论文于近日被 AAAI 2026 接收,在论文中他和所在团队打造出一种名为 CAMERA 的新技术,该技术能在短短五分钟,为一个拥有 570 亿参数的巨型模型 Qwen2-57B-A14B 完成一次全面的冗余检查,并在此基础上进行高效的修剪和压缩,从而让大模型在手机、平板等小型设备上的高效运行距离普通人更进一步。

徐玉庄告诉 DeepTech:“我们的方法能够实现精准剪枝 20% 后模型效果几乎无损。我甚至有一个或许还值得讨论的提议就是,基础模型训练团队可以用我们这个分析框架判断自己的模型是不是充分训练了,如果没有或许值得多训一些。”

思维大转变:从修剪枝叶到修剪神经元

此次成果要解决的问题是:想象一下,你有一个由上百位不同领域的专家组成的超级智库,每当你问一个问题,一个聪明的调度员就会根据问题类型,立刻叫出其中几位最擅长的专家来为你解答。这就是当前的大模型内部的一种名为混合专家模型的先进工作方式,它让 AI 拥有了处理海量知识和复杂任务的能力。

然而,这个超级智库有一个幸福的烦恼:专家太多了。虽然每次只需要激活几位,但是所有专家的知识储备也就是模型参数都需要时刻准备着,这会带来惊人的计算消耗和存储成本。

更关键的是,人们发现增加专家数量带来的性能提升,远不如增加的成本那么明显,这意味着智库里存在大量的冗余或不那么关键的知识。

而徐玉庄等人就像是给这个巨型大脑做手术的神经外科医生,他们发现了一种更加精妙的手术方案,不仅能让大模型大幅瘦身,还能保持甚至提高其智商。


(来源:资料图)

在过去,人们为了让混合专家模型(MoE,Mixture of Experts)瘦身,主要采用两种粗放式的方法:

第一种方法是专家级修剪,即直接砍掉整个专家,就好比由于某个专家的偶尔懒散,因此把他的整个团队解散了,但这难免会丢失重要知识;

第二种方法是专家级合并,即把几个看似相似的专家合并为一个,这就像让一位文学教授去教高等数学,往往效果不佳。

这些方法之所以效果有限,是因为它们要么把一个专家当做不可分割的整体来决定去留,要么仅局限于对单个参数矩阵进行孤立地压缩。但是,徐玉庄等人想到一个更加本质的视角:为什么不看得更细一点呢?

基于此,他们提出了微专家这样一个全新的概念。如果把每个专家看做一个功能部门,那么微专家就是这个部门里最基础的、一个个独立负责具体任务的神经元或工作小组。

关键在于,一个微专家是由跨三个矩阵的特定行列共同定义的,它们通过协同工作完成了一个最基础的知识转换动作。

整个 MoE 层的输出,实际上是所有微专家工作成果的加权综合。徐玉庄等人的核心发现是:在不同的任务场景下,这些微专家的贡献天差地别。大部分输出其实是由一小部分至关重要的微专家决定的,而很多微专家则贡献甚微,存在大量的冗余和马太效应。

这就好比在解答如何做番茄炒蛋这一问题时,负责烹饪技巧和食材特性的微专家大放异彩,而负责量子物理的专家则几乎在围观。

传统的粗放修剪可能会误伤重要的烹饪专家,或者把量子物理专家硬塞进烹饪团队。而 CAMERA 的思路是:精准定位每一个围观或者低效的微专家,然后以几乎无伤害的方式剔除它。


(来源:资料图)

CAMERA 算法:给每个微专家打分的智能秤

那么,如何从数以万计的微专家中,快速准确地找出谁重要、谁冗余呢?这听起来像是一个超级复杂的组合优化问题,在数学上被证明是 NP 难题,即无法在短时间内精确求解。

但是,徐玉庄等人的巧思在于:他们设计了一个极其巧妙的近似估计算法,为每个微专家定义了一个能量指标。

这个能量由两部分决定:

第一部分是激活系数,它指的是当模型处理不同问题的时候,这个微专家被调用的频繁程度和强度;第二部分是权重向量范数,它指的是微专家自身知识储备的规模大小。

一个微专家的能量越高,意味着它越经常得到使用,而且自身承载的知识量越大,也就越重要。相反,能量极低的,就是可以优先考虑修剪的冗余部分。

CAMERA 算法利用一个很小的校准数据集比如 128 段文本,就能在几分钟内为模型所有层中的所有微专家计算出来能量并进行排序。这就像使用一把智能秤,可以快速地称出来每个工作小组的贡献度。

更令人赞叹的是,他们从数学上证明了基于这种能量排序的修剪策略,其效果与理论上的最优的压缩方法之间的差距不仅很小而且是可控的,这为 CAMERA 的可靠性和有效性提供了坚实的理论背书。


(来源:资料图)

CAMERA-P:一把精准的大模型手术刀

有了精准的微专家能量排名,就可以开始做手术了,这就是 Camera-P,P 指的是 Pruning,也就是修剪的意思。

Camera-P 的目标是:按照设定的比例比如 20% 或者 40%,移除能量最低的那部分微专家。具体操作非常的结构化,对于一个被选中的冗余微专家,Camera-P 会将其对应的三个矩阵中的特定行或特定列同时置零或直接剪除。

这样做的好处是显而易见的:

首先,可以保持功能完整,避免了过去单独修剪某个矩阵可能造成的功能失调;其次,可以真正实现加速推理,被置零的权重在计算时会被跳过,这直接可以减少计算量,提高模型的运行速度;再次,无需进行重新训练,整个过程是训练后的,无需使用大量数据来重新训练模型。

实验结果表明:Camera-P 在多个主流 MoE 模型上比如 DeepSeek-MoE-16B、Qwen2-57B 上,从 20% 到 60% 的不同修剪比例下,在语言理解、常识推理、数学问题等 9 项任务上的表现,都超越了之前最好的方法。尤其在高达 60% 的激进修剪下,模型性能下降远远小于其他方法,展现了惊人的鲁棒性。


(来源:资料图)

CAMERA-Q:给重要知识进行高保真,给次要知识省空间

除了直接修剪,另一种常见的模型压缩技术是量化,即降低存储每个权重数值所需的比特位数,比如从 16 比特降低到 4 比特,这就像把高清无损音乐转换成 MP3,在尽量保持听感的同时大幅减少文件体积。

现有的 MoE 量化方法主要是在专家级别分配不同的精度也就是比特数,比如给活跃的专家高精度,给不活跃的专家低精度。但是,徐玉庄等人认为这仍然不够精细,每个专家内部也有重要的微专家和次要的微专家。

于是,他们提出了 CAMERA-Q,Q 指的是 Quantization,就是量化的意思。它利用 CAMERA 得到全局微专家的能量排名,然后在每个专家内部进行混合精度分配。

具体来说:能量排名最高的那一小部分微专家,分配较高的比特位,精心保留其知识细节;能量中等的那一小部分微专家,分配标准的比特位比如 2 比特;能量最低的那一小部分微专家,分配较低的比特位比如 1 比特,从而可以大大节省空间。

这种方法的精妙之处在于,它确保了每个微专家内部三个矩阵的精度是一致的,避免了好比“一条腿穿皮鞋,一条腿穿草鞋”的尴尬,维护了基本功能单元的完整性。

实验证明,这种微专家感知的量化策略,在激进的 2 比特平均精度下,效果显著优于传统的专家级量化方法。

CAMERA 技术的意义远不止于学术论文中的漂亮数据。它为解决大模型落地应用的核心瓶颈——计算成本与存储开销提供了一套高效、实用的解决方案。


(来源:资料图)

徐玉庄表示:“在路线上,我们首次把大模型的压缩单元从一个权重矩阵内部扩展到了跨越多个权重矩阵的情形,首次把微专家这个功能完备的微结构作为剪枝或混合精度配置对象。”

在方法论上,这一研究也首次在数学上给出混合微专家的简洁表示形式,首次描述微专家压缩这一最优化问题并给出一个还算简单有效的解决方案。

未来,人们或许能在手机、平板电脑甚至智能手表上,运行如今需要庞大算力支撑的尖端 AI 模型。CAMERA 技术能让这些模型在保持高性能的同时,体积更小、耗电更少、响应更快。

对于提供 AI 服务的公司来说,模型压缩意味着可以用更少的服务器资源来服务更多的用户,从而可以降低运营成本,最终可能让 AI 服务的价格得到降低。

在生物、医药、材料等需要复杂 AI 模拟的科研领域,研究者们往往受限于计算资源,而更加轻量级的强大模型,能让更多科研机构参与前沿探索。

CAMERA 尤其是 CAMERA-P 还可以和其他模型压缩技术进行无缝结合,从而实现组合拳般的效果,进而达到更高的压缩率。

如前所述,徐玉庄目前在哈尔滨工业大学读博。此外,他也在以端侧大模型业务见长的面壁智能担任实习算法研究员。未来,他将继续深耕大模型领域。

参考资料:

相关论文 https://arxiv.org/pdf/2508.02322

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
新冠后遗症对人体的最大影响,很多人深受其害,有些人还不自知

新冠后遗症对人体的最大影响,很多人深受其害,有些人还不自知

呼吸科大夫胡洋
2026-02-22 11:39:12
北京高速服务区0座闪充,卡住国家新能源战略?比亚迪一招绕开

北京高速服务区0座闪充,卡住国家新能源战略?比亚迪一招绕开

沙雕小琳琳
2026-05-04 18:36:41
八千里路云和月:从空姐到国家一级演员,低调的她用演技说话

八千里路云和月:从空姐到国家一级演员,低调的她用演技说话

陈意小可爱
2026-05-05 01:00:41
吴石案揭露:为何三人获烈士称号,聂曦却被排除?

吴石案揭露:为何三人获烈士称号,聂曦却被排除?

鉴史录
2026-05-04 10:25:18
C罗越位位置接球,单刀面对门将却思考人生丢失球权

C罗越位位置接球,单刀面对门将却思考人生丢失球权

懂球帝
2026-05-04 17:32:44
昆明酒店劫持案细节披露:歹徒连续射击,反恐队员防弹衣连中两枪,“我明显感觉已中枪”

昆明酒店劫持案细节披露:歹徒连续射击,反恐队员防弹衣连中两枪,“我明显感觉已中枪”

南方都市报
2026-05-04 15:50:16
伊美谈判风向突变,伊朗让步换对话,特朗普态度强硬设重重门槛

伊美谈判风向突变,伊朗让步换对话,特朗普态度强硬设重重门槛

小小科普员
2026-05-04 15:50:33
18亿+凌晨档+无国足!FIFA想割韭菜?亚洲多国说不,中国不惯着

18亿+凌晨档+无国足!FIFA想割韭菜?亚洲多国说不,中国不惯着

曹老师评球
2026-05-04 18:36:46
说走就走、撤得干干净净的人,终究还是回来了。

说走就走、撤得干干净净的人,终究还是回来了。

小光侃娱乐
2026-04-20 12:40:03
超级外援合同到期!季后赛单场狂砍43+6,休赛期恐遭多支球队哄抢

超级外援合同到期!季后赛单场狂砍43+6,休赛期恐遭多支球队哄抢

老叶评球
2026-05-04 22:18:38
伦敦世乒赛:首个16强席位出炉!黄镇廷领衔3:0,奥运亚军被淘汰

伦敦世乒赛:首个16强席位出炉!黄镇廷领衔3:0,奥运亚军被淘汰

国乒二三事
2026-05-04 18:51:08
年轻人最爱的酒店,亚朵排第二 | 报告

年轻人最爱的酒店,亚朵排第二 | 报告

DT商业观察
2026-05-04 11:59:26
我是如何从15万炒到970万的,始终牢记一招“开盘就冲3和5,横7竖8是猛虎”,几乎吃掉全部短线涨幅

我是如何从15万炒到970万的,始终牢记一招“开盘就冲3和5,横7竖8是猛虎”,几乎吃掉全部短线涨幅

新浪财经
2026-05-04 18:42:15
知名女星自曝:7年没性行为!流泪求救,被强行注射50针不明液体

知名女星自曝:7年没性行为!流泪求救,被强行注射50针不明液体

草莓解说体育
2026-05-04 01:09:39
山东省“点名批评”的5所大学!毕业证含金量很低,学生谨慎报考

山东省“点名批评”的5所大学!毕业证含金量很低,学生谨慎报考

何轐说
2026-05-05 01:08:41
於女王战胜吴侑珍,获对抗赛首胜!2026中韩女子五强对抗赛!

於女王战胜吴侑珍,获对抗赛首胜!2026中韩女子五强对抗赛!

格斗联盟王大锤
2026-05-05 04:32:47
仰天长叹后跺脚沮丧!19岁松岛抢五又输球 日媒:被逆转远低预期

仰天长叹后跺脚沮丧!19岁松岛抢五又输球 日媒:被逆转远低预期

颜小白的篮球梦
2026-05-04 09:18:03
身份证换新证后,必须马上做这3件事!少一件都不行

身份证换新证后,必须马上做这3件事!少一件都不行

椰青美食分享
2026-05-04 14:16:25
多所大学倒闭!失业教授能去中小学代课已属幸运

多所大学倒闭!失业教授能去中小学代课已属幸运

深度报
2026-05-04 22:16:43
女子啃老10年,自尽后老母亲收拾房间发现银行卡,查看余额后崩溃

女子啃老10年,自尽后老母亲收拾房间发现银行卡,查看余额后崩溃

白云故事
2025-03-17 07:55:10
2026-05-05 06:20:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16658文章数 514916关注度
往期回顾 全部

科技要闻

在中国市场搞「付费订阅」,豆包咋想的?

头条要闻

视频:特朗普出席活动前传枪声 特勤局出动封锁白宫

头条要闻

视频:特朗普出席活动前传枪声 特勤局出动封锁白宫

体育要闻

骑士破猛龙:加雷特·阿伦的活力

娱乐要闻

张敬轩还是站上了英皇25周年舞台

财经要闻

魔幻的韩国股市,父母给婴儿开户买股票

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

时尚
家居
数码
游戏
亲子

谁说每年都要穿新衣服?准备一些基础款,百搭耐看又不过时

家居要闻

灵动实用 生活艺术场

数码要闻

华硕推出ZenScreen OLED MQ16FC便携显示器:16英寸,280欧元起

PS6新爆料太狠了:SSD性能翻倍 还能玩PS5游戏

亲子要闻

外国妈妈生下我们姐弟仨,身份证上是什么民族?

无障碍浏览 进入关怀版