![]()
这对大模型落地端侧设备来说,算是个不小的突破。徐玉庄的经历挺特殊。
![]()
本科读的国防科大,之后在部队待了5年,再到清华拿硕士学位,现在在哈工大读博。
本来想简单说下他的背景就过,但后来发现,这种跨界经历怕是最有体会大模型落地的实际痛点。
毕竟从部队的问题导向思维,到高校的科研深耕,让他能跳出传统技术框架找解法。
![]()
现在的大型语言模型里,混合专家模型很常见。
这种模型就像个超级智库,遇到问题会激活特定专家来解答。
但问题也很明显,专家太多导致参数冗余,计算和存储成本都高得吓人。
更关键的是,增加专家带来的效能提升,远跟不上成本增长的速度。
之前行业里解决这个问题,主要靠两种粗放方式。
一种是直接砍掉整个专家团队,就像某个专家偶尔偷懒,直接把他团队解散,很容易丢了关键知识。
这两种方法的局限很明显,要么把专家当整体判断去留,要么只盯着单个参数矩阵压缩。
![]()
徐玉庄团队提出的“微专家”概念,算是打破了这个僵局。
他们把每个专家看作功能部门,微专家就是部门里独立负责具体任务的神经元小组。
这些微专家由跨三个矩阵的特定行列定义,协同完成基础的知识转换。
很显然,这种从“整体专家”到“微专家”的视角转换,抓住了大模型压缩的核心痛点。
![]()
CAMERA技术的核心,是给每个微专家打分。
他们设计了一个能量指标,由激活系数和权重向量范数两部分组成。
激活系数看微专家被调用的频率和强度,权重向量范数看它自身的知识储备规模。
能量越高,说明这个微专家越重要。这个思路不算复杂,但效率是真高。
![]()
而且他们还从数学上证明了,这种基于能量排序的压缩方法,和理论最优方法的差距是可控的。
要知道,这类型的组合优化问题在数学上属于NP难题,很难在短时间内精确求解,他们这个近似解法算是解决了实际应用的效率问题。
基于这个排序,团队推出了CAMERA-P剪枝技术。
![]()
按能量排名移除低贡献的微专家,同时剪除对应三个矩阵的特定行列。
这样做能保持功能完整,还能加速推理,最关键的是不用重新训练模型。
实验数据显示,在Qwen2-57B、DeepSeek-MoE-16B等模型上,20%到60%的压缩比例下,9项任务的表现都超过了现有方法。
如此看来,这种精准剪枝的效果确实经得起验证。除了剪枝,他们还做了CAMERA-Q量化技术。
![]()
传统量化是按专家级别分配比特位,活跃专家用高精度,不活跃的用低精度。
但徐玉庄团队认为这还不够细,每个专家内部的微专家重要性也不同。
于是他们按微专家的能量分配比特位,高能量的用高比特保细节,中等能量的用标准比特稳性能,低能量的用低比特省空间。
实验证明,2比特平均精度下,这种方法的效果比传统量化好不少。
![]()
对普通用户来说,最直接的好处就是端侧设备能用上高性能大模型了。
现在手机上的AI模型大多是10亿参数以内的,有了这项技术,570亿参数的模型压缩后,说不定能在旗舰手机上流畅运行,语音助手、本地AI办公这些场景的体验都会升级。
对企业来说,模型压缩能减少服务器资源消耗,降低运营成本。
![]()
如此一来,AI服务的价格或许能降下来,更多中小企业也能用得起。
而在生物、医药这些需要复杂AI模拟的科研领域,轻量级的高性能模型能降低科研门槛,让更多中小机构参与到前沿探索中。
徐玉庄现在还在面壁智能实习,这家公司本来就侧重端侧大模型业务。
毫无疑问,这种产学研结合的模式,能让CAMERA技术更快落地。
![]()
他自己也说,未来会继续深耕大模型领域。更何况,CAMERA技术还能和模型蒸馏、稀疏化等技术结合,实现更高的压缩率。
总的来说,CAMERA技术的突破,不仅是学术上的创新,更给大模型端侧普及提供了可行方案。
从思维跃迁到技术落地,徐玉庄团队的探索,让我们看到了大模型从云端走向端侧的更多可能。
或许用不了多久,我们的手机、智能手表上,就能运行现在需要庞大算力支撑的尖端AI模型了。
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.