网易首页 > 网易号 > 正文 申请入驻

三星研究院发布手机端侧大模型MeKi:基于Memory的LLM扩展新范式,支持旗舰手机端侧部署

0
分享至


三星发布MeKi,用手机ROM扩容大模型,性能媲美更大模型。

随着三星最新一代旗舰手机 Samsung Galaxy S26 的正式发布,移动端AI体验迎来了质的飞跃。新机集成了多种创新AI功能以及多款AI智能体。这些AI应用极大地丰富了用户的日常体验,也标志着智能手机正逐步转型为高度智能化的个人助理平台。然而,支撑这些复杂功能的背后,是对端侧大模型性能与效率的极致追求。

最近,三星研究院在上月发布了题为《MeKi: Memory-based Expert Knowledge Injection for Efficient LLM Scaling》的端侧大模型架构,提出一种全新的大模型扩展思路——通过存储空间来扩展模型容量、提升LLM的性能,而非依赖激活参数量和计算量的提升,这种新范式为在边缘设备部署高性能LLM提供了新的解决方案。

与传统的部署方式不同,MeKi架构巧妙地利用了手机上丰富的ROM存储空间,而非仅仅受限于RAM。在移动端 SoC 上,从ROM进行查找读取的操作相对廉价且能效高,且ROM带宽在大模型推理期间通常处于闲置状态,MeKi利用这一特性将ROM转化为模型知识的扩展存储库,从而缓解了内存(RAM)的压力。这种设计在不增加计算量(FLOPs)和推理时延的前提下,实现了模型容量与性能的显著提升。

文章地址:https://www.arxiv.org/pdf/2602.03359

项目主页:https://github.com/ningding-o/MeKi


01


核心痛点:边缘部署的计算与内存困境

当前大模型的主流扩展路径(增大参数量、提升推理时计算量)在数据中心表现优异,但在智能手机等边缘设备上面临致命瓶颈:

- 稠密模型参数量增加会导致浮点运算(FLOPs)激增,带来不可接受的延迟和功耗;

- 混合专家(MoE)架构虽通过稀疏激活降低单token计算量,但频繁加载离散专家权重会造成严重的内存访问延迟,成为边缘设备的主要性能瓶颈;

- 边缘设备的RAM和NPU资源有限,而ROM带宽在推理过程中大量闲置,现有方案未充分利用这一资源优势。

据此,研究团队提出了本文的核心动机:能否在不增加推理延迟和计算量的前提下,通过利用存储空间实现模型容量的有效扩展?


02


MeKi:将存储内容注入推理过程的LLM架构

MeKi(Memory-based Expert Knowledge Injection)通过"存储替代计算"的设计思路,实现模型容量与计算成本的解耦,其核心架构包含三大关键组件:

1. token级专家知识:静态与动态知识融合

MeKi为每个Transformer层配备专属的知识库,将其视为token级专家的集合,用来存储在预训练阶段学习到的语义知识。每个token的专家向量由两部分融合而成:

- 静态知识:通过token ID从一个静态的词嵌入矩阵中直接查询,存储基础语义知识;

- 动态知识:在训练阶段通过非线性投影从全局词嵌入中合成特定的特征向量,增强表示能力;

两者经过归一化处理后,由逐层可学习的系数进行加权调节,形成最终的专家知识向量。

模型每层所用的专家知识库的大小为 ,为了控制ROM空间的占用,我们控制知识向量的维度 远小于模型的hidden size ( )。

2. 低秩门控融合:高效的知识注入机制

为了将专家知识高效率的注入到Transformer的前向传播过程中,MeKi采用了一种低秩空间下的加法门控融合策略:

首先利用低秩线性投影和激活函数利用输入FFN模块的token hidden state来生成与上下文相关的低维门控信号(维度为 ),门控信号与检索到的专家知识向量相加,从而实现了hidden state与知识的动态融合;融合后的embedding(维度为 )经过升维的线性投影被映射回模型维度( ),最终通过残差连接融入主数据流。

该设计使得MeKi模块可以与FFN模块并行运行,实现模型容量的隐式扩展,且低秩空间下的融合操作拥有很少的FLOPs开销,几乎不会增加额外计算量。

3. 重参数化策略:训练复杂度与推理效率的平衡

为解决训练阶段的计算复杂与推理阶段需要高效部署的矛盾,MeKi提出使用重参数化技术来进一步降低推理阶段的FLOPs开销。

在训练阶段,MeKi保留动态的非线性投影等复杂结构,最大化模型的表征学习能力;部署之前,将MeKi模块中的动态投影和归一化层等操作进行预先计算、并融合成为统一的静态查找表,形成紧凑的ROM存储结构;在推理时,MeKi仅需通过token ID进行查找,其I/O过程以及轻量级特征融合可以实现几乎零延迟的极低额外开销。

03


实验验证:端侧性能与推理效率的双重突破

研究团队在基于Qualcomm Snapdragon 8 Elite的安卓移动平台上,对激活参数量为0.6B、1.7B、4B三个规模的MeKi模型进行了全面验证,核心结果如下:

1.性能对标更大参数量的模型:MeKi-1.7B模型在10个下游基准测试中平均得分59.7,与4B稠密模型(60.5)性能相当;

2.推理效率保持最优水平:MeKi通过将知识权重卸载到ROM空间,保持与同参数量稠密模型一致的推理速度:MeKi-1.7B模型在端侧的解码速度达13.7 token/s,是4B稠密模型(6.1 token/s)的2.26倍;


3.极低的ROM带宽需求:重参数化之后的推理阶段仅需少量的内存查找操作,对于28层的Transformer模型,每个token所需的ROM数据传输量仅为14KB,完全适配移动设备的存储带宽。

4.超越同期其他基于存储的LLM架构: MeKi-1.7B在10项下游任务上的平均得分为59.7,与DeepMind的PLE(57.0分)和DeepSeek的Engram(57.9分)等ROM扩展方案相比,分别超出了2.7和1.8个百分点,验证了本方法在融合ROM知识的机制上的优越性。


04


关键洞察:架构设计消融分析

研究团队通过一系列的消融实验进一步揭示了MeKi架构性能优势的核心来源:

静态知识+动态知识的融合:作者在0.6B参数量的模型上实验了两种知识来源的协同作用,与只使用单一知识来源的变体相比,两种知识互补之后分别提升了0.7和0.8个点,验证了知识互补的价值;


最优的知识注入位置:作者实验了将MeKi模块插入到模型中的不同位置上,其中MeKi与FFN并行的部署方式效果最佳,较其他位置(例如与Attention并行、放在FFN之后)平均提升0.4-0.8个百分点;



最优的融合方式:在对token 的hidden state和ROM专家知识进行融合时,作者提出了 “相乘后Sigmoid”、“相加后Sigmoid”、“相乘后SiLU”、“相加后SiLU”四种门控融合策略,其中相加后Sigmoid方案的Training Loss最低,实验得到的模型性能最优;



知识库容量的扩展定律:作者通过实验证明了MeKi架构的模型性能会随着ROM中存储的知识容量呈对数线性增长,通过改变预训练阶段的知识向量维度( )即可调整模型的知识容量。为了实现性能与存储成本的平衡,作者将MeKi-0.6B模型的 设置为128,MeKi-1.7B模型的 设置为256。


05


总结与展望

MeKi架构打破了"性能提升依赖计算量增加"的传统认知,通过"ROM替代RAM"的内存化扩展范式,首次实现了边缘设备上"零延迟开销+大模型性能"的双重目标。,为智能手机、物联网设备等边缘场景部署高性能LLM提供了全新思路。

对于深度集成AI功能的手机产品,MeKi架构意味着用户可以运行性能更强大的本地大模型,在保护隐私的前提下,享受更精准的智能体服务和更流畅的影像处理体验,而无需担心网络延迟导致的体验割裂,这手机真正地成为了懂知识、懂场景的“私人口袋专家”。

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
突发!卡塔尔首都遭导弹袭击

突发!卡塔尔首都遭导弹袭击

新快报新闻
2026-03-06 10:15:08
CBA疯狂夜!积分榜乱了:广州爆冷,山东升第四,5队仅差1分

CBA疯狂夜!积分榜乱了:广州爆冷,山东升第四,5队仅差1分

阿错田间生活
2026-03-05 22:54:30
德国人日常三餐曝光!6个习惯让人不去医院,国人看完沉默了?

德国人日常三餐曝光!6个习惯让人不去医院,国人看完沉默了?

路医生健康科普
2026-03-04 12:30:03
澳洲杨兰兰是谁?五层“身份套娃”揭秘:她或许根本就不存在

澳洲杨兰兰是谁?五层“身份套娃”揭秘:她或许根本就不存在

麦大人
2025-08-18 18:02:38
不得不说!宫鲁鸣做出了1个重要的决定,挽救了中国女篮

不得不说!宫鲁鸣做出了1个重要的决定,挽救了中国女篮

体育哲人
2026-03-05 12:38:35
凌晨4点皇马保卫战!输球将创27年之耻+西甲3连败 9人缺战

凌晨4点皇马保卫战!输球将创27年之耻+西甲3连败 9人缺战

叶青足球世界
2026-03-06 08:26:11
下手太狠了,廉价版 MacBook:能砍的地方全砍了

下手太狠了,廉价版 MacBook:能砍的地方全砍了

黑猫科技迷
2026-03-05 23:22:36
加拿大总理:难道任由霸权主义说了算?

加拿大总理:难道任由霸权主义说了算?

新华社
2026-03-05 18:02:14
第17波打击!以色列顶不住,连夜通电北京求助,中方强势回应

第17波打击!以色列顶不住,连夜通电北京求助,中方强势回应

荐史
2026-03-05 00:16:27
莫迪惊了!他万万没想到,美国与伊朗开战,最大输家却是印度

莫迪惊了!他万万没想到,美国与伊朗开战,最大输家却是印度

起喜电影
2026-03-06 06:54:00
全国政协委员施乾平:应在海外重点地区试点设立“中国籍人员子女学校”

全国政协委员施乾平:应在海外重点地区试点设立“中国籍人员子女学校”

经济观察报
2026-03-05 08:56:05
两会开始才1天,已有4位演员的建议火出圈,句句直戳全国观众心窝

两会开始才1天,已有4位演员的建议火出圈,句句直戳全国观众心窝

墨印斋
2026-03-06 10:21:53
美军发布摧毁中国造防空导弹画面,它曾击落过大名鼎鼎的U2侦察机

美军发布摧毁中国造防空导弹画面,它曾击落过大名鼎鼎的U2侦察机

爱吃醋的猫咪
2026-03-05 21:05:02
冲突第7天,中俄都意识到同一个问题,海湾国家已经站在十字路口

冲突第7天,中俄都意识到同一个问题,海湾国家已经站在十字路口

李健政观察
2026-03-06 09:54:45
全球唯一明朝状元卷,字迹如机器印刷,无一处笔误,看完无地自容

全球唯一明朝状元卷,字迹如机器印刷,无一处笔误,看完无地自容

收藏大视界
2026-03-03 17:33:09
澳政客承认在停车场厕所与13岁男孩发生性关系,但称对方谎报年龄

澳政客承认在停车场厕所与13岁男孩发生性关系,但称对方谎报年龄

石辰搞笑日常
2026-03-06 01:11:55
华国锋担任中央主席时,中央先后任命了15位开国将帅辅佐他

华国锋担任中央主席时,中央先后任命了15位开国将帅辅佐他

雍亲王府
2026-03-02 15:55:03
消息称苹果MacBook Neo未配A19 Pro芯片原因是台积电产能受限

消息称苹果MacBook Neo未配A19 Pro芯片原因是台积电产能受限

IT之家
2026-03-06 10:25:09
B-52“同温层堡垒”加入对伊朗打击,释放了什么信号?

B-52“同温层堡垒”加入对伊朗打击,释放了什么信号?

南文视界
2026-03-05 08:00:23
美伊开出停战条件,伊朗内部形成共识,让强硬派放开手脚打一场

美伊开出停战条件,伊朗内部形成共识,让强硬派放开手脚打一场

面包夹知识
2026-03-03 14:54:40
2026-03-06 11:03:00
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7104文章数 20736关注度
往期回顾 全部

数码要闻

4599元起!苹果发布MacBook Neo:搭载A18 Pro芯片,回归多彩铝合金机身

头条要闻

上海一男子银行取20万出门遭"抢劫" 警方查完直呼离谱

头条要闻

上海一男子银行取20万出门遭"抢劫" 警方查完直呼离谱

体育要闻

跑了24年,他终于成为英超“最长的河”

娱乐要闻

周杰伦社交媒体晒昆凌,夫妻感情稳定

财经要闻

黄金,牛市没了?!

科技要闻

独家|除夕加班、毫无黑料!林俊旸无奈离场

汽车要闻

710km长续航+闪充 宋Ultra EV预售15.5万起

态度原创

教育
时尚
健康
旅游
本地

教育要闻

别焦虑!兰州大学2025年招生三大亮点

看来看去还是这些穿搭最高级,不老套、不死板,舒适又显气质

转头就晕的耳石症,能开车上班吗?

旅游要闻

三八节福利!台儿庄古城对全国女性大放价!

本地新闻

食味印象|一口入魂!康乐烤肉串起千年丝路香

无障碍浏览 进入关怀版