微信把这技术藏了3年，Arm SME2优化细节终于公开|arm|流水线|开源模型

微信把这技术藏了3年，Arm SME2优化细节终于公开

2026-04-09 16:05:25　来源: Ping值焦虑

北京举报

分享至

Arm 最近有点忙。一边在服务器市场跟 x86 掰手腕，一边在端侧 AI 领域偷偷憋大招。SME2（Scalable Matrix Extension 2）就是那个被藏起来的关键牌——简单来说，它让手机跑大模型时，算矩阵乘法的姿势更优雅了。

微信团队这次没客气，直接把 XNet 引擎的优化实践摊在了桌上。他们面临的场景很典型：用户想在本机跑个 7B 参数的模型，但电池和散热都不答应。SME2 的价值在于，它把原本要拆成好几条指令的操作，压缩成一条就能喂给硬件，省下的不只是时间，还有发烫的掌心。

多核协同是另一个暗战。单核性能再强，遇到长序列也喘粗气。微信的做法是把计算图切成细块，像流水线一样摊到多个核心上，谁干完谁领新任务。这种"抢单制"比固定分工更抗波动，毕竟手机后台随时可能蹦出个消息推送。

eBay 那边则是另一个维度的务实。支付风控的模型迭代，卡脖子环节往往是数据标注——坏人作案手法变得快，标注规则追不上。他们的解法是用已有模型先筛一遍，把"模棱两可"的样本挑出来给人看，省下的精力够团队多跑两轮实验。

两场分享有个共同点：都不追求单点炫技，而是盯着端到端的耗时往下抠。Arm SME2 再强，也得有人把它翻译成实实在在的推理加速；数据标注再智能，也得嵌入到模型迭代的流水线里才算数。技术会议的价值，有时候就是把这些"怎么接起来"的细节摊开给你看。

微信工程师在 Q&A 环节提了一句：XNet 在部分机型上的首 token 延迟，已经从"明显可感知"压进了"无感区间"。这个表述很产品经理——不聊 TOPS，不聊带宽，只问你用起来还觉不觉得卡。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

微信把这技术藏了3年，Arm SME2优化细节终于公开

半夜被燃烧瓶砸醒，OpenAI CEO发文反思

霍尔木兹海峡突传大消息 特朗普最新发声

霍尔木兹海峡突传大消息 特朗普最新发声

换帅之后，他们从降级区冲到升级区

郑钧回应儿子走路：会监督他挺直腰板

从日本翻身看：这次谁能扛住高油价？

焕新极氪007/007GT上市 限时19.39万起

态度原创

排面拉满！《影之刃零》入选国家级艺术杂志

土地供应突然暴跌！2026海口楼市，格局大变！

“粤超”热潮下萌娃出动！深圳一幼儿园成立5支班级足球队

全球首款阔折叠卖爆！华为Pura X一年出货量超150万台

霍尔木兹海峡突传大消息特朗普最新发声

霍尔木兹海峡突传大消息特朗普最新发声

焕新极氪007/007GT上市限时19.39万起