Arm 最近有点忙。一边在服务器市场跟 x86 掰手腕,一边在端侧 AI 领域偷偷憋大招。SME2(Scalable Matrix Extension 2)就是那个被藏起来的关键牌——简单来说,它让手机跑大模型时,算矩阵乘法的姿势更优雅了。
微信团队这次没客气,直接把 XNet 引擎的优化实践摊在了桌上。他们面临的场景很典型:用户想在本机跑个 7B 参数的模型,但电池和散热都不答应。SME2 的价值在于,它把原本要拆成好几条指令的操作,压缩成一条就能喂给硬件,省下的不只是时间,还有发烫的掌心。
多核协同是另一个暗战。单核性能再强,遇到长序列也喘粗气。微信的做法是把计算图切成细块,像流水线一样摊到多个核心上,谁干完谁领新任务。这种"抢单制"比固定分工更抗波动,毕竟手机后台随时可能蹦出个消息推送。
eBay 那边则是另一个维度的务实。支付风控的模型迭代,卡脖子环节往往是数据标注——坏人作案手法变得快,标注规则追不上。他们的解法是用已有模型先筛一遍,把"模棱两可"的样本挑出来给人看,省下的精力够团队多跑两轮实验。
两场分享有个共同点:都不追求单点炫技,而是盯着端到端的耗时往下抠。Arm SME2 再强,也得有人把它翻译成实实在在的推理加速;数据标注再智能,也得嵌入到模型迭代的流水线里才算数。技术会议的价值,有时候就是把这些"怎么接起来"的细节摊开给你看。
微信工程师在 Q&A 环节提了一句:XNet 在部分机型上的首 token 延迟,已经从"明显可感知"压进了"无感区间"。这个表述很产品经理——不聊 TOPS,不聊带宽,只问你用起来还觉不觉得卡。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.