端侧AI把1.2亿参数塞进手机，云端巨头集体失眠|算力|引擎|神经网络|开源模型

端侧AI把1.2亿参数塞进手机，云端巨头集体失眠

2026-04-13 14:55:52　来源: 灰度测试中

北京举报

分享至

2024年，高通骁龙8 Gen3的神经网络引擎每秒能跑45万亿次运算。这个数字放在三年前，需要一台服务器机柜才能搞定。

现在它躺在你裤兜里。

云端依赖症，正在退烧

AI行业有个老毛病：遇到问题先堆算力，再拉根网线。语音助手听不懂？传云端。照片要修图？传云端。导航预测路况？还是传云端。

这套玩法养肥了数据中心，也养出了三大顽疾。延迟——从点击到响应，数据要跑个往返马拉松；隐私——你的声纹、人脸、健康数据在别人的硬盘上裸奔；断网即残废——进电梯、坐飞机、到偏远地区，AI瞬间变砖。

端侧AI（在本地设备运行机器学习模型）的解法粗暴但有效：别传了，就在本地算。

2026年的临界点

今年成为拐点的理由很实在。手机SoC的NPU（神经网络处理器）算力三年涨了8倍，内存带宽追平五年前的笔记本。更关键的是模型压缩技术——把原本需要A100显卡跑的模型，删减到能在手机芯片上流畅推理。

谷歌Gemini Nano、苹果MLX、高通AI Stack，三家路线不同，目标一致：让设备在离线状态下完成80%的日常AI任务。

一位参与Android系统开发的工程师透露，2025年旗舰机的本地大模型响应延迟已压到200毫秒以内，「用户基本感觉不到和云端的区别」。

谁睡不着了

云厂商的焦虑写在财报里。AWS、Azure、Google Cloud的AI推理收入增速，2024年下半年开始明显放缓。企业客户的提问变了：「这个模型能不能私有化部署？」「推理成本能不能按设备一次性买断？」

硬件厂商却在开香槟。联发科天玑9400的NPU算力专门优化Transformer架构，苹果M4的神经网络引擎支持运行70亿参数模型。连一向保守的英特尔，也把NPU算力写进了酷睿Ultra的卖点首位。

一个被忽略的细节：端侧AI的功耗反而更低。本地推理省去了射频传输的能耗，手机续航在AI重度使用场景下反而延长了15%-20%。

还没解决的硬骨头

模型体积仍是天花板。70亿参数压缩后也要占用3-4GB存储，对128GB手机用户不够友好。多模态融合——同时处理语音、图像、传感器数据——本地算力 still 吃紧。

更隐蔽的冲突在于生态。云端AI靠订阅制收钱，端侧AI倾向一次性买断。商业模式的迁移，比技术迁移痛苦十倍。

当你的手机能在飞行模式下流畅运行大模型，云服务的「按需付费」故事，还讲得下去吗？

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

端侧AI把1.2亿参数塞进手机，云端巨头集体失眠

云端依赖症，正在退烧

2026年的临界点

谁睡不着了

还没解决的硬骨头

"抄作业"近四年，马斯克版微信周五上线

上海女子2个月内结2次婚 生下的孩子却是第3个男人的

上海女子2个月内结2次婚 生下的孩子却是第3个男人的

一支球队不够烂，也是一种悲哀

初代“跑男团”合体，邓超、鹿晗缺席

谈判未完全关闭？3国力促美伊重启谈判

不止命名更纯粹 领克10/10+要做纯电操控新王

态度原创

你绝对想不到！这位美女画家的夏天竟如此梦幻！

老师们活的通透的几大标准，看看你做到了吗？

壹号本ONEXStation i1迷你主机发售，18999元

6000亿投资盛宴，全球巨头齐聚，海南又要干件大事！

上海女子2个月内结2次婚生下的孩子却是第3个男人的

上海女子2个月内结2次婚生下的孩子却是第3个男人的

不止命名更纯粹领克10/10+要做纯电操控新王