2024年,高通骁龙8 Gen3的神经网络引擎每秒能跑45万亿次运算。这个数字放在三年前,需要一台服务器机柜才能搞定。
现在它躺在你裤兜里。
云端依赖症,正在退烧
AI行业有个老毛病:遇到问题先堆算力,再拉根网线。语音助手听不懂?传云端。照片要修图?传云端。导航预测路况?还是传云端。
这套玩法养肥了数据中心,也养出了三大顽疾。延迟——从点击到响应,数据要跑个往返马拉松;隐私——你的声纹、人脸、健康数据在别人的硬盘上裸奔;断网即残废——进电梯、坐飞机、到偏远地区,AI瞬间变砖。
端侧AI(在本地设备运行机器学习模型)的解法粗暴但有效:别传了,就在本地算。
2026年的临界点
今年成为拐点的理由很实在。手机SoC的NPU(神经网络处理器)算力三年涨了8倍,内存带宽追平五年前的笔记本。更关键的是模型压缩技术——把原本需要A100显卡跑的模型,删减到能在手机芯片上流畅推理。
谷歌Gemini Nano、苹果MLX、高通AI Stack,三家路线不同,目标一致:让设备在离线状态下完成80%的日常AI任务。
一位参与Android系统开发的工程师透露,2025年旗舰机的本地大模型响应延迟已压到200毫秒以内,「用户基本感觉不到和云端的区别」。
谁睡不着了
云厂商的焦虑写在财报里。AWS、Azure、Google Cloud的AI推理收入增速,2024年下半年开始明显放缓。企业客户的提问变了:「这个模型能不能私有化部署?」「推理成本能不能按设备一次性买断?」
硬件厂商却在开香槟。联发科天玑9400的NPU算力专门优化Transformer架构,苹果M4的神经网络引擎支持运行70亿参数模型。连一向保守的英特尔,也把NPU算力写进了酷睿Ultra的卖点首位。
一个被忽略的细节:端侧AI的功耗反而更低。本地推理省去了射频传输的能耗,手机续航在AI重度使用场景下反而延长了15%-20%。
还没解决的硬骨头
模型体积仍是天花板。70亿参数压缩后也要占用3-4GB存储,对128GB手机用户不够友好。多模态融合——同时处理语音、图像、传感器数据——本地算力 still 吃紧。
更隐蔽的冲突在于生态。云端AI靠订阅制收钱,端侧AI倾向一次性买断。商业模式的迁移,比技术迁移痛苦十倍。
当你的手机能在飞行模式下流畅运行大模型,云服务的「按需付费」故事,还讲得下去吗?
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.