手机跑100亿参数大模型，高通把AI塞进你口袋|智能体|上下文|二合一平板电脑

手机跑100亿参数大模型，高通把AI塞进你口袋

2026-03-30 15:06:48　来源: 像素与芯片

北京举报

分享至

3月27日，CFMS｜MemoryS 2026峰会在深圳举办。这场以"穿越周期，释放价值"为主题的聚会，把存储、芯片、AI大模型和汽车产业链的人凑到了一张桌上。高通公司AI产品技术中国区负责人万卫星在现场抛出一个判断：个人AI将始于端侧，我们正在迈向以AI和用户为中心的多终端体验。

万卫星把AI在行业应用的演进划了四个阶段。第一阶段是感知AI，语音降噪、图像识别这些已经烂大街了，手机计算摄影就是典型例子。第二阶段是生成式AI，ChatGPT、文生图模型都属于这类，需要大量数据预训练，在有监督环境下解决问题。第三阶段是智能体AI，跟前者的关键区别在于能在无监督状态下自主理解用户意图、行动决策，处理更复杂的任务。第四阶段是物理AI，让AI理解真实物理世界的规则并反馈输出，目前还在早期探索。

行业现在的注意力主要集中在第二和第三阶段。万卫星分享了一组端侧生成式AI的演进数据：三年前端侧上下文长度普遍只有1k-2k，两年前扩展到2k-4k，去年在高通与合作伙伴的探索中已提升到4k-8k，特定场景甚至能支持32k-128k。上下文越长，对KV缓存的需求越大，内存容量和带宽的压力也就越重。

模型参数方面，手机已能运行10亿到100亿参数级别的大模型，PC支持130亿到200亿，车载场景可达200-600亿。AR眼镜和低功耗设备也能让10亿-40亿参数的模型完全在端侧运行。去年9月的骁龙峰会上，高通还展示了与合作伙伴将50亿参数的全模态模型完整跑在端侧，用户可以用自然语言直接交互。

端侧部署的优势很实在：个人数据就在本地，源头推理既自然又保护隐私；不用联网，随时随地可用；成本也更低。但挑战同样具体——内存规模设定了模型大小的天花板，而模型大小又决定了AI能力的上限；内存带宽限制会影响token输出速度，拖慢用户体验；手机这类高集成度设备还要严防AI推理触发温控、导致发热。在内存、带宽、性能和能效之间找平衡，是高通和产业链伙伴一直在啃的硬骨头。

智能体AI的趋势指向三个方向：更低时延、更好个性化、持续无感的用户体验；从统一模型走向任务专业化，通过多智能体框架解决问题；从简单的对话语音助手进化成真正懂用户意图、上下文和感知信息的AI助手。

万卫星把智能体比作一个持续运行的闭环系统，包含感知、理解、推理、记忆、工具、执行等多个模块。这些模块整合后，智能体能理解用户意图、拆解任务并独立完成。更重要的是，终端侧智能体可以提供持续感知、持续思考、持续行动的体验。

高通过去两年一直在讲"AI是新的UI"。未来用户不再围绕单个APP或功能做交互，而是用语音或文本与智能体自然对话，由智能体理解意图、规划任务，再调用端侧大模型或云端通用大模型来完成。个人AI将从"以手机为中心"转向"以AI和用户为中心"，AI不再绑定具体设备，而是通过多设备灵活协同完成任务。

万卫星强调，个人AI始于终端侧，因为终端离用户最近、拥有全部用户信息，能第一时间感知意图、上下文和偏好。但它并非孤立运行，而是通过混合AI架构在终端侧、本地边缘、网络边缘和中央云之间协同。高通去年发布的第五代骁龙8至尊版移动平台、骁龙X2 Elite计算平台等产品，以及今年MWC亮相的基于AI200和AI250芯片的数据中心加速卡，都是这套布局的落子。

从手机、耳机、可穿戴设备、PC，到汽车、机器人、数据中心，高通试图用统一的AI架构贯穿所有产品线。万卫星的总结很直接：核心在于通过统一技术路线，提供高性能、高能效的软硬件底座，让AI能力从单颗芯片扩展为跨终端、跨场景的平台级能力。

峰会期间，高通因将业务从智能手机扩展至个人AI、智能可穿戴设备、PC、汽车、边缘网络及工业物联网等广泛边缘领域，推动AI在万物互联终端实现低延迟、高安全的本地化落地，获颁"年度AI生态杰出贡献奖"。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.