网易首页 > 网易号 > 正文 申请入驻

高通万卫星:混合AI与分布式协同是未来 | MEET2026

0
分享至

  • 编辑部 整理自 MEET2026
    量子位 | 公众号 QbitAI

从“感知”到“生成”,再到自主行动的“智能体”,AI正在终端侧掀起一场无声的算力革命。

量子位MEET2026智能未来大会上,高通公司AI产品技术中国区负责人万卫星指出:

  • 尽管目前行业关注点仍然集中在生成式AI上,但整个产业其实正呈现出从生成式AI向智能体AI演进的路线。

他将这一演进过程梳理为四个阶段——从传统的感知AI出发,历经当前的生成式AI、正在到来的智能体AI,最终迈向理解真实定律的物理AI。

而目前产业正处于从“生成”向“智能体”跃迁的关键窗口期,终端侧的能力也正从单一文字模态,向全模态交互加速演进。



在他看来,在端侧运行大模型,最大的护城河在于“个性化”——在离数据产生最近的地方做推理,不仅能实现隐私保护,更能提供无需联网的即时响应。

然而,要在手机、PC等高集成度设备上部署百亿级参数模型,必须直面内存受限、带宽瓶颈与功耗控制这三大挑战。 对此,万卫星分享了高通的破局之道。

最后,对于未来的终端体验,他描绘了一个混合AI与分布式协同的图景——智能眼镜、手机、汽车将实现跨端的AI推理。

为了完整体现万卫星的思考,在不改变原意的基础上,量子位对演讲内容进行了编辑整理,希望能给你带来更多启发。

MEET2026智能未来大会是由量子位主办的行业峰会,近30位产业代表与会讨论。线下参会观众近1500人,线上直播观众350万+,获得了主流媒体的广泛关注与报道。

核心观点梳理
  • AI应用的演进,可以分为感知AI、生成式AI、智能体AI和物理AI四个阶段。
  • 从模态来看,终端侧正在从单一文字模态,向多模态甚至全模态方向演进。
  • 生态系统从单体模型向复合系统的转变是迈向智能体AI的基础。
  • 在终端侧运行大模型,最大的好处之一是个性化。
  • 在终端侧运行大语言模型主要面临内存限制、带宽限制和功耗控制等挑战。
  • 为解决这些挑战,高通进行了一系列技术储备与预研:量化与压缩、并行解码技术等以提高推理效率、先进NPU与异构计算架构。



以下为万卫星演讲原文

AI应用演进的四个阶段

今天我想跟大家分享一下高通在终端侧AI以及混合AI上的成果和思考。

首先,我们来看一下AI应用在整个行业中的演进。

第一个阶段可以称之为感知AI,包括大家比较熟悉的、传统的自然语言处理、语音降噪、图片识别和分割等AI技术,都属于这个范畴。

这些技术其实在很多年前就已经在许多终端侧设备上实现商业化落地。

第二个阶段是生成式AI,是随着ChatGPT的兴起而来的,这一阶段主要基于大量数据进行预训练,并在人类监督下完成某类具体任务

包括文生图、聊天机器人,或是利用大模型进行翻译等在内,都属于“生成式AI”。



第三个阶段,我们称之为智能体AI

与生成式AI相比,智能体AI可以在几乎没有人类监督或无干预的情况下,进行自主行动、预测、意图理解与任务编排。

我们能够看到,尽管目前行业关注点仍然集中在生成式AI上,但整个产业其实正呈现出从生成式AI向智能体AI演进的路线

第四个阶段,我们叫做物理AI

在这个阶段,AI可以理解真实的物理世界,并根据真实的物理定律与规律做出相应的反馈和响应。

目前,物理AI尚处于研究和探索的初期。

端侧AI的优势和挑战

我们看到在终端侧生成式AI的生态中,模型尺寸正在不断增大——

  • 目前手机可以支持将近100亿参数的大模型部署;
  • PC可以支持约200亿参数的大模型终端侧部署;
  • 在车载场景中,模型支持的规模则更大,可部署的参数量级已达到200亿至600亿之间。



在模型尺寸不断扩大的同时,模型质量也不断提升。

今年年初我们已经能够将支持思维链(CoT)和推理能力的模型完全部署在端侧。

同时,端侧模型所支持的上下文长度也在显著增长——从两年前端侧仅能处理1K到2K的上下文,到去年已提升至4K,而今年则已能够支持8K到16K的典型用例在端侧进行部署。

事实上,就像我们在今年9月的骁龙峰会上展示的那样,在某些特殊场景下,已经可以实现128K上下文窗口的端侧大模型部署。

从模态的角度来看,终端侧AI也呈现出从单一的文字模态,向支持文本、图片、视频、音频、语音等多模态,甚至全模态演进的趋势。



再来看一下在端侧运行AI的优势,以及所面临的挑战。

我们认为在终端侧运行大模型或AI,最大的好处之一是个性化

数据的产生都在终端侧,在距离数据产生最近的地方做推理,是自然而然的事情,同时也非常有利于保护用户的隐私和安全。

和云端相比,端侧还具备两个优势,一是完全免费,二是无需任何网络连接。

那么挑战有哪些呢?在这里我想着重分享两点。

首先是内存限制,终端侧有限的内存大小限制了可运行模型参数量的大小,从而约束了终端侧模型的能力上限。

其次是带宽限制,终端侧有限的带宽决定了AI的推理速度,因此会影响用户体验。

当然,在手机这类集成度非常高的终端去运行大语言模型,对能效控制也提出了极致要求,因为如果功耗过高,就容易触发设备的温控机制。



面对这些挑战,高通公司都有哪些技术储备和预研呢?

第一是量化和压缩。从8 bit、4 bit到今年实现的2 bit,通过更极致的量化压缩,我们使端侧能够支持的模型尺寸越来越大,其所占用的内存越来越小;

第二是在端侧带宽约束下,我们采用并行解码技术以提高大语言模型的token速率;

第三是通过先进的NPU,包括eNPU的架构和领先的异构计算系统,我们让端侧AI从以往的被动式服务向主动式、个性化的AI服务迈进。



接下来,我想就并行解码技术再进行展开讲解。

当前大语言模型大部分是基于自回归架构,它需要把所有的输入和权重全部加载到内存中,才能生成一个token。

从效率的角度来讲,这是非常不经济的行为。尤其是随着模型规模持续增大,token的生成速度会非常慢,进而导致时延增加、影响用户体验。

高通通过并行解码技术,先在端侧运行一个较小的草稿模型,一次性推理出多个token,然后将这些token交予原始的、较大的模型进行校验。



因为草稿模型是基于原始大模型训练而来,在原始大模型上进行token验证时,能够保证较高的接受率,从而实现并行解码,达到提高端侧解码速度的目的。

从生成式AI向智能体AI演进

我们正处在从生成式AI向智能体AI演进的路径上。

从用例的角度来讲,生成式AI主要能支持关键的“单体”用例,比如实时翻译、文生图或者内容创作、摘要、续写等任务。



智能体AI是更复合、更复杂、更主动式的AI服务。

实现智能体AI需要许多基础模块,首先需要一个具有推理能力的大模型,它可以在端侧或者云上运行以理解用户意图;

在理解用户的意图和任务之后,智能体可以通过查询个人知识图谱等个人本地数据,生成个性化的任务编排;

最后,智能体还要通过调用本地或云上的API执行相应的任务。



下面可以看一个具体的智能体AI用例。

用户可以利用智能体发布微博,这个过程中首先要通过自然语言和智能体进行交互。

当智能体理解了用户“需要发布微博”的意图后,会打开微博APP,搜索需要发布的照片,同时根据用户过往的个人偏好给照片加滤镜,最终完成整个发布过程。

不仅如此,用户还可以通过自然语言交互监测回复,并进行相应操作,比如我特别喜欢某个评论时,可以去点赞或回复。

这个用例在今年9月的骁龙峰会上进行展示时,整个流程是全部运行在端侧的。

除了手机之外,高通的芯片也覆盖了丰富品类的产品,包括智能眼镜、PC、汽车、智能手表、IoT等产品,并且我们能够支持所有骁龙设备之间的智能互联。



大家可以想象一下,智能眼镜、智能手表等算力较小的设备,可以通过Wi-Fi或者蓝牙与手机、汽车连接,去共享它们之间的本地数据,将大模型推理从较小设备中转移到手机、PC甚至汽车等算力较大的设备上,实现分布式的个性化大模型推理

最后,我们相信AI体验在未来会向混合AI的方向发展。



也就是说,在终端侧运行垂类的、比较高效的模型,提供更好的、更安全的个性化AI服务;在云端,运行更大尺寸的模型,提供能力更强、更通用、更极致的AI服务。

高通公司也将凭借低时延、高速且安全的连接技术,确保混合AI场景下的端云协同和端云连接。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
丧夫仅5个月,49岁翁帆突传“喜讯”高调露面,状态好到出人意料

丧夫仅5个月,49岁翁帆突传“喜讯”高调露面,状态好到出人意料

冷紫葉
2026-03-24 19:12:36
票房惨淡,引进片为何加速失去中国观众

票房惨淡,引进片为何加速失去中国观众

经济观察报
2026-03-25 16:05:24
伊朗拒绝美国停战方案并提出伊方5项条件

伊朗拒绝美国停战方案并提出伊方5项条件

新京报
2026-03-25 23:58:14
皖南事变前夕,党内有高级干部突然提前转移,他后来怎么样了

皖南事变前夕,党内有高级干部突然提前转移,他后来怎么样了

历史龙元阁
2026-03-26 13:50:08
中央部委密集表态,楼市跌势已到尽头,今明两年持有房产最稳妥

中央部委密集表态,楼市跌势已到尽头,今明两年持有房产最稳妥

复转这些年
2026-03-26 09:17:43
张雪峰全马大众二级!张水华一句感叹,戳中所有跑者的心!

张雪峰全马大众二级!张水华一句感叹,戳中所有跑者的心!

老王谈跑步
2026-03-26 13:15:29
“鸟面妈妈”王小妞:不听劝阻生二胎,儿子遗传其外貌,现如何

“鸟面妈妈”王小妞:不听劝阻生二胎,儿子遗传其外貌,现如何

观察者海风
2026-03-24 23:04:30
《冬去春来》章若楠的清醒账本:用三百万片酬,换一张正剧门票

《冬去春来》章若楠的清醒账本:用三百万片酬,换一张正剧门票

阿废冷眼观察所
2026-03-27 04:35:24
4-2,完败日本张本智和,世乒赛选拔赛:温瑞博1-3再丢参赛资格

4-2,完败日本张本智和,世乒赛选拔赛:温瑞博1-3再丢参赛资格

砚底沉香
2026-03-26 14:12:11
香港同框名场面:林志玲脸肿如发面馒头,56岁陈松伶干瘪却赢麻

香港同框名场面:林志玲脸肿如发面馒头,56岁陈松伶干瘪却赢麻

冷紫葉
2026-03-26 16:33:29
给人养了7年闲人,广汽终于要关闭洛杉矶的研发中心

给人养了7年闲人,广汽终于要关闭洛杉矶的研发中心

与车同乐
2025-12-04 10:05:02
江苏省未来缴费年限15年提高至20年,多缴多少钱?多领多少钱?

江苏省未来缴费年限15年提高至20年,多缴多少钱?多领多少钱?

暖心人社
2026-03-25 21:26:58
工人下岗的罪魁祸首是谁?

工人下岗的罪魁祸首是谁?

娱乐的硬糖吖
2026-03-21 08:52:45
孙芸芸升级当外婆!孩子父亲晒大量合影,和廖思维和平分手没跑路

孙芸芸升级当外婆!孩子父亲晒大量合影,和廖思维和平分手没跑路

八斗小先生
2026-03-26 14:40:39
伊朗伊斯兰革命卫队称击落一架美军F-18战机

伊朗伊斯兰革命卫队称击落一架美军F-18战机

环球网资讯
2026-03-26 06:37:05
一个女人,就算没有夫妻间的生理需求,也要跟老公睡在一张床上

一个女人,就算没有夫妻间的生理需求,也要跟老公睡在一张床上

加油丁小文
2026-02-26 07:30:04
当年劝乌克兰“为民生投降”,如今同一番话,原封不动送给伊朗

当年劝乌克兰“为民生投降”,如今同一番话,原封不动送给伊朗

老马拉车莫少装
2026-03-18 13:51:32
倒计时36天,黄金将爆发抛售潮?中国开始行动,邻国限制金条出口

倒计时36天,黄金将爆发抛售潮?中国开始行动,邻国限制金条出口

老范谈史
2026-03-27 03:35:07
偶遇沈月拍戏,个子不高的情况下胸大真的太吃亏了!

偶遇沈月拍戏,个子不高的情况下胸大真的太吃亏了!

TVB的四小花
2026-03-24 12:22:03
轰23+21+19创八纪录!约基奇背仅差32助达成场均三双 1点中锋第一

轰23+21+19创八纪录!约基奇背仅差32助达成场均三双 1点中锋第一

颜小白的篮球梦
2026-03-26 12:45:33
2026-03-27 05:24:49
量子位 incentive-icons
量子位
追踪人工智能动态
12348文章数 176425关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

教育
游戏
亲子
房产
公开课

教育要闻

2026年高考可能“扎堆报考”的五大专业:就业缺口大,稳定且高薪

PS1大IP游戏藏私货!成人手绘与盗版马里奥ROM塞满

亲子要闻

试工育儿嫂被查出传染病,宝妈崩溃!家政服务“健康关”如何保障?

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版