高通Nakul Duggal：边缘AI深度落地具身智能引领人工智能发展新范式|算法|机器人|计算机视觉|高通naku|世界人工智能大会

分享至

高通技术公司执行副总裁兼汽车、工业及嵌入式物联网与机器人事业群总经理Nakul Duggal

【环球网科技报道记者心月】MWC2026展会期间，高通技术公司执行副总裁兼汽车、工业及嵌入式物联网与机器人事业群总经理Nakul Duggal在2026世界互联网大会巴塞罗那论坛上，发表题为“推动工业AI与具身智能的规模化发展”的主旨演讲。他称，全球工业生态正迎来AI驱动的深度变革，智能正从云端向边缘侧深度下沉，边缘AI已在多场景实现落地，而具身智能作为人工智能发展的全新范式，正推动智能向物理世界深度嵌入，高通正通过技术创新与生态构建，助力工业AI与具身智能的规模化发展。

Nakul Duggal认为，过去产业发展的主流路径是将智能迁移至云端完成处理，而随着AI大规模部署，边缘侧正变得愈发智能，模型能力持续提升，这一趋势覆盖几乎所有的垂直行业生态，推动AI解决方案在多平台落地。如今AI在边缘侧的部署场景已十分广泛，涵盖移动应用、固定场景应用、无人化应用等各类应用场景及不同尺寸终端，行业正迎来根本性转变：边缘侧已具备环境感知能力，可直接自主做出决策，而这一能力在过去完全依赖云端实现。

他提到，过去五年间AI模型不断进化，不仅智能程度持续提升，更与运行的数据环境高度贴合，凭借更强的模式识别能力和真实场景中的持续学习优化能力，智能体在各应用场景中的能力不断增强。与此同时，机器到机器（M2M）应用也发生重大转变，从原本的云端数据采集处理，逐步实现独立智能运行；而大语言模型的发展，更让人机交互变得直接简单，将人纳入系统闭环后，这一轮由AI驱动的产业转型，正在各产业生态中全面展开。

据Nakul Duggal介绍，在边缘AI的落地实践中，高通已将XR技术成功引入工业、消费及商业应用生态，如今智能眼镜等终端已经能本地运行小型AI模型，可实现本地拍照、查询、处理并反馈结果，无需依托云端，这一技术进步彻底改变了一线工作人员的工作模式，也重构了边缘侧智能能力的部署与应用方式。而要实现边缘AI的广泛落地，需要全新的技术工具作为支撑，这类工具需具备处理结构化、半结构化、非结构化及合成数据的能力，能完成多类型数据的融合与整合，并基于这些数据完成模型的训练、微调与实际部署。

为推动边缘AI的规模化发展，Nakul Duggal强调生态系统构建的重要性，这也是高通的核心策略之一。过去六个月，高通完成对Arduino的收购，核心目的是将边缘AI与边缘计算技术交到数百万开发者手中，覆盖教育、商业、消费等多个领域。高通为开发者提供从硬件开发平台到开发工具链的完整能力，打造低成本的边缘硬件平台，让开发者能够实现数据访问、模型编程与边缘部署，同时通过反馈闭环完成模型的持续训练优化，最终推动复杂边缘AI应用在工业生态中落地。

在他看来，计算机视觉技术的演进正为边缘AI发展注入新动能，其正从传统形态逐步演进到视觉语言模型，并进一步迈向视觉-语言-行动模型（VLA模型）。这一演进重构了系统设计逻辑，实现了摄像头与连接能力的协同工作，可对场景完成完整的态势感知与分析，并将信息实时赋能整个产业生态。目前这类能力已在边缘固定摄像头、工业网关摄像头、无人机摄像头等多场景推进，依托专用、公共等各类无线网络实现连接，支持本地、云端或混合部署模式，而这些能力的实际落地，仅在过去24个月内快速实现，技术发展速度远超预期。同时他也表示，边缘智能的全面普及，还需要整个产业生态完成大量的能力建设与协同配合，推动网络架构的持续升级。

在演讲中，Nakul Duggal重点阐释了具身智能这一人工智能发展的新范式。他称，具身智能是智能被深度嵌入物理世界的全新发展方向，当下行业正朝着在机器人中实现通用智能的目标迈进，而生成式AI的出现成为关键驱动力，让智能系统摆脱了传统基于规则的模式，得以在云端、边缘侧、机器人等多场景构建具备持续学习能力的智能体系。

同时他也坦言，将具身智能应用于机器人领域仍面临诸多挑战。机器人运行于真实的物理非结构化环境，而非虚拟场景，在高精度操作、高速度响应以及人机协同工作等场景中，仍有大量工作需要完成，包括物理环境的定义、机器人的针对性训练等。目前行业仍处于这一转型的早期阶段，但人工智能技术的迭代速度，以及AI算法在特定任务上的精度和能力提升速度，已呈现明显加快的趋势。

Nakul Duggal称，高通在ADAS智能驾驶领域深耕多年，而智能驾驶本质上是一种运输机器人，核心是完成从A点到B点的运输任务，遵循既定规则并避开障碍物，基于规则的智能驾驶技术已发展多年，而Transformer人工智能技术的引入，正加速这一领域的创新发展。但物理机器人与运输机器人存在本质区别，其需要解决精度、操作范围、执行等核心问题，完成对物体的物理操作与具体任务，这也推动了技术架构的全新变革，模型正越来越依赖视觉、语言和行动的结合，并在此基础上持续提升系统的物理智能。

谈及具身智能系统的架构设计，Nakul Duggal称，具身智能系统中的物理硬件如同大脑和神经系统，这一“神经系统”此前并未被纳入人工智能生态系统的核心考量，而高通正投入大量精力探索统筹硬件组件的系统架构，并借鉴Daniel Kahneman提出的系统1思维，梳理系统需要构建的基础能力与核心组件。他认为，硬件本身、硬件的数据基础获取能力、硬件对机器人实际运行环境的接入能力，是具身智能发展的关键基础，这些因素决定了机器人任务相关数据的采集、模型的训练以及技能能力的转化，而结合持续的数据采集、技能训练与任务定制化硬件，将推动具身智能迈向全新发展阶段。

Nakul Duggal称，当下正处于人工智能发展的黄金时代，边缘AI的深度落地与具身智能的全新探索，为产业发展带来了无限机遇，未来行业将在这一领域不断突破，推动人工智能与物理世界的深度融合。

以下为演讲全文：

大家上午好！感谢各位的邀请。各位的发言非常精彩，很高兴能与在座各位同仁共聚一堂。

我们正看到，随着各行各业开始拥抱人工智能，整个工业生态系统正在经历一场巨大的变革。过去几年，当我们思考网络如何构建、产业如何发展以及解决方案如何部署时，主流路径是将智能迁移到云端，并在云端完成处理。然而，随着人工智能开始大规模部署，越来越多的行业正在重新思考：AI在日常工作中发挥的作用。正如多位同仁此前所提到的，边缘正变得越来越智能，模型能力也在不断提升，这使我们能够在多个平台上推动解决方案的落地。这一趋势几乎适用于所有垂直行业生态。

此外，我们开始看到AI在边缘侧部署的环境非常广泛。这些场景涵盖移动应用、固定场景应用，以及在许多情况下的无人化应用，当然还包括各种尺寸的终端。

当我们从更宏观的角度思考这一变化究竟意味着什么、究竟发生了哪些改变时，可以看到一个根本性的转变：随着边缘侧变得越来越智能，它正在具备环境感知能力（situational awareness），并能够在边缘侧直接做出决策，而在过去这需要依赖云端来完成。过去五年间，模型变得越来越智能，并且越来越贴合其运行的数据环境。随着模型具备更强的模式识别能力，并能够在真实世界运行中不断学习和优化，智能体正在各类应用场景中变得越来越智能。

与此同时，我们也正在看到机器到机器（machine-to-machine, M2M）应用的重大转变。过去，这类应用更多是采集数据并发送到云端处理；而现在，它们正逐渐在实现独立智能运行。除了机器之间的交互之外，随着大语言模型（LLM）的发展，当人被纳入系统闭环后，机器与人之间进行沟通和交互也变得非常直接和简单。而这一整轮转型，正在我们所处的每一个产业生态系统中展开。

在过去几年中，高通一直在一个重要领域表现突出，那就是将XR技术引入工业应用、消费应用以及商业应用生态之中。如今，人们已经可以在智能眼镜等设备上运行小型模型。例如，当你看到某个事物时，可以让眼镜拍下一张照片，并直接向设备提出问题。随后，这个查询请求可以被发送到你的手机，或同一系统中的本地设备，无需通过云端进行处理，然后再将答案返回给你。这种能力在过去是无法实现的。在与客户的交流中我们发现，这类技术进步正在彻底改变一线工作人员的工作方式，同时也在改变智能能力在边缘侧部署和应用的方式。

要让这一切真正发生，实际上需要使用全新的工具。你需要能够以新的方式处理数据——无论是结构化数据、半结构化数据，还是各种形式的非结构化数据，都必须具备处理能力。同时，还需要能够处理真实世界数据，在许多情况下还包括合成数据，并在不同场景中对数据进行很好地融合与整合。通过这些数据对模型进行训练，并进一步微调，最终将这些模型部署到实际应用中。

随着这一工具在越来越多的应用场景中运行，其能力正变得越来越强大，发展势头也在不断增强。通过这种方式，我们就有可能将人工智能真正推进到边缘侧。除了持续推出各类产品之外，我们采取的一个重要策略，是专注于构建生态系统。在过去六个月中，高通完成的一项重要收购就是Arduino。

我们意识到，当开始思考AI和边缘计算时，未来可能出现的应用场景几乎是无限的。实际上，很难提前预测或判断未来究竟会出现哪些具体应用。因此，我们采取的方法是：确保能够将技术交到数百万开发者手中。这一策略可以覆盖教育领域、商业领域以及消费领域。从硬件开发平台到开发工具链，我们为开发者提供完整的能力，使他们能够在边缘侧构建应用。

通过这样的方式，我们正在把这一整套能力整合起来，使开发者生态能够获得数据访问能力——无论是示例应用（sample apps），还是连接他们自己的数据库。同时，开发者还可以编程模型、在边缘硬件平台上部署模型，并且这一平台具有较低成本。这些模型随后可以通过反馈闭环不断训练与优化，并最终在广泛的工业生态系统中部署应用。正是通过这种方式，我们能够推动非常复杂的应用真正落地。

在这个例子中，我们可以看：计算机视觉正逐步演进到视觉语言模型，并进一步迈向视觉-语言-行动模型（VLA模型）。这一演进让我们能够以一种全新的架构方式来思考系统设计——例如摄像头与连接能力如何协同工作，从而对摄像头所看到的场景进行完整的态势感知与分析，并将这些信息实时提供给整个生态系统使用。

目前，我们正在多个应用场景中推进这类能力的发展。例如：部署在边缘侧的固定摄像头、安装在工业网关上的摄像头，以及安装在无人机上的摄像头。这些设备可以通过各种无线网络进行连接，无论是专用无线网络、公共无线网络，还是其他类型的专有或开放网络，都可以支持相关应用的运行，应用既可以结合云端能力，也可以使用本地部署的计算设备。因此，各种不同的部署模式都是可行的。而令人惊讶的是，这些能力真正变得现实，其实只是在过去大约24个月甚至更短的时间内发生的，发展速度非常快。

对我们来说，一个重要的认识是：客户正在采用的网络架构将会发生变化。正如大家刚才提到的，要让智能能力真正下沉到边缘侧，整个生态系统还需要完成大量的能力建设与协同。

我们正处在一个非常令人振奋的时代。我相信大家都会同意，“具身智能”（Embodied AI）是一个相对新的概念。我们过去并未充分认识到智能正被嵌入进物理世界，而如今，让物理实体具备智能、能够学习，并在学习过程中持续改进，已经成为一个全新的方向。我们正在朝着在机器人中实现通用智能的道路迈进。

从根本上看，生成式AI的出现带来了重要变化。它使我们能够摆脱传统基于规则的系统，转而构建能够适用于各种环境的智能系统——无论是在云端、边缘侧，还是在机器人之中——都能具备持续学习的能力。

当把这一能力应用到机器人领域时，一个非常有意思、但同时也充满挑战的问题是：机器人需要面对的环境往往并不是结构化环境。机器人并不是运行在虚拟世界中，而是运行在真实的物理世界里。因此，在很多方面仍然有大量工作需要完成，例如：如何定义机器人所处的物理环境，以及如何对机器人进行训练——尤其是在需要高精度操作、高速度响应，以及与人协同工作的场景下。

目前，我们仍处在这一转型的早期阶段。但人工智能发展的速度，以及AI算法在特定任务上不断提升精度和能力的速度，已经开始明显加快。

从高通公司的角度来看，这段发展历程其实非常有意思。我在高通负责多个业务领域，其中我们已经在ADAS智能驾驶领域深耕多年。我们逐渐认识到，从根本上来说，智能驾驶就是将人或货物从 A 点运输到 B 点。某种意义上，它其实是一种运输机器人。这种系统并不需要具备很高的灵活性，它主要需要做的是在遵循既定规则的前提下避开障碍物并完成路径行驶。因此，从智能驾驶的定义来看，可以说基于规则的智能驾驶其实已经存在了很长时间。而随着基于 Transformer 的人工智能技术开始应用，如果将这些能力引入其中，这一领域的发展正在开始加速。

但如果把这些能力进一步应用到真正的物理机器人上，就会出现许多不同之处。机器人需要面对的是精度）、操作范围以及执行等问题。在这种情况下，目标不再只是从 A 点移动到 B 点，而是要真正对物体进行物理操作，并完成具体任务。

正是在这一背景下，我们发现架构层面正在发生新的变化。模型将越来越依赖于视觉、语言和行动的结合，而在此基础之上，我们还将进一步提升系统能力，使其具备物理智能。

所有这些发展也带来了一个新的问题：我们是否可以在不考虑物理硬件形态的情况下，直接为具身对象部署人工智能？我们认为，具身智能系统中的物理硬件，其实类似于大脑和神经系统。这套“神经系统”在过去并没有被我们真正视为人工智能生态系统中的一部分。因此，我们正在投入大量时间思考：未来应该构建怎样的系统架构，去统筹身体各个部分，例如四肢、双手以及各种执行启等。

在这一过程中，我们看到 Daniel Kahneman 提出的系统1（System 1）思维——也就是说，需要思考哪些能力属于类似“系统1”的能力。这些能力帮助我们更好地理解，未来系统中哪些基础能力和核心组件需要被构建。

从根本上来说，我们认为硬件本身以及不同类型的硬件，再加上硬件对数据的基础获取能力以及对机器人实际运行环境的接入能力——也就是机器人真正存在并执行任务的环境——都将成为关键基础。这些因素将决定我们如何采集任务相关的数据、训练机器人，并将任务训练逐步转化为我们所构建的技能能力。随着时间推移，通过持续的数据采集和技能训练，并结合针对具体任务设计的硬件，我们将能够推动具身智能迈向新的阶段。

我们确实生活在一个非常令人兴奋的时代。很高兴今天能在这里与大家交流，非常感谢大家的时间。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.