清华大学邓志东：人工智能的研究前沿、迭代演进与发展路径|机器人|智能体|人工智能时代

分享至

国家科技传播中心学术发展讲堂是中国科协最新推出的一档学术栏目，突出前沿性、思辨性和传播性，面向科技工作者尤其是青年科技工作者，传播学术领域的前沿发展动态。讲堂将持续邀请战略科学家、一流科技领军人才和创新团队，亲自讲述突破传统的前沿探索、卓有成效的改进方法、颠覆认知的创新理论以及改写行业规则的研究成果。今日为您推送第三期内容，一起看→

“从AI开发框架到AI芯片，再到大语言模型与智能体，人工智能已取得了一系列关键性技术突破。推理大模型使用思维链以及思维树的方法，可以进一步提高它的零样本或者少样本的学习能力。在自动驾驶、通用人形机器人、科学智能等新的应用领域，人工智能也在加速拓展，未来必将给我们带来非常多的改变和影响。”清华大学计算机科学与技术系教授、清华大学人工智能研究院视觉智能研究中心主任邓志东在国家科技传播中心学术发展讲堂上发表如上观点。

人工智能的迭代演进方向与发展路径

邓志东

人工智能的迭代演进方向

人工智能迭代演化路径，从单模态的多语种，发展到多模态，又进一步延伸到决策推理与动作空间，构成了所谓的具身智能。由多模态大型语言模型（LLM）与具身智能去完成对人类的模仿学习之后，可以进一步通过与世界的交互学习，最终发展为通用的智能体。

今天，单模态大型语言模型的性能持续增强，主要关注的是其中的生成式大模型，其性能从GPT 3发展到GPT 4，实现了更强的文本阅读理解能力。推理大模型使用思维链以及思维树的方法，可以进一步提高它的零样本或者少样本的学习能力。

在从头开始的预训练阶段，我们可进一步增加视觉、听觉、信号等多种模态，通过模态中实体或实例的“分词”与转换，即可将输入的原始模态转换到一个隐含的连续向量空间。这个向量空间把不同的模态进行了统一的学习表达，进行了语义对齐，就可实现交叉理解。这种交叉理解非常重要，也就是不仅可以针对文本的世界，还可以针对视觉的世界以及听觉的世界实现语义水平的理解，这样就完成了从文本的阅读理解到多模态的阅读理解。

随着多模态具身智能的快速演进，具有多模态感知与理解能力的大型语言模型，通过拓展动作空间，进一步增加手、脚，模拟人类的移动与操作行为与动作，如此就可以让LLM与生成式人工智能获得“具身”。

利用多模态通用大模型，通过对下游感知、策略与动作任务的微调，不仅可实现基于多种模态的交叉理解，而且还可以实现复杂逻辑推理或策略优化，以及行为与动作的生成，赋能包括自动驾驶与人形机器人在内的真实物理世界。在决策推理上，让人工智能获得复杂的逻辑推理与策略优化能力；在行为与动作模拟上，让它模拟人类的移动与操作能力，这样就可以构建人形机器人、自动驾驶等等具身智能体。

然而，有了智能体还不够。智能体只是进行了理解与模仿，也就是以人类作为标杆，比如我们写了一本书，画了一幅图，做了一个电影，完成了一个动作，它就把这些作为标杆或作为自监督训练样本，在对任务及对多模态输入进行理解之后，跟人类产生的各种文本、图像、视频或行为动作进行对齐，这就叫做模仿学习。

模仿学习的意思是语义对齐人类的理解与生成，这自然需要对齐特定任务中人类的最高或较高水平。这就是预训练集需要高质量数据的应有之义。

在智能体模仿学习之后，它还要做到“青出于蓝而胜于蓝”，这就需要智能体以角色的方式进入到真实世界里，与其他智能体，与物理世界，与人类进行交互学习，也就是通过相互作用，再利用奖励模型对产生的后果进行奖励或惩罚完成强化学习。通过这种自主的交互式学习，就有可能做到“青出于蓝而胜于蓝”，对齐我们人类的最高水平，甚至超过人类的水平。也就是说，要让智能体利用深度强化学习等交互式学习方法进行最优策略的自主探索，以获得更为强大的通用性及泛化能力。

多模态交互式智能体贵在交互，我们要让智能体在统一表达的隐含连续空间，利用对任务及对时空场景的感知与理解，在模仿学习的基础上，最终通过基于深度强化学习的交互式学习的导入，自主获得人类或超过人类水平的决策、规划及行动能力，实现真正的物理智能。

在模仿学习、交互式学习之后，我们最关注的能力是通用性和泛化能力。这两者也等价于智能体的环境与任务的适应性及自主性问题，也就是大模型及智能体能够以极高的成功率自主适应任何任务及环境的变化。具体而言，通用性意味着智能体能够应对各种环境与任务的变化，而不是局限于某些固定的操作对象及某些特定的任务。泛化则是指跨任务、跨场景、跨行业、跨领域的推断应用，也就是智能体能够在任何环境与任务中进行适应，并能以极高的成功率可靠稳定地运行。

通用性与泛化能力是人类最重要的能力和特征之一。人类无疑是这方面的最高标杆。而超强的通用性与泛化能力也是人工智能最鲜明的特征，是所有具身智能体追求的最高目标。

我们关注通用人工智能（AGI），它的宽度正在不断的扩大。

在2012年开始的弱人工智能时代，一个模型只能完成一个任务。而在AGI之下，一个大模型可以通过微调不断适配各种下游任务，任务的个数可称之为AGI的宽度，因此取值可以是从2直到无穷大。这个宽度值一方面取决于大模型的能力上限及任务的复杂程度，另一方面则受限于各种高效微调方法与增强技术的发展。

人类能够完成全方位或称最大宽度的多样化任务，但也不是所有任务任何人都能完成，比如一些极限任务。类似地，通用人工智能的宽度可以从1、2、3、4、5，一直扩大到人类的最大宽度，这时就出现了人类智能发展的奇点，AGI跨越为强人工智能。强人工智能再往前发展，就会出现以指数级增长的智力发展，迈进到超级人工智能的最高阶段。

人工智能的前沿问题

人工智能现在研究的热点和前沿首要问题就是多模态的具身智能与性能增强技术。

我们首先关注从VLM（视觉-语言模型）到VLA（视觉-语言-动作模型）。VLM就是有视觉、有文本（语言），可以进行感知/理解与生成。以前我们主要关注状态空间（或者叫观察空间）、感知空间的理解与生成，现在则进一步拓展到了VLA。VLA除了有视觉、有语言，还有动作空间，增加了动作模型以及从感知空间到动作空间的决策推理，是真正能赋能真实物理世界的多模态大模型框架。

由动作空间到感知空间，或者从感知空间到动作空间的映射，后者对应了非常重要的决策推理，或者叫逻辑推理。这里的逻辑推理也就是强化学习的策略。强化学习是要学习最优策略，学习这种映射关系。

VLA的映射关系如此重要，比如我们在开车时看到前方行人横穿马路，这时采用的动作是靠推理来进行的。为此我们采用端到端的模型，即输入是不断涌入的3D视频流，在进行理解后马上产生动作。所以VLA为我们开辟了一个新的研发范式，不仅是状态空间，还要关注动作空间，尤其要关注决策推理，还要增加精细化的动作模型。这些可以真正赋能我们真实的物理世界，所以叫物理的人工智能。

感知空间，动作空间，还有感知空间到动作空间之间的映射，它们之间的相互关系是从感知空间到动作空间，还是从动作空间到感知空间？这是我们需要关注的重点问题之一。

此外，我们还需要关注三大任务：具身理解、具身动作生成与具身推理。其中具身理解是要作用在感知空间，具身动作生成是把任务作用在动作空间，两者之间的关系称之为具身推理。

基于基础大模型，针对上述三大任务，就可以优化训练出更多的下游微调模型。三个任务中最难做的是具身推理。这是一个智商高低的问题，尤其要做到人类符号水平的推理。

在大模型应用中，需要从多模态通用大模型微调到通用具身智能体，再微调到垂域任务的智能体，而模型的高效微调（或称后训练）是一个非常好的发展大模型应用的路径。微调训练数据集通常不大，AI算力需求较低。微调智能体可以针对特定的任务来训练优化。

从微调训练数据的来源以及训练优化的方法来看，大模型的微调有如下三个技术路线：

监督微调（SFT）：用人工标注的微调训练数据，利用传统机器学习中监督学习的方法，对大模型进行微调。

人类反馈强化学习（RLHF）：主要特点是把人类的反馈，通过强化学习的方式，引入到对大模型的微调中，使大模型生成的结果对齐人类的安全价值期望。

AI反馈强化学习（RLAI）：可解决反馈系统的效率问题，原理上与RLHF大致相同，但反馈信息源来自于AI。

根据范式的不同，大型语言模型的微调方法也可划分为提示微调和参数微调。

提示微调是根据改变任务适配模型的范式，进行上下文演示样本、少样本、零样本学习等。提示微调也可细分为硬提示和软提示方法，它们分别在离散的文本符号空间和连续的隐向量空间进行。后者通过引入误差反向传播等学习算法，可完成基于学习的提示微调优化。

参数微调是对大型语言模型的全部参数或部分参数进行微调训练。在部分参数微调方法中，可将原有模型中的部分参数进行冻结，对其他部分参数进行微调优化，也可通过增加各种任务头、改变输入嵌入编码器和添加Transformer的各种结构单元（适配器或注意力机制）来完成。

这里我们关心的是具身感知与理解，也就是使用感知空间中的本体感知+视觉或具身多感官的语义分词器，实现长程与大范围的时空理解，也就是空间智能。

本体感知是对于自身状态的感知，例如机器人末端执行器的位姿、智驾汽车的位姿。

视觉是指利用预训练主干模型（如残差卷积神经网络ResNet或DINO V2和SigLIP + MLP Projector）作为视觉分词器，将相机的图像块序列投影为视觉嵌入token序列。

此外，如今的多模态基础大模型正在不断突破它的能力上限，我们可以发展各种性能增强技术，不断提高复杂的逻辑推理能力。性能增强技术需要结合特定任务聚焦各种AI增强方法，包括深入研究提示增强（类似OpenAI o1中使用的思维链CoT）、检索增强（RAG）、知识增强与逻辑增强技术等。其中，知识增强是指可以将很多垂直领域中专业的私有知识组成输入数据无关的持久记忆。这些数据不需要上传做预训练，如此可以保护我们的数据安全、数据隐私。

人工智能的第二个前沿问题是直觉本能的快思维与符号水平的慢思维。

快思维即快速的本能与直觉，无需深思熟虑的思考。智能体要模仿人类的快思维需要输入为视觉（类人的深度相机、非人类感官形态的激光点云等）或听觉理解，在结合文本任务理解及其系列子任务分解的推理决策下，输出为行为与动作（向量轨迹）。

慢思维即深思熟虑的决策理性思维，如沉思、对比、反思、权衡等思维方式，主要涉及模拟人类复杂的逻辑推理能力，包括任务理解，特别是任务规划或任务分解，适合于处理挑战性复杂任务以及对人类高级智能活动的模拟。

一般而言，技能性简单任务适合于直觉本能的快思维，特点是针对简单视听觉任务或紧急任务，能够利用智能体过去积累的经验（长期记忆）和策略进行迅速的反应。深思熟虑的决策理性思维则需要使用慢思维，特点是针对复杂任务进行深入的分析，特别是理解任务的本质，优化完成任务的解决方案。

快思维与慢思维通过相互补充与结合，可以更好地完成从简单到复杂的多样化任务，两者均可通过端到端的学习方法来实现。

符号水平的慢思维是人类特有的鲜明特征。我们关注的强大的逻辑推理能力需要基于学习获得符号水平的规则。

慢思维的逻辑推理能力是针对观察空间与给定任务，首先进行感知与理解，而后以抽象、分析、沉思、对比、反思、权衡等方式，基于理性的逻辑方法，进行任务规划或任务分解，并获得最优决策推理路径与行为序列。通常慢思维的高级逻辑推理能力，仅适合于挑战性复杂任务的完成。基于推理方向，即依据其是从特殊到一般，还是从一般到特殊，又或者是从特殊到特殊，通常可相应划分为归纳推理、演绎推理与类比推理等。

人工智能的第三个前沿问题是世界模拟与交互式多智能体。

利用Sora这样的工具就可以实现世界模拟，即能够根据文本指令或文本提示+图像/视频，创建出大量逼真的高质量合成视频数据，可用于补充多模态大型语言模型的联合预训练或微调优化。

Sora的重大突破表明，端到端的数据驱动方法能够构建世界模型，特别是能够模拟真实世界的物理学运动规律，这对于我们重新认识世界和发展通用人工智能，意义重大。

此外，人工智能还需要与其他的智能体、与人类、与世界进行交互，在模仿学习的基础之上，利用深度强化学习等交互式学习方法，在虚实平行世界中实现更高效率的自主探索学习与最优策略迁移，获得接近或超过人类智能的能力。

通用人工智能的发展路径及未来趋势

在通用人工智能发展路径与未来的趋势中，需要特别关注大模型的应用。大模型的价值在于实际的应用，只有在多样化的实际应用场景中赋能智能经济与智能社会的发展，才能找到产业价值，同时也才能成就大模型自身。

大模型的应用，一方面需要提升大型语言模型，特别是多模态的通用大模型的上限能力，但这需要超大规模的预训练数据，超大规模的AI算力，还需要高端的人才。另一方面，我们可以找一个性能先进的多模态基础或通用大模型，在此之上发展高效微调方法，微调不需要巨大的后训练数据与AI算力。微调完成行业大模型后之后去做产业化的部署，去发展垂域特定任务的大模型。

此外，在一些具身智能体的大模型应用中，要特别聚焦技术变革，关注新范式、新导向的发展，尤其在自动驾驶领域。自动驾驶领域目前特别关注单段式或单模型的自动驾驶解决方案，即关注大模型的一体化的端到端的新范式，以增强自动驾驶的环境适应能力和自主性。

总的看来，大模型的发展从原来的问答聊天、AIGC等互联网空间的NLP任务，迭代演化到通用人形机器人与自动驾驶等面向物理世界的具身任务，目前要重点突破多模态大模型与具身智能的实际应用，特别是面向真实物理空间的产业落地应用，通过聚焦对实体经济的支撑，形成中国人工智能发展的新优势。

基于现有的多模态通用大模型微调训练出专用模型，可以大力推动千行百业垂域专用模型的产业落地，从而通过场景应用创新与产品研发，打造国际一流的大模型应用生态，赋能智能制造与新型工业化的发展。在大模型的应用落地过程中，我国在应用场景多样性、应用落地速度、数据的丰富程度以及商业模式构建上的优势，会充分体现出来，形成可持续发展的大模型新应用、新业态、新模式，以此重建我们在AI大模型时代下的新优势。

从更大尺度上看，人工智能可以分成弱人工智能、通用人工智能、强人工智能、超级人工智能等不同的演化阶段。全球范围内的大模型的发展、大模型的应用才刚刚开始，更多的惊喜在后面。

要赋能真实世界与新型工业化，需要大数据与大算力的支撑。在数据上，真实物理世界中行为与动作数据的采集成本高、效率低，且数据稀疏。例如，发展通用人形机器人要采集机器人的动作数据，而现实空间中的示教有限，要得到高性能和强泛化能力，在理论与实践上都是巨大的挑战。在算力方面，文本是一维的，而视觉作为高阶的模态其token序列会更长，造成视觉-文本的合体模型规模会更大，因此需要更大的算力。AI算力不是人人都需要，我们可以走微调应用的路径，来找到新的产业发展范式。

另外，我们还需要关注一体化端到端的新范式，推动L4自动驾驶与通用人形机器人的协同进化。这种方法强调一体化。以往的传统方案是人为地分段为感知、预测、决策、规划、控制，而新方案则是一体化贯通，彻底的单段式端到端，中间没有分段，通过在输入端输入图片，输出端可直接生成动作。这使得感知空间、动作空间和决策推理都在一个大模型内针对同一个给定任务进行微调。此后，还可以继续针对下游各种任务进行微调优化。新范式的核心是引入了基于学习的决策推理与规划。总之，相对于从头开始预训练的原生多模态领域或行业大模型，基于微调训练完成新范式的研发，所需AI算力与数据，要小得多。

进一步，我们看到随着人形机器人与L4自动驾驶的不断发展，两大改变世界的端到端研发范式会相互协同演进。一方面，通用人形机器人会逐渐走上生产线，也会进入家庭，从生产领域迈进到服务领域，带来无限的产业想象空间，其创新技术可推动自动驾驶的落地应用。另一方面，基于大模型的自动驾驶不断进化，也会降维应用并推动通用人形机器人的发展，进一步催生人形机器人与人类共融社会的形成与演进。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.