黄非：当下AI进化周期中的共识和非共识|算法|智能体|大模型|人工智能|神经网络

分享至

题记：2025年6月9-10日，“2025罗汉堂-北大国发院数字经济年会”在北京大学国家发展研究院召开。本文为阿里云副总裁、阿里巴巴通义实验室自然语言智能负责人的黄非博士在本次年会上的主题演讲。

非常感谢邀请我参加罗汉堂年会，在座的很多嘉宾都是非常著名的经济学家和研究人员。我的背景是计算机科学，从事人工智能的研究已经有大约 30 年了。我的 AI 之旅起点其实离这里不远，我在附近的中国科学院自动化研究所获得硕士学位，之后前往卡内基梅隆大学继续攻读人工智能博士。当时 AI 还不是一个热门话题，因为那个时期技术还不够成熟。毕业之后我加入了 IBM 研究院，后来去了 Facebook ，再之后加入了阿里巴巴。

今天我的分享主要是回顾 AI 的发展历程，包括其经历的多个周期起伏。我提前做一个免责声明：这些都是我个人的观点和看法，并不代表阿里巴巴的立场。

人工智能发展的历史回顾

如果我们比较最近几波技术发展趋势，包括互联网、移动互联网、以大语言模型为驱动的人工智能，一个很明显的趋势就是大语言模型的扩散曲线非常陡峭。从这个曲线的对比可以看到 AI 的未来潜力是无限的，我们现在只是在这一范式的起步期。从本质上来讲，AI 可以说是对人类智能活动的一种替代和升级，它将会对人类社会几千年来积累的经济、社会、组织、文化的方方面面都造成巨大的影响。这是为什么一方面整个社会都觉得很兴奋，一方面也会让人有一点恐慌，担心我们是不是做好了准备。

回顾从 1956 到 2025 年——差不多 70 年来——的 AI 历史，我们看到这个发展曲线有高潮也有低谷，经历了多个周期。简单来讲，在 1990 年以前，AI 研究主要以“知识驱动”为核心，即将人类专家知识灌入 AI 系统中。2000 年左右，随着大规模数据用于训练机器学习模型和语言模型，AI 研究进入“数据驱动”阶段。“知识驱动”和“数据驱动”这两种范式此消彼长，这是过去几十年来 AI 发展的主要特点。

人工智能（artificial intelligence）这个名词最早是在 1956 年的达特茅斯会议上由 John McCarthy 等四位教授提出的。早期的 AI 研究和我们现在的研究非常类似，比如做定理证明、棋类博弈，还提出了神经网络的最早版本，也就是感知器（perceptron）。但是到 1960 年代，当时的机器翻译漏洞百出，无法满足冷战时期对英俄互译的需求，而人们设想的通用机器人也遥不可及。英国政府发布的《莱特希尔报告（Lighthill Report）》认为当时的 AI 技术只能解决无足轻重的玩具类问题，难以应对真实需求。于是 AI 迎来了第一波寒冬。

第二波 AI 热潮出现在 1970 年代末到 1980 年代。当时采用“专家系统（expert system）”的思路，把各领域人类专家的知识引入到 AI 系统中。这条路线取得了一定的成功，但要解决更复杂的问题就需引入更多的人类知识，而不同人的知识会相互冲突，如何维护这样庞大的知识库就成了一个工程难题。同一时期，神经网络继续发展，计算机视觉和自然语言处理开始兴起。1990 年代初，日本提出了第五代计算机计划，开发智能计算机，然而并未取得重大突破，原因很大程度在于当时的软硬件受限，专家知识共享也遇到瓶颈，技术难以大规模落地。

从 2000 年开始，统计机器学习兴起，神经网络相对低潮。一个显著趋势是数据驱动 AI 的进步，在机器翻译、计算机视觉、人机对弈等领域，出现了 Google Translate、IBM Deep Blue 等标志性成果。这些 AI 系统在特定领域表现出色，但应用范围有限，仍缺乏泛化能力。

到了 2010 年之后——特别是从 2012 年开始——深度学习、深度神经网络再次崛起。Geoffrey Hinton 及其学生将神经网络从几层扩展到数十层，在图像识别（如斯坦福大学教授李飞飞研究组建立的图像分类数据集 ImageNet）、语音识别、自然语言机器翻译等任务中展现了优异的效果。从 2014 年起，我们见证了基于深度学习的 AI 浪潮进一步兴起，基于神经网络的技术解决了部分科学和棋类的问题，例如做蛋白质结构预测的 AlphaFold 和做围棋的 AlphaGo，后者的成功不仅是科学上的突破，更引起了广泛的公众关注。

我个人认为 2020 年基于 GPT-3 的 ChatGPT 的发布是一个标志性的事件，人们能够直接与 AI 互动，有感性的认识，并惊叹于其表现。GPT-3 在技术路径上与 GPT-1、GPT-2 相似，但模型规模和数据量大幅增加，模型性能也得到显著提升。ChatGPT 发布后，全球大量用户的使用提供了丰富的用户数据和互联网语料，从而进一步增强了模型效果，大语言模型让用户感知到它具备了一定的智能能力。这标志着新的研究范式的形成：无论是在自然语言处理、计算机视觉，还是其他领域，国内外纷纷涌现出类似的基础模型（foundational model）。到了基础模型阶段，大家熟悉的“数据、算法和算力”三要素依然是关键。用一句话概括的话，利用能源提供海量算力，从大规模数据中提取知识并形成智能，这是驱动目前这一整套AI的底层逻辑。

主要的技术发展路径

从整个技术范式来看，AI 是一个很大的集合，包括基于规则、基于统计的方法，既有机器学习也有非机器学习的方法。机器学习是用数据的方式去学习，而更进一步的深度学习（deep learning）则是用多层神经网络的方法来学习。

我大概讲一下机器学习的几种主要技术，因为很多机器学习的技术仍然在继续沿用。比如，强化学习（reinforcement learning）以前是用来解决机器人前进路线的规划问题，解决游戏场景的策略问题。在游戏场景中，即时的奖励反馈非常适合于训练模型学习信号。另一类是监督学习（supervised learning）：我们可以给一项任务标注一些数据，比如哪些是对的，哪些是错的，然后用这些带标注的数据来训练模型。但传统监督学习依赖人工标注数据，成本会非常高，难以大规模应用。还有一类是无监督学习（unsupervised learning），包括现在的大语言模型，不需要人工标注，只要爬取大量数据后，通过数据本身去挖掘潜在的知识。

到 GPT 特别是 GPT-3 出现以后，AI 技术发展整体走向了以大语言模型为代表的基础模型。大语言模型本质上是能力非常强大的神经网络。这种范式虽然来自于深度学习，但已经大不相同了。一方面，之前的一些技术问题在大语言模型中还会存在，比如机器幻觉（hallucination）或过拟合（overfitting）的问题；另一方面，新模型大大拓展了 AI 能力的边界，具有更强的泛化能力。基础模型这个范式可以说带来了新的挑战和机遇。

这个阶段的关键技术发展有预训练（pretraining），包括具备高效并行能力的 Transformer 架构。同时，由于训练数据来源广泛，我们在处理新任务时，可以不用重新训练模型，仅提供样例（demonstration）、小样本（few-shot learning）或指令（instruction），模型就能完成任务。因此，大语言模型比以往的针对特定领域的 AI 要表现出更强的泛化能力。这也解决了传统监督学习中的痛点，不再需要大量昂贵的人力来标注数据。

但大语言模型也引发了一系列问题，比如 AI 如何与我们的项目任务、人类价值观、社会伦理和文化习俗对齐（alignment）。这就涉及到多方面的对齐技术，如监督微调（SFT）、强化微调（RFT）等，这些都是基于强化学习的技术。

从去年下半年以来，在线推断（online inference）、在线学习（online learning）和推理（reasoning）成为新的发展方向。大家希望通过构建“思维链”（chain of thought），让模型学会遇到问题能够规划解决思路，如果中途发现思路不对，还能返回来换一种思路重试。这样能够大幅提升模型解决复杂问题的能力，类似于人类的“慢思考”。

从底层的知识体系来看，大语言模型发展已经历了从自然语言文本中提取知识、到从图像、语音、视频等多模态中提取知识、然后到逻辑推理，再到发展成为智能体（agent）的进程。智能体能够完成更复杂的任务，而不同智能体的组合，甚至能够模拟一个小型团队执行复杂的工作流。2025 年也被很多人称为“智能体元年”，它将带来越来越多的技术影响力和商业价值。

阿里巴巴的大语言模型开发

训练一个大语言模型需要具备从底层到顶层的全栈能力。在这方面，云厂商具有独特的优势。无论是美国还是中国的云厂商都具备从提供底层的 AI 芯片到提供云算法平台的能力，再到提供分布式的 AI 框架和算法库以支持模型的训练和推理等，然后到模型训练完成后在云平台上进行部署，包括开源（open source）模型和闭源（closed source）模型。以阿里巴巴为例，我们一方面构建了中国的开源模型社区 ModelScope，大家可以把开源模型放上去供开发者使用下载。同时我们也部署了自己的闭源模型供客户使用。

在基础模型或大语言模型方面，阿里巴巴其实起步较早。继 2017 年 Google 提出的 Transformer 架构成为这波 AI 革命的基础之后，我们在 2018 年基于 BERT 模型开发了自己的创新模型 StructBERT，重点考虑了句子结构信息，使模型能够更好地建模语义。

从 2019 年到 2020 年，我们陆续构建了自己的预训练模型，包括参数规模从百亿、万亿甚至到十万亿级的。从 ChatGPT 发布以来，我们发现这条路线很有潜力，也意识到要进一步加大模型规模、提升训练框架的计算效率，同时对数据处理也要更加精细。在此基础上，我们发布了“千问”系列的自然语言模型、“万相”系列的文生图、文生视频模型，以及面向具体任务的下游应用模型，如代码助手、角色陪伴等。

2024 年我们推出了“百炼”平台，用户可以在平台上调用我们的模型，完成各自的下游任务。目前，“千问”模型系列不仅在中国也在全球范围内处于用户数量领先的地位，甚至在业界达到第一。

AI 应用这个领域发展过于迅速，会让人感到研究有时候跟不上产业的节奏。一个重要的方向是 AI 在软件工程方面的应用。我们注意到，预训练模型其实从 2020 年就已经在这个方向进行研究和应用了。大约在一年半前，我们开始看好这个方向并加大投入，这可能是 AI 落地进展最好的一个方向。

比如一个 AI 程序员可以完成复杂的软件开发任务。我把需求告诉 AI 程序员，它能够进行任务拆解、规划并执行。如果过程中出现问题，它可以进行验证、修正和测试，最后汇总结果。人的作用主要是在于提出需求、定义问题、确认结果，中间大多数环节都由 AI 完成。这不只是适用于软件工程，也许未来很多任务都可以由 AI 完成，人类只需负责最顶层的这三件事，其余的交给 AI 就行了。

还有一个方向是我们如何利用 AI 来构建“类人智能体（human-like agent）”。我们尝试对人的知识、个性、记忆、道德、情感等方面建模，使得 AI 将来能够成为虚拟人，为人类提供情绪支持，成为数字员工（digital worker）、数字伴侣（digital companion），或真人复刻（replica）。除了技术之外，我们也做了一些能产生社会影响、呵护人间烟火的事情，比如用 AI 进行阿尔兹海默症的筛查，以及尝试用 AI 来给儿童提供情感陪伴。

人工智能领域的共识和分歧

AI 领域发展非常快，有些方面已经达成共识，有些地方还存在分歧。一些共识比较确定，比如说“规模定律（scaling law）”，从预训练（pre-train）到后训练（post-train），到测试时（test-time），包括上下文（context）越来越长，最后转成记忆（memory），这都体现了规模定律。另一个确定的就是计算和推理成本会显著降低，可能每年降低十倍，这样就使得更多的场景能以更低的成本使用 AI。共识还有强化学习及其支持性框架也会越来越强大。另外，多模态如果能够把视觉、语音、图像这些不同类型信息统一成词元化（unified tokenization）的表达，那么整个现有的框架就可以进行复用。其他共识还包括 AI 智能体的各种应用，如写代码、做研究等等，还有在线学习方面的应用。

还有一个是关于开源。我们越来越觉得未来开源模型在能力上和闭源模型会越来越接近，有可能开源和闭源模型在大模型应用的比例可能是 80:20，也就是说，全世界 80% 的应用或者模型会构建在开源基础上，开源和闭源模型可能会存在一些能力上的差异，但这个差距会越来越小。

值得一提的是尚未达成共识的部分，因为随着技术快速发展、领域快速迭代，现在我们觉得对的方式将来可能发现不对。比如，有人说预训练是不是已经走到了尽头，再继续训练下去的话对模型提升不会有更大帮助。一个典型的例子是 OpenAI 的 GPT-5 迟迟没有发布，大家怀疑这是因为计算资源的限制，还是有了计算资源但没有取得更好效果，还是说大规模训练本身需要不同的路径选择。这些问题目前都还没有清楚的答案。

另一个问题是多模态（multimodality）是不是真的能够提升智能水平？我们看到自然语言文本之间有很强的相关性，但加入图像、语音数据后，并没有发现智能上有显著提升。多模态训练或学习是否真的能够提升智能，这还存在疑问。

现在大家都知道智能体工作流（agent workflow）很重要，通过不同的智能体来构建一个工作流，能解决很多复杂的实际问题，比如最近中国的创业公司 Manus 就搭建了这样一个平台。但真正的问题是，智能体工作流是像 Manus 那样基于人对于已有流程的理解来构建的，还是未来会完全基于 AI 来自动构建一套新的工作流，通过与环境的交互，对于反馈信号的学习，构建出甚至比人现有的工作流更好的流程？这也是一个有待探索的方向。

一个很重要的问题是模型评估。我们现在看到的很多模型评估都是基于通用标准（general benchmark），比如数学题、多语言翻译、考试题等等，最近大家正好在关心大语言模型回答高考题目的结果如何。但从实际应用的角度讲，我们更需要评估的是在特定应用场景中、针对特定任务，这些模型到底表现如何。因此，基于给定领域和给定任务的模型评估，可能会变得越来越重要。

还有一个问题是模型（model）和产品（product）之间的关系。有一种说法认为模型就是产品，随着模型越来越强大，产品可能就不再需要设计了，只要调用模型的 API 就能满足用户需求了。但在模型能力还不具备的时候，是不是产品还有一些价值，是不是模型能力加上产品价值能更好满足人的需求？这也值得探索。

其他存在分歧的问题还包括 AI 在将来会多个模型并存，还是单个模型一统天下？以及最终的通用人工智能（AGI）会是什么样子？我个人其实很少讲 AGI，因为 AGI 这个词很宏大，但是在实践中大家对 AGI 有不同的理解。有的人认为 AGI 是在所有任务上超越人类，后来发现这个定义过于宏大，就改成了“在 90% 的任务上超过 90% 的人类”，再慢慢变成“在某些任务上超过专家”。所以 AGI 这个词还没有被很好的定义。但我们期待以大语言模型、基础模型为代表的这套 AI 技术，能够在很多任务场景中给人类现有的工作带来效率提升，带来更大的价值。

人工智能发展的未来

回到 AI 发展的周期性视角。在早期的 AI 发展中，知识和数据是分离的（knowledge and data）；而现在，知识越来越多地内嵌于数据中（knowledge embedded in data）。未来趋势是什么？是说人类以前的知识都不需要了，完全用数据让模型去学习就够了？还是说我们需要找到有效方式把人类已有的知识灌入到模型训练中，从而减少训练成本，提高模型的可干预性、可解释性等等？这是一种思路。

另一种思路来自康奈尔大学的教授 Richard Sutton，他写过一篇文章“The Bitter Lesson”，结论是过去我们在 AI 开发上的痛苦教训在于，人类为特定任务设计的各种专业知识，最终都被计算能力的提升所替代。他认为，我们不需要加入人类知识，一切都应从数据中学习，只要模型足够大、数据足够多，规模定律能够解决所有问题。这目前也不是一个共识。但随着大模型的发展，大约 90% 的人开始相信这个观点，还有 10% 的人仍在思考是否存在其他可能的路径。

最后我想谈一谈我自己作为一个从事 AI 研究 30 年的从业者的个人体会。我开始参与构建中国最早的语言模型大约是 30 年前，当时骑着自行车从中关村到西单，拿到 10 年《人民日报》的语料，训练出用于中文语音识别的 N-gram 模型。回到今天这个时间点，我觉得 AI 的能力在未来会越来越强。在不远的将来，AI 可能还是我们的下属，我们要了解 AI 模型的优点和缺点，知道如何给它设定目标、分配任务、评估表现、验证结果，知道什么情况下需要人工干预，以及如何组织协调多个 AI 或智能体之间的配合。而在更远的将来，当 AI 的能力强于我们，当 AGI 超过人类水平时，我们可能成为 AI 的下属，而 AI 将成为我们的老板。在那种情况下，我们如何与 AI 共事，这是一个值得为我们的未来而思考的问题。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.