杨强院士：大模型普遍存在“学了新的就忘了旧的”局限|人工智能|数据源

分享至

9月27日，2025网易未来大会在杭州举行，主题为“以智能·见未来”。本次大会由网易公司主办，杭州市经济和信息化局(杭州市数字经济局)、杭州市商务局、杭州高新技术产业开发区管委会指导。

本届大会将作为“第四届全球数字贸易博览会”的组成部分之一，聚焦人工智能各领域的发展，探索未来趋势。大会将由中国工程院院士潘云鹤等院士领衔，汇聚具身智能领域泰斗、顶尖AI创业先锋、知名投资人及产业翘楚。与会嘉宾将共同探讨大模型、具身智能、AI Agent等前沿技术突破与商业落地，在思想碰撞中捕捉全新的时代机遇。

在大会中，香港理工大学人工智能高等研究院院长、加拿大工程院及加拿大皇家科学院院士杨强发表了题目为《AI落地的数据难题与联邦大模型的解决方案》主题演讲。

杨强院士指出，AI的发展快速程度与硬件进步速度之间存在巨大鸿沟，而数据供给的增长速度远落后于AI对数据需求的爆炸式增长，这将导致AI发展遭遇瓶颈。而且人工智能落地过程中也面临诸多前所未有的挑战——数据隐私、安全与孤岛问题。

为此，杨强院士分享了一项研究成果：构建一个由云端通用大模型与本地垂域模型协同的架构。如何能利用这些本地的私域数据来赋能通用大模型，同时让通用大模型来指导本地推理和应用，能产生双向合作？

第一，迁移学习可以让模型具有举一反三的能力。不仅可以做到领域的迁移，时间上也可以迁移，让昨天建立的模型，今天依然能完成任务；今天新建的模型可以回补昨天的模型。

第二，运用联邦学习技术。它不仅适用于终端设备间的协作（如手机、平板），更在企业间合作、金融风控、医疗分析等场景中具有广阔应用前景。同时，结合迁移学习与知识蒸馏，大模型可作为“教师”指导小模型提升性能，小模型也可将垂直领域知识反哺大模型，实现双向知识流动，提升整体智能水平。该技术允许多方在不共享原始数据的前提下协同训练模型，有效保障用户隐私与数据安全。

杨强院士强调，“联邦持续学习”可以解决模型在时间序列中出现的灾难性遗忘问题。后面学的可能会不小心会将前面学的抹掉，就像狗熊掰棒子一样，这种现象在大模型当中非常普遍。而这个问题的解法就是联邦持续学习。

杨强院士表示，一个大模型与众多小模型结合的结果是生成一些新智能体，这些智能体可以作为客服系统和个性化对话系统等，还可在TO B上做供应链、风险分析、工作流等。以上介绍的大小模型的协作、智能体工厂、联邦学习、持续学习已逐步形成软件与系统解决方案，并在产业实践中持续演进，使得我们能有一个更新的连接的分布式安全、可靠，并且保护隐私的架构出现。（天牛）

以下是杨强院士演讲实录：

杨强：各位领导，各位来宾，大家下午好！

我今天要讲的是用联邦学习来赋能应用落地，如何解决隐私安全的问题。

首先，我们看到AI现在发展非常快，但我们也看到一些机会，其中一个机会就来自发展其实中的不平衡，比如我们用一个红色的曲线，这个图中代表硬件的革新和进步，它是按照“摩尔定律”来向前发展的。

另外一个趋势，AI发展。AI能不断地迭代创新，远高于“摩尔定律”，比如每年成本价格在降低10倍以上，这样的一个速度就使得硬件和软件之间产生了“鸿沟”，这个“鸿沟”越来越大。我们做研究的人，其中一个目的是要填补这个鸿沟，如何填补？

另外一个趋势，数据趋势。历史上很多数据是由人类来产生，由人类来标注和清洗，这个速度首先是非常缓慢的，我们在左边的图中看到一个曲线的增长就代表了这个趋势。但人工智能对数据的需求却是巨大的，胃口很大，且增长速度很快。下面的这条曲线，这两个曲线很快就会交集，这就代表了人类已跟不上机器所需的数据制造速度，在不远的将来，机器所需要的数据就要停止了，这个数据的来源就成了一个严重的问题。这是否代表人工智能发展也会遇到一个瓶颈？会。

我在右边列了一些现象，比如数据量不足问题、小设备处理数据的能力问题等。

我现在要回到我的老本行，人工智能在金融的领域，很多应用都是需要多方数据来完成的，比如很多数据源都是分布在不同的金融机构，我们要回答某一个问题或是做某个推理，所需要的数据源很多，这时就需要让不同数据源的宿主合作起来，共同建立一个模型。这时首先要考虑的是数据不足问题，其次是大家如何愿意来合作的问题，第三是数据在合作时如何能保证数据隐私、数据安全，并且在最后进行成果分配时，如何让大家公平持续地加入到数据分享中。

这时我们做的研究就变得非常有用，研究架构是左边，在上边代表在云端有一个通用大模型，通用大模型具有很强的训练能力、学习能力和推理能力，但它缺乏很多垂域知识。这个垂域知识来自下端，下端有很多本地收集数据，在金融、手机、个人聊天数据和游戏数据，以及在医疗机构有很多我们去做体检的数据。

我们关心的问题是，如何能利用这些本地的私域数据来赋能通用大模型，同时让通用大模型来指导本地推理和应用，能产生双向合作。

所以，除了保护隐私外，我们能让他们互相学习，模型间的互相学习是知识的迁移，从大到小，从小到大，从专业到通用，从通用到专业。

第一，迁移学习，就像我们学会举一反三，我们学会骑车，我们也自动学会了骑摩托车，我们人类有这个能力，怎样让机器也具有这个能力。

最近有一个大模型测试，大模型缺乏的能力和人类的对比，就是知识迁移、举一反三的能力，要有这种能力。过去的时代做迁移学习就开始了，这个领域发展有20多年的历史，是机器学习的一个分支。

我们在小模型时代拿一个源领域source迁移到一个新的领域，源领域和目标领域，迁移的对象是数据本身，也可能是模型的一部分，或是目标本身，我们学习的目标是从做茶变成做咖啡，模型是一个用回归模型给迁移到一个森林模型。但大模型的来到，为迁移学习又注入了新的活力，比如我们有一个预训练模型已经用了很多的数据来训练，我们遇到一个具体的情况，比如这个具体情况是用小数据来替代的，就是右边的小圆，从大圆到小圆的迁移就对应大模型的微调，我们可以在一个小领域做微调。

我们做研究的时候，关心的是未来明天的问题，那明天我们就看到如果我们将世界上所有的领域和数据源都联网，那有没有可能让它们互相之间，互补有无，以至于大家都增长，这种增长可以在空间上进行，比如手机和云端的某个大模型，在这之间可以进行知识的迁移。

在时间上也可以迁移，我昨天建了一个模型，对今天是不是有用？能迁移到今天的任务上。我今天新建的一个模型是不是可以回去补足昨天的这个模型？在时间前后的关系上也可以迁移，这样在时空上我们都可以迁移，我们就看到一个网络。

迁移有很多种办法，但我们面对的是神经网络，还有一种特殊的迁移方法是蒸馏，我们可以将一个大模型当中的很多神经元的连接，将它蒸馏成一个小模型，使得它能在终端隐形，但在特定的任务上的表现与大模型对等。

第二个方向，我们特别研究的是联邦学习。

联邦学习的发展，才经历了6、7年，但发展非常迅速，因为大家一方面关心隐私，一方面数据不够，所以要跟别人合作，只要有合作，就有联邦学习的问题出来，比如我们有一个学习小组，这个组中如何能让大家互相学习，又不干扰到每个人的利益，尤其是数据隐私、安全的利益。

图代表发展非常迅猛，非常快。

联邦学习可以是一种对等的学习，比如我们有很多的终端，我有一个电脑笔记本，他有一个iPad，另外一个人有一个手机，这些终端之间可以学习。我们就选一个人做协调者，协调者可以帮助我们发现之间的差异，可通过知识的迁移，通过协调者来帮助我们将知识在这个小组中进行迁移传递，以至于他知道的我也知道，我知道的别人也知道，这样大家都会有进步，这种是谷歌引领的方向，有很多应用，比如在广告推荐上就可以做很多的应用。还有一个是在大模型出现以前，他们用来做输入法学习。

我们在国内就特别多地做企业间的联邦学习，比如两个企业各自重点不一，有一个是互联网企业，有一个是电商企业，如果他们互通有无，可将电商知识传递至互联网，互联网对用户的了解也可以传递至电商。但我们可以保护用户的隐私和数据安全，这种情况就可大为提升营销效果和效率。

这种知识的传递，我们既要保护隐私又要它传递得快，同时我们要它传递以后效果佳，大家都能有所提升，这就像是在经济学中要风险小又要收益高，这是否能做到？它确实受到自然规律的“无免费午餐”的制约，你不能既要风险小，又要效果好，一定要在这当中做一定的平衡。这种平衡确实可以用数学来解决，如果喜欢数学的同学们确实可以在这方面发挥，但我特别要说的是，这种技术现在已经非常成熟了，变成一个数学理论，可以用不同的数学工具来做到最优。

再回到一开始的问题，云端大模型和本地众多垂域模型之间是可以做联邦学习，也可以做迁移学习。做的效果如何？很有意思，虽然现在在工业界还没有大规模做起来，但我们预测在人工智能的明天，当我们到处都是分布式人工智能发展的时候，这个技术就变得非常重要了。比如我们可以从大模型来帮助小模型，如何帮助？

右下角有一个红色数据库，这个数据库是一个本地的私域数据库，它不能给别人看，但我们可以用这个数据库来训练本地的小模型，这种训练当然很好，但它不够，因为本地数据有限，比如我经常去一个对话系统去聊天，我个人聊天的时间有限，人数也有限，这种数据是非常有限的，它不能对模型起到很好的提升作用。

怎么办？我就借助于大模型，这时候大模型就变成像老师一样的，我将本地的小数据做一个转换，使得我个人的隐私部分被抹去，转换以后的数据可以交给大模型，让他来扩展，扩展以后的数据既带有我本人的特点，我的喜好，又包含大模型的一些能力，能来教育小模型。久而久之，我这个“老师”就逐渐在影响本地的模型，本地模型也就变得越来越有能力。

还有一种方法，我可以有多个“学生”都在影响大模型，就用刚才的方法，同时他们之间也在学习，互补有无，既有老师又有同学的状态下，我们也可以做到这一点。这个方法不仅用于扩展本地数据的不足，还可以让大模型教会我一些学习方法，比如这个老师特别会将一个复杂问题分解成简单问题，这种方法是思维链，但小模型不具备这个能力，我们让大模型有方法来教会他，同时能保护老师的隐私，也能保护本地学生的隐私。

这个过程可以做得非常高效，将安全和效率都能给提升起来，还能做推荐系统，在电商和短视频用推荐系统是非常多的，当我们在网上刷一格，就可以看到比较精准的推荐，就来自于推荐系统的能力。

我们可以通过知识蒸馏在大模型和小模型之间做双向蒸馏，即小模型可以去教老师，它可以根据本地的一些特点，比如本地是一个牙医，他可以通过牙医特点的知识和数据反过来教大模型，让大模型也具备牙医的能力，有很多这样的工作。

还有一个工作现在是特别重要的，沿着时间轴，知识的发展、模型的发展，它是持续学习的。目前大模型不分昨天学的和今天学的，但涉及到一个终端和个人，确实有时间线问题。当我们有这个问题时，学习就变成时间和空间的时空学习。比如在空间，我们看到我们需要去学习识别不同的动物，从上到下，但在空间我们是从左到右，在昨天学到了识别这些动物，到明天学习识别这些动物，有时间的延展性。

为何我们特别将时空分开？原因在于，我们后面学的，如果不小心会将前面学的给抹掉，就像狗熊掰棒子一样，这种现象在大模型当中非常普遍，这是灾难性遗忘，我们会将过去学的遗忘掉，如果我们在学新的东西的话。这种灾难性遗忘，最严重的时候是学到最后一步，将前面的步骤都忘记了，这不是我们希望看到的，我们希望来解决这些问题。所以，这种解法是联邦持续学习。

最后，我前述的都可以以智能体的方式展现在用户面前，我们可以想象一个大模型与众多小模型，结合的结果是生成一些新智能体，这些智能体可以作为客服系统和个性化对话系统等，还有在To B上可以做供应链、风险分析、工作流等。现在智能体到处都有，但智能体目前发展仅是初期，因为智能体还得需要人来设计、创造和修改，但未来的智能体应是全自动生成、全自动修改的，我们是完全无感地在周边出现一些智能体，这种情况的发生一定要等到各个模型之间有一个联网，使得大模型能帮助本地，尤其重要的是，我们需要有一个智能规划能力，将一个问题拆解，并且能沿着时间线将问题依次进行解决，这种能力目前大模型还没有。有很多例子，比如银行系统，智能体的工厂就是不断地生成智能体来作为其输出。

现在可以告诉大家的是，刚才我所介绍的大小模型的协作、智能体工厂、联邦学习、持续学习，都已经有软件的形式、系统的形式在生成，现在我们正在做研究，赋予各个大模型的设计当中，使得我们能有一个更新的连接的分布式安全、可靠，并且保护隐私的架构出现。

谢谢大家！