9月27日,2025网易未来大会在杭州举行,主题为“以智能·见未来”。本次大会由网易公司主办,杭州市经济和信息化局(杭州市数字经济局)、杭州市商务局、杭州高新技术产业开发区管委会指导。
本届大会将作为“第四届全球数字贸易博览会”的组成部分之一,聚焦人工智能各领域的发展,探索未来趋势。大会将由中国工程院院士潘云鹤等院士领衔,汇聚具身智能领域泰斗、顶尖AI创业先锋、知名投资人及产业翘楚。与会嘉宾将共同探讨大模型、具身智能、AI Agent等前沿技术突破与商业落地,在思想碰撞中捕捉全新的时代机遇。
在大会中,香港理工大学人工智能高等研究院院长、加拿大工程院及加拿大皇家科学院院士杨强发表了题目为《AI落地的数据难题与联邦大模型的解决方案》主题演讲。
杨强院士指出,AI的发展快速程度与硬件进步速度之间存在巨大鸿沟,而数据供给的增长速度远落后于AI对数据需求的爆炸式增长,这将导致AI发展遭遇瓶颈。而且人工智能落地过程中也面临诸多前所未有的挑战——数据隐私、安全与孤岛问题。
为此,杨强院士分享了一项研究成果:构建一个由云端通用大模型与本地垂域模型协同的架构。如何能利用这些本地的私域数据来赋能通用大模型,同时让通用大模型来指导本地推理和应用,能产生双向合作?
第一, 迁移学习可以让模型具有举一反三的能力。不仅可以做到领域的迁移,时间上也可以迁移,让昨天建立的模型,今天依然能完成任务;今天新建的模型可以回补昨天的模型。
第二,运用联邦学习技术。它不仅适用于终端设备间的协作(如手机、平板),更在企业间合作、金融风控、医疗分析等场景中具有广阔应用前景。同时,结合迁移学习与知识蒸馏,大模型可作为“教师”指导小模型提升性能,小模型也可将垂直领域知识反哺大模型,实现双向知识流动,提升整体智能水平。该技术允许多方在不共享原始数据的前提下协同训练模型,有效保障用户隐私与数据安全。
杨强院士强调,“联邦持续学习”可以解决模型在时间序列中出现的灾难性遗忘问题。后面学的可能会不小心会将前面学的抹掉,就像狗熊掰棒子一样,这种现象在大模型当中非常普遍。而这个问题的解法就是联邦持续学习。
杨强院士表示,一个大模型与众多小模型结合的结果是生成一些新智能体,这些智能体可以作为客服系统和个性化对话系统等,还可在TO B上做供应链、风险分析、工作流等。以上介绍的大小模型的协作、智能体工厂、联邦学习、持续学习已逐步形成软件与系统解决方案,并在产业实践中持续演进,使得我们能有一个更新的连接的分布式安全、可靠,并且保护隐私的架构出现。(天牛)
以下是杨强院士演讲实录:
杨强:各位领导,各位来宾,大家下午好!
我今天要讲的是用联邦学习来赋能应用落地,如何解决隐私安全的问题。
首先,我们看到AI现在发展非常快,但我们也看到一些机会,其中一个机会就来自发展其实中的不平衡,比如我们用一个红色的曲线,这个图中代表硬件的革新和进步,它是按照“摩尔定律”来向前发展的。
另外一个趋势,AI发展。AI能不断地迭代创新,远高于“摩尔定律”,比如每年成本价格在降低10倍以上,这样的一个速度就使得硬件和软件之间产生了“鸿沟”,这个“鸿沟”越来越大。我们做研究的人,其中一个目的是要填补这个鸿沟,如何填补?
另外一个趋势,数据趋势。历史上很多数据是由人类来产生,由人类来标注和清洗,这个速度首先是非常缓慢的,我们在左边的图中看到一个曲线的增长就代表了这个趋势。但人工智能对数据的需求却是巨大的,胃口很大,且增长速度很快。下面的这条曲线,这两个曲线很快就会交集,这就代表了人类已跟不上机器所需的数据制造速度,在不远的将来,机器所需要的数据就要停止了,这个数据的来源就成了一个严重的问题。 这是否代表人工智能发展也会遇到一个瓶颈?会。
我在右边列了一些现象,比如数据量不足问题、小设备处理数据的能力问题等。
我现在要回到我的老本行,人工智能在金融的领域,很多应用都是需要多方数据来完成的,比如很多数据源都是分布在不同的金融机构,我们要回答某一个问题或是做某个推理,所需要的数据源很多,这时就需要让不同数据源的宿主合作起来,共同建立一个模型。这时首先要考虑的是数据不足问题,其次是大家如何愿意来合作的问题,第三是数据在合作时如何能保证数据隐私、数据安全,并且在最后进行成果分配时,如何让大家公平持续地加入到数据分享中。
这时我们做的研究就变得非常有用,研究架构是左边,在上边代表在云端有一个通用大模型,通用大模型具有很强的训练能力、学习能力和推理能力,但它缺乏很多垂域知识。这个垂域知识来自下端,下端有很多本地收集数据,在金融、手机、个人聊天数据和游戏数据,以及在医疗机构有很多我们去做体检的数据。
我们关心的问题是,如何能利用这些本地的私域数据来赋能通用大模型,同时让通用大模型来指导本地推理和应用,能产生双向合作。
所以,除了保护隐私外,我们能让他们互相学习,模型间的互相学习是知识的迁移,从大到小,从小到大,从专业到通用,从通用到专业。
第一,迁移学习,就像我们学会举一反三,我们学会骑车,我们也自动学会了骑摩托车,我们人类有这个能力,怎样让机器也具有这个能力。
最近有一个大模型测试,大模型缺乏的能力和人类的对比,就是知识迁移、举一反三的能力,要有这种能力。过去的时代做迁移学习就开始了,这个领域发展有20多年的历史,是机器学习的一个分支。
我们在小模型时代拿一个源领域source迁移到一个新的领域,源领域和目标领域,迁移的对象是数据本身,也可能是模型的一部分,或是目标本身,我们学习的目标是从做茶变成做咖啡,模型是一个用回归模型给迁移到一个森林模型。但大模型的来到,为迁移学习又注入了新的活力,比如我们有一个预训练模型已经用了很多的数据来训练,我们遇到一个具体的情况,比如这个具体情况是用小数据来替代的,就是右边的小圆,从大圆到小圆的迁移就对应大模型的微调,我们可以在一个小领域做微调。
我们做研究的时候,关心的是未来明天的问题,那明天我们就看到如果我们将世界上所有的领域和数据源都联网,那有没有可能让它们互相之间,互补有无,以至于大家都增长,这种增长可以在空间上进行,比如手机和云端的某个大模型,在这之间可以进行知识的迁移。
在时间上也可以迁移,我昨天建了一个模型,对今天是不是有用?能迁移到今天的任务上。我今天新建的一个模型是不是可以回去补足昨天的这个模型?在时间前后的关系上也可以迁移,这样在时空上我们都可以迁移,我们就看到一个网络。
迁移有很多种办法,但我们面对的是神经网络,还有一种特殊的迁移方法是蒸馏,我们可以将一个大模型当中的很多神经元的连接,将它蒸馏成一个小模型,使得它能在终端隐形,但在特定的任务上的表现与大模型对等。
第二个方向,我们特别研究的是联邦学习。
联邦学习的发展,才经历了6、7年,但发展非常迅速,因为大家一方面关心隐私,一方面数据不够,所以要跟别人合作,只要有合作,就有联邦学习的问题出来,比如我们有一个学习小组,这个组中如何能让大家互相学习,又不干扰到每个人的利益,尤其是数据隐私、安全的利益。
图代表发展非常迅猛,非常快。
联邦学习可以是一种对等的学习,比如我们有很多的终端,我有一个电脑笔记本,他有一个iPad,另外一个人有一个手机,这些终端之间可以学习。我们就选一个人做协调者,协调者可以帮助我们发现之间的差异,可通过知识的迁移,通过协调者来帮助我们将知识在这个小组中进行迁移传递,以至于他知道的我也知道,我知道的别人也知道,这样大家都会有进步,这种是谷歌引领的方向,有很多应用,比如在广告推荐上就可以做很多的应用。还有一个是在大模型出现以前,他们用来做输入法学习。
我们在国内就特别多地做企业间的联邦学习,比如两个企业各自重点不一,有一个是互联网企业,有一个是电商企业,如果他们互通有无,可将电商知识传递至互联网,互联网对用户的了解也可以传递至电商。但我们可以保护用户的隐私和数据安全,这种情况就可大为提升营销效果和效率。
这种知识的传递,我们既要保护隐私又要它传递得快,同时我们要它传递以后效果佳,大家都能有所提升,这就像是在经济学中要风险小又要收益高,这是否能做到?它确实受到自然规律的“无免费午餐”的制约,你不能既要风险小,又要效果好,一定要在这当中做一定的平衡。这种平衡确实可以用数学来解决,如果喜欢数学的同学们确实可以在这方面发挥,但我特别要说的是,这种技术现在已经非常成熟了,变成一个数学理论,可以用不同的数学工具来做到最优。
再回到一开始的问题,云端大模型和本地众多垂域模型之间是可以做联邦学习,也可以做迁移学习。做的效果如何?很有意思,虽然现在在工业界还没有大规模做起来,但我们预测在人工智能的明天,当我们到处都是分布式人工智能发展的时候,这个技术就变得非常重要了。比如我们可以从大模型来帮助小模型,如何帮助?
右下角有一个红色数据库,这个数据库是一个本地的私域数据库,它不能给别人看,但我们可以用这个数据库来训练本地的小模型,这种训练当然很好,但它不够,因为本地数据有限,比如我经常去一个对话系统去聊天,我个人聊天的时间有限,人数也有限,这种数据是非常有限的,它不能对模型起到很好的提升作用。
怎么办?我就借助于大模型,这时候大模型就变成像老师一样的,我将本地的小数据做一个转换,使得我个人的隐私部分被抹去,转换以后的数据可以交给大模型,让他来扩展,扩展以后的数据既带有我本人的特点,我的喜好,又包含大模型的一些能力,能来教育小模型。久而久之,我这个“老师”就逐渐在影响本地的模型,本地模型也就变得越来越有能力。
还有一种方法,我可以有多个“学生”都在影响大模型,就用刚才的方法,同时他们之间也在学习,互补有无,既有老师又有同学的状态下,我们也可以做到这一点。这个方法不仅用于扩展本地数据的不足,还可以让大模型教会我一些学习方法,比如这个老师特别会将一个复杂问题分解成简单问题,这种方法是思维链,但小模型不具备这个能力,我们让大模型有方法来教会他,同时能保护老师的隐私,也能保护本地学生的隐私。
这个过程可以做得非常高效,将安全和效率都能给提升起来,还能做推荐系统,在电商和短视频用推荐系统是非常多的,当我们在网上刷一格,就可以看到比较精准的推荐,就来自于推荐系统的能力。
我们可以通过知识蒸馏在大模型和小模型之间做双向蒸馏,即小模型可以去教老师,它可以根据本地的一些特点,比如本地是一个牙医,他可以通过牙医特点的知识和数据反过来教大模型,让大模型也具备牙医的能力,有很多这样的工作。
还有一个工作现在是特别重要的,沿着时间轴,知识的发展、模型的发展,它是持续学习的。目前大模型不分昨天学的和今天学的,但涉及到一个终端和个人,确实有时间线问题。当我们有这个问题时,学习就变成时间和空间的时空学习。比如在空间,我们看到我们需要去学习识别不同的动物,从上到下,但在空间我们是从左到右,在昨天学到了识别这些动物,到明天学习识别这些动物,有时间的延展性。
为何我们特别将时空分开?原因在于,我们后面学的,如果不小心会将前面学的给抹掉,就像狗熊掰棒子一样,这种现象在大模型当中非常普遍,这是灾难性遗忘,我们会将过去学的遗忘掉,如果我们在学新的东西的话。这种灾难性遗忘,最严重的时候是学到最后一步,将前面的步骤都忘记了,这不是我们希望看到的,我们希望来解决这些问题。所以,这种解法是联邦持续学习。
最后,我前述的都可以以智能体的方式展现在用户面前,我们可以想象一个大模型与众多小模型,结合的结果是生成一些新智能体,这些智能体可以作为客服系统和个性化对话系统等,还有在To B上可以做供应链、风险分析、工作流等。现在智能体到处都有,但智能体目前发展仅是初期,因为智能体还得需要人来设计、创造和修改,但未来的智能体应是全自动生成、全自动修改的,我们是完全无感地在周边出现一些智能体,这种情况的发生一定要等到各个模型之间有一个联网,使得大模型能帮助本地,尤其重要的是,我们需要有一个智能规划能力,将一个问题拆解,并且能沿着时间线将问题依次进行解决,这种能力目前大模型还没有。有很多例子,比如银行系统,智能体的工厂就是不断地生成智能体来作为其输出。
现在可以告诉大家的是,刚才我所介绍的大小模型的协作、智能体工厂、联邦学习、持续学习,都已经有软件的形式、系统的形式在生成,现在我们正在做研究,赋予各个大模型的设计当中,使得我们能有一个更新的连接的分布式安全、可靠,并且保护隐私的架构出现。
谢谢大家!