网易首页 > 网易科技 > 网易科技 > 正文

杨强院士:大模型普遍存在“学了新的就忘了旧的”局限

0
分享至

9月27日,2025网易未来大会在杭州举行,主题为“以智能·见未来”。本次大会由网易公司主办,杭州市经济和信息化局(杭州市数字经济局)、杭州市商务局、杭州高新技术产业开发区管委会指导。

本届大会将作为“第四届全球数字贸易博览会”的组成部分之一,聚焦人工智能各领域的发展,探索未来趋势。大会将由中国工程院院士潘云鹤等院士领衔,汇聚具身智能领域泰斗、顶尖AI创业先锋、知名投资人及产业翘楚。与会嘉宾将共同探讨大模型、具身智能、AI Agent等前沿技术突破与商业落地,在思想碰撞中捕捉全新的时代机遇。

在大会中,香港理工大学人工智能高等研究院院长、加拿大工程院及加拿大皇家科学院院士杨强发表了题目为《AI落地的数据难题与联邦大模型的解决方案》主题演讲。


杨强院士指出,AI的发展快速程度与硬件进步速度之间存在巨大鸿沟,而数据供给的增长速度远落后于AI对数据需求的爆炸式增长,这将导致AI发展遭遇瓶颈。而且人工智能落地过程中也面临诸多前所未有的挑战——数据隐私、安全与孤岛问题。

为此,杨强院士分享了一项研究成果:构建一个由云端通用大模型与本地垂域模型协同的架构。如何能利用这些本地的私域数据来赋能通用大模型,同时让通用大模型来指导本地推理和应用,能产生双向合作?

第一, 迁移学习可以让模型具有举一反三的能力。不仅可以做到领域的迁移,时间上也可以迁移,让昨天建立的模型,今天依然能完成任务;今天新建的模型可以回补昨天的模型。

第二,运用联邦学习技术。它不仅适用于终端设备间的协作(如手机、平板),更在企业间合作、金融风控、医疗分析等场景中具有广阔应用前景。同时,结合迁移学习与知识蒸馏,大模型可作为“教师”指导小模型提升性能,小模型也可将垂直领域知识反哺大模型,实现双向知识流动,提升整体智能水平。该技术允许多方在不共享原始数据的前提下协同训练模型,有效保障用户隐私与数据安全。

杨强院士强调,“联邦持续学习”可以解决模型在时间序列中出现的灾难性遗忘问题。后面学的可能会不小心会将前面学的抹掉,就像狗熊掰棒子一样,这种现象在大模型当中非常普遍。而这个问题的解法就是联邦持续学习。

杨强院士表示,一个大模型与众多小模型结合的结果是生成一些新智能体,这些智能体可以作为客服系统和个性化对话系统等,还可在TO B上做供应链、风险分析、工作流等。以上介绍的大小模型的协作、智能体工厂、联邦学习、持续学习已逐步形成软件与系统解决方案,并在产业实践中持续演进,使得我们能有一个更新的连接的分布式安全、可靠,并且保护隐私的架构出现。(天牛)

以下是杨强院士演讲实录:

杨强:各位领导,各位来宾,大家下午好!

我今天要讲的是用联邦学习来赋能应用落地,如何解决隐私安全的问题。

首先,我们看到AI现在发展非常快,但我们也看到一些机会,其中一个机会就来自发展其实中的不平衡,比如我们用一个红色的曲线,这个图中代表硬件的革新和进步,它是按照“摩尔定律”来向前发展的。

另外一个趋势,AI发展。AI能不断地迭代创新,远高于“摩尔定律”,比如每年成本价格在降低10倍以上,这样的一个速度就使得硬件和软件之间产生了“鸿沟”,这个“鸿沟”越来越大。我们做研究的人,其中一个目的是要填补这个鸿沟,如何填补?

另外一个趋势,数据趋势。历史上很多数据是由人类来产生,由人类来标注和清洗,这个速度首先是非常缓慢的,我们在左边的图中看到一个曲线的增长就代表了这个趋势。但人工智能对数据的需求却是巨大的,胃口很大,且增长速度很快。下面的这条曲线,这两个曲线很快就会交集,这就代表了人类已跟不上机器所需的数据制造速度,在不远的将来,机器所需要的数据就要停止了,这个数据的来源就成了一个严重的问题。 这是否代表人工智能发展也会遇到一个瓶颈?会。

我在右边列了一些现象,比如数据量不足问题、小设备处理数据的能力问题等。

我现在要回到我的老本行,人工智能在金融的领域,很多应用都是需要多方数据来完成的,比如很多数据源都是分布在不同的金融机构,我们要回答某一个问题或是做某个推理,所需要的数据源很多,这时就需要让不同数据源的宿主合作起来,共同建立一个模型。这时首先要考虑的是数据不足问题,其次是大家如何愿意来合作的问题,第三是数据在合作时如何能保证数据隐私、数据安全,并且在最后进行成果分配时,如何让大家公平持续地加入到数据分享中。

这时我们做的研究就变得非常有用,研究架构是左边,在上边代表在云端有一个通用大模型,通用大模型具有很强的训练能力、学习能力和推理能力,但它缺乏很多垂域知识。这个垂域知识来自下端,下端有很多本地收集数据,在金融、手机、个人聊天数据和游戏数据,以及在医疗机构有很多我们去做体检的数据。

我们关心的问题是,如何能利用这些本地的私域数据来赋能通用大模型,同时让通用大模型来指导本地推理和应用,能产生双向合作。

所以,除了保护隐私外,我们能让他们互相学习,模型间的互相学习是知识的迁移,从大到小,从小到大,从专业到通用,从通用到专业。

第一,迁移学习,就像我们学会举一反三,我们学会骑车,我们也自动学会了骑摩托车,我们人类有这个能力,怎样让机器也具有这个能力。

最近有一个大模型测试,大模型缺乏的能力和人类的对比,就是知识迁移、举一反三的能力,要有这种能力。过去的时代做迁移学习就开始了,这个领域发展有20多年的历史,是机器学习的一个分支。

我们在小模型时代拿一个源领域source迁移到一个新的领域,源领域和目标领域,迁移的对象是数据本身,也可能是模型的一部分,或是目标本身,我们学习的目标是从做茶变成做咖啡,模型是一个用回归模型给迁移到一个森林模型。但大模型的来到,为迁移学习又注入了新的活力,比如我们有一个预训练模型已经用了很多的数据来训练,我们遇到一个具体的情况,比如这个具体情况是用小数据来替代的,就是右边的小圆,从大圆到小圆的迁移就对应大模型的微调,我们可以在一个小领域做微调。

我们做研究的时候,关心的是未来明天的问题,那明天我们就看到如果我们将世界上所有的领域和数据源都联网,那有没有可能让它们互相之间,互补有无,以至于大家都增长,这种增长可以在空间上进行,比如手机和云端的某个大模型,在这之间可以进行知识的迁移。

在时间上也可以迁移,我昨天建了一个模型,对今天是不是有用?能迁移到今天的任务上。我今天新建的一个模型是不是可以回去补足昨天的这个模型?在时间前后的关系上也可以迁移,这样在时空上我们都可以迁移,我们就看到一个网络。

迁移有很多种办法,但我们面对的是神经网络,还有一种特殊的迁移方法是蒸馏,我们可以将一个大模型当中的很多神经元的连接,将它蒸馏成一个小模型,使得它能在终端隐形,但在特定的任务上的表现与大模型对等。

第二个方向,我们特别研究的是联邦学习。

联邦学习的发展,才经历了6、7年,但发展非常迅速,因为大家一方面关心隐私,一方面数据不够,所以要跟别人合作,只要有合作,就有联邦学习的问题出来,比如我们有一个学习小组,这个组中如何能让大家互相学习,又不干扰到每个人的利益,尤其是数据隐私、安全的利益。

图代表发展非常迅猛,非常快。

联邦学习可以是一种对等的学习,比如我们有很多的终端,我有一个电脑笔记本,他有一个iPad,另外一个人有一个手机,这些终端之间可以学习。我们就选一个人做协调者,协调者可以帮助我们发现之间的差异,可通过知识的迁移,通过协调者来帮助我们将知识在这个小组中进行迁移传递,以至于他知道的我也知道,我知道的别人也知道,这样大家都会有进步,这种是谷歌引领的方向,有很多应用,比如在广告推荐上就可以做很多的应用。还有一个是在大模型出现以前,他们用来做输入法学习。

我们在国内就特别多地做企业间的联邦学习,比如两个企业各自重点不一,有一个是互联网企业,有一个是电商企业,如果他们互通有无,可将电商知识传递至互联网,互联网对用户的了解也可以传递至电商。但我们可以保护用户的隐私和数据安全,这种情况就可大为提升营销效果和效率。

这种知识的传递,我们既要保护隐私又要它传递得快,同时我们要它传递以后效果佳,大家都能有所提升,这就像是在经济学中要风险小又要收益高,这是否能做到?它确实受到自然规律的“无免费午餐”的制约,你不能既要风险小,又要效果好,一定要在这当中做一定的平衡。这种平衡确实可以用数学来解决,如果喜欢数学的同学们确实可以在这方面发挥,但我特别要说的是,这种技术现在已经非常成熟了,变成一个数学理论,可以用不同的数学工具来做到最优。

再回到一开始的问题,云端大模型和本地众多垂域模型之间是可以做联邦学习,也可以做迁移学习。做的效果如何?很有意思,虽然现在在工业界还没有大规模做起来,但我们预测在人工智能的明天,当我们到处都是分布式人工智能发展的时候,这个技术就变得非常重要了。比如我们可以从大模型来帮助小模型,如何帮助?

右下角有一个红色数据库,这个数据库是一个本地的私域数据库,它不能给别人看,但我们可以用这个数据库来训练本地的小模型,这种训练当然很好,但它不够,因为本地数据有限,比如我经常去一个对话系统去聊天,我个人聊天的时间有限,人数也有限,这种数据是非常有限的,它不能对模型起到很好的提升作用。

怎么办?我就借助于大模型,这时候大模型就变成像老师一样的,我将本地的小数据做一个转换,使得我个人的隐私部分被抹去,转换以后的数据可以交给大模型,让他来扩展,扩展以后的数据既带有我本人的特点,我的喜好,又包含大模型的一些能力,能来教育小模型。久而久之,我这个“老师”就逐渐在影响本地的模型,本地模型也就变得越来越有能力。

还有一种方法,我可以有多个“学生”都在影响大模型,就用刚才的方法,同时他们之间也在学习,互补有无,既有老师又有同学的状态下,我们也可以做到这一点。这个方法不仅用于扩展本地数据的不足,还可以让大模型教会我一些学习方法,比如这个老师特别会将一个复杂问题分解成简单问题,这种方法是思维链,但小模型不具备这个能力,我们让大模型有方法来教会他,同时能保护老师的隐私,也能保护本地学生的隐私。

这个过程可以做得非常高效,将安全和效率都能给提升起来,还能做推荐系统,在电商和短视频用推荐系统是非常多的,当我们在网上刷一格,就可以看到比较精准的推荐,就来自于推荐系统的能力。

我们可以通过知识蒸馏在大模型和小模型之间做双向蒸馏,即小模型可以去教老师,它可以根据本地的一些特点,比如本地是一个牙医,他可以通过牙医特点的知识和数据反过来教大模型,让大模型也具备牙医的能力,有很多这样的工作。

还有一个工作现在是特别重要的,沿着时间轴,知识的发展、模型的发展,它是持续学习的。目前大模型不分昨天学的和今天学的,但涉及到一个终端和个人,确实有时间线问题。当我们有这个问题时,学习就变成时间和空间的时空学习。比如在空间,我们看到我们需要去学习识别不同的动物,从上到下,但在空间我们是从左到右,在昨天学到了识别这些动物,到明天学习识别这些动物,有时间的延展性。

为何我们特别将时空分开?原因在于,我们后面学的,如果不小心会将前面学的给抹掉,就像狗熊掰棒子一样,这种现象在大模型当中非常普遍,这是灾难性遗忘,我们会将过去学的遗忘掉,如果我们在学新的东西的话。这种灾难性遗忘,最严重的时候是学到最后一步,将前面的步骤都忘记了,这不是我们希望看到的,我们希望来解决这些问题。所以,这种解法是联邦持续学习。

最后,我前述的都可以以智能体的方式展现在用户面前,我们可以想象一个大模型与众多小模型,结合的结果是生成一些新智能体,这些智能体可以作为客服系统和个性化对话系统等,还有在To B上可以做供应链、风险分析、工作流等。现在智能体到处都有,但智能体目前发展仅是初期,因为智能体还得需要人来设计、创造和修改,但未来的智能体应是全自动生成、全自动修改的,我们是完全无感地在周边出现一些智能体,这种情况的发生一定要等到各个模型之间有一个联网,使得大模型能帮助本地,尤其重要的是,我们需要有一个智能规划能力,将一个问题拆解,并且能沿着时间线将问题依次进行解决,这种能力目前大模型还没有。有很多例子,比如银行系统,智能体的工厂就是不断地生成智能体来作为其输出。

现在可以告诉大家的是,刚才我所介绍的大小模型的协作、智能体工厂、联邦学习、持续学习,都已经有软件的形式、系统的形式在生成,现在我们正在做研究,赋予各个大模型的设计当中,使得我们能有一个更新的连接的分布式安全、可靠,并且保护隐私的架构出现。

谢谢大家!

延伸阅读
相关推荐
热点推荐
穆塞蒂公开道歉:非针对中国人!对中国人民致以崇高敬意

穆塞蒂公开道歉:非针对中国人!对中国人民致以崇高敬意

老踝是个手艺人
2025-09-27 19:39:25
开豪车造浪男子全网社死:身份曝光,已被行拘,副驾美女遭热议

开豪车造浪男子全网社死:身份曝光,已被行拘,副驾美女遭热议

大鱼简科
2025-09-26 16:12:35
25岁小伙表白32岁女房东,房东两眼放光,网友:吃软饭不交房租

25岁小伙表白32岁女房东,房东两眼放光,网友:吃软饭不交房租

辣媒专栏记录
2025-09-26 09:36:53
扎哈罗娃警告:若基辅在欧破坏计划属实,或将引爆第三次世界大战

扎哈罗娃警告:若基辅在欧破坏计划属实,或将引爆第三次世界大战

俄罗斯卫星通讯社
2025-09-27 15:08:17
乌克兰为援华抗日英雄立像,泽连斯基向中方释放了什么信号?

乌克兰为援华抗日英雄立像,泽连斯基向中方释放了什么信号?

阿龙聊军事
2025-09-22 14:39:38
59岁叶子楣在香港逛商场,她染了一头黄毛,打扮一言难尽

59岁叶子楣在香港逛商场,她染了一头黄毛,打扮一言难尽

可乐谈情感
2025-09-27 18:59:07
专家称搜狗输入法篡改浏览器是道德问题:虽属恶意推广标识,但对用户没实际危害

专家称搜狗输入法篡改浏览器是道德问题:虽属恶意推广标识,但对用户没实际危害

正在新闻
2025-09-26 09:29:11
驴友在那玛峰5588米坠亡,知情人曝内幕 ,父母痛,错过多次机会

驴友在那玛峰5588米坠亡,知情人曝内幕 ,父母痛,错过多次机会

番茄娱乐加
2025-09-27 13:44:15
“赫敏”艾玛·沃森首次回应与JK罗琳跨性别论战!称《哈利·波特》是最重要作品,“希望她继续爱我”?

“赫敏”艾玛·沃森首次回应与JK罗琳跨性别论战!称《哈利·波特》是最重要作品,“希望她继续爱我”?

英国报姐
2025-09-26 22:12:47
路威:我给快船打电话要球票免费停车服务周到 湖人只给我发到20排

路威:我给快船打电话要球票免费停车服务周到 湖人只给我发到20排

小鬼头体育
2025-09-28 01:38:54
6场0球0助攻!曼联新援急了:全场浪射4脚,B费摊手表达不满

6场0球0助攻!曼联新援急了:全场浪射4脚,B费摊手表达不满

球事百科吖
2025-09-28 06:06:53
坚决要求苏联归还日本北方领土 1975年8月25日《人民日报》

坚决要求苏联归还日本北方领土 1975年8月25日《人民日报》

那些看得见的老照片
2025-09-26 17:32:27
深圳公司补班被举报,反手取消14天年假!谁错了?法律说了算

深圳公司补班被举报,反手取消14天年假!谁错了?法律说了算

一丝不苟的法律人
2025-09-27 20:07:29
我国专业技术人才超过8000万人

我国专业技术人才超过8000万人

界面新闻
2025-09-26 10:11:53
赶跑两任总统的女人,最后自己当上总统,最大愿望是与中国合作

赶跑两任总统的女人,最后自己当上总统,最大愿望是与中国合作

博览历史
2025-09-26 21:18:51
一觉醒来贾国龙要哭晕在厕所!鸡排哥几句话把他的公关团队打败了

一觉醒来贾国龙要哭晕在厕所!鸡排哥几句话把他的公关团队打败了

小娱乐悠悠
2025-09-26 15:22:06
乌媒:中国秘密采购俄罗斯BMD-4战车和章鱼坦克,对台湾构成威胁

乌媒:中国秘密采购俄罗斯BMD-4战车和章鱼坦克,对台湾构成威胁

零度Military
2025-09-27 06:59:51
“一碗汤换顾客北京一套房”?西贝再遭吐槽“灾难型公关”,客服回应…

“一碗汤换顾客北京一套房”?西贝再遭吐槽“灾难型公关”,客服回应…

北京商报
2025-09-27 14:10:06
早上是“养胃黄金期”,常吃这4种早餐,修复胃黏膜,让胃好起来

早上是“养胃黄金期”,常吃这4种早餐,修复胃黏膜,让胃好起来

阿龙美食记
2025-09-04 21:42:53
广东英德法院再通报:工作人员开警车出现在山姆停车场属公车私用,将严肃处理

广东英德法院再通报:工作人员开警车出现在山姆停车场属公车私用,将严肃处理

环球网资讯
2025-09-26 23:46:02
2025-09-28 07:20:49

科技要闻

潘云鹤院士:未来AI发展三大趋势与中国机遇

头条要闻

特朗普下令向波特兰派兵:必要时将动用全部武力

头条要闻

特朗普下令向波特兰派兵:必要时将动用全部武力

体育要闻

带着一点点痛,郑钦文重新站到想她的观众面前

娱乐要闻

49岁舒淇再次让世界刮目相看

财经要闻

一碗汤换顾客北京一套房?西贝再遭吐槽

汽车要闻

华为全家桶/综合续航1400km 岚图泰山全球首秀

态度原创

旅游
游戏
本地
房产
公开课

旅游要闻

热闻|清明假期将至,热门目的地有哪些?

卡普空宣布推出《生化2RE》大型街机游戏 与万代合作

本地新闻

云游中国 | 别找了 传说中的海上不夜城在海南

房产要闻

劲销10亿!海口楼市今年首个“日光盘”,凶猛杀出!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版
×