网易首页 > 网易号 > 正文 申请入驻

杨强院士:大模型普遍存在“学了新的就忘了旧的”局限

0
分享至

来源:市场资讯

(来源:网易科技报道)

9月27日,2025网易未来大会在杭州举行,主题为“以智能·见未来”。本次大会由网易公司主办,杭州市经济和信息化局(杭州市数字经济局)、杭州市商务局、杭州高新技术产业开发区管委会指导。

本届大会将作为“第四届全球数字贸易博览会”的组成部分之一,聚焦人工智能各领域的发展,探索未来趋势。大会将由中国工程院院士潘云鹤等院士领衔,汇聚具身智能领域泰斗、顶尖AI创业先锋、知名投资人及产业翘楚。与会嘉宾将共同探讨大模型、具身智能、AI Agent等前沿技术突破与商业落地,在思想碰撞中捕捉全新的时代机遇。

在大会中,香港理工大学人工智能高等研究院院长、加拿大工程院及加拿大皇家科学院院士杨强发表了题目为《AI落地的数据难题与联邦大模型的解决方案》主题演讲。


杨强院士指出,AI的发展快速程度与硬件进步速度之间存在巨大鸿沟,而数据供给的增长速度远落后于AI对数据需求的爆炸式增长,这将导致AI发展遭遇瓶颈。而且人工智能落地过程中也面临诸多前所未有的挑战——数据隐私、安全与孤岛问题。

为此,杨强院士分享了一项研究成果:构建一个由云端通用大模型与本地垂域模型协同的架构。如何能利用这些本地的私域数据来赋能通用大模型,同时让通用大模型来指导本地推理和应用,能产生双向合作?

第一, 迁移学习可以让模型具有举一反三的能力。不仅可以做到领域的迁移,时间上也可以迁移,让昨天建立的模型,今天依然能完成任务;今天新建的模型可以回补昨天的模型。

第二,运用联邦学习技术。它不仅适用于终端设备间的协作(如手机、平板),更在企业间合作、金融风控、医疗分析等场景中具有广阔应用前景。同时,结合迁移学习与知识蒸馏,大模型可作为“教师”指导小模型提升性能,小模型也可将垂直领域知识反哺大模型,实现双向知识流动,提升整体智能水平。该技术允许多方在不共享原始数据的前提下协同训练模型,有效保障用户隐私与数据安全。

杨强院士强调,“联邦持续学习”可以解决模型在时间序列中出现的灾难性遗忘问题。后面学的可能会不小心会将前面学的抹掉,就像狗熊掰棒子一样,这种现象在大模型当中非常普遍。而这个问题的解法就是联邦持续学习。

杨强院士表示,一个大模型与众多小模型结合的结果是生成一些新智能体,这些智能体可以作为客服系统和个性化对话系统等,还可在TO B上做供应链、风险分析、工作流等。以上介绍的大小模型的协作、智能体工厂、联邦学习、持续学习已逐步形成软件与系统解决方案,并在产业实践中持续演进,使得我们能有一个更新的连接的分布式安全、可靠,并且保护隐私的架构出现。(天牛)

以下是杨强院士演讲实录:

杨强:各位领导,各位来宾,大家下午好!

我今天要讲的是用联邦学习来赋能应用落地,如何解决隐私安全的问题。

首先,我们看到AI现在发展非常快,但我们也看到一些机会,其中一个机会就来自发展其实中的不平衡,比如我们用一个红色的曲线,这个图中代表硬件的革新和进步,它是按照“摩尔定律”来向前发展的。

另外一个趋势,AI发展。AI能不断地迭代创新,远高于“摩尔定律”,比如每年成本价格在降低10倍以上,这样的一个速度就使得硬件和软件之间产生了“鸿沟”,这个“鸿沟”越来越大。我们做研究的人,其中一个目的是要填补这个鸿沟,如何填补?

另外一个趋势,数据趋势。历史上很多数据是由人类来产生,由人类来标注和清洗,这个速度首先是非常缓慢的,我们在左边的图中看到一个曲线的增长就代表了这个趋势。但人工智能对数据的需求却是巨大的,胃口很大,且增长速度很快。下面的这条曲线,这两个曲线很快就会交集,这就代表了人类已跟不上机器所需的数据制造速度,在不远的将来,机器所需要的数据就要停止了,这个数据的来源就成了一个严重的问题。 这是否代表人工智能发展也会遇到一个瓶颈?会。

我在右边列了一些现象,比如数据量不足问题、小设备处理数据的能力问题等。

我现在要回到我的老本行,人工智能在金融的领域,很多应用都是需要多方数据来完成的,比如很多数据源都是分布在不同的金融机构,我们要回答某一个问题或是做某个推理,所需要的数据源很多,这时就需要让不同数据源的宿主合作起来,共同建立一个模型。这时首先要考虑的是数据不足问题,其次是大家如何愿意来合作的问题,第三是数据在合作时如何能保证数据隐私、数据安全,并且在最后进行成果分配时,如何让大家公平持续地加入到数据分享中。

这时我们做的研究就变得非常有用,研究架构是左边,在上边代表在云端有一个通用大模型,通用大模型具有很强的训练能力、学习能力和推理能力,但它缺乏很多垂域知识。这个垂域知识来自下端,下端有很多本地收集数据,在金融、手机、个人聊天数据和游戏数据,以及在医疗机构有很多我们去做体检的数据。

我们关心的问题是,如何能利用这些本地的私域数据来赋能通用大模型,同时让通用大模型来指导本地推理和应用,能产生双向合作。

所以,除了保护隐私外,我们能让他们互相学习,模型间的互相学习是知识的迁移,从大到小,从小到大,从专业到通用,从通用到专业。

第一,迁移学习,就像我们学会举一反三,我们学会骑车,我们也自动学会了骑摩托车,我们人类有这个能力,怎样让机器也具有这个能力。

最近有一个大模型测试,大模型缺乏的能力和人类的对比,就是知识迁移、举一反三的能力,要有这种能力。过去的时代做迁移学习就开始了,这个领域发展有20多年的历史,是机器学习的一个分支。

我们在小模型时代拿一个源领域source迁移到一个新的领域,源领域和目标领域,迁移的对象是数据本身,也可能是模型的一部分,或是目标本身,我们学习的目标是从做茶变成做咖啡,模型是一个用回归模型给迁移到一个森林模型。但大模型的来到,为迁移学习又注入了新的活力,比如我们有一个预训练模型已经用了很多的数据来训练,我们遇到一个具体的情况,比如这个具体情况是用小数据来替代的,就是右边的小圆,从大圆到小圆的迁移就对应大模型的微调,我们可以在一个小领域做微调。

我们做研究的时候,关心的是未来明天的问题,那明天我们就看到如果我们将世界上所有的领域和数据源都联网,那有没有可能让它们互相之间,互补有无,以至于大家都增长,这种增长可以在空间上进行,比如手机和云端的某个大模型,在这之间可以进行知识的迁移。

在时间上也可以迁移,我昨天建了一个模型,对今天是不是有用?能迁移到今天的任务上。我今天新建的一个模型是不是可以回去补足昨天的这个模型?在时间前后的关系上也可以迁移,这样在时空上我们都可以迁移,我们就看到一个网络。

迁移有很多种办法,但我们面对的是神经网络,还有一种特殊的迁移方法是蒸馏,我们可以将一个大模型当中的很多神经元的连接,将它蒸馏成一个小模型,使得它能在终端隐形,但在特定的任务上的表现与大模型对等。

第二个方向,我们特别研究的是联邦学习。

联邦学习的发展,才经历了6、7年,但发展非常迅速,因为大家一方面关心隐私,一方面数据不够,所以要跟别人合作,只要有合作,就有联邦学习的问题出来,比如我们有一个学习小组,这个组中如何能让大家互相学习,又不干扰到每个人的利益,尤其是数据隐私、安全的利益。

图代表发展非常迅猛,非常快。

联邦学习可以是一种对等的学习,比如我们有很多的终端,我有一个电脑笔记本,他有一个iPad,另外一个人有一个手机,这些终端之间可以学习。我们就选一个人做协调者,协调者可以帮助我们发现之间的差异,可通过知识的迁移,通过协调者来帮助我们将知识在这个小组中进行迁移传递,以至于他知道的我也知道,我知道的别人也知道,这样大家都会有进步,这种是谷歌引领的方向,有很多应用,比如在广告推荐上就可以做很多的应用。还有一个是在大模型出现以前,他们用来做输入法学习。

我们在国内就特别多地做企业间的联邦学习,比如两个企业各自重点不一,有一个是互联网企业,有一个是电商企业,如果他们互通有无,可将电商知识传递至互联网,互联网对用户的了解也可以传递至电商。但我们可以保护用户的隐私和数据安全,这种情况就可大为提升营销效果和效率。

这种知识的传递,我们既要保护隐私又要它传递得快,同时我们要它传递以后效果佳,大家都能有所提升,这就像是在经济学中要风险小又要收益高,这是否能做到?它确实受到自然规律的“无免费午餐”的制约,你不能既要风险小,又要效果好,一定要在这当中做一定的平衡。这种平衡确实可以用数学来解决,如果喜欢数学的同学们确实可以在这方面发挥,但我特别要说的是,这种技术现在已经非常成熟了,变成一个数学理论,可以用不同的数学工具来做到最优。

再回到一开始的问题,云端大模型和本地众多垂域模型之间是可以做联邦学习,也可以做迁移学习。做的效果如何?很有意思,虽然现在在工业界还没有大规模做起来,但我们预测在人工智能的明天,当我们到处都是分布式人工智能发展的时候,这个技术就变得非常重要了。比如我们可以从大模型来帮助小模型,如何帮助?

右下角有一个红色数据库,这个数据库是一个本地的私域数据库,它不能给别人看,但我们可以用这个数据库来训练本地的小模型,这种训练当然很好,但它不够,因为本地数据有限,比如我经常去一个对话系统去聊天,我个人聊天的时间有限,人数也有限,这种数据是非常有限的,它不能对模型起到很好的提升作用。

怎么办?我就借助于大模型,这时候大模型就变成像老师一样的,我将本地的小数据做一个转换,使得我个人的隐私部分被抹去,转换以后的数据可以交给大模型,让他来扩展,扩展以后的数据既带有我本人的特点,我的喜好,又包含大模型的一些能力,能来教育小模型。久而久之,我这个“老师”就逐渐在影响本地的模型,本地模型也就变得越来越有能力。

还有一种方法,我可以有多个“学生”都在影响大模型,就用刚才的方法,同时他们之间也在学习,互补有无,既有老师又有同学的状态下,我们也可以做到这一点。这个方法不仅用于扩展本地数据的不足,还可以让大模型教会我一些学习方法,比如这个老师特别会将一个复杂问题分解成简单问题,这种方法是思维链,但小模型不具备这个能力,我们让大模型有方法来教会他,同时能保护老师的隐私,也能保护本地学生的隐私。

这个过程可以做得非常高效,将安全和效率都能给提升起来,还能做推荐系统,在电商和短视频用推荐系统是非常多的,当我们在网上刷一格,就可以看到比较精准的推荐,就来自于推荐系统的能力。

我们可以通过知识蒸馏在大模型和小模型之间做双向蒸馏,即小模型可以去教老师,它可以根据本地的一些特点,比如本地是一个牙医,他可以通过牙医特点的知识和数据反过来教大模型,让大模型也具备牙医的能力,有很多这样的工作。

还有一个工作现在是特别重要的,沿着时间轴,知识的发展、模型的发展,它是持续学习的。目前大模型不分昨天学的和今天学的,但涉及到一个终端和个人,确实有时间线问题。当我们有这个问题时,学习就变成时间和空间的时空学习。比如在空间,我们看到我们需要去学习识别不同的动物,从上到下,但在空间我们是从左到右,在昨天学到了识别这些动物,到明天学习识别这些动物,有时间的延展性。

为何我们特别将时空分开?原因在于,我们后面学的,如果不小心会将前面学的给抹掉,就像狗熊掰棒子一样,这种现象在大模型当中非常普遍,这是灾难性遗忘,我们会将过去学的遗忘掉,如果我们在学新的东西的话。这种灾难性遗忘,最严重的时候是学到最后一步,将前面的步骤都忘记了,这不是我们希望看到的,我们希望来解决这些问题。所以,这种解法是联邦持续学习。

最后,我前述的都可以以智能体的方式展现在用户面前,我们可以想象一个大模型与众多小模型,结合的结果是生成一些新智能体,这些智能体可以作为客服系统和个性化对话系统等,还有在To B上可以做供应链、风险分析、工作流等。现在智能体到处都有,但智能体目前发展仅是初期,因为智能体还得需要人来设计、创造和修改,但未来的智能体应是全自动生成、全自动修改的,我们是完全无感地在周边出现一些智能体,这种情况的发生一定要等到各个模型之间有一个联网,使得大模型能帮助本地,尤其重要的是,我们需要有一个智能规划能力,将一个问题拆解,并且能沿着时间线将问题依次进行解决,这种能力目前大模型还没有。有很多例子,比如银行系统,智能体的工厂就是不断地生成智能体来作为其输出。

现在可以告诉大家的是,刚才我所介绍的大小模型的协作、智能体工厂、联邦学习、持续学习,都已经有软件的形式、系统的形式在生成,现在我们正在做研究,赋予各个大模型的设计当中,使得我们能有一个更新的连接的分布式安全、可靠,并且保护隐私的架构出现。

谢谢大家!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
恐怖!伊朗安全部队的指挥官陆续接到了摩萨德特工的专门电话....

恐怖!伊朗安全部队的指挥官陆续接到了摩萨德特工的专门电话....

深度报
2026-03-19 22:33:30
拔出萝卜带出泥!释永信以前在少林寺有多过分,可能远超世人想象

拔出萝卜带出泥!释永信以前在少林寺有多过分,可能远超世人想象

最新声音
2026-03-21 08:03:15
莫耶斯:这是本赛季我们的最佳比赛;续约?我的合同还有一年

莫耶斯:这是本赛季我们的最佳比赛;续约?我的合同还有一年

懂球帝
2026-03-22 05:53:19
细思极恐,泰山队被针对来的这么快,0-4惨败,北京籍贯VAR立功!

细思极恐,泰山队被针对来的这么快,0-4惨败,北京籍贯VAR立功!

体坛风之子
2026-03-22 04:30:03
1斤100元!厦门3男子凌晨海上追5小时,钓到1条560斤的

1斤100元!厦门3男子凌晨海上追5小时,钓到1条560斤的

万象硬核本尊
2026-03-20 19:29:11
等我老了,也学日本主妇:少穿卫衣、毛衣,换成这样穿更优雅减龄

等我老了,也学日本主妇:少穿卫衣、毛衣,换成这样穿更优雅减龄

冒泡泡的鱼儿
2026-03-18 14:40:23
“梅姨案”时间线|追踪23年,“隐身”人贩终现形

“梅姨案”时间线|追踪23年,“隐身”人贩终现形

澎湃新闻
2026-03-21 18:06:27
中央第九生态环境保护督察组向江苏浙江安徽反馈大运河生态环境保护专项督察情况

中央第九生态环境保护督察组向江苏浙江安徽反馈大运河生态环境保护专项督察情况

现代快报
2026-03-20 17:19:03
真神仙专业!中国道教学院招生了,包含道教历史与神仙等5个专业,计划招30名本科生,16名研究生

真神仙专业!中国道教学院招生了,包含道教历史与神仙等5个专业,计划招30名本科生,16名研究生

观威海
2026-03-21 15:43:14
涨价就真的没人买:中国大陆显卡销量直接腰斩!

涨价就真的没人买:中国大陆显卡销量直接腰斩!

快科技
2026-03-19 12:29:41
“梅姨”现身并落网!对贩卖儿童事实供认不讳,已被依法逮捕

“梅姨”现身并落网!对贩卖儿童事实供认不讳,已被依法逮捕

南方都市报
2026-03-21 11:35:00
蓝色起源加入轨道数据中心竞赛,计划部署高达51600颗卫星

蓝色起源加入轨道数据中心竞赛,计划部署高达51600颗卫星

NASA爱好者
2026-03-21 02:34:07
2026年清明扫墓,这4天千万别去,尤其最后一天关乎健康!

2026年清明扫墓,这4天千万别去,尤其最后一天关乎健康!

老特有话说
2026-03-21 13:39:52
结束访美的高市不笑了,回国前突然喊话中方:愿意和中国展开对话

结束访美的高市不笑了,回国前突然喊话中方:愿意和中国展开对话

爱看剧的阿峰
2026-03-22 00:20:38
3月20日录制现场炸锅!李维嘉哭到停主持!节目中断15分钟才重启

3月20日录制现场炸锅!李维嘉哭到停主持!节目中断15分钟才重启

乐悠悠娱乐
2026-03-21 09:55:38
普京:俄罗斯是伊朗艰难时刻的忠实伙伴

普京:俄罗斯是伊朗艰难时刻的忠实伙伴

新华社
2026-03-21 17:42:04
曝双顶流的孩子已经三周岁

曝双顶流的孩子已经三周岁

聚焦最新动态
2026-03-21 08:06:03
热搜第一!山姆回应“冷鲜猪肉数月前屠宰”!网友:今年会费刚续完…

热搜第一!山姆回应“冷鲜猪肉数月前屠宰”!网友:今年会费刚续完…

北京商报
2026-03-21 12:06:17
美媒:中国军舰在仙宾礁用火控雷达照射了菲律宾最新型护卫舰

美媒:中国军舰在仙宾礁用火控雷达照射了菲律宾最新型护卫舰

爱吃醋的猫咪
2026-03-21 22:11:00
今晚首播!央八32集年代大剧来袭,主演阵容强,这剧收视要爆!

今晚首播!央八32集年代大剧来袭,主演阵容强,这剧收视要爆!

阿策聊实事
2026-03-22 05:11:23
2026-03-22 06:24:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2570458文章数 6001关注度
往期回顾 全部

科技要闻

宇树招股书拆解,人形机器人出货量第一!

头条要闻

伊朗导弹击中以色列核设施附近 大范围爆炸视频公布

头条要闻

伊朗导弹击中以色列核设施附近 大范围爆炸视频公布

体育要闻

谁在决定字母哥未来?

娱乐要闻

田栩宁终于凉了?出轨风波影响恶劣

财经要闻

通胀警报拉响,加息潮要来了?

汽车要闻

小鹏汽车2025年Q4盈利净赚3.8亿 全年营收767亿

态度原创

游戏
艺术
手机
房产
公开课

魔兽世界:时光服P3阶段将至,新手该练什么职业,这个很重要!

艺术要闻

你的母校在吗?毛主席亲笔题名的 20 所大学合集

手机要闻

终端市场集体喊“涨” 手机面板持续走“跌”

房产要闻

全城狂送1000杯咖啡!网易房产【早C计划】,即刻启动!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版