网易首页 > 网易号 > 正文 申请入驻

爱丁堡大学揭秘:AI学习新知识时,为何总会"忘记"旧本领?

0
分享至

“马什么梅?什么冬梅?马冬什么?”

老年人容易忘事,年轻人难以背诵全文。AI其实也有记不住的时候。


2025年11月,爱丁堡大学的研究团队试图回答一个困扰AI领域多年的核心问题:为什么机器学习系统在学习新东西时,总是会忘记之前学会的知识?研究成果发表于Arxiv。

想象一下这样的场景:你教会了一个机器人认识猫的照片,它学得很好。但当你继续教它认识狗的照片时,它突然就不太会认猫了。这个现象在AI领域非常普遍,但奇怪的是,尽管研究人员研究了几十年,却一直没有一个统一的理论来解释"遗忘"到底是什么。就好比大家都知道人会感冒,但如果没有病毒学理论,我们就无法真正理解感冒的本质,也就很难找到有效的治疗方法。

这项研究的突破性意义在于,它首次提出了一个不依赖于具体算法或任务类型的通用理论框架,来精确定义和测量AI系统的遗忘现象。研究团队发现了一个关键洞察:如果一个学习系统在遇到它已经预期会出现的数据时还要更新自己的判断,那么这种更新不可能代表获取了新信息,而只能说明它丢失了之前掌握的知识。基于这个核心思想,研究团队建立了一套完整的理论体系,并通过涵盖分类、回归、生成建模和强化学习等多个领域的大量实验,证实了遗忘现象确实无处不在,并且在决定学习效率方面扮演着至关重要的角色。

更令人惊讶的是,研究发现适度的遗忘并非完全是坏事。就像人类记忆一样,完全不遗忘反而可能降低学习效率。研究团队发现,在深度学习中,训练效率最高的模型往往不是遗忘最少的,而是在遗忘和适应之间找到了某种微妙平衡的那些。特别是在强化学习(比如训练游戏AI)这样的场景中,遗忘问题尤为严重,这也解释了为什么这类AI训练起来特别困难。这项研究不仅为理解AI的学习机制提供了全新视角,更为开发能够持续学习而不忘记旧知识的AI系统奠定了理论基础。

什么是遗忘?从日常观察到科学定义

在开始深入探讨之前,我们先来理解一个基本问题:遗忘到底是什么?你可能会说,这还不简单吗?遗忘就是忘记了之前学过的东西。但当我们试图精确定义这个概念时,问题就变得复杂了。

想象你在学习弹钢琴。一开始你学会了弹《小星星》,后来你开始学《致爱丽丝》。几个月后,当你再想弹《小星星》时,发现有些地方记不清了。这算是遗忘吗?似乎是的。但如果换一个角度看,你现在能弹更复杂的《致爱丽丝》了,你的整体钢琴水平其实是提高了的。那么我们该说你"遗忘"了《小星星》,还是说你在学习过程中做出了某种"取舍"?

AI系统面临的困境与此类似,但更为复杂。研究团队指出,现有的大多数研究都来自"持续学习"领域,这个领域关注的是AI如何在不同任务之间切换而不丢失之前的能力。但这些研究中用来测量遗忘的方法存在一个根本问题:它们无法区分"遗忘"和"后向迁移"这两个完全不同的现象。


什么是后向迁移呢?还是用钢琴来比喻。假设你先学会了弹《小星星》,然后学习了《致爱丽丝》。在学习《致爱丽丝》的过程中,你掌握了更好的手指技巧和节奏感。现在,当你重新弹《小星星》时,你发现自己弹得比以前更好了,因为新学到的技能反过来改进了你弹旧曲子的能力。这种"新知识改进旧能力"的现象就是后向迁移。

问题在于,传统的测量方法只是简单比较"学习新任务前"和"学习新任务后"在旧任务上的表现差异。如果表现变差了,就说发生了遗忘。但这种方法忽略了一个关键事实:表现变差可能是因为真的忘记了旧知识,也可能只是因为新旧知识之间存在冲突,还可能是因为测量方式本身有问题。就好比你用计算器算题时按错了键,不能说明你忘记了数学知识。

更令人困惑的是,即使在理想的情况下,数据分布完全不变,每次都从同一个数据池中随机抽取训练样本,AI系统仍然会表现出遗忘现象。这个发现让研究人员意识到,遗忘可能是学习过程本身的一个内在特性,而不仅仅是环境变化导致的问题。

为了建立一个更好的理论框架,研究团队提出了四个核心标准,任何有效的遗忘定义都应该满足这些标准。第一,遗忘的测量应该关注信息的丢失,而不是任务表现的变化,因为一个系统可能保留了错误的信息但表现不错,也可能丢失了重要信息但暂时表现还可以。第二,必须能够区分"丢失旧知识"和"基于新信息做出合理调整"这两种情况,就像区分真正忘记和主动选择不同。第三,遗忘不应该仅仅指忘记见过的具体例子,还应该包括失去泛化能力——比如一个学会识别猫的AI,即使你没有给它看过某只特定的猫,它也应该能认出来,如果它失去了这种泛化能力,就算是遗忘了。第四,遗忘应该是学习系统的属性,而不是环境或数据的属性,就像说"这个学生记忆力不好"而不是说"这本书难记"。

基于这些思考,研究团队提出了一个全新的视角:从"预测一致性"的角度来定义遗忘。这个想法的核心非常简洁优雅。想象你有一个AI模型,它现在对未来会发生什么有一套预测。比如一个识别动物的AI,当看到一张模糊的图片时,它会说"我觉得这80%可能是猫,20%可能是狗"。现在,假设你让这个AI根据它自己的预测生成一些"假想数据"(就是它认为可能会出现的数据),然后用这些假想数据来更新它自己。如果更新之后,AI对未来的预测改变了,那就说明它忘记了某些东西。因为它看到的只是它自己觉得会出现的数据,这些数据里没有任何新信息,所以任何改变都只能是信息的丢失,而不是信息的获取。

这就像是你写了一份关于明天会发生什么的预测报告,然后你读了自己写的这份报告,结果你对明天的看法改变了。这说明什么?说明你忘记了当初为什么那样预测,否则重读自己的报告不应该改变你的想法,因为报告里的信息本来就是你已经知道的。

通过这个定义,研究团队成功地将"遗忘"转化为一个可以精确测量的数学量。他们称之为"遗忘倾向",用来衡量一个学习系统在多大程度上会在看到自己预期的数据后改变自己的预测。这个测量方法的巧妙之处在于,它不需要知道"正确答案"是什么,也不需要假设数据分布保持不变,更不需要定义什么是"重要"的知识。它只需要检查系统是否在自己的预测上保持一致。

建立理论基础:把学习过程看作一个动态故事

为了精确描述遗忘现象,研究团队首先需要建立一个通用的框架来描述学习过程本身。这个框架的目标是能够涵盖所有类型的机器学习,无论是教计算机识别图片,还是训练游戏AI,或是让AI生成文字,都能用同一套语言来描述。

想象学习过程就像是一场持续进行的对话。对话有两个参与者:一个是"环境",它不断提出问题或给出观察结果;另一个是"学习者",它根据观察做出预测或采取行动。这场对话是一轮接一轮进行的,每一轮都包含三个步骤。

第一步,环境给出一个观察结果。这个观察结果可能是一张图片和它对应的标签(在图片分类任务中),可能是游戏的当前状态和得到的奖励(在强化学习中),也可能就是一个需要学习生成的数据样本(在生成建模中)。第二步,学习者基于当前的内部状态和观察到的内容,做出一个预测或采取一个行动。比如它可能预测图片里有只猫,或者决定在游戏中向左移动。第三步,学习者根据新的观察和自己的预测,更新自己的内部状态。这个内部状态包含了学习者的所有"知识",比如神经网络的参数权重、优化器的动量、可能还有一个存储过去经验的回放缓冲区。

这个框架的精妙之处在于它的统一性。研究团队指出,表面上看起来完全不同的机器学习任务,实际上都可以用这个框架来描述。在监督学习中,观察就是输入和正确答案的配对,学习者的输出是它的预测。在强化学习中,观察是当前状态和获得的奖励,学习者的输出是它要采取的行动。在生成建模中,学习者试图模仿观察到的数据分布,它的输出是对下一个数据样本的预测。

但这个框架的关键创新还不止于此。研究团队引入了一个叫做"诱导未来"的概念,这个概念为理解遗忘提供了核心工具。什么是诱导未来呢?简单来说,就是让学习者"做白日梦",想象未来会发生什么。


具体来说,在任何时刻,学习者都维护着一个内部状态,这个状态决定了它如何预测和行动。现在,我们不让学习者继续与真实环境互动,而是让它进入一种"推演模式"。在这个模式下,学习者根据自己当前的预测生成假想的未来观察,然后假装这些是真的观察,据此更新自己的状态(但只是表面上的更新,不真正改变核心的学习内容),接着继续预测下一步,再生成下一个假想观察,如此循环下去。这样,学习者就生成了一个关于未来的完整故事,这个故事完全基于它当前的信念和预测能力。

为什么这个"诱导未来"的概念如此重要?因为它提供了一个检验学习者"自洽性"的方法。想象你问一个人:"你觉得明天会发生什么?"他给了你一个预测。然后你说:"好,现在假设你的预测都成真了,明天真的就是你说的那样。那么后天呢?"如果这个人是完全自洽的,那么他基于自己预测的明天来预测后天,应该和他直接预测后天的结果一样。但如果不一样,就说明这个人的思维是不一致的,他可能在推理过程中忘记了什么。

研究团队将这个思想应用到机器学习系统上。他们发现,一个不遗忘的学习系统应该具有这样的性质:如果让它根据自己当前的预测"推演"未来k步,得到的未来预测分布,应该和直接从现在的状态推演k步后的未来预测分布完全一致。用数学语言说,就是"边缘化"后的分布应该保持不变。

这个性质被称为"一致性条件"。如果一个学习系统违反了这个一致性条件,就说明它在用自己预期的数据更新自己时,改变了自己的预测分布,这只能意味着信息的丢失,也就是遗忘。研究团队据此定义了"遗忘倾向"这个量,用来衡量一致性条件被违反的程度。违反得越严重,说明系统的遗忘倾向越强。

这个理论框架还有一个重要的洞察。研究团队指出,这种从"预测视角"来看待学习的方式,受到了"预测贝叶斯"框架的启发。传统的贝叶斯方法关注的是模型参数的后验分布,而预测贝叶斯方法关注的是对未来观察的预测分布。这个转变看似微妙,但意义重大。在深度学习中,神经网络的参数本身往往没有明确的统计学意义,它们只是计算的中间产物。真正有意义的是模型的预测能力。因此,从预测分布的角度来定义遗忘,比从参数变化的角度更加本质和通用。

而且,预测是可以被验证的。你可以观察模型的预测是否准确,但你无法直接观察一个"正确的参数后验分布"应该是什么样。这使得基于预测的遗忘定义具有可操作性和可验证性。

验证理论:遗忘无处不在的实证证据

理论提出后,最关键的问题是:它在实践中有效吗?研究团队设计了一系列覆盖多个领域的实验来验证他们的理论,结果令人印象深刻。他们发现,无论在哪种学习场景下,遗忘现象都客观存在,并且表现出一些共同的规律。


在回归任务中,研究团队训练一个简单的神经网络来拟合一个正弦函数。这是最基础的机器学习任务之一,就像教一个孩子认识数字一样简单。即便在这么简单的任务中,研究团队仍然观察到明显的遗忘现象。有趣的是,遗忘倾向在训练过程中不是单调变化的,而是呈现出复杂的动态模式。在训练初期,遗忘倾向通常较高,因为模型还在大幅调整自己。随着训练的进行,遗忘倾向逐渐稳定下来,但从不完全消失。更有意思的是,研究团队通过改变学习算法的各种参数(比如学习率、批次大小、网络规模),观察到遗忘倾向会相应变化,这证明遗忘确实是学习过程的固有属性。

分类任务的情况类似。研究团队在一个二分类问题上(区分两个半月形区域的点)训练神经网络,同样观察到了持续的遗忘现象。特别引人注目的是,当研究团队人为制造任务切换(先学任务A,再学任务B,这在学术界被称为"类增量学习")时,遗忘倾向在任务切换的瞬间会出现显著的跳跃。这符合直觉:当环境突然改变时,学习者需要快速适应,这个快速适应的代价就是大量遗忘。

生成建模任务提供了另一个有趣的视角。研究团队训练一个AI来生成符合特定分布的数据点(仍然是那个二维的两个半月形分布)。这类任务特别有意思,因为这里没有明确的"正确答案",模型只是试图捕捉数据的内在规律。然而即使在这种情况下,遗忘现象依然存在。研究团队通过测量模型在训练过程中生成样本分布的变化,发现模型确实会逐渐"忘记"数据分布的某些细节特征,即使这些特征在训练数据中反复出现。


但最戏剧性的发现来自强化学习实验。强化学习是训练AI玩游戏或控制机器人的主要方法,也是被认为最接近人类学习方式的一种范式。研究团队使用经典的CartPole环境(一个平衡倒立摆的任务,类似于用手掌顶一根竖直的棍子)训练深度Q网络。结果显示,强化学习中的遗忘现象远比监督学习严重得多。

遗忘倾向的曲线在强化学习中表现出剧烈的、混乱的振荡。这种混乱不是随机噪声,而是反映了强化学习的一个基本特征:环境的非平稳性。在监督学习中,数据分布通常是固定的或缓慢变化的。但在强化学习中,智能体的策略改变会导致它遇到的状态分布改变,而状态分布的改变又会影响策略的更新,形成一个复杂的反馈循环。这个循环导致学习过程极不稳定,遗忘现象也因此格外严重。

研究团队通过详细的数据分析指出,强化学习中的混乱遗忘动态是当前强化学习算法效率低下的一个重要原因。现有的优化算法主要是为监督学习设计的,它们假设数据分布相对稳定。当应用到强化学习这种高度非平稳的环境时,这些算法无法有效地平衡适应和保留,导致智能体在学习过程中不断地"忘记"之前学到的有用策略。

在所有这些实验中,一个一致的发现是:遗忘和学习效率之间存在微妙的权衡关系。研究团队定义了一个"训练效率"指标,衡量模型达到一定性能水平所需的训练时间。令人惊讶的是,遗忘倾向最低的模型往往不是训练效率最高的。相反,存在一个"最优遗忘水平",在这个水平上,模型既能快速适应新信息,又不会过度破坏已有知识。

为了理解这个现象,我们可以用一个比喻。想象你在整理一个杂物房。如果你完全不扔任何东西(零遗忘),房间很快就会被塞满,新的有用物品无处可放。但如果你随意乱扔(过度遗忘),可能会把以后还要用的东西丢掉。最优策略是选择性地清理:保留重要的东西,丢弃不重要的。机器学习系统面临同样的困境。模型的"容量"是有限的,它不能无限制地保留所有信息。适度的遗忘实际上是一种必要的筛选机制,它让模型能够为新知识腾出空间。

研究团队通过操控学习算法的各种参数,系统地研究了这个权衡关系。他们发现,当改变模型大小时,存在一个"甜蜜点":太小的模型学不到足够的知识,太大的模型则会过度遗忘(因为有太多参数需要协调)。当改变优化器的动量参数时,也观察到类似的模式:适中的动量带来最佳的学习效率,因为它在稳定性和适应性之间取得了平衡。批次大小的影响也很明显:太小的批次导致训练不稳定和严重遗忘,太大的批次虽然稳定但学习缓慢,中等大小的批次提供了最好的权衡。

深层机制:为什么遗忘是学习的必然伴侣

通过这些广泛的实验,研究团队不仅验证了他们的理论框架,还揭示了遗忘现象背后的一些深层机制。他们的分析表明,对于使用近似方法的学习系统(这包括几乎所有实用的深度学习模型),遗忘几乎是不可避免的。

为什么会这样呢?根本原因在于,实际的机器学习系统都在进行某种形式的"压缩"。想象你要在一个小笔记本上记录一本厚书的内容,你不可能逐字逐句地抄写,只能提取要点。机器学习模型面临类似的约束:它们的参数数量是有限的,不可能完美地记住所有训练数据的每一个细节。因此,模型必须学会"概括"或"压缩"信息。

这个压缩过程是有损的。当模型遇到新数据时,它必须调整参数来容纳新信息。但参数是有限的,调整参数来适应新数据不可避免地会影响模型对旧数据的表示。这就像你在笔记本上添加新内容时,可能需要擦掉或覆盖一些旧笔记,或者至少需要重新组织笔记的结构,这个过程中一些旧信息的细节就会丢失。

研究团队通过一个精心设计的实验展示了这一点。他们比较了三种不同的学习系统:一个完整的贝叶斯推理系统(理论上的理想学习者),一个使用对角协方差矩阵的简化贝叶斯系统(一种常用的近似),和一个基于梯度下降的点估计系统(最常用的深度学习方法)。结果显示,只有第一个系统完全不遗忘,因为它精确地维护了关于参数的完整概率分布。后两个系统都表现出遗忘,程度随着近似程度的增加而增加。

但这里有一个看似矛盾的发现:虽然近似系统会遗忘,但在实际任务中,它们的表现往往比完美的贝叶斯系统更好(至少在有限的计算资源下)。为什么会这样?研究团队指出,这是因为适度的遗忘实际上起到了一种"正则化"的作用。正则化是机器学习中的一个技术术语,指的是防止模型过度拟合的方法。遗忘可以被看作是一种隐式的正则化:通过不完美地记住每个训练样本,模型被迫学习更加泛化的模式,而不是记忆具体的例子。

这个发现与人类学习的某些特征有着有趣的相似之处。认知科学研究表明,人类的遗忘并非完全是缺陷,在某些情况下它是有益的。忘记不重要的细节可以帮助我们聚焦于重要的模式和原则。机器学习系统似乎也展现出了类似的特性。

研究团队还深入分析了不同学习场景下遗忘动态的差异。他们发现,数据分布的稳定性是一个关键因素。在独立同分布的数据上(比如每次从同一个数据池中随机抽取样本),学习相对平滑,遗忘倾向也相对稳定。但当数据分布发生变化时(比如任务切换或强化学习中的策略变化),遗忘会急剧增加。

这个观察引出了一个重要的实践启示:要减少遗忘,关键不仅在于改进学习算法本身,还在于稳定训练过程中的数据分布。这解释了为什么经验重放(在强化学习中存储和重复使用过去的经验)这样的技术如此有效。经验重放本质上是通过人为地保持数据分布的稳定性来减少遗忘。但研究团队的理论表明,重放只是治标不治本,因为它没有解决遗忘的根本原因。一个更根本的解决方案需要设计出能够在不稳定数据流中保持自洽性的学习算法。

另一个有趣的发现涉及模型架构的影响。研究团队在CIFAR-10图像分类数据集上比较了不同架构(逻辑回归、多层感知机、卷积神经网络和残差网络)的遗忘倾向。结果显示,更强大的架构(如残差网络)反而表现出更高的遗忘倾向,但它们的最终性能却是最好的。这再次印证了遗忘和学习能力之间的复杂关系:强大的模型之所以强大,部分原因正在于它们能够快速适应和调整,而这种适应性的代价就是更多的遗忘。

研究团队从理论角度阐释了为什么会出现这种现象。他们证明,在他们的框架下,遗忘本质上衡量的是模型在不同时间点的"信念"之间的不一致性。一个更有表达力的模型(如深度神经网络)可以表示更复杂的信念分布,因此它在更新时也可能产生更大的信念变化。相比之下,一个简单的线性模型的表达能力有限,它的信念分布本身就很"僵硬",因此即使更新也不会产生太大的变化。但这种僵硬是以牺牲学习能力为代价的。

理论边界:什么时候这个框架适用

研究团队非常坦诚地讨论了他们理论框架的适用范围和局限性。他们指出,这个基于"预测一致性"的遗忘定义依赖于一个关键假设:学习系统必须能够被看作是维护着一个关于未来的"连贯的概率模型"。

什么叫连贯的概率模型呢?简单说,就是学习系统的内部状态能够被解释为一个定义良好的概率分布,这个分布描述了系统对未来可能观察到的数据的预期。大多数标准的机器学习方法都满足这个条件。比如,一个分类神经网络输出的是各个类别的概率,一个生成模型明确定义了数据的概率分布,即使是强化学习中的价值函数也可以被解释为对未来回报的某种概率预期。

但在某些特殊情况下,这个假设可能不成立。研究团队举了几个例子。第一个是"瞬态阶段",比如在强化学习中,当我们突然清空经验回放缓冲区,或者重置目标网络时,学习系统的状态在那一瞬间不对应任何连贯的预测模型。在这些瞬间,谈论遗忘是没有意义的,因为系统本身暂时失去了"连贯的信念"这个前提。第二个例子是一些非概率的启发式算法,它们可能根本不维护一个概率模型,而是使用一些规则或查找表来做决策。对于这类系统,基于预测分布的遗忘定义确实不适用。

不过研究团队强调,这些例外情况相对罕见。在实际应用中,绝大多数机器学习系统在绝大多数时间里都满足这个假设。而且,这个理论框架的价值不在于它能涵盖所有可能的学习系统,而在于它为主流的机器学习方法提供了一个统一的、原则性的分析工具。

研究团队还讨论了测量方法的实际挑战。虽然"遗忘倾向"在理论上定义得很清楚,但在实践中精确测量它并不简单。这个测量需要让学习系统根据自己的预测生成数据,然后用这些数据更新自己,最后比较更新前后的预测分布。这个过程涉及多次"克隆"模型和模拟未来轨迹,计算成本较高。研究团队使用了蒙特卡洛方法(一种通过大量随机采样来近似复杂概率分布的技术)来实现这个测量,但承认这只是一个近似。

另一个实践挑战是如何选择合适的"发散度量"来量化预测分布的变化。研究团队在实验中使用了KL散度(一种测量两个概率分布之间差异的标准方法)和最大平均差异(适用于连续分布的另一种度量)。不同的度量可能会给出定性相似但定量不同的结果。研究团队建议,在实际应用中应该根据具体任务选择合适的度量,并且最好使用多个度量来交叉验证结果。

此外,研究团队指出,他们的理论目前主要关注"点估计",也就是学习系统在某个特定时刻的遗忘倾向。一个自然的扩展是考虑遗忘倾向在整个学习过程中的累积效应。虽然研究团队在实验中绘制了遗忘倾向随时间的曲线,但如何将这些时间序列信息整合成对学习系统的整体评估,仍然是一个开放问题。

尽管存在这些局限,研究团队的实验结果令人信服地表明,这个理论框架捕捉到了机器学习系统行为的一个重要方面。遗忘倾向的变化与学习效率、模型性能、训练稳定性等可观察的现象高度相关,这证明了这个理论量不仅在数学上优雅,而且在实践中有意义。

至顶AI实验室洞见

这项研究建立了一座桥梁,连接了机器学习中一些之前看似独立的概念。遗忘、泛化、正则化、经验重放、持续学习,这些概念现在可以在一个统一的框架下被理解。研究团队的工作表明,这些现象都与学习系统维护预测一致性的能力有关。这种统一的视角可能帮助研究人员发现新的算法设计原则。

一个直接的应用方向是开发"遗忘感知"的学习算法。既然我们现在有了测量遗忘的方法,就可以把"最小化遗忘"或"维持最优遗忘水平"作为一个明确的优化目标。也许会有一个神经网络优化器,不仅关注训练损失,还监控遗忘倾向,并动态调整学习率或参数更新策略以保持在最优遗忘区间。这种算法在持续学习和强化学习等容易发生严重遗忘的场景中可能特别有用。

另一个有前景的方向是利用这个理论来诊断和调试学习系统。当一个模型表现不佳时,我们可以检查它的遗忘倾向曲线,看看是否存在异常的遗忘模式。过高的遗忘可能意味着学习率太大或批次大小太小,遗忘模式的剧烈波动可能表明数据分布不稳定或存在某种形式的分布偏移。这种诊断信息可以指导我们如何调整超参数或改进数据采样策略。

在持续学习领域,这项研究提供了一个新的评估标准。目前的持续学习方法主要关注任务性能的保持,但正如研究团队所指出的,性能保持不等于不遗忘,因为存在后向迁移的干扰。使用遗忘倾向作为评估指标,我们可以更纯粹地衡量一个算法到底在多大程度上保留了旧知识,而不是依赖于可能混淆多个因素的任务性能指标。

对于强化学习,这项研究的启示尤其重要。研究团队发现强化学习中的遗忘问题格外严重,这可能是当前强化学习效率低下的一个根本原因。一个自然的推论是,开发能够稳定遗忘动态的新型强化学习算法可能会带来显著的性能提升。这可能涉及新的经验回放机制、更智能的探索策略,或者根本性地重新思考如何在非平稳环境中进行价值函数逼近。

从更宏观的角度看,这项研究为理解智能本身的本质提供了新的视角。人类智能的一个显著特征是我们能够持续学习新事物而不完全忘记旧知识,尽管我们确实会遗忘一些东西。这项研究表明,遗忘可能不是学习的缺陷,而是在有限资源约束下实现高效学习的必要代价。人类大脑似乎已经进化出了非常精妙的机制来管理这个权衡,选择性地保留重要信息而忘记不重要的细节。理解这些机制,并在人工系统中复制它们,可能是通向更强大AI的关键一步。

说到底,这项研究回答了一个看似简单但实际深刻的问题:当机器学习新东西时,它为什么会忘记旧东西?答案是复杂而微妙的。遗忘不仅仅是一个需要消除的缺陷,它是有限容量系统在不断变化的环境中学习时的自然产物,甚至在某种程度上是必要的。真正的挑战不是完全消除遗忘,而是智慧地管理它,在保留重要知识和适应新信息之间找到恰当的平衡。这项研究为我们提供了理解和处理这个挑战的新工具,这些工具的全部潜力还有待我们去探索和实现。

本文来自至顶AI实验室,一个专注于探索生成式AI前沿技术及其应用的实验室。致力于推动生成式AI在各个领域的创新与突破,挖掘其潜在的应用场景,为企业和个人提供切实可行的解决方案。

Q&A

Q1:什么是"遗忘倾向"?

A:遗忘倾向是研究团队提出的一个测量指标,用来量化AI系统在看到自己预期会出现的数据后改变预测的程度。如果系统根据自己的预测更新后改变了未来预期,就说明它忘记了某些之前学到的知识。这个指标越高,说明系统越容易遗忘。

Q2:适度遗忘为什么对学习有益?

A:就像人类需要忘记不重要的细节来专注于重要模式一样,AI系统的适度遗忘实际上起到了"信息筛选"的作用。完全不遗忘会导致模型容量被无用信息占满,过度遗忘则会丢失重要知识。最优学习效率往往出现在中等遗忘水平,这时系统既能快速适应新信息,又不会过度破坏已有的有用知识。

Q3:这项研究对实际AI开发有什么帮助?

A:这项研究为AI开发者提供了诊断和优化学习系统的新工具。通过监测遗忘倾向,开发者可以识别训练过程中的问题,如学习率设置不当或数据分布不稳定。研究还揭示了不同超参数(如批次大小、模型规模)如何影响遗忘,帮助开发者找到最优配置。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
山姆会员店回应选品像普通超市

山姆会员店回应选品像普通超市

界面新闻
2025-11-18 00:05:03
高市早苗开始认错,若中方发起反制,将对日本经济带来怎样的危机

高市早苗开始认错,若中方发起反制,将对日本经济带来怎样的危机

北向财经
2025-11-18 09:19:32
著名药物化学家李敏勇教授突发疾病逝世,年仅49岁

著名药物化学家李敏勇教授突发疾病逝世,年仅49岁

极目新闻
2025-11-18 09:42:29
“内部信”风波后,俞敏洪连发10条南极旅游视频,旅行社:该行程20天人均花费30万元

“内部信”风波后,俞敏洪连发10条南极旅游视频,旅行社:该行程20天人均花费30万元

极目新闻
2025-11-18 14:06:30
又轰下36+18+13!抱歉罗伯特森:你要从历史第一变历史第二了

又轰下36+18+13!抱歉罗伯特森:你要从历史第一变历史第二了

篮球大视野
2025-11-18 15:32:31
东部战区重磅发布!

东部战区重磅发布!

新京报
2025-11-18 16:23:55
合肥市委副书记、合肥理工学院党委书记路军被查

合肥市委副书记、合肥理工学院党委书记路军被查

澎湃新闻
2025-11-18 15:44:27
中组部:公职人员退休后未经批准经商(包括当律师)的,不再保留党政机关退休金等待遇

中组部:公职人员退休后未经批准经商(包括当律师)的,不再保留党政机关退休金等待遇

新浪财经
2025-11-18 12:46:38
紫牛问政|智能燃气表自身耗电费用,该谁买单?南京市民起诉港华燃气案开庭

紫牛问政|智能燃气表自身耗电费用,该谁买单?南京市民起诉港华燃气案开庭

扬子晚报
2025-11-18 12:06:53
日本外务省官员离开中国外交部

日本外务省官员离开中国外交部

财联社
2025-11-18 14:34:09
假存款单租奔驰,连父母都是演员!湖北小伙被骗婚案一审开庭,被女方一句话“气笑了”

假存款单租奔驰,连父母都是演员!湖北小伙被骗婚案一审开庭,被女方一句话“气笑了”

潇湘晨报
2025-11-18 12:30:17
俄媒爆料:一“破坏小组”受乌克兰情报机构指使,曾计划暗杀绍伊古

俄媒爆料:一“破坏小组”受乌克兰情报机构指使,曾计划暗杀绍伊古

环球网资讯
2025-11-18 15:40:51
广东模特冠军诞生!你还敢嘲笑辽宁吗?

广东模特冠军诞生!你还敢嘲笑辽宁吗?

麦杰逊
2025-11-18 11:33:20
外交部回应美国驻日大使涉华言论:纯属别有用心的政治作秀

外交部回应美国驻日大使涉华言论:纯属别有用心的政治作秀

环球网资讯
2025-11-18 15:31:04
全国首家烧烤学院正式开班:首届26名学员都是烧烤店老板,半脱产两年半读大专

全国首家烧烤学院正式开班:首届26名学员都是烧烤店老板,半脱产两年半读大专

红星新闻
2025-11-18 16:58:26
台湾退役少校怒怼日本:这次千万别投降

台湾退役少校怒怼日本:这次千万别投降

扬子晚报
2025-11-18 12:25:32
俞敏洪在南极给员工写信翻车上热搜!员工:23点我还在打电话续费

俞敏洪在南极给员工写信翻车上热搜!员工:23点我还在打电话续费

柴狗夫斯基
2025-11-17 21:16:32
狗主人赵某晖照片遭曝光:家住三层小洋房,不是差钱的人没法调解

狗主人赵某晖照片遭曝光:家住三层小洋房,不是差钱的人没法调解

汉史趣闻
2025-11-17 22:02:58
惹怒中国后,高市早苗又放话:要收回韩国领土,韩民称中国骂轻了

惹怒中国后,高市早苗又放话:要收回韩国领土,韩民称中国骂轻了

古事寻踪记
2025-11-18 07:18:01
哈登28+6+5丢绝杀迎28000分里程碑 快船遭76人逆转马克西39+6

哈登28+6+5丢绝杀迎28000分里程碑 快船遭76人逆转马克西39+6

醉卧浮生
2025-11-18 10:37:32
2025-11-18 17:23:00
至顶AI实验室 incentive-icons
至顶AI实验室
一个专注于探索生成式AI前沿技术及其应用的实验室。
618文章数 150关注度
往期回顾 全部

科技要闻

OPPO Reno15系列深评:实况封神+颜值暴击

头条要闻

燃气公司未告知让用户承担燃气表电池费 遭业主起诉

头条要闻

燃气公司未告知让用户承担燃气表电池费 遭业主起诉

体育要闻

结束最后一次对决,陈梦和朱雨玲笑着相拥

娱乐要闻

宋佳夺影后动了谁的奶酪

财经要闻

青云租陷兑付危机 集资与放贷的双面生意

汽车要闻

更加豪华 更加全地形 极石ADAMAS

态度原创

家居
健康
亲子
艺术
军事航空

家居要闻

彰显奢华 意式经典风格

警惕超声报告这六大"坑"

亲子要闻

小孩子摔到头怎么办?医生提醒这几种情况一定要马上就医

艺术要闻

优雅浪漫的绘画,美到让人想直接住进去!

军事要闻

日媒扬言要"击沉福建舰" 专家:玩火自焚

无障碍浏览 进入关怀版