超越Yann LeCun：世界模型的学习和推理|贝叶斯|算法|原理|变分

分享至

来源：CreateAMind

节选第二节，约4000字

摘要

了解大脑中的信息处理并创造通用人工智能是全世界科学家和工程师的长期愿望。人类智能的显着特征是在与包括自我在内的世界的各种互动中的高级认知和控制，这些不是预先定义的，而是随着时间而变化的。构建类人智能机器的挑战，以及脑科学和行为分析、机器人技术及其相关理论形式化方面的进展，说明了世界模型学习和推理的重要性。在本文中，在简要回顾了内部模型学习和概率学习的历史和挑战之后，我们介绍了自由能原理，它为考虑神经元计算和概率世界模型提供了一个有用的框架。接下来，我们展示了在该原则下解释的人类行为和认知的示例。然后，我们将概率建模背景下的符号出现描述为认知机器人学前沿的一个主题。. 最后，我们回顾了使用新颖的概率编程语言在创建类人智能方面的最新进展。这些研究得出的惊人共识是，对学习和推理的概率描述是创建类人人工智能机器并在人类如何与世界互动的背景下理解智能的强大而有效的方法。

目录：

通常，在自由能原则下有三个优化级别。这些对应于生成模型中的未知因素（即潜在原因）。这些未知包括（i）产生结果的潜在状态，（ii）编码偶然事件和统计规律的模型参数，以及（iii）生成模型的形式或结构。每个都配备了可变密度（即贝叶斯信念），该密度由（i）状态、（ii）权重和（iii）手头代理的结构参数化。

2.1 . 推理

在最快的时间尺度上，推理可以被解读为优化状态（例如，突触活动）以优化变分自由能。这通常是根据自由能的梯度流来计算的。至关重要的是，自由能梯度几乎可以普遍视为预测误差。这提供了一种直接且有原则的方式来表达神经元动力学。此外，它导致了自由能优化的特定方案。例如，对于连续状态的生成模型，我们最终得到了预测编码方案（Rao 和 Ballard，1999 年， Srinivasan 等人，1982 年），在工程中对应于贝叶斯滤波器，例如扩展卡尔曼滤波器和粒子滤波器（ Lee和芒福德，2003，洛利格，2002 年）。对于离散状态和时间的生成模型，等效的消息传递变成了信念传播或变分消息传递（Dauwels，2007 年，Winn 和 Bishop，2005 年，Yedidia 等人，2005 年）。所有这些方案在应用于神经生物学环境时都具有一定程度的生物学合理性（ Friston, Parr et al., 2017）。

2.2 . 学习

第二组未知数是生成模型的参数，以缓慢变化的权重编码（例如，突触功效）。同样，学习可以被解释为一个自由能优化过程，在生物环境中，通过联想或赫布方案减少依赖于经验的可塑性（弗里斯顿、菲茨杰拉德、里戈利、施瓦滕贝克和佩祖洛，2017 ）。因为自由能的梯度可以作为预测误差，这也很好地适应了深度学习和神经网络中误差的反向传播（ Amari，1998，George and Hawkins，2009，Hinton，2007，LeCun et al.，2015，Whittington和博加茨，2017).

2.3 . 模型选择

最后，我们有了模型的结构或形式，例如大脑中的皮质层次结构（Mumford，1992 ）。通过贝叶斯模型选择的过程，模型的结构可以被认为是在自由能或模型证据方面进行了优化；即，选择那些在很长一段时间内评估的具有最大边际可能性的模型。这种优化水平体现在不同的规模上。例如，人们可以将自然选择解释为大自然执行贝叶斯模型选择的方式——即，通过选择具有高适应性适应度或边际可能性的表型来积累关于经济的证据（坎贝尔，2016 年，弗兰克，2012 年））。在体细胞时间尺度上，在生物学中，这可以被视为具有（表观遗传）超先验而非模型结构的神经发育。在认知科学中，这种优化过程通常被称为结构学习（Tenenbaum et al., 2011 , Tervo et al., 2016）。在机器学习中，结构学习与算法学习以及元强化学习密切相关（Ishii, Yoshida, & Yoshimoto, 2002）。在统计学中，对不同模型结构的探索通常采用非参数贝叶斯（Goldwater，2007）。在所有情况下，新结构或模型的评分方式都与模型证据相对应。

一般来说，推理、学习和模型选择方面的优化是齐头并进的，并且相互关联。在自由能原理的变分设置中，这是必然的——因为优化依赖于对三个不同未知水平的变分密度的因式分解，这意味着每个水平都为下面的水平提供经验先验。例如，贝叶斯模型选择决定了哪些参数在起作用，而学习一些模型参数可以优化对隐藏状态或潜在状态的推理。有了这个综合框架，我们现在将考虑三个主要问题，这些问题将在我们剩余的治疗过程中以各种形式出现。

2.4 . 推理和精度

上面，我们将优化分为推理、学习和模型选择。然而，对推理进行更细粒度的分析需要考虑不确定性的表示。如果一个人赞同自由能原理，那么优化对应于优化后验或贝叶斯信念（或它们的充分统计）。这意味着仅使用各种量的点估计是不够的，还必须优化这些信念的精度或逆离散（即负熵）。有时这是一个比估计未知数的平均值或期望更困难的问题（Clark，2013a，Hohwy，2013）。

在工程中，这就像优化卡尔曼增益；即，在更新状态估计中提供预测误差的精度。在神经生物学中，这通常被解释为注意力选择。在分层世界模型（ Ainley et al., 2016 , Auksztulewicz and Friston, 2015 , Brown et al., 2013 , Kok et al., 2012 , Limanowski, 2017）中提供或多或少的精度。

我们强调精度的重要性，因为它在贝叶斯信念更新过程中，在平衡感官证据和先验信念的影响方面发挥着核心作用。这在认知科学和计算精神病学的许多领域都发现了特别强大的解释作用（Nagai，2019）。例如，大量的神经和精神综合征可以根据不能减弱感觉精确度及其后果来判断。这是一个特别重要的观点，因为精确性的神经生物学编码可能存在于突触后增益或编码预测或预测错误的各种神经元群体中。反过来，精确控制的生物学实例可能涉及与许多神经精神疾病（如孤独症、精神分裂症、抑郁症和帕金森病）相关的神经调节递质系统。作为精确的注意力应该与显著性区分开来（Parr&Friston，2019），因为显著性是一种启示，它不是单纯的感官注意和衰减，而是对如何行动的影响。这就引出了我们的第二点。

2.5 . 主动推理

上面，我们已经考虑优化生成模型以最好地解释观察到的感官输入或数据。然而，从主动推理的角度来看，在自由能原理下，这些优化过程只是为了推断人工制品下一步应该做什么。这导致了自由能原理的相当微妙的扩展，其中有一组额外的未知数；即，要采取的行动或政策的顺序。反过来，贝叶斯对策略的信念根据每个动作序列下的预期自由能进行了优化。然后可以以通常的方式从这些特定的后验信念中选择行动（Attias, 2003 , Baker et al., 2009 , Botvinick and Toussaint, 2012 , Millidge, 2019).

这里有趣的转折是这种预期的自由能源的性质，以政策或计划为条件。自由能（即对数模型证据）本身总是可以写成准确度减去复杂度。当我们考虑给定特定计划的预测后验结果下的预期自由能时，这种分解有一个有趣的解释。在这种情况下，不准确会变得模棱两可，复杂性会变成风险。简而言之，这意味着优化预期自由能对应于最小化偏离预期或首选结果的风险，同时减少歧义（即，给定原因的结果的条件不确定性）。直觉上，Cohen et al., 2007 , Friston et al., 2015 , Schmidhuber, 2006 , Still and Precup, 2012 , Sun et al., 2011 , Tschantz et al., 2020 )。

当人们将推理视为从这种典型的主动视角进行规划时，人们会在两种意义上远离传统的机器学习。首先，我们需要在各种政策下接受反事实结果的未来生成模型。这意味着解释行为所需的生成模型具有时间深度（Friston, Rosch et al., 2017 , Rikhye et al., 2019）。其次，我们带来了一些公开的操作，例如选择要挖掘的数据或对表进行采样。此外，可以将精准部署视为一种隐蔽行动，可以从注意力的角度进行解释（Parr&Friston，2019）。这个关于积极推理或感知的视角有许多引人入胜的方面，我们将在后面的章节中讨论。

有人可能会问：将自由能最小化作为生存的必要条件与将规划的制定作为预期自由能的最小化之间有什么关系？从某种意义上说，后者是前者的自然结果：从启发的角度来看，有人通过一种简化和荒谬的论证认为，如果存在是一种惊喜的最小化，那么不采取行动以最小化行动后预期的惊喜的代理人就不可能存在。一个更正式的论点将求助于最小作用的变分原理，其中作用的轨迹最小化了未来预期自由能的路径积分。这就引出了一个问题，这是任何自组织系统的必要特征吗？在某种程度上，这是一个悬而未决的问题；然而，行动的（对数）概率与预期自由能之间存在直接关系，这取决于行动在多大程度上减少了结果的模糊性，考虑到其原因（Friston、Da Costa、Hafner、Hesp和Parr，2021）。这承认了某些系统（如人）可能与其环境进行精确而明确的交换，并且看起来好像他们正在计划深入未来。相反，其他更简单的系统（如恒温器和病毒）在短期内尽量减少意外，而不会主动减少模糊性。反过来，这就提出了一个有趣的问题，即如何从信息几何和密度动力学的角度量化这类系统之间的差异。

2.6 . 结构学习和复杂性

如上所述，对数模型证据可以分解为准确性和复杂性。这是一个重要的考虑因素，它提供了与算法复杂性和通用计算等事物的正式联系（ Hutter，2005）。简而言之，生成模型的复杂性对应于后验和先验之间的 Kullback-Leibler 散度。换句话说，准确解释某些数据及其采样所需的参数或自由度的有效数量。因此，优化自由能给寻找最简单的解释和模型带来了压力（Schmidhuber，2010）。这与在最小描述或消息长度方案的设置中保证算法复杂性最小化的想法完全相同（MacKay，1995 年，Wallace 和 Dowe，1999 年）。至关重要的是，这种必要性适用于推理、学习和模型选择。这意味着最好的模型——泛化并具有高交叉验证准确度——是最简单的模型。

有人可能会问如何简化模型？在神经生物学中，这将被视为一种突触回归或修剪以去除冗余模型参数的形式（Tononi & Cirelli，2006）。更一般地，模型参数和关联的移除定义了模型的结构。也许这里最重要的例子之一是大脑中深度学习和分层生成模型的核心。这意味着层次结构是根据不存在哪些连接或条件依赖关系来定义的。换句话说，层次结构只是对某些数据或感觉流如何生成的最佳解释。

模型结构的另一个重要方面——符合复杂性最小化——来自因式分解。例如，如果可以识别条件依赖关系，则可以极大地降低复杂性；这样只有边缘分布需要编码或参数化。一个明显的例子是将大脑中的“什么”和“在哪里”分成两个层次结构的流（Friston 和 Buzsáki，2016 年，Ungerleider，1994 年）。这可能源于这样一个事实，即知道某物在哪里并不能告诉您它是什么，反之亦然。显然，在生成感觉输入的预测时，必须整合这种边缘信念，这说明大脑中各种非线性相互作用或非线性在深度学习方案中（Lin、Tegmark 和 Rolnick，2017 年）。关于结构简单性的另一个关键观点是功能分离、模块化和模块化神经元代码的概念（O'Keefe 和 Recce，1993 年，Zeki 和 Shipp，1988 年）。在一个观点上，模块化或分离的功能专业化只是使用一组精心挑选的边缘对关于感觉原因的编码信念的陈述（Parr、Sajid 和 Friston，2020 年）。从这个意义上说，关于神经代码和相关架构的许多问题都可以看作是寻找最简洁、最简单的生成模型形式，该模型易于解释我们的感觉。

2.7 . 世界建模理论框架总结

最后一点，很明显，上面的故事只有在我们致力于优化信念或概率分布而不是点估计或期望时才成立。这表明，就人工智能而言，只有明确表示不确定性和信念的方案（例如变分自动编码器）才能享受能够参与主动推理、规划以及更可能是人工意识的全部好处。最重要的是，这些原因必须包括代理人自己，这涉及一种特殊的主动推理，这对于理解他人、自我或实际上是构建有意识的人工制品可能是必要的。

完整内容请参考原论文

未来智能实验室的主要工作包括：建立AI智能系统智商评测体系，开展世界人工智能智商评测；开展互联网（城市）大脑研究计划，构建互联网（城市）大脑技术和企业图谱，为提升企业，行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.