AI教父Hinton诺奖演讲首登顶刊！拒绝公式，让全场秒懂「玻尔兹曼机」|算法|神经元|二进制|神经网络|hinton

分享至

新智元报道

编辑：桃子

【新智元导读】AI教父Hinton荣膺诺贝尔奖，可谓是实至名归。如今，他发表的「玻尔兹曼机」震撼演讲，已登上APS期刊。这一曾催化深度学习革命的「历史酶」，究竟讲了什么？

2024年12月8日，诺贝尔物理学奖得主Hinton登台，发表了题为《玻尔兹曼机》的演讲。

当时，斯德哥尔摩大学Aula Magna礼堂内座无虚席，全球目光都集聚于此。

他深入浅出地分享了，自己与John Hopfield利用神经网络，推动机器学习基础性发现的历程。

如今，Hinton这个演讲的核心内容，于8月25日正式发表在美国物理学会（APS）期刊上。

论文地址：https://journals.aps.org/rmp/pdf/10.1103/RevModPhys.97.030502

1980年代，并存两种颇具前景的梯度计算技术——

一种是，反向传播算法，如今成为了深度学习核心引擎，几乎无处不在。

另一种是，玻尔兹曼机器学习算法，现已不再被使用，逐渐淡出人们的视野。

这一次，Hinton的演讲重点，就是「玻尔兹曼机」。

一开场，他幽默地表示，自己打算做一件「傻」事，决定在不使用公式的情况下，向所有人解释复杂的技术概念。

霍普菲尔德网络

找到能量最低点

什么是「霍普菲尔德网络」（Hopfield Network）？

Hinton从一个简单的二进制神经元网络入手，介绍了「霍普菲尔德网络」的核心思想。

每个神经元只有1或0两种状态，最重要的是，神经元之间通过对称加权连接。

整个神经网络的全局状态，被称为一个「配置」（configuration），并有一个「优度」（goodness）。

其「优度」是由所有活跃神经元之间权重的总和决定，如上图所有红色方框，权重加起来等于4。

这便是该网络配置的优度，而能量（energy）是优度的负值。

「霍普菲尔德网络」的全部意义在于，每个神经元通过局部计算决定如何降低能量。

在这里，能量就代表「劣度」（badness）。因此，开启还是关闭神经元，全凭总加权输入的「正负」。

通过不断更新的神经元状态，网络最终会稳定在「能量最低点」。

但它并非是唯一的能量低点，因为「霍普菲尔德网络」可以有很多能量最低点，最终停留在哪一点，取决于起始状态，也取决于更新哪个神经元的随机决策序列。

如下，便是一个更优的能量最低点。开启右边神经网络，其优度是3+3-1，能量为-5。

「霍普菲尔德网络」的魅力在于，它可以将能量最低点与记忆关联起来。

Hinton生动地描述道，「当你输入一个不完整的记忆片段，然后不断应用二进制决策规则，网络就能补全完整记忆」。

因此，当「能量最低点」代表记忆时，让网络稳定到能量最低点的过程，就是实现所谓的「内容可寻址存储」。

也就意味着，仅激活项目一部分访问存储器中的某个项目，然后运用此规则后，网络就会将其补全。

不仅记忆存储

还能解释「感官输入」

接下来，Hinton进一步分享了，自己与Terrence Sejnowski（霍普菲尔德学生）对「霍普菲尔德网络」的创新应用——

用它来构建对感官输入的解释，而不仅仅是存储记忆。

他们将网络分为了「可见神经元」和「隐藏神经元」。

前者接收感官输入，比如一幅二进制图像；后者则用于构建对该感官输入的解释。网络的某个配置的能量，代表了该解释的劣度，他们想要的是一种低能量的解释。

Hinton以一幅经典的模棱两可的线条画——内克尔立方体（Necker cube）为例，展示了网络如何处理视觉信息的复杂性。

如下这幅画，有的人会将其看作是「凸面体」，有的人会看到的是「凹面体」。

那么，我们如何让神经网络，从这一幅线条画中得出两种不同的解释？在此之前，我们需要思考的是：图像中的一条线，能告诉我们关于三维边缘的什么信息？

视觉诠释：从2D到3D

想象一下，你正透过一扇窗户看向外面的世界，然后在玻璃上，把看到的景物轮廓描绘出来。

这时候，窗上的那条黑线，其实就是你画出来的一条边。

而那两条红线呢，就是从你眼睛出发，穿过这条黑线两端的视线。

那么问题来了：现实世界中，到底是什么样的边缘形成了这条黑线？

其实可能性非常多，所有不同的三维边缘，最终都会在图像中产生同样的线条。

所以，视觉系统最头疼的是，怎么从这一条二维的线反推回去，判断现实中，到底那条边才真正存在？

为此，Hinton和Sejnowski设计了一个网络，可以将图像中的线条，转化为「线神经元」的激活状态。

然后，通过兴奋性连接与代表「三维边缘神经元」相连（绿色），并让其相互抑制，确保一次只激活一种解释。

如此一来，就体现了许多感知光学方面的原理。

接下来，Hinton又将此方法应用于所有的神经元，问题是，应该激活哪些边缘神经元呢？

要回答这个问题，还需要更多信息。

人类在诠释图像时，都会遵循特定的原理。比如，两条线相交，假设它们在三维空间中，也在同一点相交，且深度相同。

此外，大脑往往倾向于将物体视为直角相交。

通过合理设置连接强度，网络可以形成两个稳定的状态，对应「内克尔立方体」的两种三维诠释——凹面体和凸面体。

这种视觉诠释方法，又带来了两个核心问题：

搜索问题：网络可能陷入局部最优，停留在较差的解释上，无法跳到更好的解释
学习问题：如何让网络自动学习连接权重，而不是手动设定

搜索问题：带噪声神经元

对于「搜索问题」，最基本的解决方法——引入带有噪声的神经元，即「随机二进制神经元」。

这些神经元状态为「二进制」（要么是1，要么是0），但其决策具有很强的概率性。

强的正输入，就会开启；强的负输入，就会关闭；接近零的输入则引入随机性。

噪声可以让神经网络「爬坡」，从较差的解释跳到更好的解释，就像在山谷间寻找最低点。

玻尔兹曼分布+机器学习

通过随机更新隐藏神经元，神经网络最终会趋近于所谓的「热平衡」（thermal equilibrium）。

一旦达到热平衡，隐藏神经元的状态就构成了对输入的一种诠释。

在热平衡下，低能量状态（对应更好解释）出现概率更高。

以内克尔立方体为例，网络最终会倾向于选择更合理的三维诠释。

当然，热平衡并非系统停留在单一状态，而是所有可能配置的概率分布稳定，遵循着玻尔兹曼分布（Boltzmann distribution）。

在玻尔兹曼分布中，一旦系统达到热平衡，其处于某个特定配置的概率，完全由该配置的能量决定。

并且，系统处于低能量配置的概率会更高。

要理解热平衡，物理学家们有一个诀窍——你只需想象一个由海量相同网络组成的巨大「系综」（ensemble）。

Hinton表示，「想象无数相同的霍普菲尔德网络，各自从随机状态开始，通过随机更新，配置比例逐渐稳定」。

同样，低能量配置，在「系综」中占比更高。

总结来说，玻尔兹曼分布的原理在于：低能量的配置远比高能量的配置更有可能出现。

而在「玻尔兹曼机」中，学习的目标，就是要确保当网络生成图像时，本质上可以称为「做梦、随机想象」，这些与它在「清醒」时感知真实图像所形成的印象相吻合。

若是可以实现这种吻合，隐藏神经元的状态，便可以有效捕捉到图像背后的深层原因。

换句话说，学习网络中的权重，就等同于弄清楚如何运用这些隐藏神经元，才能让网络生成出看起来像真实世界的图像。

「玻尔兹曼机」学习算法

针对如上「学习问题」，Hinton与Sejnowski在1983年，提出了「玻尔兹曼机学习算法」进而解决了权重调整问题。

论文地址：https://www.cs.toronto.edu/~fritz/absps/cogscibm.pdf

该算法主要包含了两个阶段：

清醒阶段：向网络呈现真实图像。将一幅真实图像「钳位」到可见单元上，然后让隐藏单元演化至热平衡。对同时开启的神经元对，增加连接权重。

睡眠阶段：让网络自由「做梦」。所有神经元随机更新至热平衡。对同时开启的神经元对，减少连接权重。

这一简单的算法，通过调整权重，提高了神经网络在「做梦」时生成的图像与「清醒」时感知图像之间的相似度。

学习过程的本质，就是在降低网络在清醒阶段，从真实数据中推导出的配置所对应的能量。

与此同时，提高它在睡眠阶段自由生成的配置所对应的能量。

正如Hinton所言，「你本质上是在教导这个网络：要相信清醒时所见，而不信睡梦中所梦」。

核心创新：相关性差异

如上所见，「玻尔兹曼机」的最大亮点在于，权重调整所需的信息都蕴含在两种相关性差异中——

网络在「清醒」（观察真实数据）时两个神经元共同激活的频率，与当网络自由「做梦」时，它们共同激活的频率，这两者之间的差异。

令人惊叹的是，这两种相关性差异，足以告诉某个权重关于所有其他权重的一切信息。

与反向传播（backpropagation）算法不同，「玻尔兹曼机」无需复杂的反向通路传递「敏感度」——一种完全不同的物理量信息。

「反向传播」算法依赖的是，前向通路传递神经元活动，反向通路传递敏感度；「玻尔兹曼机」仅通过对称连接性和相关性差异完成学习。

然而，「玻尔兹曼机」的最大瓶颈是——速度。

当权重较大时，达到热平衡极其缓慢，若是权重很小，这个过程才得以加速完成。

整整17年后，Hinton突然意识到，通过消除隐藏单元之间的连接来对「玻尔兹曼机」进行限制，就可以得到一个快得多的学习算法。

由此，受限玻尔兹曼机（RBM）诞生了。

这一方法将输入「钳位」在可见单元上，大幅简化了「清醒」阶段的计算，仅需一步即可达到热平衡。

不过，「睡眠」阶段仍需要多次迭代，才能达到热平衡。

为此，Hinton引入了「对比散度」（contrastive divergence）的方法，通过以下步骤实现了加速学习：

将数据输入可见单元。
并行更新所有隐藏神经元，使其与数据达到平衡。
更新所有可见单元以得到一个「重构」版本。
再次更新所有隐藏神经元。
停止。

「受限玻尔兹曼机」也在实践中取得了显著成果。

比如，Netflix公司曾使用RBM，根据用户偏好推荐电影，并赢得了用户偏好预测大赛。

然而，仅靠彼此不相连的隐藏神经元，是无法构建出识别图像中的物体/语音中，单词所必需的多层特征检测器。

为此，2006年，Hinton进一步提出了「堆叠RBM」的方法。

堆叠RBM

通过以下三步，就可以实现堆叠RBM：

用数据训练一个RBM。
将该RBM的隐藏层激活模式作为数据，用于训练下一个RBM。
持续这个过程，以捕捉日益复杂的关联。

在堆叠了这些玻尔兹曼机之后，可以将它们视为一个前馈网络，忽略其对称连接，只使用单向的连接。

由此，这创建了一个特征的层级结构：

第一隐藏层：捕捉原始数据中相关性的特征。
第二隐藏层：捕捉第一层特征之间相关性的特征。
以此类推，创建出越来越抽象的表示。

等所有堆叠完成后，可以再添加一个「最终层」进行监督学习，比如分类猫和狗的图像。

这时，神经网络展现出两大优势——

学习速度远超随机初始化：因其在预训练中，已学习到了用于建模数据结构的合理特征。
网络的泛化能力也更好：大部分学习在无监督情况下进行，信息从数据相关性中提取。

历史的「酶」

2006-2011期间，Hinton、Bengio、LeCun等实验室研究人员，都在使用「堆叠RBM」预训练前馈神经网络，然后再进行反向传播微调。

直到2009年，Hinton的学生George Dahl和Abdel-rahman Mohamed证明：

「堆叠RBM」在识别语音中的音素片段方面，效果显著由于当时所有的方法。

这一发现，彻底改变了整个语音识别领域。

到了2012年，基于「堆叠RBM」的系统，在谷歌安卓设备上大幅改善了语音识别性能。

论文地址：https://static.googleusercontent.com/media/research.google.com/zh-CN//pubs/archive/38131.pdf

然而，不幸的是，一旦证明了「堆叠RBM」预训练的深度神经网络的潜力，研究人员很快开发了其他初始化权重的方法。

于是，「玻尔兹曼机」逐渐退出历史主流。

最后，Hinton做了一个非常生动形象的比喻：

但如果你是化学家，你就会知道「酶」是非常有用的东西。

「玻尔兹曼机」就像化学中「酶」，催化了深度学习的突破，一旦完成这个转变，酶就不再被需要。

所以，不妨把它们看作是「历史的酶」。

不过，Hinton认为，利用「睡眠」阶段的「反学习」（unlearning），从而得到一个更具生物学合理性、避免反向传播的非对称通路的算法。

到目前为止，他依旧坚信：有一天搞明白大脑如何学习的时候，一定会发现，睡眠中「反学习」绝对是关键一环。

参考资料：

https://singjupost.com/transcript-of-nobel-prize-lecture-geoffrey-hinton-nobel-prize-in-physics-2024/

https://journals.aps.org/rmp/abstract/10.1103/RevModPhys.97.030502

https://www.nobelprize.org/uploads/2024/12/hinton-lecture-1.pdf

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

AI教父Hinton诺奖演讲首登顶刊！拒绝公式，让全场秒懂「玻尔兹曼机」

美团发布外卖大战后成绩单：亏损超200亿

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

申京努力了，然而杜兰特啊

刘晓庆妹妹发声！称姐姐受身边人挑拨

油价"驯服"特朗普？一到100美元就TACO

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

转头就晕的耳石症，能开车上班吗？

"死亡搁浅"外骨骼来了!小岛工作室转发联名 原度拉满

哪一座桥不是风景？

天天学习｜走进课堂的“大朋友”

英特尔发Q1.26版Arc Pro专业显卡驱动，支持B70 / B65显卡

"死亡搁浅"外骨骼来了!小岛工作室转发联名原度拉满