神经熵 Neural Entropy
https://arxiv.org/pdf/2409.03817
概述
本文探讨了神经熵的概念,特别是在生成模型和扩散模型中的应用。以下是文章的重点概述:
神经熵的定义和意义:
神经熵量化了神经网络中存储的信息量。
在理想情况下,神经熵可以衡量网络从训练数据中学习到的信息量。
扩散模型与信息存储:
扩散模型能够学习图像像素之间的非局部相关性,并根据数据分布的特性定制压缩方案。
扩散模型被视为无限深度的自编码器,能够捕捉数据分布的细节。
生成模型与薛定谔的论点:
文章讨论了如何将薛定谔的论点扩展到生成模型,特别是扩散模型。
通过调整漂移和扩散系数,可以使生成模型的分布更接近目标分布 pd。
实验研究:
通过在合成数据集和MNIST数据集上的实验,研究了扩散模型的传输特性和存储效率。
实验结果表明,随着样本数量 N 的增加,图像质量提高,但神经熵的增长接近对数规模。
神经熵的计算和应用:
讨论了如何计算神经熵,特别是在连续扩散模型中。
神经熵可以用于评估扩散模型的性能,较小的KL散度意味着模型更忠实地再现数据分布。
局限性和未来工作:
当前对神经熵的定义仅限于连续扩散模型,需要进一步扩展到其他类型的模型。
未来的研究可以探索更复杂的网络架构和缩放定律对神经熵的影响。
相关工作:
文章回顾了扩散模型与非平衡热力学、最优控制等领域的关系。
讨论了扩散模型在信息论方面的应用,以及它们如何有效地压缩数据。
总的来说,本文深入探讨了神经熵在生成模型和扩散模型中的作用,并通过实验验证了其在评估模型性能和理解信息存储方面的潜力。
![]()
![]()
摘要
我们通过扩散模型(diffusion models)这一范式,探讨深度学习与信息论之间的联系。扩散模型通过(不完美地)恢复在数据扩散至噪声过程中被擦除的信息,从而将噪声转化为结构化数据;这些信息在训练过程中被存储于神经网络中。我们引入一种称为神经熵(neural entropy)的度量来量化该信息量。神经熵与扩散过程所产生的总熵相关,其大小不仅取决于数据分布本身,还依赖于具体的扩散过程。对若干简单图像扩散模型的神经熵测量表明:这些模型在压缩大规模结构化数据集合方面表现出极高的效率。
1 引言
![]()
![]()
![]()
2 薛定谔的 Gedanken 实验
扩散与信息论之间的联系可以追溯到1931年薛定谔在其一篇开创性的论文中引入的一个思想实验。考虑一个像墨水滴在水中溶解这样的扩散过程。常识表明,墨水颗粒会在可用的水中均匀分布,并无限期地保持这种扩散状态。然而,墨水颗粒在以后的某个时间以某种奇异配置聚集在一起的概率虽然很小但非零。薛定谔问:颗粒扩散回其原始状态的概率是多少?
为了在更简单的设置中回答这个问题,我们研究在一维晶格上的随机行走者。晶格点间隔为 ℓ,行走者在每一步跳到其最近的邻居之一。位置 x 处的行走者密度更新为
![]()
![]()
![]()
![]()
![]()
3 扩散模型与麦克斯韦妖
![]()
![]()
![]()
![]()
4 熵匹配
![]()
![]()
![]()
5 热力学不确定性
![]()
![]()
为简化起见,此处假设 σ 为常数,而 σ²T 是 pd 达到 p0 所需的时间,单位为 σ⁻²。W₂ 仅取决于初始分布和最终分布。如果两个过程达到平衡(达到 p0 ≈ peq)所需时间相同,则其平衡态离 pd 更远的那个过程将产生更多熵。如果两个过程将 pd 转化为相同的 p0,则两种情况下 W₂ 相同,但更快的转化过程会产生更多熵以满足该界限。因此,扩散模型必须存储更多信息才能逆转更快的扩散过程。这就是热力学速度极限:给定 pd 和 p0,我们能将一个扩散到另一个的速度存在上限,不能超过特定的熵产生预算。等价地,更快的转化需要更多的信息才能逆转,这已被发现会影响准确性 [34]。我们的实验也证实了这些观察结果。
6 实验
如方程(11)所定义的神经熵,在理想化的环境中量化了呈现给网络的信息。在实践中,数据的有限性、训练中的不完美以及网络的强归纳偏差都会影响存储在神经网络中的信息量。为了解决这些问题,我们将进行两类实验,首先是探究方程(22)中讨论的扩散的传输特性,其次是研究扩散模型的存储效率。
![]()
![]()
![]()
![]()
![]()
![]()
![]()
7 结论
在第1节中,我们使用存储图像的例子来激励神经熵。我们展示了存储单个图像与保留图像分布之间的权衡。在传统存储器中,存储 N 张图像所需的字节数将是每张图像的 N 倍,即使使用有效的压缩。经典压缩算法对所有输入进行隐式假设,利用自然图像的统计特性并普遍适用。然而,扩散模型看到大量图像集合,并可以学习图像像素之间的非局部相关性;它们是无限深度的自编码器[39-41]。换句话说,这些模型可以根据数据分布的特性定制压缩方案。这当然是一种有损压缩形式,因为我们很少能从这些概率模型中完美恢复训练图像。
![]()
相关工作 引入扩散模型的原始工作从非平衡热力学的Jarzynski等式和波动定理中汲取灵感[1, 49, 50]。这些思想之间的关系通过[40, 71]变得明显,两者都使用Feymann-Kac公式和Girsanov定理来独立开发扩散模型和热力学的类似结果。这些结果可以用最优控制[15, 51]的语言理解。我们在第B.4节中说明了这两种方法。几位作者还开发了这些模型与薛定谔桥问题[2, 53]之间的联系。热力学极限对扩散模型准确性的影响在[34]中进行了更详细的研究。扩散模型的信息论方面也在[54]中进行了探索,并且对这些模型捕获模型信息的能力进行了更深入的讨论[56],这与第C.2和4节中的讨论一致,因为这些模型中的生成过程是沿着学习到的自由能景观下降的。
原文链接:https://arxiv.org/pdf/2409.03817
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.