量子神经网络的数据集蒸馏 Dataset Distillation for Quantum Neural Networks|残差|算符|量子态

分享至

Dataset Distillation for Quantum Neural Networks

量子神经网络的数据集蒸馏

https://arxiv.org/pdf/2503.17935

摘要：

在大量经典数据上训练量子神经网络（QNN）既耗时又昂贵。训练数据量越大，达到收敛所需的梯度下降步数就越多；相应地，QNN 需要执行更多次量子线路运算，从而显著推高其总体执行成本。在本工作中，我们提出对 QNN 进行数据集蒸馏（dataset distillation），其中我们采用一种新颖的量子版经典 LeNet 模型：该模型在 QNN 的参数化量子线路（PQC）中引入了残差连接和可训练的厄米可观测量（Hermitian observable）。该方法可在保持与原始数据相近性能的前提下，生成高度信息丰富但数量极少的训练样本。我们对 MNIST 和 Cifar-10 数据集开展了蒸馏实验；与经典模型对比发现，蒸馏后的数据在量子 LeNet 上取得的推理后准确率（MNIST 为 91.9%，Cifar-10 为 50.3%）与经典 LeNet（MNIST 为 94%，Cifar-10 为 54%）相当。我们还引入了一个不可训练的厄米可观测量，以增强蒸馏过程的稳定性；实验表明，该设置会导致性能略有下降（MNIST 最多降低 1.8%，Cifar-10 降低 1.3%）。

索引术语——数据集蒸馏，量子神经网络，量子 LeNet

I. 引言

量子神经网络（QNN）已成为在高维数据及含噪声训练环境中实现超越经典神经网络（NN）计算优势的有力候选者 [1, 2]。例如，随着问题复杂度上升，QNN 表现出更优的可扩展性：相比经典 NN，其所需参数减少 56%，浮点运算量（FLOPs）减少 73% [3]。然而，在大型经典数据集上训练 QNN 仍成本高昂——费用随量子比特数线性增长（单个量子比特成本超过 10 万美元）[4, 5]。每次梯度下降步均需大量量子线路执行，使得在 MNIST 或 Cifar-10 这类数据集上的收敛过程缓慢且资源密集。

这一挑战促使我们采用数据集蒸馏技术——该技术旨在将大型经典数据集压缩为少量但蕴含原始数据全部信息的合成样本 [6]。据我们所知，此前尚无针对 QNN 的数据集蒸馏相关研究。原始工作结果表明：对于固定初始化的模型（如 LeNet [7]），将 MNIST 的 60,000 个训练样本蒸馏至仅 10 个合成样本（每类 1 张图像），并在此蒸馏数据上训练该模型，可达到近 94% 的推理准确率，接近使用原始训练集训练所得的 99%。

受此启发，我们提出对 QNN 实施数据蒸馏。具体而言，我们采用一种新颖的混合量子-经典 LeNet 模型变体进行 MNIST 与 Cifar-10 数据集的蒸馏：其前端使用经典卷积层进行特征提取，后接经典与量子线性层，对提取出的特征完成分类任务。为缓解梯度消失问题，我们在量子层中增加了残差连接；同时，在量子层测量过程中采用了可训练的厄米可观测量。这些改进使量子 LeNet 能达到与原始工作中经典 LeNet 相近的准确率。为保障蒸馏过程的稳定性，我们还引入了一个不可训练的厄米可观测量。实验结果表明：

蒸馏后，量子 LeNet 的推理准确率（MNIST 为 91.9%，Cifar-10 为 50.3%）与经典 LeNet（MNIST 为 94%，Cifar-10 为 54%）基本相当；
相比采用可训练厄米可观测量的量子 LeNet，采用不可训练厄米可观测量的版本性能略有下降（MNIST 低 1.8%，Cifar-10 低 1.3%），但其潜在优势在于提升了蒸馏过程的稳定性。

本文结构如下：第 2 节介绍相关背景与已有工作；第 3 节详述 LeNet 向所提量子变体的改造过程；第 4 节展示蒸馏实验结果。

最后，我们在第5节展开讨论，并在第6节进行总结。

II. 背景与相关工作

量子计算：与经典计算类似，量子计算是一种基于量子力学原理的计算范式［9］。量子计算机的基本单元是量子比特（quantum bit，简称qubit），它是经典比特的量子对应物。然而，不同于经典比特在任一时刻只能取 0 或 1 的确定状态，量子比特处于一种概率性叠加态。具体而言，一个量子比特可表示为向量

量子神经网络：QNN 通常由三部分组成：1）状态制备或嵌入电路，用于将经典数据嵌入到量子希尔伯特空间中；2）包含 QNN 可训练参数的 PQC；3）在计算基（通常是 Pauli-Z 基）上执行的测量操作，以对量子态进行经典测量［10］。在完成该经典测量并计算出所需属性后，损失函数会计算测量输出与期望输出之间的误差，然后利用该误差在经典计算机上计算梯度，并更新 PQC 的旋转参数。

LeNet 架构：LeNet ［7］是一种卷积神经网络（CNN）［11］，旨在对 MNIST 数据集进行分类。LeNet 模型由两部分组成：第一部分是一系列卷积层，用于提取 MNIST 数字图像的关键特征；第二部分是一系列线性/全连接层，用于将提取的特征分类到正确的图像类别中。在本工作中，我们主要基于 LeNet 模型来得出我们的结果。

原始工作［6］中提出的这种数据集蒸馏方法被称为性能匹配（performance matching）（如图1所示），其目标是使蒸馏数据在测试集上的表现尽可能接近原始训练数据的表现。随后，文献中又提出了具有不同目标的数据蒸馏方法。

在文献中提出的方法包括：1）参数匹配（parameter matching）［12］，该方法通过匹配在真实数据和合成数据上训练的模型的参数轨迹，使模型权重尽可能对齐。该方法经过进一步数学推导，通常简化为梯度匹配（gradient matching）［13］，有助于避免陷入局部极小值；2）分布匹配（distribution matching）［14］，其目标是使用最大均值差异（MMD）等度量方法，最小化原始训练数据与蒸馏数据之间的分布距离。在本工作中，我们仅关注所提出的 QNN 模型所采用的性能匹配数据蒸馏方法。

III. 量子 LeNet 模型与蒸馏实验设置

经典 LeNet 由两部分组成：第一部分通过连续的卷积层提取特征，第二部分则利用多个全连接（dense）层对提取出的特征进行分类。该架构最初用于文献［7］中对手写体 MNIST 数字进行分类。在本工作中，我们保留了与原始 LeNet 完全相同的特征提取部分；在分类器部分的全连接层之间，我们插入了一个含 6 个量子比特的 QNN 层，该层包含以下三个关键组件：

振幅嵌入（amplitude embedding），用于将经典特征嵌入并制备为量子态；
含可训练参数的PQC（所选的量子线路结构为强纠缠层［8］）；
一个可训练的厄米测量可观测量（trainable Hermitian measurement observable）。

通常，可观测量选用单位算符（如 Pauli-Z 算符），其测量值被限制在 [ − 1 , 1] 区间内。然而，在深度神经网络中，此类输出限幅易引发梯度消失问题［15］。为克服此限制，我们以可训练的厄米算符替代单位算符——与单位算符不同，厄米算符不限制输出范围。为进一步缓解梯度消失效应，我们还在 QNN 层周围添加了残差连接（residual connections）［16］。图 2 展示了所提出的量子 LeNet 整体架构；图 3 则进一步详述了其中 QNN 子模块的结构。

我们采用了与原始工作［6］类似的实验设置：蒸馏过程在两种情形之一下进行，即模型初始化固定的情形。该设置同时应用于 MNIST 与 Cifar-10 数据集：其中 MNIST 数据集被蒸馏至 10 张图像，Cifar-10 被蒸馏至 100 张图像（即每类各 1 张与 10 张）；蒸馏过程中分别执行 1 次与 3 次梯度下降步，训练轮数（epochs）均为 3。

IV. 蒸馏结果

我们将经典 LeNet 模型与所提出的量子 LeNet 模型的蒸馏结果进行了对比。特别地，针对量子 LeNet 模型，我们展示了以下三种配置下的结果：

无残差连接，且测量可观测量为 Pauli-Z 单位算符；
无残差连接，但测量可观测量为可训练的厄米算符
含残差连接，且测量可观测量为可训练的厄米算符

固定初始化情形：两个数据集的结果汇总于表 I。我们观察到，对于量子 LeNet 模型：

既无残差连接、又采用 Pauli-Z 单位算符的变体表现最差（MNIST：82.3%，Cifar-10：28.5%）；
无残差连接、但采用可训练厄米算符的变体次之（MNIST：86.5%，Cifar-10：31.3%）；
同时具备残差连接和可训练厄米算符的变体性能最佳（MNIST：91.8%，Cifar-10：50.3%）。

这些结果表明：缺乏残差连接并使用受限的 Pauli-Z 单位算符易导致梯度消失等问题，从而显著降低推理性能。当以可训练厄米算符替代 Pauli-Z 算符后，可观测量不再保持量子态的范数（norm-preserving），也解除了 [ − 1 , 1 ] 的输出限幅，从而缓解了梯度消失。最后，在 QNN 层外围进一步引入残差连接，可更有效地抑制梯度消失效应。

图 4 展示了对应于上述结果的最终蒸馏图像，以供直观对比——涵盖经典与量子 LeNet 模型在 MNIST 和 Cifar-10 上的表现。与原始工作［6］的结论一致，在固定初始化情形下，蒸馏所得图像在视觉上并不与原始类别的图像相似。例如，MNIST 中蒸馏得到的类别 0 图像，在经典与量子 LeNet 中均未呈现“0”的形状；其余类别图像亦是如此；Cifar-10 数据集同样如此。

可训练厄米算符 vs. 不可训练厄米算符：
尽管采用可训练的厄米算符有助于提升推理性能，但其可训练性也可能使损失函数曲面（loss landscape）变得更加复杂，从而在蒸馏过程中引发不稳定性。因此，我们进一步考虑另一种情形：即随机初始化厄米算符，且在整个数据集蒸馏过程中保持其固定、不进行训练，并将该情形与厄米算符可训练的情形进行对比。为获得最佳蒸馏效果，两种情形下均保留残差跳跃连接（residual skip connection）。对比结果见表 II。其中，可训练厄米算符的情形直接复用表 I 中“含残差连接 + 厄米算符”（R, H）的结果。我们发现，将厄米算符设定为不可训练仅对结果产生微小影响：在 MNIST（Cifar-10）数据集上，准确率分别仅下降了1.8%（1.3%）。

V. 讨论与局限性

量子 LeNet 性能略低于经典 LeNet：
从实验结果可见，量子 LeNet 的最佳变体性能仍略逊于经典 LeNet。例如，如表 I 所示，当 QNN 层采用可训练厄米可观测量并辅以残差连接时，蒸馏后量子 LeNet 的推理准确率为 91.6%（MNIST）与 50.3%（Cifar-10），而经典 LeNet 则分别达到 94% 与 54%。其潜在原因可能在于 QNN 层中采用了振幅嵌入（amplitude embedding）。虽然振幅嵌入能高效地将 2 n
维经典特征映射至 n n 个量子比特上（本例中为将 64 维特征映射至 6 个量子比特），但已有研究表明，由振幅嵌入生成的量子态的统计均值倾向于集中于某一特定量子态附近［17］。这种“集中效应”易导致 QNN 出现损失壁垒（loss barrier）现象——即损失函数存在一个理论下界，无法通过优化进一步降低。

对此问题的一种潜在缓解策略是：在量子嵌入之前，进一步通过经典全连接层将 2 n 维特征压缩至 n n 维，随后改用角度嵌入（angle embedding）［10］将低维特征载入 QNN。相比振幅嵌入，角度嵌入虽效率较低（仅能以一对一方式嵌入 n n 维特征至 n 个量子比特），但其态空间分布更均匀，有助于缓解集中性问题，从而提升优化潜力。

由于单个泡利算符和单位矩阵在量子计算机上是可实际实现的［18, 19］，它们的线性组合——即厄米算符 O ——同样可在量子计算机上实现。这对于量子 LeNet 架构而言已足够，因为 QNN 层仅使用单量子比特厄米可观测量。然而，对此的一种扩展是实现多量子比特厄米可观测量，其中每个多量子比特厄米算符将表示为泡利矩阵张量积的线性组合。此类可观测量可用于捕捉特征间的纠缠信息，但其实现成本可能较高，因为一个 n n量子比特的厄米可观测量最多可包含 4 n 个泡利项［20］。

在 LeNet 的特征提取部分加入量子组件：可以在 LeNet 架构的特征提取部分引入量子组件。量子卷积层（也称为“quanvolutional”层）已在文献［21］中被提出，其中传统的卷积层被随机量子线路所取代，作为核心变换层。相较于经典卷积神经网络（CNN），该量子卷积神经网络在 MNIST 数据集上的推理准确率高出约 5%。通过用量子卷积层替代部分传统卷积层，我们有望在蒸馏后提升 MNIST（甚至 Cifar-10）数据集上的推理性能。

VI. 结论

在本工作中，我们提出了一种新颖的量子 LeNet 模型，并将其应用于数据集蒸馏过程。实验结果表明，性能最优的量子变体——即同时引入可训练厄米可观测量与残差连接的版本——在 MNIST 与 Cifar-10 数据集上的推理准确率均接近经典 LeNet 模型。

原文链接： https://arxiv.org/pdf/2503.17935

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.