网易首页 > 网易号 > 正文 申请入驻

量子神经网络的数据集蒸馏 Dataset Distillation for Quantum Neural Networks

0
分享至

Dataset Distillation for Quantum Neural Networks

量子神经网络的数据集蒸馏

https://arxiv.org/pdf/2503.17935


摘要:

在大量经典数据上训练量子神经网络(QNN)既耗时又昂贵。训练数据量越大,达到收敛所需的梯度下降步数就越多;相应地,QNN 需要执行更多次量子线路运算,从而显著推高其总体执行成本。在本工作中,我们提出对 QNN 进行数据集蒸馏(dataset distillation),其中我们采用一种新颖的量子版经典 LeNet 模型:该模型在 QNN 的参数化量子线路(PQC)中引入了残差连接和可训练的厄米可观测量(Hermitian observable)。该方法可在保持与原始数据相近性能的前提下,生成高度信息丰富但数量极少的训练样本。我们对 MNIST 和 Cifar-10 数据集开展了蒸馏实验;与经典模型对比发现,蒸馏后的数据在量子 LeNet 上取得的推理后准确率(MNIST 为 91.9%,Cifar-10 为 50.3%)与经典 LeNet(MNIST 为 94%,Cifar-10 为 54%)相当。我们还引入了一个不可训练的厄米可观测量,以增强蒸馏过程的稳定性;实验表明,该设置会导致性能略有下降(MNIST 最多降低 1.8%,Cifar-10 降低 1.3%)。

索引术语——数据集蒸馏,量子神经网络,量子 LeNet

I. 引言

量子神经网络(QNN)已成为在高维数据及含噪声训练环境中实现超越经典神经网络(NN)计算优势的有力候选者 [1, 2]。例如,随着问题复杂度上升,QNN 表现出更优的可扩展性:相比经典 NN,其所需参数减少 56%,浮点运算量(FLOPs)减少 73% [3]。然而,在大型经典数据集上训练 QNN 仍成本高昂——费用随量子比特数线性增长(单个量子比特成本超过 10 万美元)[4, 5]。每次梯度下降步均需大量量子线路执行,使得在 MNIST 或 Cifar-10 这类数据集上的收敛过程缓慢且资源密集。

这一挑战促使我们采用数据集蒸馏技术——该技术旨在将大型经典数据集压缩为少量但蕴含原始数据全部信息的合成样本 [6]。据我们所知,此前尚无针对 QNN 的数据集蒸馏相关研究。原始工作结果表明:对于固定初始化的模型(如 LeNet [7]),将 MNIST 的 60,000 个训练样本蒸馏至仅 10 个合成样本(每类 1 张图像),并在此蒸馏数据上训练该模型,可达到近 94% 的推理准确率,接近使用原始训练集训练所得的 99%。

受此启发,我们提出对 QNN 实施数据蒸馏。具体而言,我们采用一种新颖的混合量子-经典 LeNet 模型变体进行 MNIST 与 Cifar-10 数据集的蒸馏:其前端使用经典卷积层进行特征提取,后接经典与量子线性层,对提取出的特征完成分类任务。为缓解梯度消失问题,我们在量子层中增加了残差连接;同时,在量子层测量过程中采用了可训练的厄米可观测量。这些改进使量子 LeNet 能达到与原始工作中经典 LeNet 相近的准确率。为保障蒸馏过程的稳定性,我们还引入了一个不可训练的厄米可观测量。实验结果表明:

  1. 蒸馏后,量子 LeNet 的推理准确率(MNIST 为 91.9%,Cifar-10 为 50.3%)与经典 LeNet(MNIST 为 94%,Cifar-10 为 54%)基本相当;
  2. 相比采用可训练厄米可观测量的量子 LeNet,采用不可训练厄米可观测量的版本性能略有下降(MNIST 低 1.8%,Cifar-10 低 1.3%),但其潜在优势在于提升了蒸馏过程的稳定性。

本文结构如下:第 2 节介绍相关背景与已有工作;第 3 节详述 LeNet 向所提量子变体的改造过程;第 4 节展示蒸馏实验结果。

最后,我们在第5节展开讨论,并在第6节进行总结。

II. 背景与相关工作

量子计算:与经典计算类似,量子计算是一种基于量子力学原理的计算范式[9]。量子计算机的基本单元是量子比特(quantum bit,简称qubit),它是经典比特的量子对应物。然而,不同于经典比特在任一时刻只能取 0 或 1 的确定状态,量子比特处于一种概率性叠加态。具体而言,一个量子比特可表示为向量


量子神经网络:QNN 通常由三部分组成:1)状态制备或嵌入电路,用于将经典数据嵌入到量子希尔伯特空间中;2)包含 QNN 可训练参数的 PQC;3)在计算基(通常是 Pauli-Z 基)上执行的测量操作,以对量子态进行经典测量[10]。在完成该经典测量并计算出所需属性后,损失函数会计算测量输出与期望输出之间的误差,然后利用该误差在经典计算机上计算梯度,并更新 PQC 的旋转参数。

LeNet 架构:LeNet [7] 是一种卷积神经网络(CNN)[11],旨在对 MNIST 数据集进行分类。LeNet 模型由两部分组成:第一部分是一系列卷积层,用于提取 MNIST 数字图像的关键特征;第二部分是一系列线性/全连接层,用于将提取的特征分类到正确的图像类别中。在本工作中,我们主要基于 LeNet 模型来得出我们的结果。


原始工作[6]中提出的这种数据集蒸馏方法被称为性能匹配(performance matching)(如图1所示),其目标是使蒸馏数据在测试集上的表现尽可能接近原始训练数据的表现。随后,文献中又提出了具有不同目标的数据蒸馏方法。


在文献中提出的方法包括:1)参数匹配(parameter matching)[12],该方法通过匹配在真实数据和合成数据上训练的模型的参数轨迹,使模型权重尽可能对齐。该方法经过进一步数学推导,通常简化为梯度匹配(gradient matching)[13],有助于避免陷入局部极小值;2)分布匹配(distribution matching)[14],其目标是使用最大均值差异(MMD)等度量方法,最小化原始训练数据与蒸馏数据之间的分布距离。在本工作中,我们仅关注所提出的 QNN 模型所采用的性能匹配数据蒸馏方法。

III. 量子 LeNet 模型与蒸馏实验设置

经典 LeNet 由两部分组成:第一部分通过连续的卷积层提取特征,第二部分则利用多个全连接(dense)层对提取出的特征进行分类。该架构最初用于文献[7]中对手写体 MNIST 数字进行分类。在本工作中,我们保留了与原始 LeNet 完全相同的特征提取部分;在分类器部分的全连接层之间,我们插入了一个含 6 个量子比特的 QNN 层,该层包含以下三个关键组件:

  1. 振幅嵌入(amplitude embedding),用于将经典特征嵌入并制备为量子态;
  2. 含可训练参数的PQC(所选的量子线路结构为强纠缠层[8]);
  3. 一个可训练的厄米测量可观测量(trainable Hermitian measurement observable)。

通常,可观测量选用单位算符(如 Pauli-Z 算符),其测量值被限制在 [ − 1 , 1] 区间内。然而,在深度神经网络中,此类输出限幅易引发梯度消失问题[15]。为克服此限制,我们以可训练的厄米算符替代单位算符——与单位算符不同,厄米算符不限制输出范围。为进一步缓解梯度消失效应,我们还在 QNN 层周围添加了残差连接(residual connections)[16]。图 2 展示了所提出的量子 LeNet 整体架构;图 3 则进一步详述了其中 QNN 子模块的结构。



我们采用了与原始工作[6]类似的实验设置:蒸馏过程在两种情形之一下进行,即模型初始化固定的情形。该设置同时应用于 MNIST 与 Cifar-10 数据集:其中 MNIST 数据集被蒸馏至 10 张图像,Cifar-10 被蒸馏至 100 张图像(即每类各 1 张与 10 张);蒸馏过程中分别执行 1 次与 3 次梯度下降步,训练轮数(epochs)均为 3。

IV. 蒸馏结果

我们将经典 LeNet 模型与所提出的量子 LeNet 模型的蒸馏结果进行了对比。特别地,针对量子 LeNet 模型,我们展示了以下三种配置下的结果:

  1. 无残差连接,且测量可观测量为 Pauli-Z 单位算符;
  2. 无残差连接,但测量可观测量为可训练的厄米算符
  3. 含残差连接,且测量可观测量为可训练的厄米算符

固定初始化情形:两个数据集的结果汇总于表 I。我们观察到,对于量子 LeNet 模型:

  • 既无残差连接、又采用 Pauli-Z 单位算符的变体表现最差(MNIST:82.3%,Cifar-10:28.5%);
  • 无残差连接、但采用可训练厄米算符的变体次之(MNIST:86.5%,Cifar-10:31.3%);
  • 同时具备残差连接和可训练厄米算符的变体性能最佳(MNIST:91.8%,Cifar-10:50.3%)。

这些结果表明:缺乏残差连接并使用受限的 Pauli-Z 单位算符易导致梯度消失等问题,从而显著降低推理性能。当以可训练厄米算符替代 Pauli-Z 算符后,可观测量不再保持量子态的范数(norm-preserving),也解除了 [ − 1 , 1 ] 的输出限幅,从而缓解了梯度消失。最后,在 QNN 层外围进一步引入残差连接,可更有效地抑制梯度消失效应。

图 4 展示了对应于上述结果的最终蒸馏图像,以供直观对比——涵盖经典与量子 LeNet 模型在 MNIST 和 Cifar-10 上的表现。与原始工作[6]的结论一致,在固定初始化情形下,蒸馏所得图像在视觉上并不与原始类别的图像相似。例如,MNIST 中蒸馏得到的类别 0 图像,在经典与量子 LeNet 中均未呈现“0”的形状;其余类别图像亦是如此;Cifar-10 数据集同样如此。


可训练厄米算符 vs. 不可训练厄米算符
尽管采用可训练的厄米算符有助于提升推理性能,但其可训练性也可能使损失函数曲面(loss landscape)变得更加复杂,从而在蒸馏过程中引发不稳定性。因此,我们进一步考虑另一种情形:即随机初始化厄米算符,且在整个数据集蒸馏过程中保持其固定、不进行训练,并将该情形与厄米算符可训练的情形进行对比。为获得最佳蒸馏效果,两种情形下均保留残差跳跃连接(residual skip connection)。对比结果见表 II。其中,可训练厄米算符的情形直接复用表 I 中“含残差连接 + 厄米算符”(R, H)的结果。我们发现,将厄米算符设定为不可训练仅对结果产生微小影响:在 MNIST(Cifar-10)数据集上,准确率分别仅下降了1.8%(1.3%)



V. 讨论与局限性

量子 LeNet 性能略低于经典 LeNet
从实验结果可见,量子 LeNet 的最佳变体性能仍略逊于经典 LeNet。例如,如表 I 所示,当 QNN 层采用可训练厄米可观测量并辅以残差连接时,蒸馏后量子 LeNet 的推理准确率为 91.6%(MNIST)与 50.3%(Cifar-10),而经典 LeNet 则分别达到 94% 与 54%。其潜在原因可能在于 QNN 层中采用了振幅嵌入(amplitude embedding)。虽然振幅嵌入能高效地将 2 n
维经典特征映射至 n n 个量子比特上(本例中为将 64 维特征映射至 6 个量子比特),但已有研究表明,由振幅嵌入生成的量子态的统计均值倾向于集中于某一特定量子态附近[17]。这种“集中效应”易导致 QNN 出现损失壁垒(loss barrier)现象——即损失函数存在一个理论下界,无法通过优化进一步降低。


对此问题的一种潜在缓解策略是:在量子嵌入之前,进一步通过经典全连接层将 2 n 维特征压缩至 n n 维,随后改用角度嵌入(angle embedding)[10]将低维特征载入 QNN。相比振幅嵌入,角度嵌入虽效率较低(仅能以一对一方式嵌入 n n 维特征至 n 个量子比特),但其态空间分布更均匀,有助于缓解集中性问题,从而提升优化潜力。



由于单个泡利算符和单位矩阵在量子计算机上是可实际实现的[18, 19],它们的线性组合——即厄米算符 O ——同样可在量子计算机上实现。这对于量子 LeNet 架构而言已足够,因为 QNN 层仅使用单量子比特厄米可观测量。然而,对此的一种扩展是实现多量子比特厄米可观测量,其中每个多量子比特厄米算符将表示为泡利矩阵张量积的线性组合。此类可观测量可用于捕捉特征间的纠缠信息,但其实现成本可能较高,因为一个 n n量子比特的厄米可观测量最多可包含 4 n 个泡利项[20]。

在 LeNet 的特征提取部分加入量子组件:可以在 LeNet 架构的特征提取部分引入量子组件。量子卷积层(也称为“quanvolutional”层)已在文献[21]中被提出,其中传统的卷积层被随机量子线路所取代,作为核心变换层。相较于经典卷积神经网络(CNN),该量子卷积神经网络在 MNIST 数据集上的推理准确率高出约 5%。通过用量子卷积层替代部分传统卷积层,我们有望在蒸馏后提升 MNIST(甚至 Cifar-10)数据集上的推理性能。

VI. 结论

在本工作中,我们提出了一种新颖的量子 LeNet 模型,并将其应用于数据集蒸馏过程。实验结果表明,性能最优的量子变体——即同时引入可训练厄米可观测量与残差连接的版本——在 MNIST 与 Cifar-10 数据集上的推理准确率均接近经典 LeNet 模型。

原文链接: https://arxiv.org/pdf/2503.17935

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
37岁女子被执法人员当街枪杀,特朗普:是自卫!美国多地爆发大规模抗议,民众愤怒烧国旗:让错的人下台!执法者用催泪瓦斯等驱赶人群

37岁女子被执法人员当街枪杀,特朗普:是自卫!美国多地爆发大规模抗议,民众愤怒烧国旗:让错的人下台!执法者用催泪瓦斯等驱赶人群

每日经济新闻
2026-01-10 16:14:36
日本知名巨头退出中国内地市场,平价品牌狂奔,有门店日排队3000桌

日本知名巨头退出中国内地市场,平价品牌狂奔,有门店日排队3000桌

21世纪经济报道
2026-01-10 12:58:46
闫学晶“哭穷”后多平台账号禁止关注 其代言调料品牌老总:将向她索赔 不再请明星代言

闫学晶“哭穷”后多平台账号禁止关注 其代言调料品牌老总:将向她索赔 不再请明星代言

红星新闻
2026-01-10 14:19:18
穷追猛打!清华花心博士后婚内出轨,丢了工作奔赴新事业再被举报

穷追猛打!清华花心博士后婚内出轨,丢了工作奔赴新事业再被举报

火山诗话
2026-01-10 15:48:11
赢下亚洲德比!王欣瑜绝地反击逆转晋级,第2次跻身巡回赛决赛

赢下亚洲德比!王欣瑜绝地反击逆转晋级,第2次跻身巡回赛决赛

全景体育V
2026-01-10 15:28:21
为了反制中国,日本出了高招:就是禁止中国用户访问日本动画!

为了反制中国,日本出了高招:就是禁止中国用户访问日本动画!

达文西看世界
2026-01-10 12:24:03
两局横扫3号种子!石宇奇轻松晋级,连续3年跻身大马公开赛决赛

两局横扫3号种子!石宇奇轻松晋级,连续3年跻身大马公开赛决赛

全景体育V
2026-01-10 18:22:46
别想歪,废止《关于严禁卖淫嫖娼的决定》≠卖淫嫖娼合法化了

别想歪,废止《关于严禁卖淫嫖娼的决定》≠卖淫嫖娼合法化了

知识圈
2026-01-09 20:01:22
载有5人渔船在山东海域失联近一月,家属称不知道发生什么,没捞上任何东西,当地回应

载有5人渔船在山东海域失联近一月,家属称不知道发生什么,没捞上任何东西,当地回应

潇湘晨报
2026-01-10 15:21:11
断供危机!中国炼油厂弃购委内瑞拉原油,转投加拿大高价重油?

断供危机!中国炼油厂弃购委内瑞拉原油,转投加拿大高价重油?

知法而形
2026-01-10 09:52:01
闫学晶账号被封!儿子入学黑料被扒,官媒介入,赵家班多人受牵连

闫学晶账号被封!儿子入学黑料被扒,官媒介入,赵家班多人受牵连

好贤观史记
2026-01-10 16:23:03
特朗普:台湾属于中国,中方武统是它的自由,但动手美国会不高兴

特朗普:台湾属于中国,中方武统是它的自由,但动手美国会不高兴

我心纵横天地间
2026-01-10 14:51:24
买洗碗机惹丈夫砸家后续:女子发声,欠了20万外债,更多内幕曝光

买洗碗机惹丈夫砸家后续:女子发声,欠了20万外债,更多内幕曝光

寒士之言本尊
2026-01-09 19:30:48
出动3路人马,高市早苗对华正式宣战!关键时刻,特朗普却摊牌了

出动3路人马,高市早苗对华正式宣战!关键时刻,特朗普却摊牌了

时时有聊
2026-01-10 14:41:22
宣布闭店后的宜家人满为患

宣布闭店后的宜家人满为患

大象新闻
2026-01-10 07:57:04
南通通州区通报:越野赛现场一车手驾车失控致14人受伤,相关人员已被警方控制

南通通州区通报:越野赛现场一车手驾车失控致14人受伤,相关人员已被警方控制

环球网资讯
2026-01-10 19:18:52
官媒发文,揭开王思聪与秦岚真实关系,原来汪小菲一个字都没说错

官媒发文,揭开王思聪与秦岚真实关系,原来汪小菲一个字都没说错

郭蛹包工头
2026-01-08 18:19:09
日本拉面店禁止中国人入内!韩国网友揭露内幕并呼吁:我们也不能去!

日本拉面店禁止中国人入内!韩国网友揭露内幕并呼吁:我们也不能去!

奋斗在韩国
2026-01-10 14:03:22
山姆499元羽绒服充绒400克卖爆,多个门店已断货,二手平台有人加价数十元出售,客服:补货时间未知

山姆499元羽绒服充绒400克卖爆,多个门店已断货,二手平台有人加价数十元出售,客服:补货时间未知

极目新闻
2026-01-09 12:45:05
AI仅用1小时破译500年未解的“天书”,再次降维打击人类?

AI仅用1小时破译500年未解的“天书”,再次降维打击人类?

上观新闻
2026-01-09 23:06:13
2026-01-10 19:32:49
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1140文章数 18关注度
往期回顾 全部

科技要闻

传DeepSeek准备第二次震惊全世界

头条要闻

白人女子被执法队员当街射杀 死前对峙说"我不生你气"

头条要闻

白人女子被执法队员当街射杀 死前对峙说"我不生你气"

体育要闻

怒摔水瓶!杜兰特30+12 难阻火箭遭双杀

娱乐要闻

吴速玲曝儿子Joe是恋爱脑

财经要闻

这不算诈骗吗?水滴保诱导扣款惹众怒

汽车要闻

宝马25年全球销量246.3万台 中国仍是第一大市场

态度原创

艺术
亲子
旅游
本地
公开课

艺术要闻

董其昌超过10厘米的大字,喷子看完都沉默了

亲子要闻

“一瓶饮料能让孩子两个小时不分泌生长激素”,儿科医师提醒:别给孩子喝果汁、奶茶、可乐,喝得越多,生长...

旅游要闻

威海:雪映火炬八街 定格冬日浪漫

本地新闻

云游内蒙|“包”你再来?一座在硬核里酿出诗意的城

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版