量子强化学习：近期进展与未来方向|高维|算法|贝叶斯|神经网络

分享至

Quantum Reinforcement Learning: Recent Advances and Future Directions

量子强化学习：近期进展与未来方向

https://arxiv.org/pdf/2510.14595

摘要

随着量子机器学习持续发展，强化学习作为一个尤为前景广阔但尚未充分探索的前沿方向脱颖而出。在本综述中，我们系统考察了量子强化学习（Quantum Reinforcement Learning, QRL）的最新进展，以评估其在各类应用中的潜力。尽管相较于其他量子机器学习方法，QRL总体上受到的关注较少，但近期研究表明：它在量子与经典领域均展现出独特优势，并具备广泛的跨领域适用性。我们对QRL框架进行了全面分析，涵盖其算法、架构、支持的软件开发工具包（SDKs），以及其在多个领域的实际应用。此外，我们还探讨了QRL所面临的挑战与机遇，重点指出了若干前景广阔的应用案例——这些案例有望推动量子启发式强化学习的创新发展，并加速其在各类跨学科场景中的落地应用。

索引词——量子计算，强化学习，量子机器学习，变分量子线路，量子优化

I. 引言

当前一代含噪声的中等规模量子（Noisy Intermediate-Scale Quantum, NISQ）设备，通常由数百个量子比特构成，有望实现超越当今经典超级计算机能力的运算任务［1］。为开发此类NISQ设备，研究者正探索多种技术路径，包括超导系统［2］、囚禁离子系统［3］、量子点［4］、冷原子阵列［5］以及光子计算平台［6］。这些设备有望在特定应用中实现“量子优越性”（quantum supremacy），即解决经典计算机无法胜任的计算问题，从而为科学研究与工业应用开辟新的机遇［7］–［12］。然而，重大挑战依然存在，主要源于量子门操作中固有的噪声与退相干效应，这严重限制了量子计算的鲁棒性与保真度，使其尚难以执行比当前最先进经典系统更复杂的算法［13］。

变分量子线路（Variational Quantum Circuits, VQCs）被广泛用于在NISQ时代展现近期量子优势。这类参数化量子线路因其对含噪声硬件的良好适应性，以及对混合量子—经典计算流程的支持，而特别契合当前量子技术的发展水平［14］。值得注意的是，VQC中的噪声在优化过程中可促进探索行为（exploration），这一特性对量子强化学习（Quantum Reinforcement Learning, QRL）而言是一项关键优势［15］,［16］。通过建设性地利用噪声，基于VQC的QRL能在经典强化学习难以应对的复杂环境中实现高效学习［17］,［18］。

近期进展表明，即使在含噪声的NISQ条件下，基于VQC的QRL亦具备实现量子优势的潜力。凭借参数高效的量子策略、量子并行性以及鲁棒的优化能力，QRL在高维或含噪环境中展现出更快的收敛速度与更优的性能表现，因而尤其适用于资源受限与动态变化的系统［19］。事实上，某些类型的噪声反而可提升算法有效性，促进智能体在庞大动作空间中的探索［20］。近期实验结果进一步证实了学习过程中的量子加速现象，验证了QRL在复杂决策任务中的可行性［21］。除决策问题外，受量子启发的强化学习（quantum-inspired RL）技术正推动多种量子应用的进展，包括量子架构搜索［22］、量子传感［23］与量子控制［24］等。这些发展凸显了强化学习在增强量子技术方面的广泛适用性。

经典领域的强化学习已被深入研究数十年，催生了大量理论与实践成果；相比之下，其在量子领域的对应研究则起步较晚。尽管学界对QRL的关注日益增长，但现有文献中全面系统的综述仍较为稀缺。表I总结了若干已有综述，并将其与本文工作进行对比。

本综述其余部分结构安排如下：第二节回顾若干基础概念，为QRL建立理论基础；第三节介绍QRL框架，详述其与VQC的集成方式以及后者在实现量子优势中的作用；第四节描述主要的QRL架构；第五节探讨QRL算法并提供简要教程；第六节讨论基准测试问题及该领域的最新进展；第七节与第八节分别呈现经典强化学习在量子系统中的应用，以及QRL本身的各类应用；第九节指出关键挑战并展望有前景的未来方向；最后，第十节总结全文。

II. 预备知识

A. 强化学习

强化学习（RL）是一种计算方法，其中智能体通过与环境交互来学习做出序列决策，以最大化累积奖励，如图1所示。该过程通常被建模为马尔可夫决策过程（Markov Decision Process, MDP）[31]，其特征如下：

一组状态 S，表示环境可能存在的各种情况。
一组动作 A，定义了智能体可选择的行为。
一个转移函数 P : S × A × S → [0,1]，其中 P(s'|s,a) 表示智能体在状态 s 下执行动作 a 后转移到状态 s' 的概率。
一个奖励函数 R : S × A × S → ℝ，用于提供关于智能体行为的反馈，以指导其行为。

在每个离散时间步 t，智能体观察当前状态 st ∈ S，并根据策略 π 选择一个动作 at ∈ A，该策略可以是确定性的或随机性的。随后，环境根据转移函数 P 转移到新状态 st+1，智能体则获得即时奖励 rt = R(st, at, st+1)。此即时奖励直接反馈了智能体在该特定时间步所采取行动的结果。然而，智能体的目标并不仅仅是最大化即时奖励，而是学习能够随时间推移带来高累积奖励的行为。这一目标由“期望累积奖励”（通常称为“回报”，return）来体现，其定义如下：

其中 γ 是一个介于 0 和 1 之间的折扣因子，用于调节未来奖励的重要性。若 γ = 0，则期望奖励退化为 Rt = rt，即智能体仅关注即时奖励而忽略未来回报，这可能导致其倾向于追求短期收益，忽视能带来更优长期结果的策略。反之，若 γ 接近 1，则智能体会近乎同等重视未来奖励与即时奖励，从而鼓励长期规划；然而，在无限时间范围（infinite-horizon）任务中，这可能导致学习过程不稳定甚至发散。因此，γ 的选择对平衡短期与长期目标至关重要，是强化学习中习得有效策略的关键因素。

智能体的目标是找到一个能使期望累积奖励最大化的策略（policy）。策略在形式上被定义为一个将状态映射到动作的函数。最简单的情形是确定性策略（deterministic policy），其将每个状态 s 映射为一个确定动作 a = π(s)；这种策略限制了智能体探索其他可能带来更高长期回报的动作的能力。相比之下，随机性策略（stochastic policy）将每个状态映射为一个动作上的概率分布。

随机性策略允许智能体通过偶尔选择当前并非最优、但可能带来更好长期回报的动作来进行探索，而非始终拘泥于单一的确定性选择。

由于智能体的目标是学习一个能最大化期望累积奖励的策略，它必须具备评估每个状态与动作长期价值的能力。这种能力通过价值函数（value functions）来实现——价值函数旨在估计在给定策略下，某一状态或状态–动作对所对应的期望回报。价值函数主要有两类：

状态价值函数（State-Value Function）：该函数用于衡量处于某一特定状态的“好坏程度”，其形式化定义为：从状态 s 出发并依循策略 π 行动时所能获得的期望回报，即

动作价值函数（Action-Value Function）：动作价值函数（亦称 Q 函数）用于衡量在某一特定状态下执行某一特定动作的“好坏程度”。其形式化定义为：从状态 s 出发，执行动作 a，此后依循策略 π 行动所获得的期望回报，即

这些最优价值函数的一个强大性质是：它们满足贝尔曼最优性方程（Bellman optimality equations）——这是强化学习中常用于求解智能体从给定状态出发所能获得的最大可能未来奖励的关键递归方程。针对最优动作价值函数的贝尔曼最优性方程如下：

其中 α 为学习率。最终学到的策略简单且为确定性策略：在任意给定状态下，智能体选择使 Q 值表中对应值最大的动作。随着时间推移，该迭代过程促使 Q 值逐渐收敛至最优值。这种基于查表的（tabular）方法使得经典 Q 学习在状态空间与动作空间较小且离散的问题中极为高效。然而，当环境的状态空间或动作空间规模增大，或变为连续空间时，维护与更新 Q 表将变得不可行。为克服这一局限，深度 Q 学习（Deep Q-learning, DQN）采用神经网络替代 Q 表，以实现对 Q 函数的函数逼近［32］。尽管复杂性有所提升，深度 Q 网络仍遵循相同原则：选择预测 Q 值最高的动作。

B. 变分量子线路（Variational Quantum Circuit）

在量子计算中，一系列酉算子（unitary operators）构成一条量子线路。若在这些线路中引入可训练参数，则形成变分量子线路（VQCs），使其能够学习执行各类任务，例如优化与函数逼近［33］。VQCs 已被广泛应用于多个领域，包括量子强化学习（QRL）［34］、变分量子本征求解器（VQE）［35］、量子生成模型［36］以及量子神经网络（QNNs）［37］，如图2所示。

VQCs 的一个关键组成部分是拟设（ansatz）——即可调参数化酉算子的具体结构。拟设的结构可依任务而异，但通常包含如下形式的参数化酉算子：

III. 量子强化学习

量子强化学习（QRL）通过融合量子计算技术扩展了经典强化学习，使智能体能够与量子环境交互，以最大化累积奖励，并在学习性能与效率上超越经典强化学习方法。文献［20］的作者证明，一种混合量子-经典方法——利用量子增强采样与基于能量的模型——在大型动作空间环境中，其学习性能优于经典深度强化学习。类似地，文献［21］的作者展示了通过量子通信信道实现的学习时间加速，显著减少了达到最优性能所需的训练轮次。该框架在希尔伯特空间内构建量子态、动作、转移算子与奖励算子，从而系统性地揭示了强化学习中的量子优势。

A. 分类体系

在实践中，QRL 方法可分为三类，如图3所示：

量子启发式强化学习（Quantum-Inspired RL, QiRL）：完全基于经典算法，借鉴量子力学原理以增强探索或优化能力。下文将详细讨论。
混合量子-经典方法：强化学习循环本身仍为经典架构，但部分组件（如策略函数或价值函数）被参数化量子线路所取代。这是当前文献中最常见的方法，本文综述将重点详述此类方法。
全量子强化学习：整个流程的所有组件均实现量子化。智能体与环境均被视为可相干相互作用的量子系统，允许轨迹叠加态的存在，并可运用如格罗弗搜索等量子算法。这些方法目前主要停留在理论层面，通常需要容错量子计算才能充分展现量子优势。

量子启发式强化学习（QiRL）与标准QRL存在显著差异。在QRL中，算法设计目标是在量子硬件上运行，利用量子线路表示策略或价值函数；而QiRL虽从量子力学中汲取灵感，但开发的是完全经典的算法，并在经典计算机上执行。QiRL借鉴了多种量子现象，无需依赖量子设备即可提升探索能力、优化效率和决策策略。QiRL所采用的量子力学现象示例如下：

振幅放大：格罗弗算法中使用的振幅放大技术，通过增大对应正确解的量子态振幅，从而提高测量到该解的概率。在QiRL中，受振幅启发的方法将此理念用于提升高回报动作的选择概率［39］。
坍缩现象：在量子力学中，测量会导致处于叠加态的量子态坍缩至某个基态，各结果出现的概率由其振幅的平方决定。在QiRL中，这一概念被用于概率性动作选择：智能体根据学习得到的概率分布选择动作，鼓励探索而非始终选择回报最高的动作［39］。
量子退火：量子退火是一种利用量子力学（特别是量子隧穿效应）寻找给定成本函数全局最小值的量子优化方法。在QiRL中，受退火启发的调度策略被用于在大规模搜索空间中逃离局部最优解［40］。
量子行走：量子行走启发了强化学习中的探索策略，使智能体以模拟量子叠加与干涉的方式搜索状态空间，从而比纯随机探索更快速或更高效地覆盖可能的状态［41］。

全量子强化学习（Fully QRL）方法已在文献中被提出，但目前仍主要处于理论探索阶段。文献［42］的作者提出了一个通用的全量子强化学习框架，其中智能体与环境均被建模为量子系统。智能体与环境各自拥有内部量子寄存器，并通过完全正迹保持映射（或酉映射）交换信息，从而允许智能体以叠加方式对动作序列同时查询环境，实现并行学习。为支持此类叠加查询，环境必须被“神谕化”（oracularized），即其需表现为一个量子神谕（quantum oracle），能够相干地编码奖励信息。后续多项研究进一步拓展并推广了这些思想，探讨了神谕式访问（oracular access）的实现方式及可证明量子加速所需的条件［43］–［45］。

B. 定义

C. 软件框架

软件开发工具包（Software Development Kits, SDKs）对于推动量子强化学习（QRL）研究至关重要，它们提供了基础性工具、库与环境，以支持量子算法的开发、测试与部署。这些框架具备关键功能，例如可微编程（differentiable programming）：它允许梯度在量子线路中反向传播，从而实现对 QRL 模型的优化，并促进混合量子—经典工作流的构建［46］–［48］。此外，许多 SDKs 具备高性能仿真能力，可在受控环境中对复杂量子算法进行实验，支持模型的迭代开发与测试，为最终在真实量子硬件上部署奠定基础［49］。

如表 IV 所示，Qiskit、PennyLane 和 TensorFlow Quantum 等框架在 QRL 生态系统中尤为有价值。这些 SDKs 提供高层抽象接口，并与经典机器学习库无缝集成，显著降低了 QRL 模型的构建门槛。例如，Qiskit 与 PennyLane 支持 GPU 加速，并可与主流机器学习库（如 PyTorch、TensorFlow）协同使用；而 CUDA Quantum 与 TorchQuantum 则依托 NVIDIA GPU 提升仿真性能。

各框架独特的功能特性——包括所支持的硬件后端、与机器学习生态的集成度，以及是否提供 QRL 专用工具——使其成为研究人员构建高效、可扩展的量子增强型强化学习模型的关键支撑。

IV. QRL 架构

本节概述量子强化学习中的四种先进架构：量子多智能体强化学习（QMARL）、自由能强化学习（FERL）、量子变分自编码器强化学习（QVARL）以及量子分层强化学习（QHRL）。对于每种架构，我们将阐述其基本思想，并突出展示其发展与应用的代表性文献。

每个智能体均优化其策略参数 Θ i，以最大化期望累积奖励，同时通过共享的量子环境考虑与其他智能体之间的相互依赖关系。重放缓冲（replay memory）与基于损失函数的优化相结合，有助于稳定并提升该多智能体量子强化学习框架中各智能体的训练过程。

QMARL 是一个新兴研究领域。例如，文献［51］提出了一种“集中训练、分散执行”（centralized-training, decentralized-execution）的框架，该框架采用变分量子线路，在 NISQ 条件下显著超越了经典多智能体强化学习（MARL）基线的奖励表现。后续工作进一步将其拓展至元学习场景，提出了量子多智能体元强化学习（Quantum Multi-Agent Meta Reinforcement Learning）［50］。更近期地，文献［52］提出了纠缠式量子多智能体强化学习（Entangled Quantum Multi-Agent Reinforcement Learning, eQMARL）：eQMARL 是一种分布式量子行动者–评论家（actor–critic）框架，通过量子纠缠促进智能体间的协作。该系统采用一个分体式量子评论家（split quantum critic），经由量子信道跨智能体连接，从而无需本地观测信息共享，显著降低了经典通信开销。

基于自由能的强化学习：基于自由能的强化学习（Free Energy-based Reinforcement Learning, FERL）借鉴统计物理学思想，利用自由能引导学习过程。在量子语境下，FERL 使用量子玻尔兹曼机（Quantum Boltzmann Machines）对环境的状态分布进行建模，并以自由能曲面（landscape）指导策略优化。策略 U Θ 的调整目标是最小化自由能 F ，其定义如下：

该方法可增强收敛性与性能，尤其在状态空间较大或连续的情况下效果显著。在某些实现中（例如文献［55］），生成潜在表示的自编码器为经典模型，而在此潜在空间上运行的策略网络则为量子模型（即量子智能体）。

这种分层结构支持多层级决策：不同抽象层级上的量子策略相互协作，从而提升学习稳定性与任务效率。近期研究［56］针对关系抽取任务提出了一种两级QHRL框架，结果表明：分层量子策略能够有效分解复杂目标并提升学习性能——这一思想可自然推广至更广泛的量子强化学习场景中。

V. QRL 算法

通过利用量子原理，量子强化学习（QRL）算法扩展了经典强化学习框架，旨在复杂环境中实现潜在的加速效应或性能提升。广义而言，这些算法可分为两大类：

基于策略的方法（Policy-Based Methods）：直接学习一个最优策略，将状态映射为动作，无需依赖中间的价值函数；例如策略梯度方法（policy gradient methods）。
基于价值的方法（Value-Based Methods）：侧重于学习一个最优价值函数，用于估计在给定状态下执行特定动作所对应的期望长期回报；例如 Q 学习方法（Q-learning methods）。

在实践中，还可将两类方法的优势相结合，形成所谓的行动者–评论家方法（Actor-Critic Methods）：其中，“行动者”（actor，即策略组件）直接学习策略，而“评论家”（critic，即价值组件）则估计价值函数，以引导并稳定“行动者”的策略更新过程。

本节将讨论文献中已探索的主要 QRL 算法，具体包括：量子策略梯度（quantum policy gradient）、量子 Q 学习（quantum Q-learning）以及量子行动者–评论家（quantum actor-critic）方法。针对每种算法，我们将提供简要教程。表 III 对这些算法进行了比较总结。

A. 量子策略梯度

量子策略梯度方法通过直接计算期望累积奖励 E [ R t ]
关于策略参数 Θ Θ 的梯度，并利用策略 U Θ
进行动作选择，从而优化策略参数。其更新规则与公式（16）相同。文献中已探索了多种量子策略梯度的实现方案［57］、［58］和［59］。

其中一种可能的实现由文献［60］提出。下文我们将介绍其方法的简要教程：该方法以参数化量子线路作为策略模型，并应用 REINFORCE 算法来优化其参数。他们的方法引入了两种策略变体：RAW-PQC 和 SOFTMAX-PQC。

尽管 RAW-PQC 结构简单，并利用了量子测量固有的概率特性来选择动作，但它缺乏一种可直接控制“探索”与“利用”程度的机制。换句话说，不存在一个可调节参数，使智能体能够灵活调整其行为的贪婪性或探索性。随着训练的推进，动作概率往往会在单一结果附近急剧上升，这会降低动作选择的多样性，从而在评估阶段限制探索能力。

为训练上述两种策略变体的量子线路，采用的是蒙特卡洛策略梯度算法——REINFORCE。智能体通过梯度上升法更新线路参数 Θ Θ，以最大化期望回报。

B. 基于变分量子算法的 Q 学习

与直接优化策略的策略梯度方法不同，深度 Q 学习使用参数化量子线路来估计智能体的 Q 函数。正如经典深度 Q 学习中用神经网络逼近 Q 值一样，其量子对应方法中由参数化量子线路承担此角色，使智能体能够通过选择使估计 Q 值最大的动作来推导策略。该方法建立在第二节介绍的经典 Q 学习算法基础之上——其中智能体依据贝尔曼最优性方程更新 Q 表。

已有若干研究探索了使用参数化量子线路作为价值函数逼近器的可行性［34］、［61］、［62］。例如，文献［63］提出了量子深度循环 Q 学习（Quantum Deep Recurrent Q-Learning, QDRQN），将量子长短期记忆网络（QLSTM）整合进深度 Q 学习框架，作为 Q 值估计器。

以下，我们针对文献［64］中的具体实现，提供一个量子 Q 学习的简要教程。

在文献［64］中，参数化量子线路被用于逼近 Q 函数。经典深度 Q 学习中使用的神经网络被替换为一个变分量子线路，该线路将输入状态映射为每个可能动作所对应的 Q 值。

C. 量子行动者–评论家方法

量子行动者–评论家（Quantum Actor-Critic）方法包含两个组成部分：

文献中已研究了多种量子行动者–评论家的实现方案，例如文献［65］和［66］。近期工作通过整合量子长短期记忆网络（Quantum Long Short-Term Memory, QLSTM）进一步扩展了该框架，如文献［67］所示；或通过将量子行动者–评论家与快速权重机制结合，如文献［68］所展示。在某些行动者–评论家实现中，评论家本身无需为量子组件——通常采用经典神经网络来逼近价值函数［52］。这种混合架构使行动者能够利用量子表达能力，而评论家则受益于经典函数逼近的稳定性与高效性。

下文我们将基于文献［69］提供一个简要教程，说明这些组件在实践中如何协同工作。

VI. QRL 基准测试

尽管量子强化学习（QRL）是一个快速发展的领域，但其当前正面临严峻的基准测试问题。该领域尚缺乏统一的基准测试平台与标准化评估指标，使得不同算法的恰当评估与比较极为困难［70］。由于 QRL 对超参数高度敏感且存在多种随机性来源，要可靠地宣称“算法 A 优于算法 B”颇具挑战性：学习率、线路深度或量子比特数的微小变动均可能导致结果显著不同。此外，QRL 还面临多重新增的随机性来源，例如：

硬件噪声——不同设备间差异显著；
测量采样次数（shots）引入的统计涨落；这些因素均严重阻碍了评估结果的一致性。其他如权重初始化、动作采样策略以及环境本身的随机性，进一步降低了可复现性，使算法间的公平比较变得困难。

除噪声外，环境设计在判定量子算法是否真正优于其经典对应方法方面亦起着关键作用。理想环境需具备足够复杂性以挑战经典算法，同时其结构又应能有效发挥量子计算的独特优势（如叠加、纠缠、干涉等）。在二者间取得平衡极为困难，使得环境设计本身成为一大挑战。

为应对上述问题，近期已涌现出若干致力于建立更严格、标准化 QRL 基准测试规范的努力，标志着向更可靠、可比的评估体系迈出初步步伐：

文献［71］提出了一种新型基准测试方法，利用统计估计量评估启发式算法的样本复杂度（即智能体为达到特定性能所需与环境的交互次数）；该工作还构建了一个复杂度可调的新基准环境。
文献［70］引入了一系列用于评估 QRL 算法的指标：性能样本效率线路运行次数量子时钟时间量子比特规模扩展性。这些指标超越了传统强化学习仅关注性能与样本效率的范畴，纳入了量子特有的考量维度。
文献［72］提出了一种加权排序指标，综合考量准确率、线路深度、量子门数量与计算效率，从而在量子架构搜索任务中实现公平的算法比较。

VII. 强化学习在量子任务中的应用

经典强化学习亦被广泛应用于任务本身具有量子属性的场景，例如：量子控制、量子纠错、量子架构搜索、量子传感及量子密钥分发等。本节将简要综述这些领域的近期进展，重点阐明：尽管运行于经典硬件之上，纯经典的智能体与算法仍能有效优化量子系统的行为。

A. 量子控制

量子计算的近期进展已从单纯追求量子比特数量转向通过纠错提升量子比特质量。与此同时，控制方式正从脉冲层级（pulse-level）逐步过渡至分数量子门（fractional gates），从而简化量子操作、降低线路深度并提升整体效率［73］。这些发展凸显了先进量子控制技术对于实现可靠、可扩展量子计算的关键作用。

量子控制旨在通过对量子系统施加外部场（如激光或磁场）来调控其哈密顿量（Hamiltonian），进而引导系统演化，以达成特定目标（如量子态转移或量子门实现）［74］–［78］。该哈密顿量决定了系统的动力学行为［79］。形式上，对于量子态 ∣ ψ ( t ) ，其演化由含时哈密顿量 H ( t )
所支配，遵循薛定谔方程：

强化学习可通过将系统状态视为环境、将控制操作视为智能体的动作、并将保真度（fidelity）作为奖励，来自动优化控制参数［80］。该奖励函数反映了优化目标，可表示为：

强化学习已被广泛应用于量子控制的多种实际场景中。例如，文献［82］的作者展示了强化学习如何跨不同系统相位优化量子控制协议，揭示了控制景观中的相变，并为复杂量子系统中的高保真态转移提供了一种无需模型、可扩展的方案。类似地，文献［83］、［84］提出了一种基于强化学习的方法来优化量子线路映射（transpilation），实现了针对多种电路类型的近似最优综合，并在门深度与门数量上显著减少，其效率与可扩展性均优于传统启发式与优化方法。此外，将量子比特路由（Qubit routing）建模为强化学习问题后，采用深度 Q 学习来优化动态量子比特置换，以最小化 SWAP 门开销，从而显著改善线路深度与硬件效率［85］,［86］。文献［87］则在 FPGA 上实现了实时强化学习智能体，用于低延迟量子反馈，成功实现了超导量子比特的高保真度控制与初始化，且无需依赖显式的系统模型。尽管量子控制问题已有效映射至强化学习框架，但在单量子比特、双能级开放系统及多量子比特系统等场景下，受量子启发的探索策略与奖励机制相比传统强化学习方法展现出更优性能，体现出在实验约束条件下更强的稳定性、效率与学习能力［88］。

B. 量子纠错

量子计算机本质上易受噪声与退相干影响，使得计算过程中的错误不可避免。因此，为实现可靠的大型量子计算机，必须采用量子纠错（Quantum Error Correction, QEC）。然而，实现 QEC 远比经典纠错复杂得多——在经典领域，可通过简单复制比特来轻松实现冗余；而在量子领域，则面临三大挑战［89］：

量子态不可克隆性：在经典编码中，数据可通过复制实现冗余；但根据量子不可克隆定理，无法对未知量子态制作完全相同的副本。
多重错误类型：经典比特仅易受“位翻转”（bit-flip）错误影响，而量子比特同时易受“位翻转”（X 错误）和“相位翻转”（Z 错误）的影响，因此需要能同时纠正这两类错误的编码方案。
测量导致的坍缩：经典比特可在不干扰其状态的前提下被读取，但测量一个量子比特可能破坏其所承载的编码信息。

因此，QEC 依赖于精心设计的编码方案与控制策略，在不干扰存储信息的前提下检测并纠正错误。虽然传统 QEC 方案（如表面码、稳定子码及其他成熟量子码）功能强大，但它们通常需使用大量量子比特，并涉及更复杂的优化过程［90］。基于这些原理，研究者已开始探索利用强化学习方法自动优化 QEC。

例如，深度强化学习已被用于在环面码（toric code）上实现量子纠错，以应对无关联的比特翻转或相位翻转噪声［91］。该方法训练智能体寻找近似最优的纠错路径，其解码精度可媲美“最小权重完美匹配”（Minimum-Weight Perfect Matching）解码器。

类似地，容错表面码（surface code）的解码任务亦可重构为一个序列决策问题：学习型智能体与量子码的“综合征”（syndrome）数据进行交互［92］。在此框架下，解码器扮演强化学习智能体的角色，从量子码环境中接收观测量（即综合征），并选择纠错动作以降低逻辑错误率。通过采用深度 Q 学习方法，研究者训练了经典神经网络，在真实噪声条件下成功习得了高性能解码策略。

强化学习亦被用于设计自主量子纠错（Autonomous Quantum Error Correction, AQEC）协议。例如，一个 RL 智能体在超导系统中为 AQEC 确定了最优的玻色子编码字（bosonic codewords），实现了对逻辑量子比特的高保真度保护［93］。

此外，RL 还被直接应用于表面码架构中的比特翻转与去极化噪声抑制［90］：智能体通过分析错误率并监测量子比特寿命，训练以降低比特翻转错误。

值得注意的是，通过将近端策略优化（Proximal Policy Optimization, PPO）智能体应用于稳定子码（stabilizer codes），研究者已成功发现一类低权重量子纠错码，其物理量子比特开销显著降低［94］。

C. 量子架构搜索

量子架构搜索（Quantum Architecture Search, QAS）旨在自动设计适配特定应用与硬件约束的量子线路架构。它在可能的配置空间中进行搜索，以识别在深度、门保真度与整体性能等方面均高效优化的架构［95］,［96］。受经典神经架构搜索（Neural Architecture Search）启发，QAS 需应对量子计算特有的挑战，包括酉性约束、对噪声的敏感性以及硬件平台的专属限制［97］。

变分量子线路（VQC）的效率高度依赖于所采用的架构，原因如下：

表达能力（Expressivity）：架构决定了 VQC 能否充分覆盖目标解空间；
可训练性（Trainability）：设计不当的线路易陷入“贫瘠高原”（barren plateaus）——梯度近乎为零，致使训练失效；
硬件兼容性（Hardware Compatibility）：受限于量子比特连接拓扑与门保真度等硬件约束，必须定制适配架构以实现高效执行。

为高效探索庞大的架构空间，QAS 可被建模为一个强化学习问题：其中，RL 智能体通过构建并评估量子线路，自主发现高性能设计方案［22］。在此 RL 框架下：

在 QAS 基础之上，近期进展进一步凸显了强化学习在优化量子线路架构中的关键作用。例如，文献［98］利用 RL 自动设计并优化量子机器学习（QML）模型；其他框架如 QAS-Bench［99］与基于梯度的微分方法 QuantumDARTS［100］则展示了系统性评估与梯度优化技术如何提升线路搜索效率与性能。尤其在硬件受限环境下，RL 方法展现出卓越效能：一个典型例子是近邻编译框架（Nearest-Neighbor Compilation）［101］，其中 RL 被用于最小化 SWAP 门数量并降低线路深度，从而应对关键的实际限制。

更先进的 RL 技术进一步彰显了其在序列门设计与参数优化中的适应性，例如：基于循环神经网络（RNN）的策略梯度方法［102］，以及用于量子近似优化算法（QAOA）的递归式强化学习［103］。这些方法通过在复杂线路设计空间中动态导航，实现了更高的效率与更快的收敛速度。此外，RL 驱动的框架如 KANQAS［104］也印证了分层建模的强大能力——它可在高效探索架构空间的同时，兼顾任务特定约束。

通过协同优化线路的表达能力、可训练性与硬件兼容性，RL 不仅实现了 QAS 过程的自动化与增强，更推动了面向复杂量子任务的定制化架构创新。因此，RL 已成为提升变分量子线路（VQC）能力的核心工具，有力促进了量子算法设计与实际部署的持续进步。

D. 量子传感

量子传感利用量子力学原理（如叠加与纠缠），实现对磁场、时间、重力等物理参数的高精度测量。通过利用量子态对外部扰动的高度敏感性，量子传感器在精度与效率上均超越经典传感器［23］。

量子传感器的运行由其量子态在参数依赖哈密顿量H ( θ )
下的演化所支配，其中 θ为待估计的物理参数。量子态随时间按如下方式演化：

近期强化学习在量子传感领域的进展凸显了其强大的通用性与有效性。研究表明，RL 能够优化量子传感器的动力学行为，通过设计非线性控制脉冲来对抗退相干，从而实现超过一个数量级的灵敏度提升［23］。类似地，有研究提出了一种用于时变参数估计的深度强化学习框架，采用几何启发式奖励函数与时相关控制方案，在含噪与无噪条件下均实现了鲁棒、高效的参数估计［105］。在贝叶斯量子传感背景下，一种基于 RL 的实验设计框架利用粒子滤波优化自适应传感策略，表现优于传统方法［106］。进一步的进展包括将深度强化学习应用于量子多参数估计，有效应对资源限制并摆脱对精确系统模型的依赖［107］,［108］。此外，RL 还被用于设计针对不同噪声水平与系统参数定制的鲁棒纠缠生成协议；而基于 RL 的反馈控制策略则在提升量子计量精度方面展现出卓越性能，超越了动态量子系统中的传统方法［109］,［110］。

E. 量子密钥分发

量子密钥分发（Quantum Key Distribution, QKD）利用量子力学原理（如不可克隆定理），使双方能够安全共享一个经典密钥。任何窃听行为都会破坏量子态，从而使通信双方能够检测并丢弃被泄露的密钥。然而，QKD 在资源分配方面仍面临重大挑战：密钥生成速率随距离呈指数级下降，难以满足现代高流量应用的需求［111］。传统的资源分配方法（如最短路径路由）将请求集中于少数链路上，反而加剧了拥塞问题［112］。

为克服这些局限，近期研究探索了使用经典深度强化学习智能体动态分配波长、时隙或密钥资源的方法。

文献［113］的作者提出了一种利用深度强化学习解决 QKD 网络中资源供给问题的方法。在该方法中，一个经典 RL 智能体被训练用于根据不断变化的需求和网络状况，动态分配密钥资源与网络路径。

由于 QKD 光路请求需频繁更新，使得路由与资源分配（RRA）问题极具挑战性。因此，已有研究提出一种深度强化学习方案，以应对 QKD 安全光网络中的 RRA 问题［114］。

量子密钥池（Quantum Key Pools, QKPs）位于相邻 QKD 节点之间，用于管理密钥资源；但动态流量会导致密钥生成与消耗失衡，引发服务阻塞、密钥溢出以及当密钥在 QKP 中驻留过久时的安全性下降等问题。为应对这些挑战，文献［115］提出了一种基于 RL 的路由与密钥资源分配算法，其中训练了一个深度 Q 学习智能体，使其选择路由动作，从而将 QKP 的密钥水平维持在安全范围内。

VIII. QRL 的实际应用

日益增长的 QRL 研究成果展现了其卓越的通用性，应用范围涵盖自主系统、优化问题与通信等领域。本节综述当前文献，展示 QRL 在上述各领域的具体应用实例。

a)自主系统：
QRL 通过赋能精准决策、高效资源利用及在动态不确定性条件下的鲁棒控制，在推动自主系统发展中发挥着关键作用。凭借量子计算与强化学习的深度融合，QRL 有效应对了传统方法在实时自主应用中难以克服的计算与运行挑战。其通用性已在多种任务中得到验证，包括：

可重复使用火箭着陆：基于 QRL 的控制器显著提升了火箭在强风扰动等湍流条件下的着陆稳定性与适应性；如文献［116］所示，该方法收敛更快、累积奖励更高，且满足机载系统的计算约束，性能优于深度 Q 网络等经典方法。
机器人导航：通过采用变分量子线路（VQC），QRL 框架可高效编码高维状态表征，使自主机器人以更少计算资源穿越复杂环境。该方法在静态导航任务中尤为有效——此类任务中经典深度强化学习往往表现欠佳［117］。
自动驾驶汽车：在无碰撞导航任务中，如 Nav-Q 等 QRL 模型结合量子评论家与经典降维技术，显著提升决策效率［118］。此类混合系统可加速收敛、提高安全指标，极为契合现实世界的自动驾驶场景。
多无人机协同控制：基于 QRL 的量子多智能体强化学习（QMARL）框架可在动态环境中优化无人机群的协同与任务分配［119］。该系统支持高效策略学习、鲁棒动作规划及稳定性能表现，对监控与物资投送等应用至关重要。
行人交互建模：将 QRL 整合进类量子贝叶斯模型（Quantum-like Bayesian models），可更准确预测行人在交通场景中的非理性与不可控行为［120］，从而提升自动驾驶车辆在复杂拥挤城市环境中的决策能力。
量子多智能体协作：在智能工厂等场景中，多智能体 QRL 框架对自主机器人调度与资源优化等任务尤为关键［119］。相比经典多智能体强化学习，其可增强智能体间协同与决策能力，显著降低计算开销、提升任务执行效率。
自主卫星协同：QRL 已被应用于星地一体化系统，优化任务分配与动态资源管理［119］。借助可伸缩量子神经网络（slimmable quantum neural networks），此类系统能无缝适应运行约束与环境变化，提升空间自主网络的性能。此外，文献［121］提出了一种 QMARL 模型用于协调多卫星系统，以应对大规模、高维任务所带来的挑战。
迷宫路径优化：QRL 框架在迷宫求解等导航挑战中表现出色［122］。通过利用量子增强的探索与决策能力，智能体能高效找到复杂环境中的最优路径，在计算资源需求与收敛速度方面优于经典强化学习。
高密度环境中的避碰：除自动驾驶外，QRL 还被拓展至高密度交通场景管理，可建模复杂人类交互并实现实时避碰［120］。通过引入类量子贝叶斯模型，该系统能有效应对人类行为的不确定性，确保鲁棒且安全的导航。
潜在空间优化：在混合量子–经典强化学习框架中，QRL 已被应用于高维决策任务（如机器人导航与视觉导航）的潜在观测空间［123］。此类框架通过将观测压缩为潜在表征，大幅降低计算开销，从而实现高效策略学习与更好的可扩展性。

b)优化问题：强化学习（RL）在解决复杂优化任务方面表现尤为出色——它使智能体能够通过迭代式交互学习最优策略。而量子强化学习（QRL）通过融入量子计算，进一步强化了策略优化能力。值得注意的是，QRL 可利用格罗弗搜索算法（Grover’s search）、状态–动作对的并行评估等方法，显著降低计算复杂度，并在决策任务中取得更优结果。对比研究表明，在网格穿越等挑战性场景中，QRL 不仅可媲美，且往往超越经典深度强化学习与量子退火方法［124］。通过基于量子门的计算范式，QRL 即便在随机性环境下，也能借助格罗弗搜索高效定位高回报动作，并并行评估状态–动作对，展现出稳健性能。这些优势使 QRL 成为解决经典方法难以承受的计算密集型优化问题的实用方案。以下为 QRL 已成功应用的关键优化任务：

组合优化：QRL 通过将问题（如 Weighted-MaxCut、背包问题、机组承诺问题）直接编码为源自其二次无约束二值优化（QUBO）形式的哈密顿量，显著提升解的质量［125］。采用问题定制的量子拟设（ansatz）设计，可有效缓解“贫瘠高原”问题，在可训练性与可扩展性上优于量子近似优化算法（QAOA），尤其在泛化至未见问题实例时更具优势。
两阶段决策系统：在可再生能源电网中，QRL 可结合量子深度 Q 网络优化热电机组的日前调度，并利用量子软行动者–评论家（Quantum Soft Actor-Critic）处理实时负荷调整［126］。这些量子模型能在波动性可再生能源出力下，均衡成本与运行约束，实现在动态环境中的稳健任务完成。
加速器束线控制：一种混合型行动者–评论家 QRL 算法——其中评论家由量子玻尔兹曼机构建——已被验证可有效优化欧洲核子研究中心（CERN）质子与电子束线的轨迹控制［127］。该方法采用量子退火进行训练，在高维连续动作空间中实现更快收敛与更强适应性。
随机性决策问题：QRL 可应对“冰湖”（Frozen Lake）问题——其中随机转移对经典 RL 模型构成挑战［128］。通过在近端策略优化（PPO）中以变分量子线路（VQC）替代神经网络，QRL 能以更少参数实现对状态–动作空间的高效表征与探索，同时保持鲁棒的学习能力。
基于 NFT 的智能网络：QRL 可优化面向网联自动驾驶车辆的、基于非同质化代币（NFT）的分布式智能系统中的资源分配［129］。通过量子增强的策略优化，车辆可动态决策数据获取模式与带宽分配，在保障数据完整性的同时最小化延迟。
随机任务中的策略优化：在网格穿越问题中，对比研究凸显了 QRL 在采样效率与收敛速度上的优势［124］。基于量子门的 QRL 利用格罗弗搜索高效探索高回报动作；而基于退火的 QRL 则通过量子增强的价值估计获取近最优策略。
云平台 QRLQuafu-RL［130］在量子云平台上实现，使用硬件高效型 VQC 训练智能体。以 CartPole 任务为例，Quafu-RL 采用进化式架构搜索自动发现最优线路结构，有效减少量子门数量，并在噪声环境下提升训练稳定性。
移动边缘计算（MEC）中的资源分配：QRL 可增强 MEC 环境下任务卸载与资源分配的联合优化［131］。借助混合变分量子–经典架构，QRL 降低了混合离散–连续动作空间问题的复杂度，实现更快收敛与更优约束满足。
蛋白质折叠：QRL 有望求解 NP 完全的蛋白质折叠问题——通过 VQC 编码疏水–亲水格点模型（hydrophobic-polar lattice model）［132］。借助量子策略更新，QRL 可在指数级搜索空间中高效导航，识别近似最优构象。
多智能体无人机网络：结合量子行动者–评论家网络的 QMARL 可优化大规模无人机协同任务（如监控与移动接入）［133］。通过“投影价值测度”（Projection Value Measure）实现对数级动作空间压缩，QMARL 在高维状态–动作空间的多智能体系统中展现出稳健收敛性与强可扩展性。
c)通信领域：在通信领域，QRL 有效应对了延迟控制、资源分配与安全数据传输等关键挑战。它已在实现超高可靠低延迟通信（URLLC）、动态任务分配、轨迹优化及隐私保护型分布式学习等方面展现出显著价值。其应用覆盖多个领域，包括无人机（UAV）网络、6G 系统与能源交易等。通过高效建模大规模复杂系统，QRL 提供了具备可扩展性与自适应能力的解决方案，在精度与计算效率上超越经典方法，有力推动了 6G 及更前沿通信技术的边界拓展［134］–［136］。典型应用包括：
- 量子通信协议的再发现与优化：QRL 已被证实能够重新发现并增强经典量子通信协议（如量子隐形传态与纠缠提纯），尤其在非理想、非对称噪声条件下表现突出［134］。它能高效适应噪声与随机环境，通过动态优化保真度与资源使用效率，性能优于预先设计的经典协议。
- 分布式网络中的实时适应性：QRL 促进了经典与量子通信系统的融合，在空–天–地一体化网络（SAGINs）等集成网络中实现实时决策［135］。借助量子纠缠与隐形传态，QRL 为动态资源管理及延迟敏感型应用提供了稳健解决方案。
- 元宇宙应用中的时空协同：QRL 通过将强化学习与稳定化控制相结合，实现了元宇宙环境中的高效时空协同［136］，从而保障虚拟系统与物理系统间通信的极低延迟与高服务质量。
- 面向安全能源交易的区块链集成 QRL：在电动出行能源交易等去中心化系统中，QRL 可与区块链结合，优化资源分配并保障数据交换安全［137］。通过智能合约与动态定价机制，QRL 实现低延迟、透明化的能源调度，显著提升系统可信度与运行效率。
- 无人机通信与协同性能提升：基于 QRL 的框架通过增强采样效率、降低计算开销，显著改善了无人机轨迹优化性能［138］。借助受格罗弗启发的经验回放机制与动态动作空间调整，UAV 系统在轨迹规划与通信中实现了更优的同步性与稳定性。
- 通感一体化（Integrated Sensing and Communication, ISAC）：在 ISAC 系统中，QRL 通过优化感知与通信之间的权衡，提升了到达方向（DoA）估计与任务卸载等任务的性能［139］。尤其是量子行动者–评论家方法，在监控与国防等实时场景中实现了更低延迟与更高保真度。
- 6G 网络中数字孪生部署优化：多智能体 QRL 框架解决了边缘计算环境下数字孪生部署的挑战，在满足计算约束的同时显著降低延迟［140］。得益于振幅编码（amplitude encoding），QRL 可高效扩展，确保在复杂 6G 网络中实现动态更新。
- 无人机轨迹与资源分配的联合优化：QRL 已被应用于高机动性环境中的 UAV 轨迹与资源分配联合优化［141］。该方法通过在网络中嵌入量子层，在降低能耗的同时保障通信稳定性，显著提升了系统延迟表现与可扩展性。

d)金融领域：金融本身是一个高度复杂且持续演化的领域，深受市场波动性及诸多不可预测因素的影响。这一点在做市（market making）、投资组合管理与订单执行等场景中尤为明显——市场条件可能在数秒内剧变，要求系统具备持续的适应能力与极快的决策速度［142］。传统机器学习模型往往难以应对如此快速且动态的环境。近年来，强化学习（RL）在金融领域的应用日益广泛：它使智能体能通过与市场交互进行学习，动态适应行情变化，并随时间推移优化决策策略。鉴于量子计算有望在金融领域率先实现实际应用价值［143］，研究者已开始探索量子强化学习（QRL），以期在复杂金融场景中进一步提升适应性与决策能力。近期多项研究已在不同金融子领域中探索了 QRL 的应用，例如：

深度对冲（Deep Hedging）：文献［144］开发了用于深度对冲的 QRL 方法。具体而言，采用含正交层与复合层结构的量子神经网络来表示策略函数与价值函数；此外，作者还提出一种分布式的行动者–评论家算法（distributional actor-critic algorithm），其充分利用了量子态所天然蕴含的高维概率分布特性。
算法交易：文献［145］提出将量子长短期记忆网络（QLSTM）与 QRL 相结合用于算法交易。该工作将 QLSTM 用于短期市场趋势预测，再与量子异步优势行动者–评论家（Quantum Asynchronous Advantage Actor–Critic, QA3C）方法结合进行交易决策，构建出一种混合模型，可同时学习市场预测模式与交易策略。其中，QLSTM 作为市场趋势的特征提取器，其输出作为状态输入提供给 QA3C 智能体。
金融科技交易决策优化：文献［146］将经典 LSTM 与 QA3C 结合，应用于标普 500 指数交易。LSTM 模型用于生成宏观经济与价格特征的一周前瞻性预测，这些预测结果作为附加的输入特征馈入 QA3C 智能体，以辅助其决策。

e)量子架构搜索：尽管如第七节 C 小节所述，经典强化学习已成功应用于量子架构优化，但近期研究进一步探索了全量子架构搜索——即量子智能体在量子环境中交互，以优化线路设计与控制策略。文献［147］中，量子智能体运行于一个量子环境，其动作对应于选择量子门或操作以构建候选线路；线路构建完成后，智能体根据性能指标（如保真度、深度、参数数量等）获得奖励反馈，从而引导其偏好更优架构。然而，该方向研究仍较为有限；目前大多数工作仍采用经典 RL 进行量子架构搜索（QAS），或反过来利用 QAS 方法改进 QRL 智能体本身——例如文献［148］与［149］所示。

IX. 未来方向与开放问题

量子机器学习（QML）近期备受关注，因其有望应对经典机器学习中长期存在的可扩展性与计算瓶颈等难题。随着 Qiskit、TensorFlow Quantum、PennyLane 等成熟软件开发工具包（SDKs）的普及，以及精选数据集与基准测试平台的陆续推出，QML 对更广泛研究群体的可及性已显著提升。然而，QML 的入门门槛仍处于中高水平，要求研究者扎实掌握量子力学与经典机器学习框架。而量子强化学习（QRL）的门槛更高——除上述知识外，还需精通强化学习与优化技术。此外，QRL 目前仍属小众领域，其推广应用受到多重挑战制约：

高度复杂性：QRL 的跨学科本质要求研究者同时深入理解量子力学、强化学习算法及优化方法论，极大限制了其在研究者与从业者中的普及。
资源匮乏：相比 QML，QRL 缺乏专用 SDK、精选数据集与标准化基准，严重阻碍实验探索与社区发展。
硬件限制：QRL 算法的实用化部署往往依赖先进量子硬件；而当前技术在量子比特相干时间、错误率等方面仍存在显著瓶颈，制约了 QRL 的规模化实现。
小众现状：受上述因素影响，QRL 尚未获得广泛采纳，在吸引力上远不及神经网络、支持向量机等主流机器学习范式。

尽管 QRL 面临复杂性高、资源少等严峻挑战，它仍在可充分发挥量子优势的独特问题上展现出巨大潜力。随着量子硬件持续进步、配套资源日益丰富，QRL 有望为机器学习乃至更广泛领域开辟全新可能。然而，其广泛应用仍受若干紧迫挑战拖累。下文我们将重点阐述 QRL 当前的主要局限与开放性问题。

A. QRL 架构

QRL 的架构设计至关重要，它直接决定了模型在不同任务中的学习能力、泛化性能与实际表现。关键架构选择——如参数设定、激活函数类型与计算门配置——显著影响网络性能及其对特定应用的适用性。下文我们将讨论若干近期在神经网络架构上的进展，这些设计可被迁移至 QRL 框架中；其灵感多源自经典学习范式（参见表 V）。

a)科尔莫戈罗夫–阿诺德网络（Kolmogorov–Arnold Network, KAN）：KAN 的理论基础是科尔莫戈罗夫–阿诺德表示定理，该定理指出：任意多元连续函数均可表示为有限个一元连续函数与加法运算的复合［150］。在 KAN 中，神经元之间的每条连接均关联一个可学习的一元函数（常以样条函数参数化），使其能动态适应复杂数据模式。

KAN 在量子计算中的应用已在量子机器学习框架中得到成功验证，显著提升了量子态制备与变分量子线路（VQC）设计等任务的性能。例如，文献［151］表明：KAN 可设计出结构更紧凑的 VQC——其双量子比特门数量更少、线路深度更低，从而有效缓解当前 NISQ 设备面临的主要限制，如噪声敏感性与短相干时间。此外，文献［152］指出：KAN 的可学习激活函数与高效参数化机制，使其性能优于传统多层感知机（MLP），展现出更强的鲁棒性，并可扩展至更大规模的量子系统。

未来研究应将 KAN 拓展至多任务混合量子–经典学习的 QRL 场景，提升所学函数的可解释性，并借助专用硬件加速器降低执行耗时，从而进一步扩大其在实用量子计算中的影响力。

b)卷积可微逻辑门网络（Convolutional Differentiable Logic Gate Networks, CDLGNs）：CDLGNs 是一种新型机器学习架构，它将逻辑门运算的高效性与卷积神经网络的强表征能力相结合。通过采用 NAND、OR、XOR 等逻辑门的可微松弛形式（differentiable relaxations），CDLGNs 支持基于梯度的优化，从而能够直接学习面向特定任务的逻辑门配置。该方法使得所构建的模型可仅使用逻辑门操作进行推理——这类运算在本质上比传统神经网络计算更快、更节省硬件资源。

在近期一项研究中［153］，研究者仅使用 6100 万个逻辑门就在 CIFAR-10 数据集上实现了86.29%的准确率。这一性能不仅超越了此前的最先进模型，且门数量减少了29 倍，充分彰显了 CDLGNs 的高效性与可扩展性。

这为探索 CDLGNs 与量子启发式强化学习（QiRL）的融合提供了新机遇：通过其高效的推理能力，CDLGNs 有望实现快速决策与策略评估，显著降低计算开销；其固有的可解释性亦可为强化学习智能体的决策过程提供更深入的洞察，从而提升性能透明度与可控性。将 CDLGNs 整合进 RL 框架，有望在效率与可理解性两方面推动重大进展。

c)连续变量量子神经网络（Continuous-Variable Quantum Neural Networks, CV-QNNs）：CV-QNNs 是一类运行于连续变量量子计算框架下的量子神经网络。与传统基于量子比特（qubit）的系统不同，CV-QNNs 将信息编码在连续自由度上（如电磁场的振幅与相位），因而特别适合处理连续型数据。通过引入非高斯操作（non-Gaussian operations），CV-QNNs 可实现非线性激活函数，从而构建具备通用计算能力的量子模型［154］,［155］。

尽管其实现面临诸多挑战——例如需对连续量子态进行精密控制并维持相干性——CV-QNNs 仍具备显著优势：

天然适配连续数据处理；
便于为多种量子算法进行数据编码；
可借助高维量子纠缠构建强大的计算模型。

Strawberry Fields［156］与Piquasso［157］等框架为新型 QRL 架构的设计提供了关键支持：

Strawberry Fields 提供了构建、仿真与优化连续变量量子线路的全套工具；
Piquasso 则为建模与仿真连续变量量子系统提供了高度灵活的平台。借助这些工具，研究者可探索能充分发挥 CV-QNNs 独特能力的 QRL 架构，推动其在效率与可解释性方面的进一步突破。

d)张量网络（Tensor Networks）：张量网络是一类数学结构，它通过将高维张量分解为相互连接的低维张量，实现对复杂数据的高效表征与计算。该方法尤其擅长建模量子多体系统——能精准刻画其中的复杂关联与纠缠结构［158］。

在 QRL 背景下，张量网络为解决 QRL 算法固有的可扩展性挑战提供了极具前景的途径。由于量子态空间呈指数级增长，加之量子硬件上的执行时间随规模急剧上升（如近期研究［159］所示），QRL 的规模化面临严峻计算压力。而利用张量网络，可对这些庞大的态空间进行高效近似与管理，从而助力设计出更具可扩展性与实效性的 QRL 架构［160］。

文献［161］进一步通过一种混合张量网络–变分量子线路架构验证了这一思路：该架构将矩阵乘积态（Matrix Product States, MPS）与变分量子线路相结合，用于强化学习任务。此外，强化学习与张量网络的融合已被证明可显著提升量子学习模型的可扩展性与性能。近期工作还探索了将 RL 与张量网络结合以处理动力学大偏差（dynamical large deviations）问题，进一步展现了张量网络在提升计算效率方面的通用性［162］。总体而言，张量网络为构建实用、高效的 QRL 框架开辟了一条可行路径，直面执行时间与资源消耗这一关键瓶颈。

e)量子训练（Quantum-Train, QT）：QT 是一种将量子计算与经典机器学习算法相融合的框架——其在训练阶段利用量子神经网络（QNN）生成或优化经典神经网络（NN）的参数［163］。该方法有效应对了量子机器学习中的若干核心挑战，例如量子硬件访问受限、数据编码过程中的信息损失等。更重要的是，QT 显著降低了训练经典 NN 所需的参数量。

这对 QRL 尤具潜力：在该领域，模型效率与可扩展性至关重要。类似思路已在文献中初步探索——例如文献［164］中仅在训练阶段使用 QNN 生成经典策略网络的参数；该工作后续被拓展至基于 QT 的分布式多智能体强化学习：研究者利用多个量子处理单元（QPUs）实现并行训练与参数同步［165］。这些成果共同指明了一条极具前景的 QRL 未来研究方向：即通过量子参数生成构建兼具可扩展性、高效性与硬件可行性的强化学习系统。

f)自适应非局域可观测量（Adaptive Non-Local Observables, ANO）：近期 QRL 架构设计的一个新方向聚焦于增强变分量子线路的测量层，而非一味增加线路深度。文献［166］提出将 ANO 引入量子强化学习，以克服局域测量（local measurements）的表达能力局限。ANO 同时优化线路参数与多量子比特联合测量（multi-qubit measurements），在不增加线路深度的前提下显著拓展了量子智能体的函数表达空间。实验表明，当集成至 DQN 与 A3C 框架时，采用 ANO 的 VQC 智能体（ANO-VQC）相比传统 VQC 实现了更快收敛与更高累积奖励。未来研究可进一步探索将自适应可观测量与其他架构范式（如 KAN、CV-QNN 或张量网络）相结合的可能性。

B. 大语言模型与 QRL

大语言模型（Large Language Models, LLMs）已成为代码生成的关键工具，显著提升了开发者生产力，并降低了新手开发者的学习门槛［167］–［169］。尽管 StarCoder、Code Llama 和 DeepSeek Coder 等通用模型在传统编程基准测试中表现优异，但在专业化量子领域仍面临显著局限——该领域要求深厚且精细的领域知识［170］–［172］。

主流量子软件开发工具包（如 Qiskit、Cirq、PennyLane 和 OpenQASM）深度植根于量子力学原理，是应对量子线路复杂性并支撑先进量子算法开发不可或缺的工具［46］–［48］。除通用 SDK 外，面向特定应用的专业工具也在各自领域发挥关键作用：

量子传感：如 OQuPy［173］；
量子控制：如 QuTiP［174］；
量子通信：如 NetSquid［175］。

为弥合通用 LLM 与领域专业化需求之间的鸿沟，量子专用代码辅助工具应运而生。例如：

Qiskit凭借其模块化设计，支持从高层算法设计到低层量子门操作的多级抽象编程，并具备线路优化与硬件重定向能力，适配多种量子架构；其配套的 Qiskit Code Assistant 可为量子编程经验有限的用户提供定制化代码片段［176］；
KetGPT通过向训练数据集中注入模拟真实算法的合成量子线路，增强 LLM 的量子领域能力，显著提升其生成量子指令的准确性［177］。

为评估面向量子编程的 LLM，研究者已构建若干专用基准：

Qiskit HumanEval包含 100 余项任务，涵盖量子线路生成、态制备与算法实现，对功能正确性与可执行代码生成设定了高标准［178］；
QASMBench聚焦低层 OpenQASM 评估，关注门保真度、线路深度与跨平台（如 IBMQ、Rigetti）噪声鲁棒性等指标［179］；
MQT Bench横跨从算法设计到硬件部署的多级抽象，评估不同量子处理器上的双量子比特门数量与线路深度等性能［180］；
VHDL-EvalL2CEval则将评估延伸至硬件描述语言与多领域代码生成等专业化场景［181］,［182］。

受上述进展启发，QRL 智能体的开发正成为自然延伸方向。QRL 智能体旨在融合量子力学原理与强化学习机制，构建可在量子环境中自主导航的代理系统。然而，设计高效的 QRL 智能体需集成量子计算与强化学习两方面的工具——其必须支持：

量子态的高效建模；
量子门的施加与线路优化；
与量子环境的交互以获取反馈并动态调整策略。

未来可借鉴 Qiskit HumanEval 或 QASMBench 等基准，构建面向 QRL 的评估体系，用于衡量智能体在量子态制备、门优化以及强化学习特有目标（如策略收敛性、样本效率）等方面的表现。依托这些基础，QRL 智能体有望在量子机器学习中开辟新前沿，为量子算法提供可扩展、高效率的解决方案。

C. 以量子为中心的超级计算

以量子为中心的超级计算（Quantum-Centric Supercomputing）指一种混合计算范式：量子处理器与经典高性能计算（HPC）系统无缝集成，在统一架构中利用量子能力加速特定任务。QRL 与量子启发式强化学习在实现这一范式中潜力巨大——它们能有效桥接经典与量子计算范式，协同优化硬件利用与算法设计［183］。

典型案例如文献［184］所提出的系统：分布式量子卷积网络运行于独立量子处理器上，其输出由经典组件在双重深度 Q 网络（Double Deep Q-Network）框架下聚合。该设计展示了可扩展的量子工作负载分布能力，以及对高维数据的高效处理能力。

此类框架可通过应对以下关键挑战，在构建可扩展、高效率量子系统中发挥核心作用：

混合系统优化：QRL 将经典强化学习与量子操作融合，动态优化量子–经典混合工作负载，从而改善资源分配、缓解瓶颈，并加速容错量子计算任务；
量子工作负载分布：量子启发式强化学习可高效协调量子与经典协处理器（如 QPU 与 GPU）间的工作负载分配；自适应的“线路编织”（circuit knitting）方法进一步强化了该能力，使 QRL 成为量子–经典系统协同计算的关键协调机制；
增强训练与校准：QRL 智能体可自动化地重新校准量子设备，最小化相干性损失，抑制误差累积——这对维持大规模量子系统的性能至关重要；
算法演进：量子启发式强化学习推动面向 NISQ 及更先进设备的启发式算法发展：这些算法既能应对当前系统的噪声与量子比特数量限制，又为向“实用级量子超级计算机”（utility-scale quantum supercomputers）过渡做好准备；
可扩展性与容错性：QRL 有助于设计容错逻辑量子比特操作策略，并优化量子纠错码的使用效率，大幅降低扩展至百万级物理量子比特（实用级超算所需规模）的资源开销。

X. 结论

本综述强调了量子强化学习（QRL）在推动量子计算发展及其与经典系统融合方面的巨大潜力。通过充分利用量子力学的核心原理——如叠加与纠缠——QRL 框架能够在复杂决策任务中实现更高效的探索、策略学习与优化。其中，变分量子线路（VQC）的应用有效应对了 NISQ 设备中噪声干扰与相干时间有限等现实挑战，使 QRL 成为实现近期量子优势（near-term quantum advantage）的可行路径。

近期进展充分展现了 QRL 的广泛适用性：其已在量子架构搜索、量子传感、优化问题以及经典场景中的自主系统等多个领域取得突破性成果。若干关键创新——例如基于 KAN 架构的可学习激活函数、自适应...

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.