清华团推出强化学习SOTA新算法，确保实现AI可靠决策|深度思考模型

清华团推出强化学习SOTA新算法，确保实现AI可靠决策

2025-07-09 15:30:40　来源: DeepTech深科技

北京举报

分享至

一项由高校团队研发的新型强化学习算法，从理论上解决了现有算法价值估计不准、对奖励尺度敏感等问题。该算法通过提供稳定可靠的决策支持，为自动驾驶的安全运行提供了坚实的技术保障。

近期，清华大学李克强院士、李升波教授团队提出了一种改进的强化学习算法——DSAC-T（Distributional Soft Actor-Critic with Three Refinements）。该研究基于团队此前提出的第一代算法 DSAC 的框架，通过引入期望值替代、双值分布学习和基于方差的梯度调整三项关键技术，显著提升了算法的稳定性和性能表现。

其创新之处在于采用了分布式的策略评价函数，而非传统算法中单一的标量评估。这种分布式评价不仅考虑当前行为的即时得分，还建模了未来所有可能得分的概率分布，从而为策略优化提供了更丰富的信息维度。经多项基准测试验证，DSAC-T 算法在性能上超越当前主流无模型强化学习算法，达到 SOTA 水平。

需要了解的是，该团队的技术输出并非单一算法，而是构建了完整的训练工具链体系。“通过为企业提供整套训练工具解决方案，不仅能支持 demo 验证，更能帮助完成特定场景下的自动驾驶策略开发。”该论文第一作者、北京科技大学副教授段京良对 DeepTech 表示。

这套技术方案具有广泛的应用前景，可支持多个领域的智能系统模型训练，包括端到端自动驾驶、具身智能机器人以及工程机械无人作业等场景。目前，研究团队已与滴滴、广汽、东风、一汽、宝武等多家大型企业建立了合作关系。特别是在汽车产业智能化转型的背景下，该技术有望推动自动驾驶技术向更高水平发展。

此外，该算法还有望应用于更广泛的领域：在外卖行业，可通过派单优化算法为订单匹配最佳骑手；在工业领域，可优化工厂和仓储超市的制冷系统分配，在满足各区域温度需求的同时实现节能降耗；在交通领域，还能应用于混合动力汽车的能量管理系统优化。

目前，研究团队已将 DSAC 系列两代算法开源，并集成在其自主开发的工具链平台 GOPS 中，方便学术界和工业界进行算法训练、性能验证及快速部署。

近日，相关论文以《融合三项改进的分布式 Soft Actor-Critic 算法》（Distributional Soft Actor-Critic with Three Refinements）为题发表在IEEE Transactions on Pattern Analysis and Machine Intelligence[1]。北京科技大学段京良副教授是第一作者，清华大学博士生王文轩为共同一作，清华大学李升波教授担任通讯作者。

在多项任务性能超主流算法达 SOTA 水平

强化学习（RL，Reinforcement Learning）作为人工智能领域的重要分支，因其在复杂决策和控制任务中的卓越表现而备受研究者关注。这种算法模拟了人类通过试错进行学习的过程，本质上是一种广泛适用于决策和控制任务的通用框架。其核心机制是通过精心设计的奖励函数引导智能体（如自动驾驶系统或棋类 AI）自主探索环境，并根据奖励反馈优化其行为策略。这一过程的关键在于，构建能够准确评估行为价值的评价体系。

然而，传统强化学习算法普遍面临价值估计不准确的瓶颈问题，特别是动作价值（Q 值）的高估现象。这往往导致最终学习到的策略性能欠佳。不同强化学习算法效果的差异，很大程度上取决于其评价函数对行为价值判断的准确性。

尽管团队此前开发的第一代算法 DSAC 已通过建模连续高斯分布改进了价值估计，缓解了过估计问题，但由于分布函数本身的不确定性，其更新过程极易失稳。

此外，DSAC 算法存在明显的参数敏感性问题，需要精细调参才能达到理想效果。段京良指出，成熟的通用算法应具备跨任务的稳定性，并尽可能减少对参数调整的依赖。

为了解决上述问题，研究团队在第二代算法中嵌入了三项核心技术：期望值替代（EVS，Expected Value Substituting）、双值分布学习（TVDL，Twin Value Distribution Learning）和基于方差的梯度调整（VCGA，Variance-Based Critic Gradient Adjustment）。

首先，EVS 针对平稳性问题，在网络更新的目标函数中，找到可以被无损替换的随机项，然后用非随机量进行替代，通过从源头减少不确定性使稳定性提高，就像“用固定的靶子替代移动的靶标”。

其次，TVDL 借鉴强化学习中的双 Q 学习（Double Q-learning）的思路，将单一值分布学习扩展为学习两个独立对称的值分布，相当于设置两位“裁判”各自打分后交叉验证，从而为策略优化提供一个更稳定的优化目标。

段京良解释说道：“在强化学习中，单一 Q 函数可能导致优化偏差，因此引入双 Q 学习机制，通过两个 Q 函数交叉验证来提升策略优化的稳定性。我们进一步扩展该思路，采用双分布学习使优化目标更可靠，从而提高系统整体性能。”

最后，VCGA 针对参数敏感的问题，建立了依基于方差的梯度调节机制，根据对当前动作价值函数估计的不确定程度，即值函数的方差，动态调整值分布函数梯度的大小。该机制有效提升了更新梯度的稳定性，大幅降低了算法对超参数调整的依赖。

这三项技术的协同作用使 DSAC-T 能够学习到高度准确的策略评价指标，进而训练出更优越的控制策略。该算法的特点是实现了“一对多”的通用性能力：同一组超参数可以在 12 类不同任务（包括基于图像输入的复杂任务）中都保持良好性能，显著降低了实际应用中的部署成本。

为了验证 DSAC-T 的性能，研究团队在多个基准任务上进行了测试，包括 Humanoid、Ant、HalfCheetah 等复杂控制任务。值得注意的是，DSAC-T 的性能优势随任务复杂度提升而愈加明显：在简单任务（如六维状态倒立摆）中，各算法表现近似；但在高维复杂任务（如 376 维状态×17 维动作）中，其性能优势显著。

实验结果显示，DSAC-T 在所有任务中均优于或至少与主流强化学习算法持平，包括 SAC、TD3、DDPG、TRPO 和 PPO。值得关注的是，在 Humanoid-v3 任务中，DSAC-T 的性能比 OpenAI 的 PPO 算法和 DeepMind 的 DDPG 算法高出 50% 以上。此外，DSAC-T 还表现出更高的学习稳定性和对奖励尺度的鲁棒性。

更重要的是，团队在轮式机器人的实际控制任务（包括路径跟踪和动态避障）中验证了算法的实用性，证明其能够有效处理现实环境中的复杂决策问题，展现出从仿真到实际应用的强大迁移能力。

从仿真到实车，为自动驾驶的安全行驶提供技术保障

将强化学习算法从理论研究转化为实际应用，其难度超过算法开发本身。作为全球率先实现强化学习实车应用的团队之一，他们始终坚持“工程化思维”的研究导向。这不仅依赖于单个算法的突破，更需要一套包含软件架构、工具链开发、工程适配以及针对具体任务的奖励函数设计等在内的完整技术体系作为支撑。

据介绍，该团队的核心成员多数是工科背景，这使其研究能始终聚焦于实际应用场景。基于深厚的工程实践积累，团队对车辆和机器人控制领域的需求具有精准把握，能够有效识别技术落地的关键因素。

两代算法共经历 5 年多的探索与迭代。第一代算法 DSAC 的研究工作始于 2018 年底，当时段京良正在清华大学攻读博士学位。2019 年，他与团队成功开发出 DSAC，相关论文于 2021 年正式发表 [2]。在此期间，段京良赴新加坡国立大学从事博士后研究。

2022 年回国加入北京科技大学后，段京良与其研究团队针对第一代算法 DSAC 存在的稳定性不足、调参依赖性强等局限性，进一步开发出更具通用性的第二代算法 DSAC-T。该算法于 2023 年底完成研发，重点提升了训练稳定性和参数鲁棒性，致力于构建适用于自动驾驶、机器人等控制领域的强化学习工具链。

然而，强化学习在实际应用中面临的一个关键挑战在于奖励函数的设计。以围棋为例，其奖励函数相对简单明确，胜负结果可以直接作为奖励信号。但在自动驾驶等复杂场景中，车辆需要处理各种交通博弈，包括与其他道路使用者的交互、交通规则遵守、驾驶效率、乘坐舒适度以及潜在的动力学限制等多重因素。

如何权衡这些复杂因素，设计出合理的奖励函数以适应现实场景，是一个极具挑战性的问题。研究团队凭借丰富的项目经验，逐步攻克了这些难题。段京良表示：“将强化学习算法与具体任务相结合，关键在于针对该任务设计合理的奖励函数。这需要研究人员既精通算法原理，又深入理解被控对象和任务特性，才能实现二者的有机结合，设计出最符合任务需求的奖励函数。”

在工程化实践方面，团队也积累了丰富的经验。自 2020 年起，段京良的博士课题就专注于实现强化学习在实车上的应用。虽然初期场景相对简单，但通过持续努力，团队成功将技术推进到开放道路场景，并在此过程中积累了宝贵的研究经验。

2024 年，他们在实车应用方面取得了突破性成果。特别值得一提的是，研究团队通过自主研发的强化学习算法实现了车辆在各种道路条件下的安全行驶，不仅覆盖了多种复杂场景，还适配了不同车型平台。

除自动驾驶外，团队还正在积极推进强化学习端到端控制技术在多个工业场景的产业化应用，包含工程机械自主作业、机器人巡检作业等任务。从系统平稳性、运行效率到控制精度，团队建立了一套完整的量化评估体系，能够与熟练的人类操作员进行客观比较。

在未来的研究中，该团队计划持续优化和迭代 DSAC-T 算法，进一步提升其性能表现。目前，强化学习领域尚无算法能够学习到近乎全局最优的策略，因此在算法设计与优化方面仍存在较大的提升空间。更重要的是，面向实际应用场景，安全强化学习（Safe RL）将成为其重点研究方向之一。同时，他们还将持续探索多模态控制技术，以提升算法在复杂任务中的表现。

参考资料：

1.Jingliang Duan, Wenxuan Wang, Liming Xiao, Jiaxin Gao, Shengbo Eben Li, Chang Liu, Ya-Qin Zhang, Bo Cheng, Keqiang Li, Distributional Soft Actor-Critic with Three Refinements.IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 47, no. 5, pp. 3935-3946, 2025. https://ieeexplore.ieee.org/document/10858686.

2.Jingliang Duan, Yang Guan, Shengbo Eben Li, Yangang Ren, Qi Sun, Bo Cheng, Distributional soft actor-critic: off-policy reinforcement learning for addressing value estimation errors.IEEE Transactions on Neural Networks and Learning Systems, vol. 33, no. 11, pp. 6584-6598, 2022. https://ieeexplore.ieee.org/document/9448360.

3.DSAC 开源链接：https://github.com/Jingliang-Duan/DSAC-v2

4.GOPS 开源链接：https://gops.readthedocs.io/

运营/排版：何晨龙

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.