网易首页 > 网易号 > 正文 申请入驻

神经网络增强的MCTS优化量子退火,腾讯量子研究成果登Nature子刊

0
分享至

近日,腾讯量子实验室在《Nature Machine Intelligence》上发表了 AI + 量子的最新研究成果《Optimizing quantum annealing schedules with Monte Carlo tree search enhanced with neural networks》,提出一种蒙特卡洛树搜索(MCTS)算法及其由神经网络增强的增强版本——将其命名为 QuantumZero (QZero)——在混合量子-经典框架中自动设计退火 schedule。

论文链接:https://www.nature.com/articles/s42256-022-00446-y

对于本研究中考虑的 3-SAT 示例,即使在退火时间很短的情况下,MCTS 和 QZero 算法在发现有效退火计划方面也表现出色。此外,神经网络的灵活性使我们能够应用迁移学习技术来提高 QZero 的性能。在基准研究中证明 MCTS 和 QZero 在设计退火计划时比其他强化学习算法更有效。

量子技术的发展及挑战

在过去的 20 年里,量子技术一直在以令人难以置信的速度发展。显著的成就包括使用量子退火器实现绝热量子算法。与工业相关的应用,例如各种约束优化问题、整数分解、量子模拟和量子机器学习,都已通过实验证明。

尽管取得了这些初步成功,但要使用量子退火器进行大规模计算,仍有许多工作要做。特别是,量子位之间更好的连通性、误差和噪声抑制、工程非随机哈密顿量以及退火时间表的优化是绝热量子计算 (AQC) 面临的一些紧迫挑战。

量子退火是一种在现实环境中近似实现绝热量子计算模型的实用方法。绝热算法的目标是在退火路径的末端准备问题编码哈密顿量的基态。这通常是通过缓慢驱动量子系统的动态演化以增强绝热性来实现的。适当优化的退火 schedule 通常会大大加快计算过程。

受深度强化学习(例如 DeepMind 的 AlphaZero)成功的启发,通过提出使用蒙特卡洛树搜索 (MCTS)的退火 schedule 的自动化设计来解决这些挑战之一,其增强版本——QuantumZero(QZero)结合了神经网络以进一步提高性能。

量子退火 schedule 作为最优控制问题

研究人员首先介绍了 AQC 模型的基本背景,并阐明了如何在 RL 框架下自动化退火时间的设计。接下来,提出了一个受约束的优化问题,3-SAT,用于在这项工作中对算法进行基准测试。

量子退火器通常用于解决 AQC 框架下的问题,该框架将问题的解决方案与问题编码的哈密顿量 Hfinal 的基态联系起来。准备任意哈密顿量的基态不是一项简单的任务。

在这项工作中,研究人员提出了一个混合量子经典框架,利用强化学习(部分受到 MCTS 和 AlphaZero 的启发)来设计最优 schedule s(t)。

图 1:设计退火计划的混合量子-经典框架。(来源:论文)

简而言之,研究人员使用候选 schedule s(t) 运行量子退火实验,并将结果反馈给基于 MCTS 的代理,以迭代方式调整和识别更好的退火 schedule。

在这项工作中,使用 3-SAT 问题来对算法进行基准测试。这是一个非确定性多项式问题的典型例子。

实验结果

接下来,研究人员描述了几个数值实验来说明所提方法的优势。

MCTS 设计的退火 schedule

以 3-SAT 为例,解释了基于 MCTS 的退火 schedule 自动化设计。蒙特卡罗树搜索对于解决高维优化问题非常有效。

图 2:MCTS 的设置。(来源:论文)

在这项工作中,主要关注频域中 s(t) 的设计。

根据以上等式,目标是选择一个序列 {x1, x2, x3 ... xM}(其中 xi 是控制参数)以最小化在退火路径末端相对于 Hfinal 的能量。

在图 3a 中,展示了在不同 T 下求解相同结构(n=11 和 m=33)的 3-SAT 实例的示例的成功概率。

图 3:解决几个具有不同结构的 3-SAT 实例的成功概率。(来源:论文)

SD(随机下降) 单次运行需要对量子退火器进行大约 100 次查询以进行能量反馈,而 MCTS 的一集大约需要 50 次这样的查询。因此,为了公平比较对量子退火器的查询,认为 MCTS 集的数量是 SD 运行的两倍(即 40×100=80×50)。根据图 3a,SD 的那些大误差条表示一个复杂的优化环境,包括多个局部最小值,其中 SD 很容易陷入其中。另一方面,对量子退火器使用大致相同数量的查询,MCTS 找到的解决方案获得更高的成功概率。

在图 3b 中,展示了在相对较短的退火时间内解决几个具有不同结构的 3-SAT 实例的成功概率。如比较所示,当优化景观具有许多局部最小值时,SD 等局部方法很可能陷入困境,而 MCTS 等全局方法则显示出弹性,并有更好的机会摆脱这些陷阱。随着问题规模的扩大,优化环境更有可能变得更加坚固,从而扩大了 MCTS 和 SD 之间的性能。

退火 schedules 的转移

受 NN 灵活性的启发,研究人员通过合并 NN 进一步修改 MCTS,就像在 DeepMind 的 AlphaZero 中所做的那样。为清楚起见,将调整后的方法命名为 QuantumZero (QZero)。

在这里,研究了在三种不同场景下将从一组训练实例中学到的退火 schedule 转移到一组测试实例中的有效性。

在图 4a-d 中,对具有不同退火持续时间 T = 40, 60, 80, 100 的 3-SAT 实例的最优退火计划的可迁移性进行了数值研究。

图 4:转移退火 schedules 的图示。(来源:论文)

预训练的 QZero(黄色)在所有退火持续时间内给出了最好的结果。

图 5:SD 或 QZero 退火 schedule 后基态能量与时间演化量子态的预期能量之间的差异。(来源:论文)

分别在图 5a、b 中仔细研究了 SD 或 QZero 退火 schedule 后基态能量与时间演化量子态的预期能量之间的差异。能量差 ΔE 反映了沿不同路径违反绝热性的强度。如图所示,预训练的 QZero 不仅能够找到最佳解决方案,而且能够比 SD 更好地执行绝热性。

比较 QZero 和其他 RL 方法的学习效率

最后,研究人员将 QZero 的学习效率与其他流行的 RL 方法进行了比较。与 QZero 类似,这些 RL 方法能够找到全局最优值;然而,众所周知,训练典型的 RL 方法非常耗费资源。在这里,QZero 使用更少的计算资源实现了相同水平的性能。

评估基于每种方法所需的对量子退火器的查询数量。在这个基准测试中,研究人员比较了 MCTS 算法的两种变体,即带预训练的 QZero (QZero-pre) 和不带预训练的 QZero (QZero-nopre) 与其他三个 RL 模型(DQN、A2C 和 PPO)。

图 6:比较 RL 算法的学习效率。(来源:论文)

结果如图 6 所示,QZero-nopre 比所有其他 RL 方法(DQN、PPO、A2C)的执行效率更高,因为 MCTS 执行高效搜索。QZero-pre 进一步提高了学习效率。

研究人员表示:「在本工作中,我们提出了数据驱动的方法来设计退火 schedule,以解决量子退火中的组合问题。我们的工作表明,MCTS 和 QZero 是用于自动化量子退火 schedule 设计的极具竞争力的方法。」

项目地址:https://github.com/yutuer21/quantumzero

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
无语了!王俊杰19分仅出手2次得3分2篮板,尽快转校吧!

无语了!王俊杰19分仅出手2次得3分2篮板,尽快转校吧!

篮球资讯达人
2026-03-01 15:08:36
总台现场直击丨迪拜机场酒店受波及 阿联酋拦截数百次导弹和无人机袭击

总台现场直击丨迪拜机场酒店受波及 阿联酋拦截数百次导弹和无人机袭击

国际在线
2026-03-01 12:04:25
活久见!网传上海一招聘保安广告,应聘不能有信贷逾期,引发热议

活久见!网传上海一招聘保安广告,应聘不能有信贷逾期,引发热议

火山詩话
2026-03-01 13:49:50
美封杀AI企业后用其工具袭击伊朗

美封杀AI企业后用其工具袭击伊朗

界面新闻
2026-03-01 16:02:17
伊朗革命卫队发布血性檄文:哈梅内伊殉难是胜利象征,复仇之手已张开

伊朗革命卫队发布血性檄文:哈梅内伊殉难是胜利象征,复仇之手已张开

健身狂人
2026-03-01 10:58:21
17天14跌!开普云暴跌54%,重组告吹股民深套

17天14跌!开普云暴跌54%,重组告吹股民深套

财经智多星
2026-03-01 11:15:50
哈梅内伊遇袭身亡,全球30%海运命悬一线,油价、黄金如何走?

哈梅内伊遇袭身亡,全球30%海运命悬一线,油价、黄金如何走?

雪球
2026-03-01 13:37:51
五角大楼怒了!F-35首席教官去中国打工,难怪我军总能逮个正着

五角大楼怒了!F-35首席教官去中国打工,难怪我军总能逮个正着

书纪文谭
2026-02-28 16:48:05
刚刚 | 退钱了!有人退了3万多!

刚刚 | 退钱了!有人退了3万多!

天津广播
2026-03-01 08:20:12
三节落后6分,中国男篮要悬了!内外线被打爆,郭士强用人被质疑

三节落后6分,中国男篮要悬了!内外线被打爆,郭士强用人被质疑

侃球熊弟
2026-03-01 17:19:54
中华人民共和国正式向全世界宣告两件大事:

中华人民共和国正式向全世界宣告两件大事:

百态人间
2026-02-28 15:25:01
推翻阿萨德一年后,叙利亚人后悔了吗?看看百年前的新疆就懂了

推翻阿萨德一年后,叙利亚人后悔了吗?看看百年前的新疆就懂了

知识TNT
2026-02-28 12:25:03
她在非诚勿扰上站五年,爆灯无数却不牵手,最终被主持人赶下台

她在非诚勿扰上站五年,爆灯无数却不牵手,最终被主持人赶下台

琴声飞扬
2026-02-22 15:21:45
国际快评:美国为何执意将战争准星瞄准伊朗?

国际快评:美国为何执意将战争准星瞄准伊朗?

中国青年报
2026-02-28 17:39:07
专家解读伊朗遭袭后的反应:核心目的是对内有交代对外立姿态

专家解读伊朗遭袭后的反应:核心目的是对内有交代对外立姿态

南方都市报
2026-02-28 21:04:55
耗资12亿建世界最高佛,如今水喝不起拜不起

耗资12亿建世界最高佛,如今水喝不起拜不起

时光流转追梦人
2026-02-20 13:09:13
苏翊鸣谷爱凌参加表彰大会彼此不熟,都挺疲惫,快睡着了眼皮耷拉

苏翊鸣谷爱凌参加表彰大会彼此不熟,都挺疲惫,快睡着了眼皮耷拉

乐悠悠娱乐
2026-03-01 10:23:24
男子爬到何仙姑雕像头顶拍照,山东蓬莱阁景区回应:“八仙过海”石雕属于公共区域无人值守,后续会加强巡逻

男子爬到何仙姑雕像头顶拍照,山东蓬莱阁景区回应:“八仙过海”石雕属于公共区域无人值守,后续会加强巡逻

三湘都市报
2026-02-28 13:37:39
“手机将全面涨价”,冲上热搜

“手机将全面涨价”,冲上热搜

南方都市报
2026-02-27 14:31:12
英媒爆出猛料:中国或违反联合国规定,运送超高音速导弹给伊朗!

英媒爆出猛料:中国或违反联合国规定,运送超高音速导弹给伊朗!

快看张同学
2026-02-26 14:22:43
2026-03-01 17:36:49
ScienceAI incentive-icons
ScienceAI
关注人工智能与其他前沿技术
1240文章数 224关注度
往期回顾 全部

科技要闻

小米超跑概念车全球首秀!杀入顶豪俱乐部

头条要闻

哈梅内伊"回归天国" 美以如何确认其行踪引发内鬼猜测

头条要闻

哈梅内伊"回归天国" 美以如何确认其行踪引发内鬼猜测

体育要闻

火箭输给热火:乌度卡又输斯波教练

娱乐要闻

《江山为聘》:吴谨言陈哲远燃炸朝堂

财经要闻

中东局势升级 如何影响A股、黄金和原油

汽车要闻

理想汽车2月交付26421辆 历史累计交付超159万辆

态度原创

数码
家居
艺术
本地
公开课

数码要闻

DDR4价格已连续11个月上涨

家居要闻

素色肌理 品意式格调

艺术要闻

2025第四届“精神·图式”——中国写意油画双年展 | 入选油画选刊

本地新闻

津南好·四时总相宜

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版