网易首页 > 网易号 > 正文 申请入驻

“神经-符号”融合规划器性能显著超越o1:借鉴人类运动学习机制

0
分享至

中国科学院磐石研发团队 投稿
量子位 | 公众号 QbitAI

科研er看过来!还在反复尝试材料组合方案,耗时又耗力?

新型“神经-符号”融合规划器直接帮你一键锁定高效又精准的科研智能规划。

不同于当前效率低下、盲目性高的传统智能规划方法,中国科学院磐石研发团队此次提出的混合规划器,同时融合了神经规划系统和符号规划系统的优势。



借鉴人类的闭环反馈机制,构建双向规划机制,在表达能力、适应能力、泛化能力以及可解释性上都实现了显著提升。

还能只在正向规划器需要时,自动激活反馈接收,在规划覆盖率和规划效率上均显著优于OpenAI o1

目前该智能规划器已加入“磐石·科学基础大模型”,该项目已面向科学领域集成了一系列专用模型。

借鉴人类运动学习的“反馈闭环理念”

基于Knowledge of Result(KR)的闭环系统是人类运动学习的关键部分,可以帮助学习者纠正错误,向着目标方向实现有效学习。

在运动学习中KR是执行运动后的增强信息,表明既定目标是否成功,而闭环系统是以反馈、错误检测和错误纠正为核心的过程。

规划任务中的问题、规划器和动作序列可近似对应于人类运动学习中的试验、学习者和行动序列,规划任务与运动学习有较强的相似性。


反馈闭环与对应的规划问题

因此,“神经-符号”融合规划器通过借鉴人类运动学习中的反馈闭环理念,构建了一种闭环反馈的双向规划机制——KRCL(Knowledge-of-Results based Closed-Loop),正向神经规划器生成问题的动作序列与反向KR反馈机制构成动态的错误检测-纠正闭环。

通过有效利用信息的双向传递和反馈来评估和调整动作,在规划中研究以KR信息为中心的闭环规划结构,实现准确的反馈以加强错误检测和错误纠正,持续评估和调整规划器的动作,从而促进规划器的有效学习。

神经规划器与符号规划识别器融合

“磐石”研发团队构建了一种神经规划器与符号规划识别器的新型融合模式,实现了神经系统与符号系统之间的双向连接,通过利用两种范式的互补优势,在规划中同时实现的有效学习和推理。

其中,正向的神经规划器反向的符号规划识别器构成KR闭环结构。


“神经-符号”融合新型规划器架构

在正方向,神经规划器利用其强大的表示和学习能力生成规划问题的动作序列,可提高规划效率和灵活性。

在反方向,动作序列则被输入到符号规划识别器中,推理出最可能的规划目标。

符号规划识别器具备准确、可靠和可解释性等优势,可帮助神经网络训练、学习和推理,进而提高模型的可解释性。

实现正反向闭环的KR增强信息则利用文本相似度方法来量化,通过比较推理目标和真实目标来计算它们的相似度。

KR强信息赋予规划器思考能力并对结果进行校正。闭环反馈过程兼顾有效学习与推理能力,促进规划器纠正错误并能够更精准地指导规划器寻找正确的解决方案。

只在“需要”的时候接收反馈

人类运动学习中,传统的固定KR机制由指导者控制KR信息,限制了学习者的学习动机和获取的反馈信息。

为了解决该问题,提出了自我控制机制,允许学习者决定何时获得KR,这种方式不仅可以增强学习动机,还可以增强信息处理能力,特别是可以提高闭环系统的错误检测和错误纠正能力。


面向规划问题的自我控制机制

此外,过多的KR增强反馈会使正向规划器依赖于KR,导致短期表现提升,但会影响模型的长远表现和迁移能力。

因此,“磐石”研发团队提出了面向规划问题的自我控制机制,从规划问题的难度和模型表现两方面展开研究。

一方面,评估规划问题的难度,基于规划问题的对象、状态、动作三个重要元素来计算每个问题的难度,当难度超过预定义的阈值时激活反向规划识别器。

另一方面,当正向规划器表现不佳时,反向规划识别器也会被触发。

自我控制机制使得反向规划识别器只在正向规划器“需要”的时候被激活,以优化正向规划器接收反馈的频率,减少规划器对反馈的依赖,进而提高模型的自主性,另外也为规划器提供了更高的学习效率。

它在适当时机选择性地引入KR反馈,避免了固定KR策略中的反馈冗余问题,从而在规划器的学习过程中实现了更快的收敛和更高的覆盖率。

规划覆盖率和规划效率显著领先

研发团队在国际IPC(International Planning Competition)竞赛的8个代表性规划任务上系统性地评估了KRCL的性能。


8个代表性规划任务上的系统评估

结果显示KRCL的平均覆盖率显著优于其他对比规划器,证明了所提出的基于神经-符号融合的双向规划器可以指导规划器寻找正确的解决方案,精准有效地解决规划任务。

此外,团队还在PlanBench(用于评估大语言模型规划性能的基准数据集)上对KRCL与大型语言模型OpenAI o1在规划任务中的性能进行了对比。


PlanBench上的性能对比

实验结果表明, KRCL在规划覆盖率和规划效率方面均显著优于OpenAI o1,进一步验证了该方法在规划任务中的优势。

KRCL通过神经和符号系统优势互补,能够有效提升规划性能,并利用其强大的闭环反馈机制、精准的推理校正能力以及高效的自主规划特性,可为各类科学研究任务提供更可靠、更智能的规划工具。

论文链接:
https://www.sciencedirect.com/science/article/abs/pii/S095070512501086X?via%3Dihub

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
确认了!正式退出NBA!再见首轮19号秀大中锋

确认了!正式退出NBA!再见首轮19号秀大中锋

篮球实战宝典
2025-09-15 23:59:00
罗永浩让西贝的军师华与华私下道歉,华杉言论被翻出,遭大量惨骂

罗永浩让西贝的军师华与华私下道歉,华杉言论被翻出,遭大量惨骂

星河也灿烂
2025-09-15 11:56:11
中美首轮会谈结束,美国要的,中国给不了;中国要的,美国不想给

中美首轮会谈结束,美国要的,中国给不了;中国要的,美国不想给

吃货的分享
2025-09-15 13:05:08
于朦胧案再曝猛料:17人聚会、3倍致死酒精,内娱黑暗何时休?

于朦胧案再曝猛料:17人聚会、3倍致死酒精,内娱黑暗何时休?

乡野小珥
2025-09-15 01:19:12
罗永浩再次放西贝一马!贾国龙这波会识趣吗?

罗永浩再次放西贝一马!贾国龙这波会识趣吗?

雷科技
2025-09-15 20:45:51
清华博士庞众望拒绝2500万年薪的那一刻,顶尖的科技公司都沉默了

清华博士庞众望拒绝2500万年薪的那一刻,顶尖的科技公司都沉默了

玉辞心
2025-09-15 06:18:55
张琳芃武磊更衣室激励队友:每个人都要拼,冠军不能光靠嘴说

张琳芃武磊更衣室激励队友:每个人都要拼,冠军不能光靠嘴说

雷速体育
2025-09-15 12:53:16
故事:2万战败日本关东军,竟带1万妇女消失在长白山,77年不知所踪

故事:2万战败日本关东军,竟带1万妇女消失在长白山,77年不知所踪

古怪奇谈录
2025-02-24 16:32:08
外媒:泰国前总理他信被转移至狱中医疗病房,佩通坦透露“他已剃光头发”

外媒:泰国前总理他信被转移至狱中医疗病房,佩通坦透露“他已剃光头发”

环球网资讯
2025-09-15 19:58:57
9500万人口的东北,去年生了38万,死亡91万!情况比想象中更严重

9500万人口的东北,去年生了38万,死亡91万!情况比想象中更严重

狐狸先森讲升学规划
2025-08-01 18:30:03
前华人首富赵长鹏回国!痛快交531亿罚款,成全球最相信美国大冤种

前华人首富赵长鹏回国!痛快交531亿罚款,成全球最相信美国大冤种

霁寒飘雪
2025-09-15 09:08:52
特朗普连开3枪,公开否定台湾属于中国?国民党递出一句决绝的话

特朗普连开3枪,公开否定台湾属于中国?国民党递出一句决绝的话

墨兰史书
2025-09-15 07:05:10
以军被曝在加沙开展杀人游戏 疑似视频曝光!

以军被曝在加沙开展杀人游戏 疑似视频曝光!

看看新闻Knews
2025-09-14 18:08:09
好声音没夺冠,果断嫁爱奇艺总裁,今官宣离婚,给所有人上了一课

好声音没夺冠,果断嫁爱奇艺总裁,今官宣离婚,给所有人上了一课

古木之草记
2025-09-13 16:07:14
房价已惨不忍睹

房价已惨不忍睹

樱桃大房子
2025-09-15 22:22:00
伦敦爆发大规模反移民游行示威 左翼社会多元文化‌政策走到尽头

伦敦爆发大规模反移民游行示威 左翼社会多元文化‌政策走到尽头

刘耘博士
2025-09-15 07:37:33
越南人平均每天花4小时在电视上看YouTube

越南人平均每天花4小时在电视上看YouTube

越南语学习平台
2025-09-15 09:58:21
30倍涨幅!2025年第一大创新药“妖股”诞生!

30倍涨幅!2025年第一大创新药“妖股”诞生!

医药投资部落
2025-09-15 17:44:21
欧锦赛:德国男篮险胜土耳其9战全胜夺冠 施罗德MVP+邦加FMVP

欧锦赛:德国男篮险胜土耳其9战全胜夺冠 施罗德MVP+邦加FMVP

醉卧浮生
2025-09-15 07:34:32
特朗普发声:预计本周将“大幅降息”,黄金股票ETF(517400)连续5日迎净流入,近10日净流入超1.5亿元

特朗普发声:预计本周将“大幅降息”,黄金股票ETF(517400)连续5日迎净流入,近10日净流入超1.5亿元

每日经济新闻
2025-09-15 10:48:08
2025-09-16 00:32:49
量子位 incentive-icons
量子位
追踪人工智能动态
11321文章数 176268关注度
往期回顾 全部

科技要闻

官方:英伟达违反反垄断法 将施进一步调查

头条要闻

美财长声称中方提出非常"激进"要求 外交部回应

头条要闻

美财长声称中方提出非常"激进"要求 外交部回应

体育要闻

诺维茨基退役十年后,德国篮球走向巅峰

娱乐要闻

60岁张曼玉定居法国:瘦成皮包骨?

财经要闻

华与华秒怂 罗永浩称已接到对方道歉

汽车要闻

后轮转向和5C 2026款梦想家把想到的都给了

态度原创

本地
手机
房产
游戏
数码

本地新闻

云游中国 | 草原驭秋风 祁连山邂逅黑河源头

手机要闻

魅族 22 发布!超窄边框+白色面板,「煤油」们会满意吗?

房产要闻

当海口书包房卷向「未来」,这里的孩子和房价,都在高速超车!

双人合作游戏《乐高旅行者》IGN8分:全年龄佳作

数码要闻

CASETiFY推出iPhone 17系列手机壳:晶釉手机壳亮相

无障碍浏览 进入关怀版