网易首页 > 网易号 > 正文 申请入驻

UCL、上交大等提出自然语言强化学习范式:可处理语言反馈的强化学习框架

0
分享至

在人工智能发展史上,强化学习 (RL) 凭借其严谨的数学框架解决了众多复杂的决策问题,从围棋、国际象棋到机器人控制等领域都取得了突破性进展。

然而,随着应用场景日益复杂,传统强化学习过度依赖单一数值奖励的局限性日益凸显。在现实世界中,反馈信号往往是多维度、多模态的,例如教练的口头指导、视觉示范,或是详细的文字说明。

来自伦敦大学学院、上海交通大学、布朗大学、新加坡国立大学和布里斯托大学的联合研究团队提出了全新的自然语言强化学习(Natural Language Reinforcement Learning, NLRL)范式,成功将强化学习的核心概念类比为基于自然语言的形式,开辟了一条通向更智能、更自然的 AI 决策学习的新道路。

论文题目: Natural Language Reinforcement Learning 论文链接: https://arxiv.org/abs/2411.14251 代码链接: https://github.com/waterhorse1/Natural-language-RL

一、从数值到语言:新范式的萌芽

随着大语言模型(LLM)在理解和生成自然语言方面的飞速发展,研究者们开始探索如何让 AI 系统像人类一样通过语言来理解任务、制定策略并解释决策过程。

论文第一作者的早期工作 ChessGPT(https://arxiv.org/abs/2306.09200)尝试通过收集对局评论来训练语言模型并取得了一定成功。然而,这种基于人类数据的学习方式很快遇到了瓶颈:互联网数据质量参差不齐,高质量专家标注成本高昂,而对于全新任务更是无从获取相关经验数据。

这种困境促使研究团队开始探索一个更具突破性的方向:能否设计一个框架,让 AI 系统完全通过与环境的交互来学习,而不依赖任何人类标注数据?

传统强化学习为这个问题提供了灵感,但其单一数值奖励的机制难以满足复杂场景的需求。团队意识到需要一个新范式,既要继承强化学习的数学严谨性,又要具备自然语言的表达丰富性。这个思路最终导向了 NLRL 的诞生。

二、自然语言强化学习

传统强化学习虽然在数学上严谨优雅,但其单一数值反馈机制与人类学习方式存在巨大差距。

研究团队从象棋教练指导学生的场景获得启发:教练不会简单说 “这步棋的价值是 0.7”,而是会详细解释 “这个走法控制了中心,限制了对手的机动性,同时为王翼进攻创造了条件”。这种观察促使团队思考:能否将丰富的语言反馈信号整合进学习框架?

这个思路的关键突破来自对传统强化学习本质的重新思考:既然传统 RL 可以通过蒙特卡洛和时序差分等方法进行学习,这些方法是否可以扩展到语言空间?基于这一洞察,团队提出了 NLRL 框架,将传统 RL 中的数学概念类比为语言形式。以下是一个对应关系示意图。

具体而言,NLRL 引入 “语言任务指令”( )替代抽象的奖励函数,并设计了度量函数 来评估轨迹描述 ( ) 与任务指令的完成度。

语言化的决策框架

在 NLRL 中,MDP 的每个组成部分都被重新定义为文本形式。状态变为包含完整上下文的自然语言描述,动作空间转化为带有推理过程的语言决策,而环境反馈则扩展为包含原因分析的详细评估。例如,在迷宫环境中的状态描述会包含位置、周围环境、历史探索等完整信息。

语言策略与推理

NLRL 中的策略 被创新性地分解为两个部分: ,其中 代表思维过程。这种分解使得决策过程变得完全透明。以国际象棋为例,系统会先分析局势(“白方控制中心点,黑方王翼薄弱”),提出计划(“开展王翼进攻,同时固守中心”),最后给出具体建议(“Nf3-e5,威胁 f7 并加强中心控制”)。

语言价值评估

NLRL 将传统的标量值函数 和 扩展为语言价值函数 和 。这种扩展使得评估变得更加丰富和可解释。评估结果不仅包含胜率,还涵盖空间利用、子力配合等多个角度的分析,并提供具体的改进建议。

三、从理论到实践

将强化学习的数学概念转化为语言形式是一个优雅的构想,但如何在实践中实现这种转化却是一个巨大的挑战。研究团队意识到,近年来大语言模型在自然语言处理和推理能力方面的突破,为 NLRL 的实现提供了关键工具。

通过深入研究大语言模型的能力边界,团队发现 LLM 不仅能够理解和生成自然语言,还具备 information synthesis(信息综合)、reasoning(推理)和 correlation analysis(相关性分析)等能力,这些能力恰好对应了传统强化学习中的期望计算、价值估计和策略改进等核心操作。

基于这一洞察,研究团队提出了三个关键技术创新,构建了完整的 NLRL 实现框架:

语言蒙特卡洛估计

在传统强化学习中,蒙特卡洛方法通过采样多条轨迹并取平均值来估计状态价值。但在语言空间中,我们无法直接对文本描述进行算术平均。研究团队利用大语言模型作为信息聚合器 (aggregator)。

具体来说,当系统需要评估某个状态时,它会:

  1. 从该状态开始采样 K 条完整轨迹

  2. 将每条轨迹转化为详细的文本描述

  3. 使用专门设计的提示让 LLM 扮演 “专家评估员” 的角色

  4. LLM 分析所有轨迹描述,提取关键模式和见解

  5. 生成一个综合性的评估报告

例如,在国际象棋中,系统可能会分析说:“基于观察到的 20 个可能发展,此位置对白方有利。在 80% 的变化中,白方能够通过控制中心格和针对 f7 的战术威胁获得优势。但需要注意的是,如果黑方成功完成王翼城堡,局势可能趋于平衡。”

语言时序差分学习

传统的时序差分学习基于贝尔曼方程,将长期价值分解为即时奖励和未来状态的折扣价值。NLRL 创新性地提出了语言贝尔曼方程,将这种时序关系扩展到语言空间。

在 NLRL 中,语言时序差分学习包含三个关键组件:

  1. 文本描述生成器 d:将状态转换 (s,a,r,s') 转化为自然语言描述

  2. 信息聚合函数 G1:综合多个时间步的信息

  3. 语言组合函数 G2:将即时反馈与未来评估结合

这三个组件协同工作的方式如下:

  • 首先,d 将环境反馈转化为详细的文本描述,包括采取的动作、即时反馈和到达的新状态

  • G2(通常是一个经过特殊提示的 LLM)将即时描述与对未来状态的语言评估结合,生成一个整体性的分析

  • G1 聚合多个这样的分析,得出最终的状态评估

在实践中,这种方法表现出了独特的优势:

  • 可以捕捉到难以量化的微妙因素

  • 评估结果具有很强的可解释性

  • 能够处理长期依赖关系

语言策略提升

在传统强化学习中,策略提升通常通过梯度上升来最大化期望回报。但在语言空间中,我们需要一个全新的策略提升机制。研究团队提出了基于语言相关性分析的策略提升方法。

这种提升机制的工作原理是:

  1. 对当前状态收集多个候选动作

  2. 获取每个动作的语言价值评估

  3. 使用 LLM 分析这些评估与任务目标的相关性

  4. 生成改进的决策链路,包括:

  • 详细的推理过程

  • 对不同选项的权衡分析

  • 最终决策的依据

例如,在迷宫导航任务中,系统可能会这样分析:“向右移动是最优选择,因为:1)根据之前的探索经验,右侧路径更可能通向目标 2)即使这条路不是最短路径,也为我们保留了回退的选项 3)相比向上移动可能遇到的死胡同,这个选择风险更小。”

四、实验验证

研究团队在三个具有代表性的环境中系统地验证了 NLRL 的效果。这些实验不仅展示了 NLRL 的性能优势,更重要的是证明了该框架在不同类型任务中的普适性和可扩展性。

迷宫导航 - 基于prompt的自然语言策略迭代

在复杂的迷宫导航任务中,研究团队测试了纯基于 prompt 的自然语言策略迭代算法。研究团队选择了两种具有挑战性的迷宫环境进行测试:双 T 型迷宫和中等复杂度迷宫。在这些环境中,智能体需要从随机初始位置导航到目标位置,同时避免撞墙。通过语言 TD 估计,在双 T 型迷宫中实现了 - 11.19±2.86 的平均奖励,远优于基线方法的 - 27.29±4.43。

但 NLRL 真正的优势不仅仅体现在数字上。系统能够清晰地解释每个决策的原因,例如:“选择向南移动,因为:1)北边是死胡同,我们之前已经探索过 2)南向路径似乎更接近目标位置 3)即使这条路不是最优解,我们仍保留了向东撤退的选项。” 实验还发现,增加变化数量和前瞻步数能进一步提升性能。

突破棋 (Breakthrough)- 自然语言价值函数

在 5x5 突破棋(状态空间达 10^8)这个几乎没有人类数据的任务中,NLRL 纯依靠环境反馈训练出了高质量的语言评估器。通过混合不同水平的 MCTS 策略数据构建训练集,评估器达到了 0.85 的准确率,显著超越 LLAMA-3.1-70b 的 0.61 以及 GPT-4o 的 0.58。

更重要的是,这个评估器能提供专业级别的局势分析。例如:“黑方略占优势,原因有三:1)在 d4 和 e4 形成了稳固的双兵链 2)白方右翼的兵形成了薄弱点 3)黑方的推进速度比白方快半步。建议白方通过 c3-c4 来争夺中心控制权。”

井字棋 - 自然语言Actor-Critic

在井字棋环境中,团队实现了完整的语言 Actor-Critic 系统。通过动作选择掩码防止幻觉、经验缓冲区解决遗忘问题、持续的迭代优化等创新,系统在随机对手下实现 90% 以上胜率,面对确定性策略甚至能保持 100% 的胜率,同时保持决策过程的清晰可解释性。


作者:刘博 来源:公众号【PaperWeekly 】

llustration From IconScout By IconScout Store

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(

www.techbeat.net
) 。 社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信(yellowsubbj)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
骑士7连胜背后掌控者曝光,击败黑马最大功臣非米切尔

骑士7连胜背后掌控者曝光,击败黑马最大功臣非米切尔

自己撑起一片天
2026-02-21 13:37:29
冯小刚的两个女儿:一个住美国大别墅,一个挤北京老小区

冯小刚的两个女儿:一个住美国大别墅,一个挤北京老小区

陈意小可爱
2026-02-21 01:45:29
喝牛奶时做一个小改变,血脂降了、血糖稳了、肠道好了→

喝牛奶时做一个小改变,血脂降了、血糖稳了、肠道好了→

大象新闻
2025-12-27 07:45:02
李一桐飞机上不雅行为?别太离谱

李一桐飞机上不雅行为?别太离谱

In风尚
2026-02-20 18:04:31
梅西确定揭幕战会上!

梅西确定揭幕战会上!

氧气是个地铁
2026-02-21 12:35:34
泽连斯基强硬警告俄罗斯:你们即使暗杀了我,也无法击垮乌克兰!

泽连斯基强硬警告俄罗斯:你们即使暗杀了我,也无法击垮乌克兰!

爱看剧的阿峰
2026-02-21 16:59:22
日本的大话变成笑话!让你吹,还吹上天

日本的大话变成笑话!让你吹,还吹上天

起喜电影
2026-02-21 16:16:28
反常识?技术门槛很低的增程技术,为什么越卖越贵?

反常识?技术门槛很低的增程技术,为什么越卖越贵?

少数派报告Report
2026-02-21 07:58:37
6年了,郭麒麟的反击几乎断送了朱亚文的演艺生涯

6年了,郭麒麟的反击几乎断送了朱亚文的演艺生涯

小熊侃史
2025-12-25 11:24:12
痛心!7名中国游客沉入贝加尔湖溺亡,1月内发生2起,有游客前一天目击:到处都是冰裂...

痛心!7名中国游客沉入贝加尔湖溺亡,1月内发生2起,有游客前一天目击:到处都是冰裂...

极目新闻
2026-02-20 20:54:36
驱逐令沦为废纸!高市刚想庆祝,薛剑强势杀回,中方这次绝不惯着

驱逐令沦为废纸!高市刚想庆祝,薛剑强势杀回,中方这次绝不惯着

史智文道
2026-02-20 09:19:02
56岁鲁豫坐竹椅瘦脱相!手骨像枯枝,这病态美让人心疼又上头?

56岁鲁豫坐竹椅瘦脱相!手骨像枯枝,这病态美让人心疼又上头?

娱乐领航家
2026-02-12 23:00:04
才大年初四就走掉一半人,留下的大多是什么人?

才大年初四就走掉一半人,留下的大多是什么人?

老特有话说
2026-02-20 12:00:30
浙江明天最高温或达26℃!晴暖余额不足,一大波雨水要来

浙江明天最高温或达26℃!晴暖余额不足,一大波雨水要来

浙江发布
2026-02-21 15:35:47
“走路去洗车”热帖离谱刷屏,人类头一回被它耍得这么惨

“走路去洗车”热帖离谱刷屏,人类头一回被它耍得这么惨

新周刊
2026-02-21 16:06:14
86年,总政要演长征的话剧,尤太忠却怒道:不管是谁的指示都不演

86年,总政要演长征的话剧,尤太忠却怒道:不管是谁的指示都不演

搜史君
2026-02-15 07:00:08
保25-0不败铁律,湖人获4大喜讯!詹姆斯转型破纪录+2换1捡漏神射

保25-0不败铁律,湖人获4大喜讯!詹姆斯转型破纪录+2换1捡漏神射

锅子篮球
2026-02-21 16:20:02
银行内部实话:存款达这个金额,会被系统盯上

银行内部实话:存款达这个金额,会被系统盯上

小陆搞笑日常
2026-02-10 03:30:26
波神勇士的首秀,不切实际的最终幻想?

波神勇士的首秀,不切实际的最终幻想?

静易墨
2026-02-21 15:24:04
这才是“赵体”天花板,一个字价值60万!

这才是“赵体”天花板,一个字价值60万!

书法网
2026-02-13 17:22:41
2026-02-21 18:19:00
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2302文章数 596关注度
往期回顾 全部

科技要闻

智谱上市1月涨5倍,市值超越京东、快手

头条要闻

省直机关女工程师陷美男计 拉公职人员丈夫当间谍17年

头条要闻

省直机关女工程师陷美男计 拉公职人员丈夫当间谍17年

体育要闻

冬奥第一"海王"?一人和13国选手都有关系

娱乐要闻

镖人反超惊蛰无声拿下单日票房第二!

财经要闻

一觉醒来,世界大变,特朗普改新打法了

汽车要闻

比亚迪的“颜值担当”来了 方程豹首款轿车路跑信息曝光

态度原创

房产
健康
本地
公开课
军事航空

房产要闻

窗前即地标!独占三亚湾C位 自贸港总裁行宫亮相

转头就晕的耳石症,能开车上班吗?

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

硬核揭秘!福建舰“一马当先”底气何在

无障碍浏览 进入关怀版