网易首页 > 网易号 > 正文 申请入驻

上海 AI 实验室联合突破强化学习算法,攻克 AI 推理熵崩溃难题

0
分享至

IT之家 6 月 4 日消息,上海人工智能实验室联合清华大学、伊利诺伊大学香槟分校等学府,组建国际团队研发新方法,通过 Clip-Cov 和 KL-Cov 技术有效应对策略熵崩溃问题。

背景简介

大型语言模型(LLMs)近年来在推理能力上的突破,让强化学习(RL)的应用范围从单一任务扩展到更广泛的场景,这种进步赋予了模型更强的泛化能力和逻辑推理能力。

然而,与传统的模仿学习不同,强化学习需要更高的计算资源来支持从经验中学习,核心问题在于策略熵(反映了模型在利用已知策略和探索新策略之间的平衡)的下降。

熵值过低会导致模型过度依赖已有策略,丧失探索能力。这一探索-利用权衡(exploitation-exploration trade-off)是强化学习的基础,如何控制策略熵成为训练中的关键难题。

策略熵崩溃的理论与实践突破

为解决这一问题,研究团队提出了一个经验公式:R = −a exp H + b,其中 H 代表策略熵,R 为下游任务表现,a 和 b 为拟合系数。这一公式揭示了策略性能与熵值之间的权衡关系,指出熵耗尽是性能瓶颈。

研究进一步分析了熵动态变化,发现其受动作概率与 logits 变化协方差的驱动。为此,团队创新性地提出了 Clip-Cov 和 KL-Cov 两种技术,分别通过裁剪高协方差 token 和施加 KL 惩罚来维持熵水平。

实验基于 Qwen2.5 模型和 DAPOMATH 数据集,覆盖数学任务,结果显示新方法在 7B 和 32B 模型上分别提升了 2.0% 和 6.4% 的性能,尤其在 AIME24 和 AIME25 等高难度基准测试中,32B 模型性能提升高达 15.0%。

研究团队在包括 Qwen2.5、Mistral、LLaMA 和 DeepSeek 在内的 11 个开源模型上进行了测试,参数规模从 0.5B 到 32B 不等,涵盖数学和编程任务的 8 个公开基准测试。

训练采用 veRL 框架和零样本设置,结合 GRPO、REINFORCE++ 等算法优化策略性能。结果表明,Clip-Cov 和 KL-Cov 技术能维持更高的熵水平,例如 KL-Cov 方法在基线熵值趋于平稳时仍保持 10 倍以上的熵值。

这不仅解决了策略熵崩溃问题,也为强化学习在语言模型中的扩展提供了理论支持。研究强调,熵动态是性能提升的关键瓶颈,未来需进一步探索熵管理策略,以推动更智能语言模型的发展。

IT之家附上参考地址

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
又一个布伦森!跳出合同降薪续约,3年1.2亿重情义,浓眉相形见绌

又一个布伦森!跳出合同降薪续约,3年1.2亿重情义,浓眉相形见绌

你的篮球频道
2026-06-19 09:45:44
流浪26年满身污垢的沈巍,如今身价百万还有小15岁女友,他凭的啥

流浪26年满身污垢的沈巍,如今身价百万还有小15岁女友,他凭的啥

从零到一研究所
2026-06-18 16:15:07
中国移动董事、党组副书记王利民履新司法部党组成员、政治部主任

中国移动董事、党组副书记王利民履新司法部党组成员、政治部主任

大风新闻
2026-06-19 11:31:21
哥哥给哈佛20多亿,妈妈给麻省11亿,家族每年从中国商场收租百亿

哥哥给哈佛20多亿,妈妈给麻省11亿,家族每年从中国商场收租百亿

花小猫的美食日常
2026-06-19 01:56:30
不光停发绩效,很多单位工资都发不出了!

不光停发绩效,很多单位工资都发不出了!

细说职场
2026-06-19 15:00:25
FIFA:因科内重伤世界杯报销,萨索洛可获最高750万欧元补偿

FIFA:因科内重伤世界杯报销,萨索洛可获最高750万欧元补偿

懂球帝
2026-06-19 11:03:12
克洛泽16球王座终于有人摸到了——目前或仅有这三人有机会!

克洛泽16球王座终于有人摸到了——目前或仅有这三人有机会!

观星娱记
2026-06-19 11:55:14
上海一餐馆内男子为护孕妻两次劝烟被打,打人者被处500元处罚

上海一餐馆内男子为护孕妻两次劝烟被打,打人者被处500元处罚

封面新闻
2026-06-19 15:14:19
私生活混乱、被央视“开除”、陪睡上位,她身上哪个标签是真的?

私生活混乱、被央视“开除”、陪睡上位,她身上哪个标签是真的?

素衣读史
2026-06-18 21:37:31
整治冒充、伪装、夹带、黑灰产!中央网信办专项治理账号乱象

整治冒充、伪装、夹带、黑灰产!中央网信办专项治理账号乱象

南方都市报
2026-06-19 10:41:10
狂砸2200亿出海,两年亏光6年利润,郭广昌到底经历了什么?

狂砸2200亿出海,两年亏光6年利润,郭广昌到底经历了什么?

青眼财经
2026-06-17 23:50:23
卡塔尔遭6球血洗,洛佩特吉怒喷加拿大:对手仅剩9人还不收手

卡塔尔遭6球血洗,洛佩特吉怒喷加拿大:对手仅剩9人还不收手

星耀国际足坛
2026-06-19 14:52:49
“雷仁勋”刷屏!小女孩拆穿“雷军的新装”:小米股价一年暴跌60%,市值蒸发近万亿

“雷仁勋”刷屏!小女孩拆穿“雷军的新装”:小米股价一年暴跌60%,市值蒸发近万亿

新浪财经
2026-06-19 15:51:18
男子深夜醉驾致16岁少女被撞身亡,血检浓度238mg/100mL,最初认定肇事者全责,申请复议后变主责,警方回应:按正规程序进行

男子深夜醉驾致16岁少女被撞身亡,血检浓度238mg/100mL,最初认定肇事者全责,申请复议后变主责,警方回应:按正规程序进行

大风新闻
2026-06-19 15:30:09
宝妈避雨被赶后续:大批顾客退单,商家道歉也无果,门店口碑崩了

宝妈避雨被赶后续:大批顾客退单,商家道歉也无果,门店口碑崩了

千言娱乐记
2026-06-18 18:59:27
全网喊话韦东奕做高考数学卷,没想到他的一句话,就让千万网友瞬间服气

全网喊话韦东奕做高考数学卷,没想到他的一句话,就让千万网友瞬间服气

LULU生活家
2026-06-18 08:43:33
突发,全线跳水!会谈取消!美伊,重大变局

突发,全线跳水!会谈取消!美伊,重大变局

新浪财经
2026-06-19 12:39:43
乱了!世界杯赛后爆发大规模冲突,比起6比0,更惨的是断腿重伤

乱了!世界杯赛后爆发大规模冲突,比起6比0,更惨的是断腿重伤

观察鉴娱
2026-06-19 14:51:34
中美日3大经济体负债出炉:美国36万亿,日本9.1万亿,中国意外

中美日3大经济体负债出炉:美国36万亿,日本9.1万亿,中国意外

时尚的弄潮
2026-06-19 08:47:45
柬埔寨电诈最大黑手竟然是副总理?

柬埔寨电诈最大黑手竟然是副总理?

凤眼论
2026-06-18 18:45:10
2026-06-19 18:39:00
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
350630文章数 607294关注度
往期回顾 全部

科技要闻

Anthropic被禁,智谱却涨疯了

头条要闻

世界杯"大冷门":史上最小参赛国逼平最大夺冠热门国

头条要闻

世界杯"大冷门":史上最小参赛国逼平最大夺冠热门国

体育要闻

世界杯最不知名球员,没上场先涨粉600万

娱乐要闻

吴倩自曝小时被爸爸打掉牙齿硬吞进肚

财经要闻

Token低价陷阱

汽车要闻

惊出冷汗!重庆实测奥迪A5L,华为智驾这波操作绝了…

态度原创

本地
旅游
游戏
数码
公开课

本地新闻

世界杯黑马佛得角:河北人开超市,温州人当老板

旅游要闻

四川七曲山景区被指圈国道违规收费,官方通报

《GTA6》"写实版"九宫格封面!火辣黑妹太吸睛

数码要闻

视频转码性能最高提升215%:AMD线程撕裂者突破HandBrake瓶颈

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版