网易首页 > 网易号 > 正文 申请入驻

决策能力暴增500%!语言模型微调技术突破

0
分享至

IT之家 5 月 20 日消息,科技媒体 marktechpost 昨日(5 月 19 日)发布博文,报道称谷歌 DeepMind 团队联合约翰・开普勒林茨大学 LIT AI 实验室,通过强化学习微调(RLFT)技术,提升语言模型的决策能力。

IT之家援引博文介绍,基于海量互联网数据训练的语言模型已展现出超越文本处理的决策潜力,可以通过内部知识推理,在交互环境中做出行动选择。

不过这些语言模型在决策过程存在显著缺陷:模型能推导正确策略却无法执行(knowing-doing gap,纸上谈兵),过度偏好短期高回报选项(greediness,贪婪选择),较小模型还会机械重复常见动作(frequency bias,频次偏见)。

传统强化学习方法如 UCB 算法虽能平衡探索与利用,但难以解决模型内在的推理-行动脱节问题。

DeepMind 团队创新采用强化学习微调技术,以模型自生成的思维链作为训练信号,系统会评估每个推理步骤对应的行动奖励,促使模型优先选择逻辑自洽且实际高效的行动方案。

具体实施时,模型根据输入指令和行动-奖励历史生成包含推理过程与动作的序列,通过蒙特卡洛(Monte Carlo)基线评估和广义优势估计进行优化;无效动作会触发惩罚机制,而奖励塑造技术既保证输出格式规范,又保留探索空间。

在 10 臂的多臂老虎机(multi-armed bandit,MAB,有拥有 N 根拉杆的老虎机,拉动每一根拉杆都对应一个关于奖励的概率分布)测试中,2B 参数模型的动作覆盖率提升 12 个百分点;面对 20 臂时改善幅度虽小但仍有意义,其频次偏见率从 70% 骤降至 35%。

井字棋实验中,模型对阵随机对手的胜率提升 5 倍,与最优蒙特卡洛树搜索代理的对战平均回报从-0.95 归零。值得注意的是,27B 大模型生成正确推理的概率达 87%,但未微调时仅 21% 会执行最优动作,该强化学习微调有效缩小了这一差距。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
1斤100元!厦门3男子凌晨海上追5小时,钓到1条560斤的

1斤100元!厦门3男子凌晨海上追5小时,钓到1条560斤的

万象硬核本尊
2026-03-20 19:29:11
出大事了,维和部队遭袭击,912人死亡,联合国秘书长亮明态度

出大事了,维和部队遭袭击,912人死亡,联合国秘书长亮明态度

军机Talk
2026-03-19 10:36:20
2020年女子当众扇儿子耳光,儿子直接跳楼,如今女子已自杀身亡

2020年女子当众扇儿子耳光,儿子直接跳楼,如今女子已自杀身亡

观察鉴娱
2026-03-18 09:09:10
谢婷婷带混血儿子回香港,飞机上晒儿子正脸照,长相俊俏像极父亲

谢婷婷带混血儿子回香港,飞机上晒儿子正脸照,长相俊俏像极父亲

八斗小先生
2026-03-20 15:59:46
唯一流失用户的头部大厂,拼多多怎么了

唯一流失用户的头部大厂,拼多多怎么了

三易生活
2026-03-20 19:44:44
2026女子冰壶世锦赛半决赛日本提前认输未被接受,藤泽五月等人面露苦笑

2026女子冰壶世锦赛半决赛日本提前认输未被接受,藤泽五月等人面露苦笑

刘哥谈体育
2026-03-22 10:57:50
宅基地确权最后冲刺:今年不把名字改成儿子的,以后可能就改不了

宅基地确权最后冲刺:今年不把名字改成儿子的,以后可能就改不了

混沌录
2026-03-19 21:59:03
炸穿天际!伊朗再出王炸,美国被坑惨了!

炸穿天际!伊朗再出王炸,美国被坑惨了!

大嘴说天下
2026-03-21 20:55:08
伊朗已无官员愿意与美国谈判

伊朗已无官员愿意与美国谈判

财联社
2026-03-20 23:57:04
上级让他死守7天,他听成“守47天”,结果真守住了,创造军事奇迹

上级让他死守7天,他听成“守47天”,结果真守住了,创造军事奇迹

历史回忆室
2026-03-21 23:59:06
闹乌龙!7只狗没越狱,吉林当地媒体采访,狗主人:错在德牧身上

闹乌龙!7只狗没越狱,吉林当地媒体采访,狗主人:错在德牧身上

观察鉴娱
2026-03-21 12:43:39
为啥说小孩子的话总是口无遮拦?网友:妈妈坐在爸爸身上拉屎!

为啥说小孩子的话总是口无遮拦?网友:妈妈坐在爸爸身上拉屎!

三年的老核桃
2026-03-18 07:20:03
中国车市投诉榜单第一名!

中国车市投诉榜单第一名!

诗与星空
2026-03-20 08:00:06
美国出局,全球同时接到通告,中方将带队出席,53国享受优惠待遇

美国出局,全球同时接到通告,中方将带队出席,53国享受优惠待遇

凡知
2026-03-21 21:26:01
医保新规4月1日执行,1985-1965年人群注意,6项操作越早办越好

医保新规4月1日执行,1985-1965年人群注意,6项操作越早办越好

i书与房
2026-03-21 20:08:25
美国一项研究表明:外星人形象可能颠覆传统认知,并非绿小矮人,而是紫色食人族

美国一项研究表明:外星人形象可能颠覆传统认知,并非绿小矮人,而是紫色食人族

三农老历
2026-03-22 10:58:03
布鲁斯威利迎71岁生日! 黛咪摩尔晒天伦照:你需要的只有爱

布鲁斯威利迎71岁生日! 黛咪摩尔晒天伦照:你需要的只有爱

ETtoday星光云
2026-03-20 13:30:04
一年流出视频294部的小宝到底探过多少朵花?

一年流出视频294部的小宝到底探过多少朵花?

挪威森林
2026-01-25 17:18:42
伊朗新任最高领袖传出死讯:真没了,还是一场更大的烟雾弹

伊朗新任最高领袖传出死讯:真没了,还是一场更大的烟雾弹

桂系007
2026-03-20 23:50:32
德央行行长:别和中国人讲仁义,我们对中国仁慈,就是对欧洲残忍

德央行行长:别和中国人讲仁义,我们对中国仁慈,就是对欧洲残忍

兴史兴谈
2026-03-19 12:24:01
2026-03-22 12:12:49
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
335324文章数 607081关注度
往期回顾 全部

科技要闻

OpenAI开启“人海战术” 冲刺8000人规模

头条要闻

伊朗:国产防空系统击中美军F-35战机

头条要闻

伊朗:国产防空系统击中美军F-35战机

体育要闻

郑钦文两盘横扫前美网冠军 迎迈阿密站开门红

娱乐要闻

田栩宁终于凉了?出轨风波影响恶劣

财经要闻

睡梦中欠债1.2万?这只“虾”杀疯了

汽车要闻

14.28万元起 吉利银河星耀8远航家开启预售

态度原创

时尚
房产
艺术
本地
教育

这些才是适合普通人借鉴的穿搭!衣服叠穿、多穿衬衫,好耐看

房产要闻

全城狂送1000杯咖啡!网易房产【早C计划】,即刻启动!

艺术要闻

第四届深圳大芬国际油画双年展 | 入选油画选刊(四)

本地新闻

春色满城关不住|绍兴春日顶流,这片樱花海藏不住了

教育要闻

初中数学求面积,条件不足?

无障碍浏览 进入关怀版