网易首页 > 网易号 > 正文 申请入驻

Meta版慢思考来了!田渊栋团队整合快慢思考,能走迷宫推箱子

0
分享至

明敏 发自 凹非寺
量子位 | 公众号 QbitAI

Meta版慢思考也来了。

田渊栋团队带来新作Dualformer,把快慢思考无缝结合,性能提升还成本更低。

能解决迷宫、推箱子等复杂问题。

通过让模型在推理轨迹和最终答案上进行训练,再基于特定策略丢掉部分轨迹,Dualformer模型可以在模仿慢思考的同时,像快思考一样走捷径。

由此能形成更简洁的思维链(CoT)。

从结果来看,在慢思考模式下,Dualformer的最优解率达到97.6%,推理步骤减少45.5%。

自动切换快慢思考模式下,最优率也达到96.6%,且推理步骤减少59.9%。

搞定o1玩不来的迷宫游戏

o1带火了系统2(慢思考),能让大模型推理能力大幅提升。

但是随之而来的计算成本更高。

Dualformer能很好结合快慢思考,从而缓解这一问题。

它建立在Searchformer这项工作的基础上。Searchformer是一个可以解决复杂推理任务的模型,在A*搜索算法生成的路径上训练而来,在路径规划任务(如迷宫、推箱子游戏)上表现良好,可以以更高效率找到最优解。

研究发现,人类会在思考过程中倾向于找捷径。为了更进一步模拟人类,Dualformer在随机推理轨迹数据上进行训练,并在训练过程中依据定制的丢弃策略丢到部分结构。

比如在处理路径规划任务时,根据搜索轨迹中的不同子句(如close子句、子句中的cost tokens、create子句等)设计了四个级别的丢弃策略,从只丢弃close子句到丢弃整个轨迹,并在训练时随机选择应用这些策略。

基于这些策略,Dualformer可以学习更简洁有效的搜索和推理过程。

在推理阶段,Dualformer可配置快速模式(仅输出解决方案)、慢速模式(输出推理链和最终解决方案)或自动模式(自行决定推理模式)。

这种灵活的推理模式设计使得模型能够根据不同任务需求和场景进行自适应调整,类似于人类思维在不同情况下的决策方式。

在具体任务上,研究设置了迷宫(Maze)和推箱子游戏(Sokoban),让模型进行路径规划。以及数学推理任务。

对比来看,在迷宫任务中,o1-preview和o1-mini模型输出的路径并不好,会“穿墙”。

快思考模式下,Dualformer的表现如下。

Dualformer以80%的最优率完成这些任务,显著优于仅基于解决方案数据训练的Solution-Only模型,后者的最优率仅为 30%。

慢思考模式表现如下。

30×30迷宫任务中,在97.6%的情况下可以达到最优解,同时推理步骤减少45.5%。

自动切换快慢思考模式下,Dualformer的最优率达到 96.6%,与Searchformer相比,推理步骤减少59.9%。

将该方法推广到Mistral-7B和Llama3-8B上,在Aug-MATH数据集上,模型的表现都有所提升。

比如在Mistral-7B模型上,当p=0.1、0.2和0.3时,Pass@20度量的基线模型,其中绝对正确率增加到61.9%。

最后,来看一下研究团队阵容。

该研究由田渊栋等人带来。

田渊栋现在是Meta FAIR的研究科学家主任,领导LLM推理、规划和决策小组。

Qinqing Zheng是FAIR的工程师,研究方向集中在生成模型和强化学习方面。她本科毕业于浙江大学,在芝加哥大学攻读博士学位。2017-2019年期间在Facebook担任研究科学家,帮助Facebook建立了广告推荐模型的分布式训练系统。

Sainbayar Sukhbaatar是FAIR的研究科学家,主要负责大模型推理和记忆方面研究。他曾先后在谷歌、DeepMind、Meta任职。

Michael Rabbat是FAIR的创始成员之一。加入Meta之前他曾是麦吉尔大学计算机工程系教授。研究领域包括机器学习、分布式算法、信号处理等。

论文地址:

https://arxiv.org/pdf/2410.09918

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗货币崩盘!普通人毕生积蓄一夜归零

伊朗货币崩盘!普通人毕生积蓄一夜归零

霹雳炮
2026-04-27 22:40:05
台湾最后12个“邦交”全是硬茬,大陆一个个拔除要废不少功夫

台湾最后12个“邦交”全是硬茬,大陆一个个拔除要废不少功夫

未来已来风云变幻
2026-04-28 01:02:05
传音控股2026年一季度净利润7亿元,同比增长42.90%

传音控股2026年一季度净利润7亿元,同比增长42.90%

IT之家
2026-04-27 16:28:18
忠县惊现特大谋杀案!副县长办公室内惨遭杀害,真相引人深思!

忠县惊现特大谋杀案!副县长办公室内惨遭杀害,真相引人深思!

人生录
2026-04-24 09:13:06
巴萨下轮若提前夺冠,而皇马在诺坎普不行列队礼,那就是自取其辱

巴萨下轮若提前夺冠,而皇马在诺坎普不行列队礼,那就是自取其辱

越岭寻踪
2026-04-27 07:11:37
没出过门,只会傻笑,才艺惹人嫌,他上《五哈6》干啥

没出过门,只会傻笑,才艺惹人嫌,他上《五哈6》干啥

乐天闲聊
2026-04-26 13:53:56
两性关系:55-65岁这十年,惜命最好的方式,不是锻炼,做好这6点

两性关系:55-65岁这十年,惜命最好的方式,不是锻炼,做好这6点

三农老历
2026-04-13 17:10:06
易点天下第一季营收10亿:日均词元消耗超40亿 正运作港股上市

易点天下第一季营收10亿:日均词元消耗超40亿 正运作港股上市

雷递
2026-04-27 20:35:20
公布了!19人大名单!中国男篮拒绝得分王

公布了!19人大名单!中国男篮拒绝得分王

篮球实战宝典
2026-04-27 22:02:41
上海知青和内蒙姑娘分离25年,当了大官后接到来信:你还有个女儿

上海知青和内蒙姑娘分离25年,当了大官后接到来信:你还有个女儿

白云故事
2025-03-11 21:05:06
后续!上海地铁大妈跟女子打架:知情人透露更多内情,大妈先动手

后续!上海地铁大妈跟女子打架:知情人透露更多内情,大妈先动手

离离言几许
2026-04-27 21:32:32
美媒曾感慨:当初俄罗斯不该拒绝中国合作,如今中国垄断全球市场

美媒曾感慨:当初俄罗斯不该拒绝中国合作,如今中国垄断全球市场

何氽简史
2026-04-28 04:36:35
南京一派出所副所长为完成查处任务,“设计”让6名未成年人吸毒再查获,一审获刑5年

南京一派出所副所长为完成查处任务,“设计”让6名未成年人吸毒再查获,一审获刑5年

封面新闻
2026-04-26 17:18:07
浙江一寺庙经常“闹鬼”,专家调查后意外发现,事情并不简单

浙江一寺庙经常“闹鬼”,专家调查后意外发现,事情并不简单

五元讲堂
2024-09-03 12:04:41
太扎心!38岁教师脑淤血倒在讲台,次日火化,存在感只剩课程分配

太扎心!38岁教师脑淤血倒在讲台,次日火化,存在感只剩课程分配

火山詩话
2026-04-27 10:19:05
中央5台直播NBA时间表:4月28日CCTV5直播掘金PK残阵森林狼

中央5台直播NBA时间表:4月28日CCTV5直播掘金PK残阵森林狼

薇说体育
2026-04-27 17:21:34
马齿苋立功!研究发现:其天然成分4周降脂33%,还能减少血管斑块

马齿苋立功!研究发现:其天然成分4周降脂33%,还能减少血管斑块

思思夜话
2026-04-25 11:16:17
王耀武女儿在斯坦福设“王耀武奖学金”,唯一要求:大陆学生优先

王耀武女儿在斯坦福设“王耀武奖学金”,唯一要求:大陆学生优先

史之铭
2026-04-27 02:02:22
77岁的吴敬中收到余则成的遗物,才彻底明白当年峨眉峰的真相

77岁的吴敬中收到余则成的遗物,才彻底明白当年峨眉峰的真相

卡西莫多的故事
2026-04-24 11:52:30
1962年雷锋因公牺牲,41年后鉴定人披露事故发生细节,惹人泪目

1962年雷锋因公牺牲,41年后鉴定人披露事故发生细节,惹人泪目

大运河时空
2026-04-26 10:55:03
2026-04-28 06:48:49
量子位 incentive-icons
量子位
追踪人工智能动态
12544文章数 176458关注度
往期回顾 全部

科技要闻

DeepSeek V4上线三天,第一批实测出来了

头条要闻

坐在特朗普身边亲历枪击案的女记者 身份非常不一般

头条要闻

坐在特朗普身边亲历枪击案的女记者 身份非常不一般

体育要闻

人类马拉松"破二"新纪元,一场跑鞋军备竞赛

娱乐要闻

黄杨钿甜为“耳环风波”出镜道歉:谣言已澄清

财经要闻

Meta 140亿收购Manus遭中国发改委否决

汽车要闻

不那么小众也可以 smart的路会越走越宽

态度原创

教育
手机
本地
公开课
军事航空

教育要闻

教育生态的悲歌!尖子班几个月彻底陨落:数学平均分从90多跌到63

手机要闻

苹果要推两款Ultra新品,iPhone也要出Ultra了

本地新闻

云游中国|逛世界风筝都 留学生探秘中国传统文化

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗外长折返伊斯兰堡内情披露

无障碍浏览 进入关怀版