网易首页 > 网易号 > 正文 申请入驻

Meta版慢思考来了!田渊栋团队整合快慢思考,能走迷宫推箱子

0
分享至

明敏 发自 凹非寺
量子位 | 公众号 QbitAI

Meta版慢思考也来了。

田渊栋团队带来新作Dualformer,把快慢思考无缝结合,性能提升还成本更低。

能解决迷宫、推箱子等复杂问题。

通过让模型在推理轨迹和最终答案上进行训练,再基于特定策略丢掉部分轨迹,Dualformer模型可以在模仿慢思考的同时,像快思考一样走捷径。

由此能形成更简洁的思维链(CoT)。

从结果来看,在慢思考模式下,Dualformer的最优解率达到97.6%,推理步骤减少45.5%。

自动切换快慢思考模式下,最优率也达到96.6%,且推理步骤减少59.9%。

搞定o1玩不来的迷宫游戏

o1带火了系统2(慢思考),能让大模型推理能力大幅提升。

但是随之而来的计算成本更高。

Dualformer能很好结合快慢思考,从而缓解这一问题。

它建立在Searchformer这项工作的基础上。Searchformer是一个可以解决复杂推理任务的模型,在A*搜索算法生成的路径上训练而来,在路径规划任务(如迷宫、推箱子游戏)上表现良好,可以以更高效率找到最优解。

研究发现,人类会在思考过程中倾向于找捷径。为了更进一步模拟人类,Dualformer在随机推理轨迹数据上进行训练,并在训练过程中依据定制的丢弃策略丢到部分结构。

比如在处理路径规划任务时,根据搜索轨迹中的不同子句(如close子句、子句中的cost tokens、create子句等)设计了四个级别的丢弃策略,从只丢弃close子句到丢弃整个轨迹,并在训练时随机选择应用这些策略。

基于这些策略,Dualformer可以学习更简洁有效的搜索和推理过程。

在推理阶段,Dualformer可配置快速模式(仅输出解决方案)、慢速模式(输出推理链和最终解决方案)或自动模式(自行决定推理模式)。

这种灵活的推理模式设计使得模型能够根据不同任务需求和场景进行自适应调整,类似于人类思维在不同情况下的决策方式。

在具体任务上,研究设置了迷宫(Maze)和推箱子游戏(Sokoban),让模型进行路径规划。以及数学推理任务。

对比来看,在迷宫任务中,o1-preview和o1-mini模型输出的路径并不好,会“穿墙”。

快思考模式下,Dualformer的表现如下。

Dualformer以80%的最优率完成这些任务,显著优于仅基于解决方案数据训练的Solution-Only模型,后者的最优率仅为 30%。

慢思考模式表现如下。

30×30迷宫任务中,在97.6%的情况下可以达到最优解,同时推理步骤减少45.5%。

自动切换快慢思考模式下,Dualformer的最优率达到 96.6%,与Searchformer相比,推理步骤减少59.9%。

将该方法推广到Mistral-7B和Llama3-8B上,在Aug-MATH数据集上,模型的表现都有所提升。

比如在Mistral-7B模型上,当p=0.1、0.2和0.3时,Pass@20度量的基线模型,其中绝对正确率增加到61.9%。

最后,来看一下研究团队阵容。

该研究由田渊栋等人带来。

田渊栋现在是Meta FAIR的研究科学家主任,领导LLM推理、规划和决策小组。

Qinqing Zheng是FAIR的工程师,研究方向集中在生成模型和强化学习方面。她本科毕业于浙江大学,在芝加哥大学攻读博士学位。2017-2019年期间在Facebook担任研究科学家,帮助Facebook建立了广告推荐模型的分布式训练系统。

Sainbayar Sukhbaatar是FAIR的研究科学家,主要负责大模型推理和记忆方面研究。他曾先后在谷歌、DeepMind、Meta任职。

Michael Rabbat是FAIR的创始成员之一。加入Meta之前他曾是麦吉尔大学计算机工程系教授。研究领域包括机器学习、分布式算法、信号处理等。

论文地址:

https://arxiv.org/pdf/2410.09918

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
若有十亿中国人要求把毛泽东思想提升为“毛泽东主义”,这事就成

若有十亿中国人要求把毛泽东思想提升为“毛泽东主义”,这事就成

芳芳历史烩
2025-11-10 17:06:28
智己汽车,愧对用户,也愧对上汽

智己汽车,愧对用户,也愧对上汽

趣车坊
2025-11-09 12:00:30
注意!江西这个高速收费站即将拆除

注意!江西这个高速收费站即将拆除

鲁中晨报
2025-11-10 20:15:02
特朗普41岁次子讲述原生家庭:父亲定下六不准,母亲“又美又凶”

特朗普41岁次子讲述原生家庭:父亲定下六不准,母亲“又美又凶”

法老不说教
2025-11-07 15:24:59
重庆垫江县委书记毛平转任重庆社会主义学院党组书记、副院长

重庆垫江县委书记毛平转任重庆社会主义学院党组书记、副院长

澎湃新闻
2025-11-10 16:24:32
孙颖莎人气火爆!4-0刘炜珊看台连连欢呼 喝水擦汗瞬间被赞超可爱

孙颖莎人气火爆!4-0刘炜珊看台连连欢呼 喝水擦汗瞬间被赞超可爱

颜小白的篮球梦
2025-11-10 13:46:09
中国3大长寿食物,牛肉只排第三,第一名我们天天见,却吃得的少

中国3大长寿食物,牛肉只排第三,第一名我们天天见,却吃得的少

江江食研社
2025-10-21 14:30:03
694年一天夜晚,武则天以肚子疼为由,将御医沈南璆叫到宫中诊脉

694年一天夜晚,武则天以肚子疼为由,将御医沈南璆叫到宫中诊脉

百态人间
2025-11-04 05:05:03
55+35+31!联盟第1!这就是雷霆给他4年2.85亿美金超级顶薪的原因

55+35+31!联盟第1!这就是雷霆给他4年2.85亿美金超级顶薪的原因

世界体育圈
2025-11-10 15:46:28
俄外长:俄美双边对话仍在继续,进展速度不及预期

俄外长:俄美双边对话仍在继续,进展速度不及预期

新京报
2025-11-09 17:27:18
9岁女童术后成了植物人,河南省人民医院多科室医护人员篡改病历,卫健委回应:行为属实,已立案

9岁女童术后成了植物人,河南省人民医院多科室医护人员篡改病历,卫健委回应:行为属实,已立案

观威海
2025-11-10 11:02:05
新一代宝马X5曝光,预计年内或26年初发布,26年8月正式开始生产

新一代宝马X5曝光,预计年内或26年初发布,26年8月正式开始生产

艾米手工作品
2025-11-09 10:59:42
惊艳全球!新机曝光:10000mAh+骁龙8 Gen5+2亿潜望长焦!

惊艳全球!新机曝光:10000mAh+骁龙8 Gen5+2亿潜望长焦!

科技堡垒
2025-11-09 11:58:07
14年前,用全部积蓄买下10万个比特币的新东方老师,如今过得如何

14年前,用全部积蓄买下10万个比特币的新东方老师,如今过得如何

娱乐督察中
2025-10-30 10:33:53
众艺人合照「女星被叫前排下跪拍照」!男星爽站后排 影片曝光掀众怒

众艺人合照「女星被叫前排下跪拍照」!男星爽站后排 影片曝光掀众怒

ETtoday星光云
2025-11-10 14:47:18
年轻人正在逃离上海!上海月薪8500房租3200,撤离上海的年轻人们,放弃万元月薪选择及时止损

年轻人正在逃离上海!上海月薪8500房租3200,撤离上海的年轻人们,放弃万元月薪选择及时止损

流年拾光
2025-10-23 20:33:16
废弃宾馆拆电梯,一名工人跌落电梯井

废弃宾馆拆电梯,一名工人跌落电梯井

现代快报
2025-11-10 20:06:04
中国脑梗发病率世界第一!提醒:罪魁祸首已揪出,3种蔬菜要少吃

中国脑梗发病率世界第一!提醒:罪魁祸首已揪出,3种蔬菜要少吃

徐云流浪中国
2025-11-09 16:43:07
不是病死的,而是治死的?这5病不去医院活得更久?医生说出答案

不是病死的,而是治死的?这5病不去医院活得更久?医生说出答案

周哥一影视
2025-11-01 12:01:41
官方:恩佐、阿尔瓦雷斯、朱利亚诺和莫利纳退出阿根廷大名单

官方:恩佐、阿尔瓦雷斯、朱利亚诺和莫利纳退出阿根廷大名单

懂球帝
2025-11-10 19:53:05
2025-11-10 20:35:00
量子位 incentive-icons
量子位
追踪人工智能动态
11650文章数 176329关注度
往期回顾 全部

科技要闻

荷兰“玩脱”后,大众本田终于拿到芯片了

头条要闻

媒体:郑丽文出席吴石追思会令两岸震惊 岛内一片哗然

头条要闻

媒体:郑丽文出席吴石追思会令两岸震惊 岛内一片哗然

体育要闻

战绩崩盘!东契奇交易余震撕裂独行侠

娱乐要闻

51岁周迅的现状 给中年女性提了个醒?

财经要闻

最终,万科只成全了一个人

汽车要闻

智能又务实 奇瑞瑞虎9X不只有性价比

态度原创

本地
旅游
家居
艺术
公开课

本地新闻

这届干饭人,已经把博物馆吃成了食堂

旅游要闻

超千万元消费券已备好!重庆文旅集团美好年走廊文旅节启动

家居要闻

四方食事 不过人间烟火

艺术要闻

“隶书之冠”刘炳森:楷书艺术之美惊艳四座

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版