网易首页 > 网易号 > 正文 申请入驻

全面超越CoT!Meta田渊栋团队新作:连续思维链

0
分享至

新智元报道

编辑:alan

【新智元导读】针对大语言模型的推理任务,近日,Meta田渊栋团队提出了一个新的范式:连续思维链,对比传统的CoT,性能更强,效率更高。

比思维链更厉害的方法是什么?

答:连续思维链。

近日,Meta田渊栋团队提出了针对LLM推理任务的新范式:Coconut( Chain of Continuous Thought)。

论文地址:https://arxiv.org/pdf/2412.06769

论文一作是来自UC San Diego的Shibo Hao,对于文章的爆火,田渊栋也发文感谢了「小天才」Tanishq Mathew Abraham的推荐。

注:Tanishq Mathew Abraham,19岁(去年)读完博士,目前是Stability AI的研究总监以及MedARC的创始人。

回到这篇文章,连续思维链是什么?

小编在之前曾介绍过微软发明的「LLM语言」:让AI用模型的中间数据进行交流,不必转换成人类的语言,交互效率直接翻倍。

而在LLM的推理过程中,也是这么个情况。

人类的语言并不适合推理,让AI自己思考就行了,思考过程没必要转换成人类语言。

所以,在形式上,本文的方法就是推理时去掉模型头尾的LLM head和embedding层,使用中间状态进行自回归,只在输出最终答案时才转成人类语言。

当然了,Coconut要搭配相应的训练,才能展现自己的性能:

这效果还是很强的,分数和CoT打平的同时,token数少了好几倍。

——看来抛弃人类的束缚才是真理,感觉这个点还能继续搞下去,

最后的最后就会发展成:AI之间说了什么我们听不懂,AI心里怎么想的我们也不知道。

AI:I'm free。

论文细节

基于语言空间进行推理的LLM,会遇到一个严重的问题:每个特定token所需的推理量差异很大。

推理链中的大多数token都是为了流畅性而生成的,对实际推理过程的贡献很小,但当前的LLM架构分配了几乎相同的计算来预测每个token。

另一方面,神经影像学研究也表明,语言网络(大脑中负责语言理解和产生的区域)在各种推理任务中基本不活跃。

所以,语言空间可能并不是推理的最佳选择,理想的LLM应该自由进行推理,不受任何语言限制。

Coconut不进行隐藏状态和语言之间的映射,这种修改将推理从语言空间内解放出来,并且系统可以通过梯度下降进行端到端优化,因为连续思维是完全可微分的。

为了加强潜在推理的训练,本文采用了多阶段训练策略,有效利用语言推理链来指导训练过程。

另外,与基于语言的推理不同,Coconut中的连续思考可以同时编码多个可能的后续步骤,从而允许类似于广度优先搜索(BFS)的推理过程。

虽然模型可能无法在最初做出正确的决定,但它可以在连续的思考中保持许多可能的选择,并在一些隐含价值函数的指导下,通过推理逐步消除不正确的路径。

训练过程

在训练时,模型接收问题作为输入,并期望通过推理过程生成答案。作者利用语言CoT数据来监督持续思考,实施多阶段训练。

如图2所示,初始阶段,模型在常规CoT实例上进行训练。后续阶段(第k阶段),CoT中的前k个推理步骤被k × c个连续思维所取代,(c为超参数,控制取代单个语言推理步骤的潜在思维的数量)。

作者在训练阶段切换时重置优化器状态,插入 和 token来封装连续的思维。

在训练过程中,作者优化了正常的负对数似然损失,但屏蔽了问题和潜在思维的损失。另一个关键点是,目标函数并不鼓励使用连续的思维来压缩语言思维,而是促进对未来推理的预测。

因此,与人类语言相比,LLM可以从中学习更有效的推理步骤表示。

连续思维是完全可微分的,允许反向传播。不过Coconut的训练效率仍然有待优化:虽然可以通过使用KV cache来避免重复的计算,但多个前向传递的顺序性阻碍了并行训练。

Coconut的推理过程可以看成是在latent和language模式之间切换。

对于思考的终止位置,作者考虑了两种可能的策略:a)在潜在思维上训练二元分类器,使模型能够自主决定何时终止潜在推理;b)始终将潜在思维填充到恒定的长度。

作者发现这两种方法的效果都不错。为了简单起见,以下实验中使用第二个选项。

实验

研究人员通过在三个数据集上的实验,验证了LLM在连续潜在空间中进行推理的可行性。这里将模型生成的答案与真实值进行比较来评估准确性,并且分析每个问题新生成的token数量,作为推理效率的衡量标准。

数学推理使用GSM8k作为数据集,由小学水平的数学问题组成,问题更加多样化,与现实世界的用例非常相似。

逻辑推理涉及使用逻辑规则和已知条件来证明或反驳结论。这要求模型从多个可能的推理路径中进行选择,正确的决策通常依赖于提前探索和规划。

这里使用带有虚构概念名称的5-hop ProntoQA。对于每个问题,都会随机生成一个树形结构的本体,并以自然语言描述为一组已知条件,要求模型根据这些条件判断给定的陈述是否正确。

作者发现ProntoQA的生成过程比较困难,因为本体中分散注意力的分支总是很小,从而减少了对复杂规划的需求。

为了解决这个问题,本文应用了新的数据集构建管道,使用随机生成的DAG来构建已知条件。生成的数据集要求模型对图进行大量规划和搜索,以找到正确的推理链。这个新数据集被称为ProsQA,如下图所示。

实验考虑以下基线:

1)CoT:使用完整的推理链来训练语言模型,并进行监督微调,推理过程中,模型先生成推理过程再输出回答。 2)No-CoT:LLM直接生成答案。 3)iCoT:使用语言推理链进行训练,并将CoT 「内化」。训练过程中,推理链开头的token会逐渐被移除,最后只剩下答案。推理过程中,模型直接预测答案。 4)Pause token:模型仅使用问答进行训练,没有推理链。但在问题和答案之间插入了特殊token,为模型提供了额外的计算能力来得出答案。

实验还评估了本文方法的一些变体:

1)w/o curriculum:直接使用最后阶段的数据,不进行多阶段训练。 2)w/o thought:使用多阶段的训练,逐渐去除语言推理步骤,但不使用任何连续的潜在思维。这在概念上与iCoT相似,但实际的训练过程与Coconut保持一致。 3)Pause as thought:使用特殊的 token来代替连续的思考,并应用与Coconut相同的多阶段训练。

表1显示了所有数据集的总体结果。Coconut的效率很高,并且在ProntoQA和ProsQA上显示出比CoT更好的性能。

上图展示了Coconut将不同痕迹的分布编码到连续的思想中,为规划密集型推理任务启用了更高级的推理模式。

图5显示了ProsQA上不同推理方法的比较分析。随着更多地通过连续思考(增加k)进行推理,最终答案的准确性(左)和正确推理过程的速率(右)都会提高。

此外,「幻觉」和「错误目标」的发生率会降低,这也说明当潜在空间发生更多推理时,规划能力会更好。

图6显示了一个案例研究,其中CoT产生幻觉(一个不存在的边)导致了错误的目标,但Coconut(k=2)成功解决了这个问题。潜在推理可以避免预先做出艰难的选择,模型可以在后续步骤中逐步消除不正确的选项,并在推理结束时获得更高的准确性。

参考资料:

https://arxiv.org/abs/2412.06769

https://x.com/tydsh/status/1866577470591471788

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
1998年数万华人遭屠杀,中国为何没出兵?26年后答案让人沉默

1998年数万华人遭屠杀,中国为何没出兵?26年后答案让人沉默

哄动一时啊
2026-02-17 22:21:25
暴跌至1%!!他MVP基本被判死刑了....

暴跌至1%!!他MVP基本被判死刑了....

柚子说球
2026-04-03 19:19:26
斯诺克战报!2场10-8,塞尔比翻车,4虎变2虎,赵心童大捷冲决赛

斯诺克战报!2场10-8,塞尔比翻车,4虎变2虎,赵心童大捷冲决赛

刘姚尧的文字城堡
2026-04-03 08:53:30
6亿打水漂?投资人揭《美人鱼2》不上映原因,劣迹艺人害惨周星驰

6亿打水漂?投资人揭《美人鱼2》不上映原因,劣迹艺人害惨周星驰

陈意小可爱
2026-04-04 00:58:34
真敢说!39岁张雪:创业13年重庆从没有支持过我 一个子儿都没有

真敢说!39岁张雪:创业13年重庆从没有支持过我 一个子儿都没有

念洲
2026-04-01 09:39:30
危机四伏!汪小菲马筱梅婚姻亮红灯,产后露原形,能白头偕老很难

危机四伏!汪小菲马筱梅婚姻亮红灯,产后露原形,能白头偕老很难

魔都姐姐杂谈
2026-04-01 19:43:07
儿童手表迎首个强制性国标 小天才社交壁垒被击破

儿童手表迎首个强制性国标 小天才社交壁垒被击破

快科技
2026-04-02 15:22:17
4月3日译名发布:小泉进次郎

4月3日译名发布:小泉进次郎

参考消息
2026-04-03 14:11:04
17.98万起!丰田官宣:新车正式上市

17.98万起!丰田官宣:新车正式上市

高科技爱好者
2026-04-03 23:18:57
乌克兰摧毁俄最大乌法炼油厂!俄军宣称占领卢甘斯克被打脸

乌克兰摧毁俄最大乌法炼油厂!俄军宣称占领卢甘斯克被打脸

项鹏飞
2026-04-02 21:02:46
伊朗甩出八座桥的报复清单:这不是炸桥预告,是一封精心计算战书

伊朗甩出八座桥的报复清单:这不是炸桥预告,是一封精心计算战书

Ck的蜜糖
2026-04-04 01:24:00
第91波打击开始!飞行员宿舍被炸飞,美军基地留下满地无主的汽车

第91波打击开始!飞行员宿舍被炸飞,美军基地留下满地无主的汽车

爱吃醋的猫咪
2026-04-03 22:04:05
特朗普放炸桥视频施压 伊朗外长说不会投降

特朗普放炸桥视频施压 伊朗外长说不会投降

环球网资讯
2026-04-03 06:13:36
日媒:闯使馆事件日本政客狡辩“中方没要求道歉,所以不用道歉”

日媒:闯使馆事件日本政客狡辩“中方没要求道歉,所以不用道歉”

赫岝乡村摄影
2026-04-04 00:43:57
战功赫赫的红军军团长,整编时竟无人愿收,主席震怒直言纯属瞎胡闹

战功赫赫的红军军团长,整编时竟无人愿收,主席震怒直言纯属瞎胡闹

磊子讲史
2026-03-30 15:41:41
特朗普“全国讲话”:荒诞虚伪的政治闹剧

特朗普“全国讲话”:荒诞虚伪的政治闹剧

烽火瞭望者
2026-04-03 06:13:34
郑丽文受邀访问大陆,蒋万安再发声:坚持反对统一,要求对等尊严

郑丽文受邀访问大陆,蒋万安再发声:坚持反对统一,要求对等尊严

阿尢说历史
2026-04-02 23:55:17
局势升级!首艘开往中国的油轮遇袭,这究竟是误伤还是刻意警告?

局势升级!首艘开往中国的油轮遇袭,这究竟是误伤还是刻意警告?

共工之锚
2026-04-04 00:33:00
德国工程师:中国人难道不知南水北调的弊端,环保大国称号何来?

德国工程师:中国人难道不知南水北调的弊端,环保大国称号何来?

心灵得以滋养
2026-03-13 22:44:44
现役第一!哈登生涯17季全部晋级季后赛 仅输邓肯犹他二老

现役第一!哈登生涯17季全部晋级季后赛 仅输邓肯犹他二老

醉卧浮生
2026-04-03 12:31:24
2026-04-04 02:16:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14885文章数 66745关注度
往期回顾 全部

科技要闻

5万辆库存车,给了特斯拉一记重拳

头条要闻

特朗普非常生气要大清洗 陆军部长、FBI局长等或被调整

头条要闻

特朗普非常生气要大清洗 陆军部长、FBI局长等或被调整

体育要闻

被NBA选中20年后,他重新回到篮球场

娱乐要闻

夏克立官宣再婚当爸?否认婚内出轨

财经要闻

专家称长期摄入“飘香剂”存在健康隐患

汽车要闻

你介意和远房亲戚长得很像吗?

态度原创

本地
游戏
旅游
艺术
公开课

本地新闻

跟着歌声游安徽,听古村回响

三十年铁律崩塌!主机涨价疯魔 IGN警告行业"将死"

旅游要闻

一秒坠入油画里!小火车、花海、露营……千亩金黄等你来打卡

艺术要闻

她的作品藏着绝世美女,看看你能认出几个!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版