网易首页 > 网易号 > 正文 申请入驻

大模型如何「在思考中使用工具」|Interleaved Thinking

0
分享至

DeepSeek V3.2 提到了一个东西,属于核心迭代
在思考中,使用工具
技术报告里,把这个叫Thinking in Tool Use

在这里与大家说道,这东西的由来、演进和现状,方便吹牛逼用

这里还有份报告解读:

所谓「Thinking in Tool-Use
顾名思义,就是大模型一边调用工具,一边推理,多次循环后,最后输出答案

行业里,常把这个叫做 Interleaved Thinking,本文沿用这个说法

类似的东西,最早是 Anthropic 提出的
今年初发布的,叫 Extended Thinking。额外说明:o1 不算,那个没工具调用


相关内容,发表于 25年2月24日:《Claude’s extended thinking》

在开源模型里,最早是 OpenAI 开源的 oss 最先支持的
说法是 interleaving tool calls within the CoT


相关内容,发表于 25年8月5日:gpt-oss Model Card

之后,国内的几家模型厂,也给到了类似说法:

  • MiniMax M2 叫它「交错思维链」

  • Kimi K2 叫它「边思考边使用工具」

  • DeepSeek v3.2 叫它「思考模式下的工具调用」

各家说法不同,本质是一件事
大模型,如何在保留推理状态的同时,进行多次工具调用

有关交错思维链,MiniMax 前段时间还写了篇文章,强调这东西的重要性,具体后面细说

技术原理

先说下推理模型是怎么使用工具的

举个例子,你问模型一个问题:
一台最新苹果手机,和两台最新的豆包手机,谁更贵?

以最开始的 o1 模型为例,o1 这个模型并不能进行工具调用,只能回答
对不起,我无法访问网络,并不知道谁更贵

再之后,一些朋友对 o1 类的模型进行了工程优化(比如具有联网能力的 DeepSeek R1),让他能够在回答前,先搜索一些问题,然后多次调用模型,流程就变成了这样:
先搜最新的苹果手机读结果决定下一步搜什么再搜索再读结果 → ... → 整理答案


标准的工具调用流程

但实际上...在处理先搜最新的苹果手机这一步中,就会发现苹果有多款机型
如果只拿最新的 iPhone 17 比较,肯定不妥,毕竟还有 air 和 pro

作为人的话,可能会中间留个心眼:最新的苹果手机,需要考虑系列吗?
那么,如果是大模型,会记住这些东西吗?

早期做法:丢掉
具体来说:忘掉所有的中间思考,只保留结果和部分总结
这部分的具体描述,可以参加 OpenAI 的 o1 文档:思维链是隐藏的


早期做法:每轮丢弃推理状态

所以,在进行最终判断的时候,大模型的上文可能只有:

  • • iPhone 17 的标准定价为 5999

  • • 豆包手机(努比亚)的标准定价为 3499

然后得出结论:

iPhone 17,不如两台豆包手机贵

但....

作为人的话,我们会保留个心眼,思考过程也记着:

  • • iPhone 17 的标准定价为 5999(同期发售的还有 iPhone Air:7999;Pro:8999)

  • • 豆包手机(努比亚代工)的标准定价为 3499(目前无货,闲鱼 4499)

然后出结论:

iPhone 17,不如两台豆包手机贵 Air 和 Pro 则贵于两台豆包

这种「留心眼」的做法,就是 Interleaved Thinking
模型调用工具拿到结果继续思考(带着之前的推理)再调用工具继续思考...

在这里,计划假设中间结论都会被带到下一轮


Interleaved Thinking:保留推理状态

当然,这里为了方便表达,我对原理进行了极大的删减
实际的做法和流程都会更为复杂
比如...这些推理内容,在何时才会舍弃?

以DeepSeek v3.2为例,论文里是这么描述的:
只有新用户消息到来时,才丢弃推理内容,工具返回结果不触发丢弃

...这样的细节还有许多,还是挺有工程实践&复杂度的

效果差距

对于「保留推理状态 vs 丢弃推理状态」,会有多少差距呢?
对于长链路 Agent 任务,最高能有 +35%+40%
数据来自于 MiniMax 的对比测试数据


对比数据


  • • SWE-Bench Verified:69.4 vs. 67.2, +3.3%

  • • ²:87 vs. 64, +35.9%

  • • BrowseComp:44.0 vs. 31.4, +40.1%

  • • GAIA:75.7 vs. 67.9, +11.5%

  • • xBench:72.0 vs. 66.0, +9.1%

至于为什么差距这么大?

可以这么理解:
一旦丢弃了之前的推理状态,模型的累积理解能力会下降,自我修正能力会减弱

这东西,在长程工具调用和「运行–修复」循环中尤其明显

世界是个草台班子

这里有个现实问题:
很多项目使用了 thinking 模型,但工具的连续调用总是出问题
而且...可能...甚至还没发现

这个其实是 OpenAI 的锅

OpenAI 有多套 API 调用方法:

  • Completions (不再建议使用)

  • Chat Completions

  • Assistants API (压根没人用)

  • Responses API

目前用的最广泛的的,是 Chat Completions api
但... 这玩意儿压根没有 thinking 相关的字段
于是大家只能在 assistant message 里假装 thinking


Chat Completions API 的 assistant message 结构,没有 thinking 相关字段

新的 Responses API 确实支持 reasoning 配置
但它返回的是 reasoning.encrypted_content——加密版本的推理内容
推理过程?更不存在的


Responses API 的 reasoning 配置,注意那个 encrypted_content

能用于多轮对话状态保持,但你看不到原始推理过程

你说 OpenAI 开源的那个 oss 支持?
哈哈哈哈哈哈哈哈哈哈
那套鬼东西,根本没定义接口,怎么实现你就自己看着来吧


OpenAI 的 oss

按照惯性,大家都照着 OpenAI 的 API 规范写代码
但由于 OpenAI 在这个方面过于不干人事儿
各家厂商在这个不完整的规范上各自魔改

仔细看,你会发现.... DeepSeek R1 的 Thinking 结构,和 OpenAI 的也都不一样
然后同样的模型,在硅基流动、火山、官方 api 上,响应结构甚至也都不一样


OpenAI API vs DeepSeek API

于是...调用 API 的时候,thinking 压根没放在上下文
哈哈哈哈哈哈哈哈哈哈

MiniMax 的贡献

事情的另一个角度,MiniMax 反倒是 Thinking 模型的标准化,做了许多生态上的工作,比如与OpenRouter、Ollama、Droid、Vercel、Cline合作,共同推进并实现这一功能的跨平台支持。

具体的可以参见,希望通过推动统一标准,在应用、OpenAI 兼容API、Anthropic 兼容 API 中,来推动 Interleaved Thinking 的广泛支持


相关背景

11 月在纽约 AI.Engineer Summit,MiniMax 研究员 Olive 讲了 Interleaved Thinking


Olive 在 AI.Engineer Summit 上的分享,图中的 ppt 和 ds3.2 颇有相似

然后挨个给生态里的工具提 PR:

  • Cline、RooCode : 让 VS Code 插件支持 Interleaved Thinking

  • Kilo Code : 优化多轮对话的状态保持逻辑

  • OpenRouter、Ollama : 推动平台层面跟进支持

MiniMax 给 Kilo Code 提的 PR

Cline 和 Kilo Code 官方都发推确认了


Cline 官方的确认推文 Kilo Code 官方的确认推文

现在这些平台上,MiniMax M2 是第一个正确支持 Interleaved Thinking 的开源模型

对于其他支持这个机制的模型,比如 DeepSeek V3.2、Kimi K2,直接就能用了。算是给这个这种 thinking,造了个朋友圈

MiniMax 还开源了 Mini-Agent,一个支持 Interleaved Thinking 的 Coding CLI,700+ Star


Mini-Agent 项目

,开发者容易踩坑 MiniMax 还专门写了篇文章,讲怎么在不同 API 格式下正确实现 Interleaved Thinking 算是手把手教学了

最后

Interleaved Thinking 的核心就一句话:
保留推理状态,让模型在多轮工具调用中持续累积理解

最开始的时候,我们对于 Agent 的期待,是它能不能使用工具
然后看到了 ToolFormer 论文、看到了 Plugin、Function Call、JSON Mode
直到去年 8 月,OpenAI 宣布可以在 Structured Outputs 的严格模式下,做到 100% 的成功调用


OpenAI 的 Structured Outputs 公告: Introducing Structured Outputs in the API

而现在,我们的思考变成了「调用工具时,如何保持连贯思考」,刚刚结束的 AWS re:invent 大会上,主题也便是 Agentic AI


转眼三年,有点恍惚...

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
杨幂这回翻车了,穿抹胸裙被扒加厚胸垫,手拿开那一刻身材现原形

杨幂这回翻车了,穿抹胸裙被扒加厚胸垫,手拿开那一刻身材现原形

仙味少女心
2026-03-19 03:04:30
去年在杭州横空出世,瞬间火遍全网!有人“入职”后月入七八万,也有人只待了2天就走

去年在杭州横空出世,瞬间火遍全网!有人“入职”后月入七八万,也有人只待了2天就走

都市快报橙柿互动
2026-03-18 13:36:26
女子被触摸隐私部位后续!衣服全被脱光,商家只开除,拒绝赔偿

女子被触摸隐私部位后续!衣服全被脱光,商家只开除,拒绝赔偿

潮鹿逐梦
2026-03-18 10:26:41
院士团队惊人发现,耳机/手机磁场会加剧空气中磁性颗粒进入大脑,诱发神经毒性

院士团队惊人发现,耳机/手机磁场会加剧空气中磁性颗粒进入大脑,诱发神经毒性

医诺维
2026-03-18 17:05:55
诺奖得主推荐?你被“护关节神药”收割了吗

诺奖得主推荐?你被“护关节神药”收割了吗

网易新闻出品
2026-03-18 20:51:50
艾顿:我意识到自己不是球星 应该做好脏活累活

艾顿:我意识到自己不是球星 应该做好脏活累活

体坛周报
2026-03-19 08:36:18
不可错过!3月19日中午11:00比赛!中央5套CCTV5、CCTV5+直播表

不可错过!3月19日中午11:00比赛!中央5套CCTV5、CCTV5+直播表

皮皮观天下
2026-03-19 07:06:35
以防长:将升级冲突,“伊朗没有人有豁免权,所有伊朗人都是目标”!美国鼓动叙利亚出兵对付真主党,特朗普授权解除船禁60天

以防长:将升级冲突,“伊朗没有人有豁免权,所有伊朗人都是目标”!美国鼓动叙利亚出兵对付真主党,特朗普授权解除船禁60天

每日经济新闻
2026-03-18 23:45:05
“我全程21公里都露着背跑”,男子参加仁寿马拉松,开跑没5米衣服就被撕破

“我全程21公里都露着背跑”,男子参加仁寿马拉松,开跑没5米衣服就被撕破

大风新闻
2026-03-18 14:05:14
欧冠晋级夜:巴萨8-3纽卡 红军4-1 热刺5-7马竞 拜仁10-2亚特兰大

欧冠晋级夜:巴萨8-3纽卡 红军4-1 热刺5-7马竞 拜仁10-2亚特兰大

狍子歪解体坛
2026-03-19 06:08:55
拉里贾尼遇刺,伊朗内部“能谈的人”更少了,美国“脱身”更难了?

拉里贾尼遇刺,伊朗内部“能谈的人”更少了,美国“脱身”更难了?

上观新闻
2026-03-18 23:01:06
神奇的摩萨德——拉里贾尼之死的传奇细节

神奇的摩萨德——拉里贾尼之死的传奇细节

西楼饮月
2026-03-18 13:39:20
网传闲鱼有“大神”出售工作,每月只交5000元,剩下都是自己的

网传闲鱼有“大神”出售工作,每月只交5000元,剩下都是自己的

丫头舫
2026-03-18 16:05:12
伊朗:“彻底打击”地区所有美军基地和以军集结点!美军“福特号”航母撤离红海回基地维修,特朗普:霍尔木兹航运安全责任不应由美国承担

伊朗:“彻底打击”地区所有美军基地和以军集结点!美军“福特号”航母撤离红海回基地维修,特朗普:霍尔木兹航运安全责任不应由美国承担

每日经济新闻
2026-03-18 22:33:04
中国学术不端相当普遍!算法检测中国50万篇硕博士学位论文后得出结论

中国学术不端相当普遍!算法检测中国50万篇硕博士学位论文后得出结论

齐天候
2026-03-18 15:57:04
暴跌93%,理想失控了!

暴跌93%,理想失控了!

财经三分钟pro
2026-03-18 19:04:41
卡塔尔终于憋不住,站出来了!炸完油气田,以扛不起,供出美国

卡塔尔终于憋不住,站出来了!炸完油气田,以扛不起,供出美国

潋滟晴方DAY
2026-03-19 02:05:14
7-2!4-0!疯狂一夜,巴萨狂轰7球,利物浦翻盘,马竞淘汰热刺

7-2!4-0!疯狂一夜,巴萨狂轰7球,利物浦翻盘,马竞淘汰热刺

足球狗说
2026-03-19 05:57:58
伊朗街头惊现市民游击队!扫射检查站后撤离,巴斯基民兵集体拒岗

伊朗街头惊现市民游击队!扫射检查站后撤离,巴斯基民兵集体拒岗

老马拉车莫少装
2026-03-19 00:30:55
后续!安徽男子4s店蹭260顿饭被拉黑 报警十次不和解 正脸照被扒

后续!安徽男子4s店蹭260顿饭被拉黑 报警十次不和解 正脸照被扒

社会日日鲜
2026-03-19 05:56:38
2026-03-19 09:51:00
赛博禅心
赛博禅心
拜AI古佛,修赛博禅心
332文章数 49关注度
往期回顾 全部

科技要闻

腾讯电话会:马化腾首谈“养虾”构想

头条要闻

牛弹琴:一个重大转折点突然出现 战争进入疯狂阶段

头条要闻

牛弹琴:一个重大转折点突然出现 战争进入疯狂阶段

体育要闻

守住底线的中国女足,下一步该怎么走?

娱乐要闻

田亮一家新年全家福!森碟变清纯少女

财经要闻

断油危机,冲击亚洲?

汽车要闻

价格10万级 四驱中级电混轿车银河星耀7来了

态度原创

教育
艺术
房产
游戏
数码

教育要闻

多地宣布生物地理不再计入中考总分

艺术要闻

江青作品惊艳!字写得灵动,秘诀竟在用笔!

房产要闻

大规模召回离职员工?碧桂园最新回应!

《红色沙漠》IGN评分引质疑 连《星鸣特攻》都不如?

数码要闻

AppleVis发布2025苹果视觉无障碍报告,“液态玻璃”成扣分项

无障碍浏览 进入关怀版