网易首页 > 网易号 > 正文 申请入驻

AI「智能体组织」时代开启!微软提出异步思考AsyncThink

0
分享至


从大语言模型(LLM)到智能体(Agent),代表了人工智能(AI)系统从“言”到“行”的范式跃迁。

更进一步,当多个 Agent 以组织形态出现,并通过协同合作、并行工作产出超越个体智能的成果时,AI 的下一个范式——“智能体组织”(agentic organization)——便出现了。

然而,尽管当前的 LLM 作为个体 Agent 已经展现出令人惊讶的推理能力,但要真正实现“智能体组织”的愿景,LLM 不仅要能够独立思考,还必须作为一个有组织的系统进行协同思考。

为此,微软团队提出了一个名为“异步思考”(AsyncThink)的 LLM 推理新方法,即把内部思考过程组织成可以并发执行的结构,从而解决现有并行思考方法中存在的延迟高、适应性、动态性差等难题。

实验表明,与并行思考相比,AsyncThink 在提高数学推理准确性的同时,将推理延迟降低了 28%。此外,AsyncThink 还可以将其学到的异步思考能力进行泛化,无需额外训练即可有效应对未见任务。


论文链接:https://arxiv.org/pdf/2510.26658

研究方法

AsyncThink 的核心为“组织者-工作者”(Organizer-Worker)思考协议。其中,LLM 扮演两个角色:

一方面,它是一个“组织者”,负责把复杂问题拆分成子任务,并通过“Fork”(分叉)和“Join”(合并)来安排任务的顺序;另一方面,它还是一个“工作者”,执行这些子任务并返回中间结果。


图|AsyncThink 的思考协议示例。该协议通过 Fork-Join 操作实现异步思考,从而控制思考轨迹。

通过这种方式,模型不仅能并行处理多个子问题,还能动态调整思路,实现更灵活、更高效的推理。

为训练 AsyncThink 模型,他们提出了一个两阶段训练过程:冷启动格式微调、强化学习。

1.冷启动格式微调

这一阶段是让现有的 LLM 经过冷启动格式微调,掌握AsyncThink 框架的组织语法与行动结构。

在数据合成环节中,由于现有语料中几乎不存在“组织者–工作者”的思考样本,研究团队采用GPT-4o生成合成训练数据。GPT-4o 首先分析每个输入问题,识别出可独立求解的思考片段;随后按照AsyncThink 协议格式分别生成组织者与工作者的推理轨迹。

在结构初始化环节中,为了提升模型结构的灵活性,研究团队随机采样不同的组织动作序列,并将其中一种结构样例嵌入训练提示中,让模型在各种结构下都能学习,从而生成更具多样性的思考拓扑。

在数据合成与结构初始化完成后,研究团队对基础 LLM 进行监督微调,赋予模型发出有效组织者行动的能力

在这一阶段,模型尚未学会用异步思考产生正确的答案,而只是模仿格式。

2.强化学习

由于第一阶段只教授了组织者行动的句法结构,模型仍然缺乏利用这种思考机制来生成最终答案的能力。因此,研究团队进行了第二阶段——强化学习,通过奖励来指导模型学习效率高、准确性高的策略。


图|AsyncThink 强化学习框架示意图。

在奖励模型中,通过准确性奖励确保最终答案是正确的;通过格式奖励确保模型生成的轨迹是可执行的;通过思考并发奖励促使模型寻找机会进行异步而非顺序思考。

训练时,研究团队改进了群组相对策略优化(GRPO)算法,让它适应异步结构。模型生成的不再是一条简单的思维链(CoT),而是一个由组织者和多个工作者组成的“思考结构”。最终的奖励会共享给整个结构的所有输出,确保每个部分都朝同一个目标优化。

通过精细的奖励模型和优化机制,AsyncThink 模型能够动态且高效地协调其内部“智能体组织”来解决实际问题。

实验评估

研究团队评估了 AsyncThink 模型在多解倒计时、数学推理和数独任务上的表现。实验表明,与序列思考和并行思考模型相比,AsyncThink 始终能实现更高的准确性,同时降低延迟

此外,研究团队还通过消融研究进一步分析了其性能,凸显了 AsyncThink“两阶段训练过程”的有效性。

具体如下:

1.多解倒计时实验

AsyncThink 的全对率达到89.0%,比并行思考(68.6%)和序列思考(70.5%)都高。这意味着它不仅准确率更高,还能覆盖更多解答。


图|多解倒计时任务评估结果。≥a Correct 表示模型能否成功找到给定问题的唯一正确解。

2.数学推理实验

在 AIME-24 上:AsyncThink 的准确率为38.7%,延迟为1468.0;在 AMC-23 上:AsyncThink 的准确率为73.3%,延迟为1459.5。相较传统并行推理,它在保证精度的同时减少了约 28% 的推理延迟


图|AIME-24 和 AMC-23 的数学推理评估结果。

3.跨任务泛化实验

虽然只在倒计时任务上训练,但直接迁移到 4×4 数独时,AsyncThink 依然表现最好准确率达到 89.4%延迟最低。表明 LLM 学到的不是具体的模式,而是一种可迁移的组织性思考模式。


图|AsyncThink 在 4 × 4 数独任务上的评估结果。

4.消融实验

在消融实验中,研究团队发现:格式微调(FormatSFT)能够让 LLM 学会“语言”,即如何 Fork 与 Join;而强化学习(RL)让 LLM 学会“策略”,即何时 Fork、如何 Join 才能更快更准;并发奖励(RηReward则让 LLM 学会“效率”——平衡准确率与延迟。


图|通过移除 AsyncThink 的关键组件进行的消融实验结果。

未来工作

尽管 AsyncThink 在提升 LLM 推理准确性和降低推理延迟方面表现出显著优势。但它只是实现“智能体组织”这一愿景的一个起点。

在未来的工作中,研究团队将围绕“规模/多样性扩展”“递归智能体组织”“人-AI智能体组织”三方面继续探索“智能体组织”

1.扩展智能体的规模和多样性

首先是扩展“工作者”的数量。未来的工作应该探索异步思考的 scaling laws:随着智能体池容量从少数几个增长到数百甚至数千,准确性-延迟的权衡将如何演变。

其次是扩展智能体的多样性。超越同质化的智能体池,转向由异构专家工作者组成的大型组织。这些智能体可以针对特定领域(如数学、编码、数据分析)进行微调,且至关重要的是,它们可以配备不同的外部工具(如代码解释器、数据库查询引擎或网络搜索 API)。这为组织者带来了更复杂和更强大的学习问题。

2.递归智能体组织

在这个范式中,任何工作者都可以动态地被提升为子组织者,从而获得 Fork 自己的子工作者团队的能力。这将实现一个灵活的分层结构,自然地适用于需要多级分解的深度嵌套和复杂问题。例如,一个出色组织者可能会委托一个宽泛的查询,例如“解决 * 问题”,而指定的工作者则充当子组织者,Fork 出三个新的子工作者并行独立地测试不同的引理(lemmas)。

3.人类-AI智能体组织

一个关键前沿是通过将人类直接整合到智能体组织中来创建人类-AI协作框架。这可能涉及人类作为组织者,使用 Fork 协议将任务分配给 AI 工作者,或者人类作为工作者,由 AI Fork 出需要人类判断的任务。此外,协作规划将允许人类和 AI 在执行前共同设计异步策略。这一方向超越了纯粹的 AI 自主性,将实现强大的混合智能

整理:潇潇

如需转载或投稿,请直接在本文章评论区内留言

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
4.99万起,京东“国民好车”正式开售

4.99万起,京东“国民好车”正式开售

中国经营报
2025-11-09 20:50:30
特斯拉高速上失控 车主:我有20年驾龄了 怀疑车有问题

特斯拉高速上失控 车主:我有20年驾龄了 怀疑车有问题

3DM游戏
2025-11-09 15:47:41
这一夜,巩俐头发白了,朱珠和卡地亚高层跳舞,郭晶晶盘发贵气

这一夜,巩俐头发白了,朱珠和卡地亚高层跳舞,郭晶晶盘发贵气

柠檬有娱乐
2025-11-09 09:45:52
美军的最后底牌,我军短期很难破解,未来台海之战或埋下重大隐患

美军的最后底牌,我军短期很难破解,未来台海之战或埋下重大隐患

芳芳历史烩
2025-11-01 19:35:58
乔治老五都危矣?246万锋线20+17+10生涯之夜:队记盼他续长约

乔治老五都危矣?246万锋线20+17+10生涯之夜:队记盼他续长约

颜小白的篮球梦
2025-11-09 11:15:47
张国荣真正死因曝光!向太:根本没抑郁症,本来能活,男友不让救

张国荣真正死因曝光!向太:根本没抑郁症,本来能活,男友不让救

八斗小先生
2025-09-08 14:05:28
一旦台海爆发冲突,最难的不是台湾,而是距大陆仅50公里的东引岛

一旦台海爆发冲突,最难的不是台湾,而是距大陆仅50公里的东引岛

放开他让wo来
2025-11-08 22:41:14
全运男篮八强抽签:辽宁广东上半区有望会师半决赛 四川vs北京

全运男篮八强抽签:辽宁广东上半区有望会师半决赛 四川vs北京

醉卧浮生
2025-11-09 10:17:01
斯诺克最新排名:吴宜泽双线飙升,成世界第13,单赛季第4!

斯诺克最新排名:吴宜泽双线飙升,成世界第13,单赛季第4!

三秋体育
2025-11-09 22:47:06
第93分钟绝平,凯恩绝境救主,德甲霸主爆冷,连胜终结

第93分钟绝平,凯恩绝境救主,德甲霸主爆冷,连胜终结

足球狗说
2025-11-09 00:28:14
为年轻用户打造Dream Car,零跑推出纯电掀背轿跑

为年轻用户打造Dream Car,零跑推出纯电掀背轿跑

Report汽车
2025-11-09 01:24:00
李兆会的18年复仇路

李兆会的18年复仇路

诗意世界
2025-10-10 14:09:20
为什么建议大家使用现金支付?原因很现实,银行人员告诉你答案

为什么建议大家使用现金支付?原因很现实,银行人员告诉你答案

小俊分享
2025-10-23 21:48:21
康熙、雍正、乾隆三位帝王都吃些什么?揭开康雍乾三朝的顶级饮食

康熙、雍正、乾隆三位帝王都吃些什么?揭开康雍乾三朝的顶级饮食

食色那些事
2025-11-09 10:55:03
「最惨超女」黄雅莉:没工作没积蓄,已生子,住5㎡三室一厅,活成了城市版李子柒

「最惨超女」黄雅莉:没工作没积蓄,已生子,住5㎡三室一厅,活成了城市版李子柒

麦子熟了
2025-11-08 21:07:06
文班18+18马刺险胜鹈鹕 福克斯复出首秀24分墨菲41+9

文班18+18马刺险胜鹈鹕 福克斯复出首秀24分墨菲41+9

醉卧浮生
2025-11-09 11:27:34
曾琦,多张漂亮优雅照片曝光,主角双双停职,患者信任碎一地!

曾琦,多张漂亮优雅照片曝光,主角双双停职,患者信任碎一地!

眼光很亮
2025-11-07 14:09:36
打不打就在特朗普一念之间,美方派人来问,中方救不救委内瑞拉?

打不打就在特朗普一念之间,美方派人来问,中方救不救委内瑞拉?

历史有些冷
2025-11-08 17:10:02
胡琏孙女祭拜聂曦,称会联系其后代看是否想公开露面,李立群表态

胡琏孙女祭拜聂曦,称会联系其后代看是否想公开露面,李立群表态

诗意世界
2025-11-08 21:58:42
“高中签率”新股,来了!

“高中签率”新股,来了!

新浪财经
2025-11-09 16:34:00
2025-11-10 00:07:00
学术头条
学术头条
致力于学术传播和科学普及,重点关注AI4Science、大模型等前沿科学进展。
1413文章数 5081关注度
往期回顾 全部

科技要闻

黄仁勋亲赴台积电“讨要更多芯片”

头条要闻

陕西男子打晕妻子误以为已死 将人扔下土崖致其死亡

头条要闻

陕西男子打晕妻子误以为已死 将人扔下土崖致其死亡

体育要闻

他只想默默地拿走最后一亿美元

娱乐要闻

《繁花》事件影响:唐嫣工作被取消

财经要闻

10月CPI同比涨0.2% PPI同比下降2.1%

汽车要闻

钛7月销破2万 霜雾灰与青峦翠配色正式开启交付

态度原创

游戏
手机
亲子
本地
家居

《8号出口》开发商新作改名 逃离巨怪居住的星球

手机要闻

曝直板iPhone手机屏下摄像头规划2027年上线,预计采用3D屏下人脸识别

亲子要闻

小龚大夫上线了

本地新闻

这届干饭人,已经把博物馆吃成了食堂

家居要闻

现代自由 功能美学居所

无障碍浏览 进入关怀版