AI 告别独行：OpenAI 研究科学家 Noam Brown 讲透多智能体 “团队作战” 新规则|机器人|noam|brown|openai

分享至

全文 6,000字 | 阅读约 40 分钟

（OpenAI研究员 Noam Brown访谈精彩片段）

在单机 LLM 时代，你给模型 1 秒算力，它就只“想”1 秒；

Noam Brown 说，这种玩法已经过时了。

6 月 20 日，OpenAI 首席研究科学家、多智能体研究负责人 Noam Brown，在 Latent Space 播客中描绘了一份全新蓝图：

把推理阶段的算力增加 1 倍，等于把模型规模扩张 1,000 到 10,000 倍。

这条新曲线背后，他提出了两个关键机制：

延长思考时间：让模型在回答问题时多'停一停'，而不是急着给答案；
团队式协作：将问题拆解，交给不同“专业智能体”并行处理，最后再达成共识。

更有意思的是—— Noam 并不是在纸上谈兵。

就在两个月前的外交游戏世界锦标赛上，他本人亲自夺冠。他坦言，自己就是被 OpenAI 内部 AI 系统 Cicero 训练出来的，并把“推理协作流程”原封不动搬上现实牌桌，效果立竿见影。

一句话概括他的判断：AI 要想真正提速，不靠做大，而靠组队。

接下来，你将在本文读到：

为什么 Noam 认为"让 AI 多思考一会儿"，比单纯增加模型大小更管用；
AI 团队协作如何从"实验阶段"发展成可以直接应用的标准方案；
开发者真正需要学会的，不是怎么写提示词，而是如何管理和协调 AI 团队。

Noam Brown 已经写下这份“AI 团队作战”新规则，关键问题是：你准备好当 AI 团队的指挥官了吗？

第一节｜从外交游戏到世界冠军：AI 开始学会合作

Noam Brown 的研究生涯，从教 AI 玩游戏开始。

他曾是Poker（德州扑克）AI 的核心研究员，最早在 Facebook（现 Meta）带队做出超越人类顶级牌手的对战程序。相比扑克的数学博弈，'Diplomacy'外交游戏的复杂度要高出几个档次。

这不是拼牌技，也不是靠运气。外交游戏的核心在于：谈判与联盟。

玩家之间需要不断交谈、交换信息、结盟背叛，同时又得让人信你，才能走到最后。这让它成为 AI 最难攻克的类型之一——

不仅要懂语言，还要像真人一样会说话。

冠军之路不是胜负，而是“共事能力”的展示

Noam 回忆说，在开发 Cicero（OpenAI 内部一个用于玩外交游戏的 AI 系统）时，他发现：这不再是一个模型输出句子的任务，而是一个懂怎么互动的挑战。

他说：

“当机器人说出一句人类通常不会说的话，你不知道这是个 bug，还是它真的很聪明。”

为了解决这个问题，他不是光调模型，而是自己去学游戏。

他看比赛录像、刷教程、自己参赛，甚至在调试过程中，还被模型启发反向提升了技巧。他说：“Cicero 有时会做出人类不会选的策略，但那不是错，那是我没想到。”

2022 年底，Cicero 正式公开时，已经可以在外交平台上击败绝大多数人类玩家。但 Noam 没停下。他继续用这套 AI 思路练习自己。

直到 2025 年，他亲自参加了旧金山举办的World Diplomacy Championship（世界外交锦标赛），并拿下冠军。

他在播客中坦言：我是在开发 Cicero 的过程中学会这个游戏的。甚至在比赛中，我把 AI 的推理方式搬到了现实牌桌上，结果非常有效。

最关键的不是他赢了比赛，而是—— 他让我们看到，AI 不只是和人“对话”，而是能和人一起完成复杂目标。

它不再只回答问题，而是开始理解：如何在多方交互中推进自己的目标。

真正厉害的 AI，不是装得像人，而是“被人信任”

Noam 总结说：

“我们早期很担心，万一玩家意识到自己在和 AI 对话，他们就会进入一种‘防机器人’模式，开始处处提防。但有意思的是，他们根本没意识到。”

为什么？因为 Cicero 并不像传统机器人那样“机械”或“刻板”，反而学会了用人类的语言模式自然地参与沟通，甚至偶尔出错，也能像人类那样糊弄过去。

比如有人对它说：“你上次不是答应和我联合吗？”

模型却回：“我没说过这话。”

对方贴出聊天记录说：“你看，就在这里。”

模型继续说：“不，你记错了。”

大多数人会怎么想？Noam笑说：

人类玩家反应是——‘哦，也许他昨天太累了，或者喝醉了，或者在逗我。’ 他们并没有立刻想到‘这是个机器人’。

这说明了一件事：

当 AI 不再装聪明，而是真的“懂互动”，它就能自然地融入协作型环境。

外交游戏只是起点。在 Noam Brown 看来，Cicero 代表的是一种新的 AI 能力方向：不是更聪明，而是更擅长一起完成任务。

这，正是“AI 团队作战”的开端。

第二节｜AI 是怎么“想”出一个好答案的？

Noam Brown 提到一个关键问题：很多人以为 AI 是越训练越聪明，但其实，让它在回答问题之前多想几秒，比你给它换一个更大的模型还管用。

他说：

在推理阶段多花一点计算资源，就像你让模型多思考几分钟，它会给出完全不同的答案。

这就是他口中的 “推理计算”（test-time compute）。简单说，就是：你不是换了个更大的脑子，而是用原来的脑子，多花点时间，好好想一想。

Noam 举了一个非常打动人的类比：

“我们发现，推理计算的提升相当于把模型规模放大 1000 到 10000 倍。”

换句话说：

你不一定非得去造一个更大的模型；
把原有模型用对方法，让它思考得更充分，它就会“表现得像个天才”。

真正的推理，是把一个想法拆成好几步

那 AI 到底是怎么多想一步的？

Noam 用了我们熟悉的“快思慢想”模型——这不是个术语，而是一本畅销书的名字，书里把人类思维分成两种：

第一种是快速反应、自动回答，比如别人问你“2+2等于几”，你不假思索就说“4”；
第二种是需要花时间思考的，比如让你估算10年后自己能存多少钱，这时候你就得一点点算、回忆、判断。

实际上，AI 模型也有这两种能力。但如果它还不够强，‘慢思考’根本帮不上它。

他说早期的 GPT-2 模型，根本没法从“慢思考”中受益——你让它多想，它也想不明白。但等模型强到一定程度，像 O1、O3 这种新一代推理模型，就能把一个任务拆成多步，自己一步步理清楚。

这不是随机试试，而是像人一样：

先把问题拆开，
再想每一步该怎么处理，
最后把它们重新组合成一个有逻辑的回答。

不是聪明，而是懂得怎么思考

Noam 在访谈里特别提到：

如果你试图让一只鸽子认真下棋，它一千年都学不会。

这句话虽然听起来好笑，但其实说得很深：不是想得越久就越聪明，得先有理解问题的能力。

很多人误以为推理模型就是在硬想答案，Noam 想表达的是：

你必须先给模型打好底子——语言能力、记忆力、常识感；
然后再通过训练，让它习惯把任务拆成一连串的思路；

这个过程，其实和人类大脑的发展非常像。

人类的大脑也是分层进化的。你得先进化出基本语言和逻辑，才能再长出更复杂的思考方式。

今天我们看到的 O3、GPT-4o 能做逻辑推理、结构分析、思路组织，都是因为它们“底层的基本能力”足够了，才有可能做“慢思考”。

推理不是插件，是思维方式

很多 AI 工程师会问：那是不是可以在模型上装个推理插件？

Noam 给出的隐喻很明确：这不是外挂，而是你要训练出一种新的行为方式。

真正有效的推理模型，不是你加几行代码就能让模型想清楚，而是——

它知道什么时候该慢下来，
它知道怎么一步步拆解问题，
它知道每一步之间要怎么衔接。

他甚至说：我们在研究中看到，这些推理模型表现比外挂更稳定，也更易于控制。

这才是 Noam Brown 所说的推理范式，

它不是让 AI 看起来更聪明，而是让 AI 真正开始思考。

第三节｜AI 的任务不是更聪明，而是帮你决策

Noam Brown 在访谈中讲到一个实验结果：他带领的 OpenAI 团队，用多智能体模型解决复杂任务，效果远超预期。

我们用七个智能体协同处理一个复杂问题，最终模型给出的答案质量比单一模型高出一大截。

这听起来很反直觉——为什么多个 AI 一起干活就更聪明了？

Noam 给出解释：

“每个模型像是一个专注于某个子任务的专家。一个负责拆解问题，一个负责查找信息，一个负责评估方案，一个负责提出建议……这就像现实生活中的团队。”

这种方式，不是把一个大脑搞得越来越大，而是用多个小脑，各司其职，再合力完成一个复杂目标。

这正是多智能体（multi-agent）协作的本质。

模型之间吵一架，答案反而更靠谱

那多个模型怎么协作呢？它们不是都在“各说各话”吗？

Noam 给出了他特别看重的一个策略，叫做 “自洽共识”（consensus through debate）。

简单说，就是：

让多个模型分别给出自己的解法，再互相挑刺、互相提问，最后找出一致结论。

Noam 指出：这不是让 AI 直接产出最优答案，而是让它先彼此挑战，逐步排除不合理的选项。

这种机制非常接近人类的会议讨论——不是谁权威谁说了算，而是通过辩论、质疑、修正，找到大家都认可的合理解。

他特别强调：

这类模型协作出来的答案，更有一致性和稳定性，而不是凭运气。

这就是为什么，他在访谈中反复提到：模型之间不是在比赛，而是在一起‘想明白’。

可控性、稳定性、安全性，反而是协作的副产品

多智能体协作不仅提升了性能，还意外解决了一个老大难问题：AI 可控性。

Noam 觉得：

“我们一直担心模型胡说八道、不受控，但如果你让它们自己讨论，自己验证，就能很大程度上避免这些问题。”

为什么？

因为在传统单模型结构中，一旦 AI 输出错误答案，人类很难介入判断。但在“团队作战”模式里：

每个模型负责一个子任务，可追踪；
结论是讨论出来的，有过程可查；
中间每一步都有“证据链”，而不是黑箱决策。

这就带来了一个意外好处：你不用像以前那样拼命调模型权重、改训练数据，而是可以调整个‘决策流程’。

Noam 表示：如果我们担心一个模型出错，那就让多个模型彼此校验——这比单个模型更可靠，也更安全。

这背后，其实是在做一件事：

让 AI 不再依赖一个超级大脑，而是变成一个高效小分队。

AI 的真正转折点，不是规模，而是组织结构

Noam 最后总结说：

“我们现在正处在一个重要转折点——不再是怎么把模型做得更大，而是怎么把模型用得更巧。”

这句话看似简单，背后是 AI 应用范式的根本转变：

昨天的问题是模型够不够强；
今天的问题是这些模型能不能一起协作；
明天的问题是如何组织它们，完成更复杂任务。

你会发现，Noam 并没有谈“参数量”“训练算法”“数据集”这些传统指标，反而一直强调“协作机制”“思维流程”“讨论策略”。

他甚至回答：

这就像你给一堆聪明人安排工作——不是谁聪明谁赢，而是谁能更好地协作。

因此，AI 的下一个提速关键，不是加大功率，而是换一种合作方式。

你不是在优化一个模型，而是在编排一个团队。

第四节｜不靠插件，开发者要学会排兵布阵

Noam Brown 在访谈中谈到了自己用 OpenAI 的 Codex 编程助手的亲身体验：

Codex 是一个非常聪明的模型，但你会发现，它缺少一个‘真正写过代码的人的经验’。

他说这句话时，并不是在抱怨模型不够强，而是在指出一个本质问题：

AI 很聪明，但对现实场景的熟悉程度太低。

它可以写出语法完美的代码段，也能回答抽象的编程问题，但：

它不知道一个项目真正的优先级；
它不了解“写给用户”这件事意味着什么；
它不会像一个开发者一样，根据团队经验做出取舍。

Noam 的总结很直接：它就像是一个刚毕业的实习生，懂很多东西，但没有任何团队经验。

这也就解释了，为什么很多人用 AI 写代码，初期感觉神奇，但最后总是还得自己返工——因为 AI 缺乏的是“现场感”，缺乏真实团队中的反复磨合。

真正强大的 AI，得像是上了半年班的人

Noam 提出的解决方案，不是继续加大模型规模，而是—— 训练模型去积累协作经验，像一个在团队中待了半年的人那样思考。

他认为：

“我们需要的，不是一个更大的语言模型，而是一个知道如何和别人配合工作的智能体。”

他举了一个例子：比如你问一个普通 LLM：‘请给我一个项目起步计划。’它会列一个看起来不错的流程图，步骤很合理，但你一看就知道，这不是从真实经验里写出来的。

因为它没有真正：

做过决策权冲突的协调；
想过时间线和交付压力的关系；
处理过“沟通失误”后带来的返工问题。

这些能力，我们不可能靠喂更多数据训练出来，必须让模型经历更多‘类似项目的模拟实践’。

多模型组队不是插件，是开发范式的转变

很多工程师会问：是不是以后模型调得更好，就能胜任所有任务？

Noam 的观点是：“这已经是过时的思路了”。

他说：

我们该转变的，不是模型本身，而是你怎么用它。不是靠插件功能，而是靠任务结构。

什么意思？

过去你把 AI 当工具，调个 prompt、装个插件、改点参数，它就多会一点；但现在，你要把 AI 当同事——给它角色、职责、信息流，再设计好协作流程。

这背后是一整套操作范式（operational paradigm）的升级。

Noam 在访谈中举了一个假设性的协作架构构想：

假如未来有一套 AI 协作框架，可以分为“总协调”角色与多个“专长智能体”，再加上一个“共享空间”来同步中间成果——

这将彻底改变 AI 开发的流程。

这不是调优模型参数能做到的，而是像架构师一样去设计整个协作流程。

从用模型到编排模型才是新范式

Noam 在访谈说了一句话，特别适合送给所有开发者：

未来开发者不是去写所有代码，而是编排多个 AI，来完成任务流程。

这不是减少工作量的问题，而是换一种工作方式：

不是每次都去写 prompt，而是设计任务流；
不是每次都自己判断结果，而是让 AI 互相校验；
不是做一锤子买卖，而是不断积累“协作经验”。

用 Noam 的话来说：

“每一个成功的 AI 协作项目，都会像是你雇了一批刚进公司的新人，但他们在不断‘熟能生巧’。”

你要做的，是设计一套能让他们越做越好的工作机制。

第五节｜真正的 AI 团队，怎么协作才有效？

从 Noam Brown 对多智能体系统的研究思路来看，AI 协作不只是技术概念，更需要系统性的架构设计。

基于他透露的研究方向，我们可以推测未来 AI 协作可能包含五个关键要素：

不是你有多个模型就叫团队，而是你设计了调度、角色、反馈、共识和记忆这五个环节。

我们用通俗语言拆解这五个环节：

调度（Dispatch）：谁负责分任务，先做哪一步，谁后接手。就像一个小组有个组长，负责协调每个人的工作顺序。
角色分配（Role Assignment）：每个模型专攻不同领域，比如一个负责理解需求，一个负责执行操作，另一个做质量检查,这是让 AI 各司其职。
反馈机制（Feedback Loop）：一个模型完成后，其他模型能提建议、指出问题，形成团队讨论。
共识形成（Consensus Building）：多个模型给出不同解法，最终统一成一个答案。不是投票，而是逐轮让观点接近，直到大家认同。
长期记忆（Memory）：模型能记住彼此之前说过什么、做过什么，避免反复试错。协作不是一次性的，而是一个持续积累过程。

AI 团队≠人类团队，要换一种设计思路

很多人会把 AI 协作理解成人类合作的复制。但 Noam 明确指出：

你不能把人类组织架构直接套在 AI 上—— AI 没有情绪、没有动力，它们只会执行你设计的流程。

这句话背后，是一个关键提醒：

人类可以靠激励、感情、经验协调协作；
但 AI 团队的运行，全靠任务结构和交互机制的明确性。

你不能指望 AI 自己去沟通，你必须告诉它：

你和谁对话？
你看到的信息范围是什么？
出现冲突时，谁的意见优先？

AI 协作团队，像一场乐团演出——每个模型是演奏者，而你是写下乐谱的人。

AI 的终极目标不是变聪明，而是彼此协作

Noam 在谈话最后，说了一句意味深长的话：我们应该追求的，不是能打败人类的 AI，而是能一起工作的 AI。

他不止一次强调，“人机协作”不是尽头，AI 与 AI 的协作才是真正的新起点。

他甚至提出一个新类比：如果说单个模型是一个人类专家，那多模型协作就是一个跨专业的智囊团。

这个智囊团要做到三件事：

彼此理解——不是输出就好，而是听懂对方的回答
互相补位——有偏差能被发现，有遗漏能被填上
共同负责——不是某个模型拍板，而是集体达成结论

这不再是 prompt 时代的“指令执行”，而是一个需要设计、协作、演化的“AI 组织体”。

如果说 ChatGPT 是 AI 个人助手的代表，那 Noam Brown 想做的，是让 AI 从“一个人帮你”，变成“一整个团队和你共事”。

他不是在设计一个新模型，而是在搭建一整套新协作范式：

从 prompt 到任务调度；
从单轮回答到多轮协同；
从模型输出到团队共识。

一句话总结：

未来不是让 AI 更像人，而是让它们像团队。

这，才是真正的“AI 告别独行”。

结语｜AI 最终不是帮你，是与你共事

在这场长达一小时的对谈中，Noam Brown只一再重申一件事：

我们正处在一个认知单位从‘单人作战’，转向‘团队协作’的转折点。

这意味着，AI 不再是一个能回答问题的工具，而是一个能和他人协同解决问题的智能参与者。

未来，大模型的竞争不再比谁跑得快、答得准，而是比谁能更好组织团队、管理协作过程、达成可信共识。

Noam 所描绘的，不是一种更聪明的 AI，而是一种全新社会结构。

从 prompt 到 protocol，从助手到伙伴，从模型到“文明”——

我们与 AI 的关系，正在被悄悄重写。

多智能体协作的探索才刚刚开始，技术路径还在摸索中，

但变化的信号已经越来越明显。

本文由AI深度研究院出品，内容翻译自Noam Brown在Latent Space播客最新访谈。未经授权，不得转载。

星标公众号，点这里 1. 点击右上角 2. 点击"设为星标" ← AI深度研究员 ⋮ ← 设为星标

参考资料：

https://www.youtube.com/watch?v=ddd4xjuJTyg&t=1988s

https://www.latent.space/p/noam-brown

https://www.reddit.com/r/diplomacy/comments/1jw3eod/world_dipcon_2025_results

来源：官方媒体/网络新闻

排版：Atlas

编辑：深思

主编: 图灵

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

AI 告别独行：OpenAI 研究科学家 Noam Brown 讲透多智能体 “团队作战” 新规则

狂飙19%！美光科技市值破万亿美元

食客吃完面往剩汤中加6勺辣椒酱 被店家不打码发网上

食客吃完面往剩汤中加6勺辣椒酱 被店家不打码发网上

上赛季差点降入英甲，下赛季要踢英超了

台媒贴脸！S妈被问大S嗑药当场沉默

中国铝行业爆单 下一个“煤炭”大周期？

涉水加强 福特烈马亚马逊限量版上市 售价39.98万

态度原创

蓝色系穿搭太适合夏天了！快来看看这些穿搭示范，美得不重样

用云锦的方式，打开江苏南京

猎魂世界：千仞雪/王秋儿售后盘点！售后是越多越好还是越少越好

多国接到撤离警告 俄升级对乌报复性打击

食客吃完面往剩汤中加6勺辣椒酱被店家不打码发网上

食客吃完面往剩汤中加6勺辣椒酱被店家不打码发网上

中国铝行业爆单下一个“煤炭”大周期？

涉水加强福特烈马亚马逊限量版上市售价39.98万

多国接到撤离警告俄升级对乌报复性打击