全文 6,000字 | 阅读约 40 分钟
(OpenAI研究员 Noam Brown访谈精彩片段)
在单机 LLM 时代,你给模型 1 秒算力,它就只“想”1 秒;
Noam Brown 说,这种玩法已经过时了。
6 月 20 日,OpenAI 首席研究科学家、多智能体研究负责人 Noam Brown,在 Latent Space 播客中描绘了一份全新蓝图:
把推理阶段的算力增加 1 倍, 等于把模型规模扩张 1,000 到 10,000 倍。
这条新曲线背后,他提出了两个关键机制:
延长思考时间:让模型在回答问题时多'停一停',而不是急着给答案;
团队式协作:将问题拆解,交给不同“专业智能体”并行处理,最后再达成共识。
更有意思的是—— Noam 并不是在纸上谈兵。
就在两个月前的外交游戏世界锦标赛上,他本人亲自夺冠。他坦言,自己就是被 OpenAI 内部 AI 系统 Cicero 训练出来的,并把“推理协作流程”原封不动搬上现实牌桌,效果立竿见影。
一句话概括他的判断:AI 要想真正提速,不靠做大,而靠组队。
接下来,你将在本文读到:
为什么 Noam 认为"让 AI 多思考一会儿",比单纯增加模型大小更管用;
AI 团队协作如何从"实验阶段"发展成可以直接应用的标准方案;
开发者真正需要学会的,不是怎么写提示词,而是如何管理和协调 AI 团队。
Noam Brown 已经写下这份“AI 团队作战”新规则,关键问题是:你准备好当 AI 团队的指挥官了吗?
第一节|从外交游戏到世界冠军:AI 开始学会合作
Noam Brown 的研究生涯,从教 AI 玩游戏开始。
他曾是Poker(德州扑克 )AI 的核心研究员,最早在 Facebook(现 Meta)带队做出超越人类顶级牌手的对战程序。相比扑克的数学博弈,'Diplomacy'外交游戏的复杂度要高出几个档次。
这不是拼牌技,也不是靠运气。外交游戏的核心在于:谈判与联盟。
玩家之间需要不断交谈、交换信息、结盟背叛,同时又得让人信你,才能走到最后。这让它成为 AI 最难攻克的类型之一——
不仅要懂语言,还要像真人一样会说话。
冠军之路不是胜负,而是“共事能力”的展示
Noam 回忆说,在开发 Cicero(OpenAI 内部一个用于玩外交游戏的 AI 系统)时,他发现:这不再是一个模型输出句子的任务,而是一个懂怎么互动的挑战。
他说:
“当机器人说出一句人类通常不会说的话,你不知道这是个 bug,还是它真的很聪明。”
为了解决这个问题,他不是光调模型,而是自己去学游戏。
他看比赛录像、刷教程、自己参赛,甚至在调试过程中,还被模型启发反向提升了技巧。他说:“Cicero 有时会做出人类不会选的策略,但那不是错,那是我没想到。”
2022 年底,Cicero 正式公开时,已经可以在外交平台上击败绝大多数人类玩家。但 Noam 没停下。他继续用这套 AI 思路练习自己。
直到 2025 年,他亲自参加了旧金山举办的World Diplomacy Championship(世界外交锦标赛),并拿下冠军。
他在播客中坦言:我是在开发 Cicero 的过程中学会这个游戏的。甚至在比赛中,我把 AI 的推理方式搬到了现实牌桌上,结果非常有效。
最关键的不是他赢了比赛,而是—— 他让我们看到,AI 不只是和人“对话”,而是能和人一起完成复杂目标。
它不再只回答问题,而是开始理解:如何在多方交互中推进自己的目标。
真正厉害的 AI,不是装得像人,而是“被人信任”
Noam 总结说:
“我们早期很担心,万一玩家意识到自己在和 AI 对话,他们就会进入一种‘防机器人’模式,开始处处提防。但有意思的是,他们根本没意识到。”
为什么?因为 Cicero 并不像传统机器人那样“机械”或“刻板”,反而学会了用人类的语言模式自然地参与沟通,甚至偶尔出错,也能像人类那样糊弄过去。
比如有人对它说:“你上次不是答应和我联合吗?”
模型却回:“我没说过这话。”
对方贴出聊天记录说:“你看,就在这里。”
模型继续说:“不,你记错了。”
大多数人会怎么想?Noam笑说:
人类玩家反应是——‘哦,也许他昨天太累了, 或者喝醉了,或者在逗我。’ 他们并没有立刻想到‘这是个机器人’。
这说明了一件事:
当 AI 不再装聪明,而是真的“懂互动”,它就能自然地融入协作型环境。
外交游戏只是起点。在 Noam Brown 看来,Cicero 代表的是一种新的 AI 能力方向:不是更聪明,而是更擅长一起完成任务。
这,正是“AI 团队作战”的开端。
第二节|AI 是怎么“想”出一个好答案的?
Noam Brown 提到一个关键问题: 很多人以为 AI 是越训练越聪明,但其实,让它在回答问题之前多想几秒,比你给它换一个更大的模型还管用。
他说:
在推理阶段多花一点计算资源,就像你让模型多思考几分钟, 它会给出完全不同的答案。
这就是他口中的 “推理计算”(test-time compute)。简单说,就是:你不是换了个更大的脑子,而是用原来的脑子,多花点时间,好好想一想。
Noam 举了一个非常打动人的类比:
“我们发现,推理计算的提升 相当于把模型规模放大 1000 到 10000 倍。”
换句话说:
你不一定非得去造一个更大的模型;
把原有模型用对方法,让它思考得更充分,它就会“表现得像个天才”。
真正的推理,是把一个想法拆成好几步
那 AI 到底是怎么多想一步的?
Noam 用了我们熟悉的“快思慢想”模型——这不是个术语,而是一本畅销书的名字,书里把人类思维分成两种:
第一种是快速反应、自动回答,比如别人问你“2+2等于几”,你不假思索就说“4”;
第二种是需要花时间思考的,比如让你估算10年后自己能存多少钱,这时候你就得一点点算、回忆、判断。
实际上,AI 模型也有这两种能力。但如果它还不够强,‘慢思考’根本帮不上它。
他说早期的 GPT-2 模型,根本没法从“慢思考”中受益——你让它多想,它也想不明白。但等模型强到一定程度,像 O1、O3 这种新一代推理模型,就能把一个任务拆成多步,自己一步步理清楚。
这不是随机试试,而是像人一样:
先把问题拆开,
再想每一步该怎么处理,
最后把它们重新组合成一个有逻辑的回答。
不是聪明,而是懂得怎么思考
Noam 在访谈里特别提到:
如果你试图让一只鸽子认真下棋,它一千年都学不会。
这句话虽然听起来好笑,但其实说得很深: 不是想得越久就越聪明,得先有理解问题的能力。
很多人误以为推理模型就是在硬想答案,Noam 想表达的是:
你必须先给模型打好底子——语言能力、记忆力、常识感;
然后再通过训练,让它习惯把任务拆成一连串的思路;
这个过程,其实和人类大脑的发展非常像。
人类的大脑也是分层进化的。你得先进化出基本语言和逻辑,才能再长出更复杂的思考方式。
今天我们看到的 O3、GPT-4o 能做逻辑推理、结构分析、思路组织,都是因为它们“底层的基本能力”足够了,才有可能做“慢思考”。
推理不是插件,是思维方式
很多 AI 工程师会问:那是不是可以在模型上装个推理插件?
Noam 给出的隐喻很明确:这不是外挂,而是你要训练出一种新的行为方式。
真正有效的推理模型,不是你加几行代码就能让模型想清楚,而是——
它知道什么时候该慢下来,
它知道怎么一步步拆解问题,
它知道每一步之间要怎么衔接。
他甚至说:我们在研究中看到,这些推理模型表现比外挂更稳定,也更易于控制。
这才是 Noam Brown 所说的推理范式,
它不是让 AI 看起来更聪明,而是让 AI 真正开始思考。
第三节|AI 的任务不是更聪明,而是帮你决策
Noam Brown 在访谈中讲到一个实验结果: 他带领的 OpenAI 团队,用多智能体模型解决复杂任务,效果远超预期。
我们用七个智能体协同处理一个复杂问题, 最终模型给出的答案质量比单一模型高出一大截。
这听起来很反直觉——为什么多个 AI 一起干活就更聪明了?
Noam 给出解释:
“每个模型像是一个专注于某个子任务的专家。一个负责拆解问题,一个负责查找信息,一个负责评估方案,一个负责提出建议……这就像现实生活中的团队。”
这种方式,不是把一个大脑搞得越来越大,而是用多个小脑,各司其职,再合力完成一个复杂目标。
这正是多智能体(multi-agent)协作的本质。
模型之间吵一架,答案反而更靠谱
那多个模型怎么协作呢?它们不是都在“各说各话”吗?
Noam 给出了他特别看重的一个策略,叫做 “自洽共识”(consensus through debate)。
简单说,就是:
让多个模型分别给出自己的解法,再互相挑刺、互相提问,最后找出一致结论。
Noam 指出:这不是让 AI 直接产出最优答案,而是让它先彼此挑战,逐步排除不合理的选项。
这种机制非常接近人类的会议讨论——不是谁权威谁说了算,而是通过辩论、质疑、修正,找到大家都认可的合理解。
他特别强调:
这类模型协作出来的答案,更有一致性和稳定性, 而不是凭运气。
这就是为什么,他在访谈中反复提到:模型之间不是在比赛,而是在一起‘想明白’。
可控性、稳定性、安全性,反而是协作的副产品
多智能体协作不仅提升了性能,还意外解决了一个老大难问题:AI 可控性。
Noam 觉得:
“我们一直担心模型胡说八道、不受控,但如果你让它们自己讨论,自己验证,就能很大程度上避免这些问题。”
为什么?
因为在传统单模型结构中,一旦 AI 输出错误答案,人类很难介入判断。但在“团队作战”模式里:
每个模型负责一个子任务,可追踪;
结论是讨论出来的,有过程可查;
中间每一步都有“证据链”,而不是黑箱决策。
这就带来了一个意外好处:你不用像以前那样拼命调模型权重、改训练数据,而是可以调整个‘决策流程’。
Noam 表示:如果我们担心一个模型出错,那就让多个模型彼此校验——这比单个模型更可靠,也更安全。
这背后,其实是在做一件事:
让 AI 不再依赖一个超级大脑,而是变成一个高效小分队。
AI 的真正转折点,不是规模,而是组织结构
Noam 最后总结说:
“我们现在正处在一个重要转折点——不再是怎么把模型做得更大,而是怎么把模型用得更巧。”
这句话看似简单,背后是 AI 应用范式的根本转变:
昨天的问题是模型够不够强;
今天的问题是这些模型能不能一起协作;
明天的问题是如何组织它们,完成更复杂任务。
你会发现,Noam 并没有谈“参数量”“训练算法”“数据集”这些传统指标,反而一直强调“协作机制”“思维流程”“讨论策略”。
他甚至回答:
这就像你给一堆聪明人安排工作——不是谁聪明谁赢, 而是谁能更好地协作。
因此,AI 的下一个提速关键,不是加大功率,而是换一种合作方式。
你不是在优化一个模型,而是在编排一个团队。
第四节|不靠插件,开发者要学会排兵布阵
Noam Brown 在访谈中谈到了自己用 OpenAI 的 Codex 编程助手的亲身体验:
Codex 是一个非常聪明的模型, 但你会发现,它缺少一个‘真正写过代码的人的经验’。
他说这句话时,并不是在抱怨模型不够强,而是在指出一个本质问题:
AI 很聪明,但对现实场景的熟悉程度太低。
它可以写出语法完美的代码段,也能回答抽象的编程问题,但:
它不知道一个项目真正的优先级;
它不了解“写给用户”这件事意味着什么;
它不会像一个开发者一样,根据团队经验做出取舍。
Noam 的总结很直接:它就像是一个刚毕业的实习生,懂很多东西,但没有任何团队经验。
这也就解释了,为什么很多人用 AI 写代码,初期感觉神奇,但最后总是还得自己返工——因为 AI 缺乏的是“现场感”,缺乏真实团队中的反复磨合。
真正强大的 AI,得像是上了半年班的人
Noam 提出的解决方案,不是继续加大模型规模,而是—— 训练模型去积累协作经验,像一个在团队中待了半年的人那样思考。
他认为:
“我们需要的,不是一个更大的语言模型,而是一个知道如何和别人配合工作的智能体。”
他举了一个例子:比如你问一个普通 LLM:‘请给我一个项目起步计划。’它会列一个看起来不错的流程图,步骤很合理,但你一看就知道,这不是从真实经验里写出来的。
因为它没有真正:
做过决策权冲突的协调;
想过时间线和交付压力的关系;
处理过“沟通失误”后带来的返工问题。
这些能力,我们不可能靠喂更多数据训练出来,必须让模型经历更多‘类似项目的模拟实践’。
多模型组队不是插件,是开发范式的转变
很多工程师会问:是不是以后模型调得更好,就能胜任所有任务?
Noam 的观点是:“这已经是过时的思路了”。
他说:
我们该转变的,不是模型本身,而是你怎么用它。 不是靠插件功能,而是靠任务结构。
什么意思?
过去你把 AI 当工具,调个 prompt、装个插件、改点参数,它就多会一点; 但现在,你要把 AI 当同事——给它角色、职责、信息流,再设计好协作流程。
这背后是一整套操作范式(operational paradigm)的升级。
Noam 在访谈中举了一个假设性的协作架构构想:
假如未来有一套 AI 协作框架,可以分为“总协调”角色与多个“专长智能体”, 再加上一个“共享空间”来同步中间成果——
这将彻底改变 AI 开发的流程。
这不是调优模型参数能做到的,而是像架构师一样去设计整个协作流程。
从用模型到编排模型才是新范式
Noam 在访谈说了一句话,特别适合送给所有开发者:
未来开发者不是去写所有代码, 而是编排多个 AI,来完成任务流程。
这不是减少工作量的问题,而是换一种工作方式:
不是每次都去写 prompt,而是设计任务流;
不是每次都自己判断结果,而是让 AI 互相校验;
不是做一锤子买卖,而是不断积累“协作经验”。
用 Noam 的话来说:
“每一个成功的 AI 协作项目,都会像是你雇了一批刚进公司的新人,但他们在不断‘熟能生巧’。”
你要做的,是设计一套能让他们越做越好的工作机制。
第五节|真正的 AI 团队,怎么协作才有效?
从 Noam Brown 对多智能体系统的研究思路来看,AI 协作不只是技术概念,更需要系统性的架构设计。
基于他透露的研究方向,我们可以推测未来 AI 协作可能包含五个关键要素:
不是你有多个模型就叫团队, 而是你设计了调度、角色、反馈、共识和记忆这五个环节。
我们用通俗语言拆解这五个环节:
调度(Dispatch):谁负责分任务,先做哪一步,谁后接手。就像一个小组有个组长,负责协调每个人的工作顺序。
角色分配(Role Assignment):每个模型专攻不同领域,比如一个负责理解需求,一个负责执行操作,另一个做质量检查,这是让 AI 各司其职。
反馈机制(Feedback Loop):一个模型完成后,其他模型能提建议、指出问题,形成团队讨论。
共识形成(Consensus Building):多个模型给出不同解法,最终统一成一个答案。不是投票,而是逐轮让观点接近,直到大家认同。
长期记忆(Memory):模型能记住彼此之前说过什么、做过什么,避免反复试错。协作不是一次性的,而是一个持续积累过程。
AI 团队≠人类团队,要换一种设计思路
很多人会把 AI 协作理解成人类合作的复制。但 Noam 明确指出:
你不能把人类组织架构直接套在 AI 上—— AI 没有情绪、没有动力,它们只会执行你设计的流程。
这句话背后,是一个关键提醒:
人类可以靠激励、感情、经验协调协作;
但 AI 团队的运行,全靠任务结构和交互机制的明确性。
你不能指望 AI 自己去沟通,你必须告诉它:
你和谁对话?
你看到的信息范围是什么?
出现冲突时,谁的意见优先?
AI 协作团队,像一场乐团演出——每个模型是演奏者,而你是写下乐谱的人。
AI 的终极目标不是变聪明,而是彼此协作
Noam 在谈话最后,说了一句意味深长的话:我们应该追求的,不是能打败人类的 AI,而是能一起工作的 AI。
他不止一次强调,“人机协作”不是尽头,AI 与 AI 的协作才是真正的新起点。
他甚至提出一个新类比:如果说单个模型是一个人类专家,那多模型协作就是一个跨专业的智囊团。
这个智囊团要做到三件事:
彼此理解——不是输出就好,而是听懂对方的回答
互相补位——有偏差能被发现,有遗漏能被填上
共同负责——不是某个模型拍板,而是集体达成结论
这不再是 prompt 时代的“指令执行”,而是一个需要设计、协作、演化的“AI 组织体”。
如果说 ChatGPT 是 AI 个人助手的代表,那 Noam Brown 想做的,是让 AI 从“一个人帮你”,变成“一整个团队和你共事”。
他不是在设计一个新模型,而是在搭建一整套新协作范式:
从 prompt 到任务调度;
从单轮回答到多轮协同;
从模型输出到团队共识。
一句话总结:
未来不是让 AI 更像人,而是让它们像团队。
这,才是真正的“AI 告别独行”。
结语|AI 最终不是帮你,是与你共事
在这场长达一小时的对谈中,Noam Brown只一再重申一件事:
我们正处在一个认知单位从‘单人作战’, 转向‘团队协作’的转折点。
这意味着,AI 不再是一个能回答问题的工具,而是一个能和他人协同解决问题的智能参与者。
未来,大模型的竞争不再比谁跑得快、答得准,而是比谁能更好组织团队、管理协作过程、达成可信共识。
Noam 所描绘的,不是一种更聪明的 AI,而是一种全新社会结构。
从 prompt 到 protocol,从助手到伙伴,从模型到“文明”——
我们与 AI 的关系,正在被悄悄重写。
多智能体协作的探索才刚刚开始,技术路径还在摸索中,
但变化的信号已经越来越明显。
本文由AI深度研究院出品,内容翻译自Noam Brown在Latent Space播客最新访谈。未经授权,不得转载。
星标公众号, 点这里 1. 点击右上角 2. 点击"设为星标" ← AI深度研究员 ⋮ ← 设为星标
参考资料:
https://www.youtube.com/watch?v=ddd4xjuJTyg&t=1988s
https://www.latent.space/p/noam-brown
https://www.reddit.com/r/diplomacy/comments/1jw3eod/world_dipcon_2025_results
来源:官方媒体/网络新闻
排版:Atlas
编辑:深思
主编: 图灵
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.