6小时复刻AI IMO金牌成果，蚂蚁多智能体新进展已开源|调用|imo|上下文|多模态

6小时复刻AI IMO金牌成果，蚂蚁多智能体新进展已开源

2025-08-04 18:03:01　来源: 量子位

北京举报

分享至

AWorld项目团队投稿发自凹非寺
量子位 | 公众号 QbitAI

2025年的IMO，好戏不断。

7月19日，全世界顶尖大模型在2025年的IMO赛场上几乎全军覆没。时隔1天，OpenAI、DeepMind等顶尖实验室就在IMO 2025赛场斩获5/6题，震惊数学圈。

有意思的是，7月23日——两位来自Harvard和UCLA的学生，用Gemini 2.5 Pro+自研多轮验证框架，在arXiv扔下一篇论文，首次系统性拆解了「解题+验证」的IMO解题方法论。48小时后，他们开源了完整代码。

来自蚂蚁的多智能体框架AWorld项目团队也加入了这场卷王之争：

7月24日启动，仅仅6小时，采用AWorld智能体框架，复现并开源了DeepMind的5/6道解题结果，并直接给出了可一键运行的多智能体IMO系统。

果然，大家好奇的点还是跟传统长思维链LangChain等框架有什么不一样。作者给出的回复，核心就是一个词，自我进化。即，多智能体能够超越单个智能体，能够用于复杂问题协同，以及强化学习的奖励模型等，最终实现AGI。

IMO 2025，把复杂推理模型推向了一种新的高度（尽管还处在实验室阶段，但DeepMind透露会对外）。

不过，能解IMO级别数学题的超级单智能体实属稀有。AWorld的实验也首次用工程系统证明：多智能体协同的智力上限，有可能超越其依赖的单个模型。

单模的「不可能三角」：为什么必须上多智能体？

单个裸模型，包括Gemini 2.5 pro，几乎无法一次推理答对IMO赛题：level 1的第1，第4题在小概率下一次推理能答对（背景：IMO包括六道竞赛题目，分为两天进行，参赛者每天需完成3道题目，因此第一题难度相对较低），但是其余4题，一定需要多智能体协同才能完成，这揭露了一个残酷现实：IMO级问题=单模的不可达之地。

AWorld的实测数据更扎心：

单模尝试第3题：连续10次推理全部失败。
多智能体协同：通过「解题者+验证者」双角色对话，第3题在第5轮迭代就生成了完整的解答。
“多智能体协同的智力上限，有可能超越其依赖的单个模型”的本质是什么呢？

为此，AWorld团队尝试提出了几种解释视角：

构建最优输入：从“好问题”到“完美上下文”

多智能体协同的核心优势在于它能动态地构造出一个远超初始提问的、高质量的输入信息。

基本原理(y = f(x))：我们可以将大模型视为一个固定的函数f，其输出y的质量完全取决于输入x的质量。

初始输入的局限：对于如IMO竞赛题这类复杂任务，最初的提问(x_0)信息稀疏，缺乏足够的引导“脚手架”。这使得模型难以在其庞大的能力空间中，仅凭一次尝试就找到通往正确答案的路径。

协同的价值：多智能体系统并非提升模型f本身，而是设计了一个“智能流程”：通过生成和整合中间思想（如解题草稿、批判性反馈、改进建议），共同构建出一个信息极其丰富的“超级上下文”。这最终解锁了模型早已具备、但通过简单提问难以触达的深层能力。

实现“元认知”:为系统外挂一个“反思模块”

元认知，即“关于思考的思考”，是高级智能的核心标志。它包括自我监控、自我评估和自我修正的能力。单个LLM本身不具备真正的元认知，但可以通过角色定义（Role-Play）来执行元认知功能。

它不解决问题，而是评估解决方案的合理性、寻找逻辑漏洞、提出改进建议，从而避免了单模型容易陷入的思维定式和错误。

通过交互降低“信息熵”（Reducing Information Entropy）

一个复杂的IMO问题，其解空间的不确定性（信息熵）非常高。每一次有效的多智能体交互都在为系统提供新的约束，从而降低这种不确定性。

例如，审阅者指出“你的第一步假设A是无证据的”，这个反馈极大地减少了后续需要探索的可能性，使计算资源能更集中地探索更有希望的路径，从而显著提升了求解的效率和准确性。

综上，多智能体协同的优越性源于其智能化的流程，而非个体能力的提升。该流程通过协作分解与迭代修正，能有效解锁基础模型的深层潜力，最终涌现出超越个体能力之和的系统级智能。

AWorld的「六小时魔法」：把论文变成可运行系统

面对地狱级难度的IMO，相比模型顶流拿下成绩秀肌肉，能够复现的解题过程可能更加有利于技术的演进，所以我们更希望看到有一些开源的工作。AWorld的复现方式，提供了一些思路：

核心结构：采用了”做题家”和”验证者”的双智能体对话机制，两者均依赖于相同的基础模型（如Gemini 2.5 pro）来构建。其中，做题家负责生成数学解答，验证者扮演IMO考官角色进行严格验证，两者通过多轮对话迭代优化解答质量。
核心要素：设计了完整的对话循环机制，包括自动检测终止条件、最终答案、记录完整对话历史，以及基于验证者反馈的解答重构策略，有效挖掘了基础模型的潜在能力。
身份设定与上下文工程：做题家采用严格的数学证明格式要求，验证者则具备详细的错误分类体系和标准化的验证流程，这种专业化的角色分工显著提升了问题解决的质量和准确性。

目前，AWorld在著名的GAIA Test榜单（即通过增加工具支持、更高效的提示、接入搜索等手段获得增强能力的新一代大语言模型的基准）上达到了77.08分，在所有署名的智能体中排名第三，在所有开源工作中排名第一。

为多智能体协同而生

作为一个为构建生产级、可扩展多智能体系统而设计的下一代框架，AWorld核心优势是采用事件驱动的群体智能架构，彻底超越了传统LangChain等框架的局限。

智能体之间通过事件总线进行异步通信与协作，而非简单的顺序调用。这使得复杂的实时交互成为可能。

强大的工具与模型生态

模型即插即用：通过统一接口，可在30秒内轻松切换OpenAI、Gemini、Claude等任意大语言模型，方便对比测试与成本优化。
MCP协议支持：将MCP作为核心能力，允许智能体将其他模型或智能体作为工具调用，极大拓展了能力边界。所有工具均在安全沙箱中执行，保障企业级安全。

生产级的稳健性与可观测性

全链路可观测性：提供覆盖智能体决策、工具调用全过程的追踪、指标与日志，让复杂的系统行为清晰透明，易于调试。
精密的上下文与内存管理：支持长短期记忆和复杂编排，确保智能体在执行长周期任务时能保持状态、不“失忆”。

支持模型持续进化的学习闭环

开放训练接口：AWorld不仅是执行框架，更是进化平台。它提供开放接口，可与主流训练框架结合，利用智能体在真实任务中产生的交互数据对底层模型进行训练。
实现智能体自我进化：通过“数据-训练-部署”的闭环，让智能体在特定领域变得越来越“聪明”，构建真正的专家智能体系统。

如何体验「IMO级多智能体」？

3步运行（详见README.md）：

一键准备环境

进入项目目录AWorld/examples/imo，然后直接运行脚本./setup_env.sh。自动创建独立的Conda环境并安装所有必需的依赖。

配置API密钥

复制模板文件cp.env_template.env，然后编辑新生成的.env文件，填入你自己的大模型API密钥(LLM_API_KEY)、模型名称(LLM_MODEL_NAME)和接口地址(LLM_BASE_URL)。

激活环境并运行

首先激活环境，然后执行主程序来解决指定的数学问题，例如运行python run.py —q imo4来解决IMO2025第4题。

写在最后：IMO只是开始

AWorld的复现实验，抛出了一个激进结论：当前多智能体系统的数学能力，已超越99%人类选手（虽然测试集有限）。

当单模在IMO折戟时，多智能体系统已经证明：AI的智能上限，可能不只在于模型有多大，更在于我们如何组织它们工作。

多智能体协作，可能是一条通往更高群体智能的有效路径。更震撼的是未来潜力：这套系统正在作为reward model训练下一代模型——用多智能体生成的「高阶推理轨迹」作为训练数据，相当于让模型从IMO金牌选手的草稿纸里学习。

下一站，AWorld团队透露正在测试「多智能体+形式化验证」组合，目标直指Lean4形式化证明。

IMO 2026，可能将是人类最后一次有机会战胜AI的数学竞赛。

Gemini 2.5 Pro+:
论文地址：https://arxiv.org/pdf/2507.15855

AWorld:
GitHub:https://github.com/inclusionAI/AWorld

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.