网易首页 > 网易号 > 正文 申请入驻

6小时复刻AI IMO金牌成果,蚂蚁多智能体新进展已开源

0
分享至

AWorld项目团队 投稿
量子位 | 公众号 QbitAI

2025年的IMO,好戏不断。

7月19日,全世界顶尖大模型在2025年的IMO赛场上几乎全军覆没。时隔1天,OpenAI、DeepMind等顶尖实验室就在IMO 2025赛场斩获5/6题,震惊数学圈。

有意思的是,7月23日——两位来自Harvard和UCLA的学生,用Gemini 2.5 Pro+自研多轮验证框架,在arXiv扔下一篇论文,首次系统性拆解了「解题+验证」的IMO解题方法论。48小时后,他们开源了完整代码。

来自蚂蚁的多智能体框架AWorld项目团队也加入了这场卷王之争:

7月24日启动,仅仅6小时,采用AWorld智能体框架,复现并开源了DeepMind的5/6道解题结果,并直接给出了可一键运行的多智能体IMO系统。

果然,大家好奇的点还是跟传统长思维链LangChain等框架有什么不一样。作者给出的回复,核心就是一个词,自我进化。即,多智能体能够超越单个智能体,能够用于复杂问题协同,以及强化学习的奖励模型等,最终实现AGI。

IMO 2025,把复杂推理模型推向了一种新的高度(尽管还处在实验室阶段,但DeepMind透露会对外)。

不过,能解IMO级别数学题的超级单智能体实属稀有。AWorld的实验也首次用工程系统证明:多智能体协同的智力上限,有可能超越其依赖的单个模型。

单模的「不可能三角」:为什么必须上多智能体?

单个裸模型,包括Gemini 2.5 pro,几乎无法一次推理答对IMO赛题:level 1的第1,第4题在小概率下一次推理能答对(背景:IMO包括六道竞赛题目,分为两天进行,参赛者每天需完成3道题目,因此第一题难度相对较低),但是其余4题,一定需要多智能体协同才能完成,这揭露了一个残酷现实:IMO级问题=单模的不可达之地。

AWorld的实测数据更扎心:

  • 单模尝试第3题:连续10次推理全部失败。
  • 多智能体协同:通过「解题者+验证者」双角色对话,第3题在第5轮迭代就生成了完整的解答。
  • “多智能体协同的智力上限,有可能超越其依赖的单个模型”的本质是什么呢?

为此,AWorld团队尝试提出了几种解释视角:

构建最优输入:从“好问题”到“完美上下文”

多智能体协同的核心优势在于它能动态地构造出一个远超初始提问的、高质量的输入信息。

基本原理(y = f(x)):我们可以将大模型视为一个固定的函数f,其输出y的质量完全取决于输入x的质量。

初始输入的局限:对于如IMO竞赛题这类复杂任务,最初的提问(x_0)信息稀疏,缺乏足够的引导“脚手架”。这使得模型难以在其庞大的能力空间中,仅凭一次尝试就找到通往正确答案的路径。

协同的价值:多智能体系统并非提升模型f本身,而是设计了一个“智能流程”:通过生成和整合中间思想(如解题草稿、批判性反馈、改进建议),共同构建出一个信息极其丰富的“超级上下文”。这最终解锁了模型早已具备、但通过简单提问难以触达的深层能力。

实现“元认知”:为系统外挂一个“反思模块”

元认知,即“关于思考的思考”,是高级智能的核心标志。它包括自我监控、自我评估和自我修正的能力。单个LLM本身不具备真正的元认知,但可以通过角色定义(Role-Play)来执行元认知功能。

它不解决问题,而是评估解决方案的合理性、寻找逻辑漏洞、提出改进建议,从而避免了单模型容易陷入的思维定式和错误。

通过交互降低“信息熵”(Reducing Information Entropy)

一个复杂的IMO问题,其解空间的不确定性(信息熵)非常高。每一次有效的多智能体交互都在为系统提供新的约束,从而降低这种不确定性。

例如,审阅者指出“你的第一步假设A是无证据的”,这个反馈极大地减少了后续需要探索的可能性,使计算资源能更集中地探索更有希望的路径,从而显著提升了求解的效率和准确性。

综上,多智能体协同的优越性源于其智能化的流程,而非个体能力的提升。该流程通过协作分解与迭代修正,能有效解锁基础模型的深层潜力,最终涌现出超越个体能力之和的系统级智能。

AWorld的「六小时魔法」:把论文变成可运行系统

面对地狱级难度的IMO,相比模型顶流拿下成绩秀肌肉,能够复现的解题过程可能更加有利于技术的演进,所以我们更希望看到有一些开源的工作。AWorld的复现方式,提供了一些思路:

  • 核心结构:采用了”做题家”和”验证者”的双智能体对话机制,两者均依赖于相同的基础模型(如Gemini 2.5 pro)来构建。其中,做题家负责生成数学解答,验证者扮演IMO考官角色进行严格验证,两者通过多轮对话迭代优化解答质量。
  • 核心要素:设计了完整的对话循环机制,包括自动检测终止条件、最终答案、记录完整对话历史,以及基于验证者反馈的解答重构策略,有效挖掘了基础模型的潜在能力。
  • 身份设定与上下文工程:做题家采用严格的数学证明格式要求,验证者则具备详细的错误分类体系和标准化的验证流程,这种专业化的角色分工显著提升了问题解决的质量和准确性。

目前,AWorld在著名的GAIA Test榜单(即通过增加工具支持、更高效的提示、接入搜索等手段获得增强能力的新一代大语言模型的基准)上达到了77.08分,在所有署名的智能体中排名第三,在所有开源工作中排名第一。

为多智能体协同而生

作为一个为构建生产级、可扩展多智能体系统而设计的下一代框架,AWorld核心优势是采用事件驱动的群体智能架构,彻底超越了传统LangChain等框架的局限。

智能体之间通过事件总线进行异步通信与协作,而非简单的顺序调用。这使得复杂的实时交互成为可能。

强大的工具与模型生态

  • 模型即插即用:通过统一接口,可在30秒内轻松切换OpenAI、Gemini、Claude等任意大语言模型,方便对比测试与成本优化。
  • MCP协议支持:将MCP作为核心能力,允许智能体将其他模型或智能体作为工具调用,极大拓展了能力边界。所有工具均在安全沙箱中执行,保障企业级安全。

生产级的稳健性与可观测性

  • 全链路可观测性:提供覆盖智能体决策、工具调用全过程的追踪、指标与日志,让复杂的系统行为清晰透明,易于调试。
  • 精密的上下文与内存管理:支持长短期记忆和复杂编排,确保智能体在执行长周期任务时能保持状态、不“失忆”。

支持模型持续进化的学习闭环

  • 开放训练接口:AWorld不仅是执行框架,更是进化平台。它提供开放接口,可与主流训练框架结合,利用智能体在真实任务中产生的交互数据对底层模型进行训练。
  • 实现智能体自我进化:通过“数据-训练-部署”的闭环,让智能体在特定领域变得越来越“聪明”,构建真正的专家智能体系统。

如何体验「IMO级多智能体」?

3步运行(详见README.md):

  • 一键准备环境

进入项目目录AWorld/examples/imo,然后直接运行脚本./setup_env.sh。自动创建独立的Conda环境并安装所有必需的依赖。

  • 配置API密钥

复制模板文件cp.env_template.env,然后编辑新生成的.env文件,填入你自己的大模型API密钥(LLM_API_KEY)、模型名称(LLM_MODEL_NAME)和接口地址(LLM_BASE_URL)。

  • 激活环境并运行

首先激活环境,然后执行主程序来解决指定的数学问题,例如运行python run.py —q imo4来解决IMO2025第4题。

写在最后:IMO只是开始

AWorld的复现实验,抛出了一个激进结论:当前多智能体系统的数学能力,已超越99%人类选手(虽然测试集有限)。

当单模在IMO折戟时,多智能体系统已经证明:AI的智能上限,可能不只在于模型有多大,更在于我们如何组织它们工作。

多智能体协作,可能是一条通往更高群体智能的有效路径。更震撼的是未来潜力:这套系统正在作为reward model训练下一代模型——用多智能体生成的「高阶推理轨迹」作为训练数据,相当于让模型从IMO金牌选手的草稿纸里学习。

下一站,AWorld团队透露正在测试「多智能体+形式化验证」组合,目标直指Lean4形式化证明。

IMO 2026,可能将是人类最后一次有机会战胜AI的数学竞赛。

Gemini 2.5 Pro+:
论文地址:
https://arxiv.org/pdf/2507.15855

AWorld:
GitHub:https://github.com/inclusionAI/AWorld

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
这一次,全新腾势Z9GT只为“颠覆”而来

这一次,全新腾势Z9GT只为“颠覆”而来

汽车公社
2026-03-26 08:32:46
继张雪峰之后,中医大师黄贵华被曝心梗去世,社交账号已变黑白

继张雪峰之后,中医大师黄贵华被曝心梗去世,社交账号已变黑白

180视角
2026-03-26 11:52:12
“亲妈霸占消防通道,儿子被火烧死”,这件事,简直太魔幻了……

“亲妈霸占消防通道,儿子被火烧死”,这件事,简直太魔幻了……

桌子的生活观
2026-03-26 12:28:04
引而不发才是王道,封锁霍尔木兹海峡,伊朗打完了最后一张牌……

引而不发才是王道,封锁霍尔木兹海峡,伊朗打完了最后一张牌……

家传编辑部
2026-03-26 10:34:27
联大通过决议,宣布“最严重反人类罪”

联大通过决议,宣布“最严重反人类罪”

澎湃新闻
2026-03-26 11:03:06
黎真主党导弹袭击以国防部及军营

黎真主党导弹袭击以国防部及军营

北青网-北京青年报
2026-03-26 10:19:17
是什么,让这个日本自卫官竟敢对中国大使馆举刀?

是什么,让这个日本自卫官竟敢对中国大使馆举刀?

环球时报国际
2026-03-26 00:13:51
穿越周期的价值坚守,捷豹路虎如何以长期主义构筑品牌护城河

穿越周期的价值坚守,捷豹路虎如何以长期主义构筑品牌护城河

汽车网评
2026-03-26 16:01:47
张雪峰离世!北京苏州房产不在名下,1400名员工等安抚,好友停工

张雪峰离世!北京苏州房产不在名下,1400名员工等安抚,好友停工

阿纂看事
2026-03-25 21:31:59
这就是徐志摩爱而不得的林徽因中年时的真实长相,大家看看吧!

这就是徐志摩爱而不得的林徽因中年时的真实长相,大家看看吧!

小椰的奶奶
2026-03-26 09:50:43
袁家军会见王兴兴

袁家军会见王兴兴

新京报政事儿
2026-03-26 16:45:34
女子在按摩店做理疗时被技师偷走金项链

女子在按摩店做理疗时被技师偷走金项链

新闻晨报随申Hi
2026-03-26 09:56:05
中方警戒舰目前正处于霍尔木兹海峡附近?国防部:假消息

中方警戒舰目前正处于霍尔木兹海峡附近?国防部:假消息

环球网资讯
2026-03-26 16:20:07
湖北十堰大山深处,那个号称“小香港”的万人厂,如今人去楼空

湖北十堰大山深处,那个号称“小香港”的万人厂,如今人去楼空

GA环球建筑
2026-03-26 14:10:54
俄罗斯警告日本!俄输油重港接连遭攻击,“现场浓烟滚滚”;俄乌战场惊现持枪机器人:身高180cm,可AI评估战场并侦察射击

俄罗斯警告日本!俄输油重港接连遭攻击,“现场浓烟滚滚”;俄乌战场惊现持枪机器人:身高180cm,可AI评估战场并侦察射击

每日经济新闻
2026-03-26 15:53:05
想拿中国尿素救春耕?先把欠中企的百亿欠款还了!否则一粒不售

想拿中国尿素救春耕?先把欠中企的百亿欠款还了!否则一粒不售

过期少女致幻录
2026-03-26 11:44:43
勇敢发声!科威特记者联合国痛批“反以仪式”

勇敢发声!科威特记者联合国痛批“反以仪式”

Nee看
2026-03-26 14:15:21
41岁张雪峰去世后续,其婚姻被扒,已离婚6年,前妻很低调

41岁张雪峰去世后续,其婚姻被扒,已离婚6年,前妻很低调

180视角
2026-03-26 13:01:03
上海一女子“闪婚”拿到价值近千万房产99%份额,“闪离”后起诉分割房产,法院判了!

上海一女子“闪婚”拿到价值近千万房产99%份额,“闪离”后起诉分割房产,法院判了!

环球网资讯
2026-03-26 08:13:14
收评:三大指数均跌超1% 两市成交额跌破2万亿

收评:三大指数均跌超1% 两市成交额跌破2万亿

财联社
2026-03-26 15:02:09
2026-03-26 17:48:49
量子位 incentive-icons
量子位
追踪人工智能动态
12348文章数 176424关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

男子从四家公司贷出共计356万元 实际到手却仅8万多元

头条要闻

男子从四家公司贷出共计356万元 实际到手却仅8万多元

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

长护险谁能享受?享受多少?解答来了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

家居
房产
时尚
游戏
公开课

家居要闻

傍海而居 静观蝴蝶海

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

皮衣+裙,高级到炸

又一经典最终幻想游戏将停运!开服至今已六年有余

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版