超越谷歌，全球第一！上交AI科学家王者归来，登顶OpenAI MLE-bench|openai|量子计算机|知名企业|人工智能|上交ai科学家

超越谷歌，全球第一！上交AI科学家王者归来，登顶OpenAI MLE-bench

2025-12-25 12:36:04　来源: 新智元

北京举报

分享至

　　新智元报道

　　编辑：好困

　　【新智元导读】刚刚，由SciMaster团队推出的AI机器学习专家ML-Master 2.0，基于国产开源大模型DeepSeek，在OpenAI权威基准测试MLE-bench中一举击败Google、Meta、微软等国际顶流，刷新全球SOTA，再次登顶！目前该功能已在SciMaster线上平台开放waiting list，欢迎申请体验。

　　从《三体》中时刻干扰基础物理实验的「智子」，到《2001太空漫游》里具备自主决策能力的HAL，再到阿西莫夫笔下具有推理与科学探索能力的机器人，人类对一个问题的想象由来已久：

　　如果智能体不再只是工具，而是能够像科学家一样，在复杂环境中长期探索、不断修正假设，科学会发生什么变化？

　　很长一段时间里，这样的设想更多停留在科学想象中；而随着大模型能力的快速跃迁，它正逐渐演变为一个正在被认真对待的现实技术命题。

　　越来越多研究者开始意识到，真正的分水岭并不在于AI能否把题「答对」，而在于它能否像科研人员一样，在长期不确定的探索过程中不断修正方向、积累经验，并在反复试错中推动知识本身向前演化。

　　Google DeepMind推出的AlphaEvolve，试图让AI在长时间的演化过程中不断修正自身策略；

　　OpenAI提出的Frontier Science，明确将衡量重点放在AI是否能够在真实科研任务中持续工作、反复迭代；

　　美国甚至启动了号称「AI曼哈顿计划」的Genesis Mission，尝试将AI系统性地嵌入国家级科学研究体系之中。

　　这些探索路径虽不相同，却共同指向一个核心共识：

　　真正推动科学进步的AI，不是只会在竞赛中给出标准答案，而是能够在真实科研环境中，面对超长程科研任务时，经受长时间试错、不断自我演化，并在持续迭代中逐步演化出可靠能力。

　　正是在这样的背景下，AI4AI（AIfor AI）逐渐成为一个至关重要的方向：

　　它既是AI参与科学研究的重要形态之一，更直接关系到AI能否通过自身实践推动能力增长，从而支撑更长期、更复杂的科研任务。

　　因而，OpenAI所提出的MLE-bench中所聚焦的机器学习工程（Machine LearningEngineering, MLE）任务，恰恰成为AI4AI场景下极为贴切的研究对象。

　　相比理想化的答题类型任务，真实的MLE科研往往需要在十几个甚至数十小时内，持续经历实验设计、代码实现、调试修正与结果分析等完整闭环，其过程高度依赖长期试错与经验积累。

　　这也使得MLE-bench成为少数能够真实反映AI是否具备长期科研演化能力的评测基准之一。

　　由上海交通大学人工智能学院、上海算法创新研究院、深势科技组成的SciMaster团队推出的面向真实机器学习科研任务的自主智能体ML-Master 2.0，就是这样一个专门为「机器学习工程」而生的AI4AI（AI for AI）系统。

　　结合EigenAI提供的稳定高性能AI基础设施，该智能体基于国产大模型DeepSeek-V3.2-Speciale，在MLE-bench上击败Google，Meta，Microsoft等团队构建的一系列智能体，取得全球第一的成绩。

　　更重要的是，它已经在多家科技公司与实验室中落地，用于具身智能机器人训练、理论物理模拟与发现等前沿场景。

　　这一结果不仅是一项榜单排名，更清晰地表明：

　　在面向真实科研任务、强调长期演化与工程闭环的自主智能体方向上，中国研究者已经具备与国际顶尖团队同台竞争、并实现领先突破的能力。

　　ML-Master 2.0

　　为真实机器学习科研而生的自主智能体

　　在真实的机器学习工程（Machine Learning Engineering, MLE）中，科研并不是一次性「把题做对」。

　　相反，它往往是一个漫长而反复的过程：

　　设定实验假设、编写与修改代码、定位bug、分析结果、推翻假设、再重新开始。这样的循环，可能持续几个，甚至数十个小时。

　　ML-Master 2.0正是围绕这一真实科研场景被系统性设计出来的。

　　与许多只关注短程推理或单次任务成功的智能体不同，它从设计之初就假定：

　　没有人类在旁实时纠错；

　　实验失败是常态而非例外；

　　真正有价值的能力，来自长期反复试错中的积累。

　　在保留原有ML-Master探索—利用闭环的基础上，ML-Master 2.0进一步着重在长时间的探索中保持研究方向不跑偏，并且将失败转化为可复用的经验的能力。

　　这也直接引出了其关键设计理念之一：

　　科研型智能体必须具备长期认知积累的能力，而不是将上下文视为一次性消耗的推理材料。

　　超长程自主：能跑代码，更能长期思考

　　在ML-Master 2.0的设计中，这种能力被明确概括为一个核心概念：

　　超长程自主（Ultra-Long-Horizon Autonomy）

　　在MLE场景下，真正的自主性并不等价于更强的代码生成能力，而体现在系统是否能够：

　　在长达数十小时的探索中持续围绕同一科研目标展开；

　　从大量失败实验中总结规律，而不是简单重复尝试；

　　主动避开已经验证无效的技术路径；

　　将一次任务中获得的经验迁移到后续的新任务中。

　　换句话说，问题的关键并不在于「上下文够不够长」，而在于：

　　这些上下文是否能够被持续整理、筛选，并真正沉淀为可复用的认知资产。

　　以「认知积累」为核心的ML-Master 2.0架构

　　基于上述思考，ML-Master 2.0构建了一套围绕长期科研探索的整体技术框架。

　　在这一架构中，上下文不再被视为「用完即丢」的推理输入，而是被建模为一种具有生命周期的认知资产。

　　随着科研过程不断推进，系统内部的认知逐步发生分化：

　　Experience（经验）：直接服务于当前决策的即时执行轨迹；

　　Knowledge（知识）：在同一任务中多次验证后形成的稳定结论；

　　Wisdom（智慧）：能够跨任务复用的高层策略与认知原型。

　　为了系统性地管理这一演化过程，ML-Master 2.0引入了层次化认知缓存（Hierarchical Cognitive Caching, HCC）机制。

　　层次化认知缓存：为长程科研提供记忆支点

　　从直观层面看，层次化认知缓存并不是简单地「把上下文存得更多」，而是让不同时间尺度的认知各司其职：

　　即时演化的经验，用于保证当前探索过程的连续性；

　　阶段性稳定的知识，在同一科研任务中被反复调用；

　　跨任务沉淀的先验智慧，为新问题提供高质量起点。

　　在这一机制下，有价值的认知会在探索过程中被不断筛选并逐步提升层级，而噪声信息则会自然被淘汰。

　　这使得ML-Master 2.0即使在长时间运行中，也能够保持稳定、可控的科研节奏，而不会陷入「上下文爆炸」或「遗忘历史经验」的困境。

　　ML-Master 2.0重登MLE-bench榜首

　　在OpenAI MLE-bench的系统评测中，ML-Master 2.0在完全无人工干预的条件下，基于国产Deepseek-V3.2-Speciale开源大模型，取得了56.44%的奖牌率，位列榜单第一，相较于Google等团队的基于闭源模型的智能体提升28.3%。

　　并且ML-Master 2.0已经开始在真实科研中发挥作用，参与协助理论计算物理以及具身智能等领域的前沿研究。

　　走向真正的自主AI科学家

　　ML-Master 2.0的优异成果表明，通过将认知过程视为可积累、可迁移、可演化的资源，并以层次化方式对其进行管理，我们正在接近这样一种智能体：

　　它不仅能完成一次任务，而是能够在长期探索中，真正成长为一名自主的AI科学家。

　　在全球AI4Science竞逐加速的今天，我们很高兴看到：

　　中国团队，正在用中国的开源大模型，参与并引领这一关键范式的转变。

　　此前，ML-Master的核心代码已经开源，研究者和工程师可以通过GitHub访问并了解其整体设计与实现细节。

　　与此同时，ML-Master 2.0所代表的这一整套「面向真实科研的自主智能体能力」，也将以产品形态逐步开放。

　　该能力即将通过SciMaster平台上线，面向机器学习与AI4Science场景提供更完整、更稳定的使用体验。

　　目前该功能开放了Waiting List阶段，感兴趣的研究者与工程团队可以在SciMaster主页通过「SciMaster的朋友圈」提前申请体验资格。

　　项目地址：

　　https://github.com/sjtu-sai-agents/ML-Master

　　SciMaster主页：

　　https://scimaster.bohrium.com/chat/

　　EigenAI主页：

　　https://www.eigenai.com/

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.