网易首页 > 网易号 > 正文 申请入驻

超越谷歌,全球第一!上交AI科学家王者归来,登顶OpenAI MLE-bench

0
分享至

  

  新智元报道

  编辑:好困

  【新智元导读】刚刚,由SciMaster团队推出的AI机器学习专家ML-Master 2.0,基于国产开源大模型DeepSeek,在OpenAI权威基准测试MLE-bench中一举击败Google、Meta、微软等国际顶流,刷新全球SOTA,再次登顶!目前该功能已在SciMaster线上平台开放waiting list,欢迎申请体验。

  从《三体》中时刻干扰基础物理实验的「智子」,到《2001太空漫游》里具备自主决策能力的HAL,再到阿西莫夫笔下具有推理与科学探索能力的机器人,人类对一个问题的想象由来已久:

  如果智能体不再只是工具,而是能够像科学家一样,在复杂环境中长期探索、不断修正假设,科学会发生什么变化?

  

  很长一段时间里,这样的设想更多停留在科学想象中;而随着大模型能力的快速跃迁,它正逐渐演变为一个正在被认真对待的现实技术命题。

  越来越多研究者开始意识到,真正的分水岭并不在于AI能否把题「答对」,而在于它能否像科研人员一样,在长期不确定的探索过程中不断修正方向、积累经验,并在反复试错中推动知识本身向前演化。

  Google DeepMind推出的AlphaEvolve,试图让AI在长时间的演化过程中不断修正自身策略;

  OpenAI提出的Frontier Science,明确将衡量重点放在AI是否能够在真实科研任务中持续工作、反复迭代;

  美国甚至启动了号称AI曼哈顿计划Genesis Mission,尝试将AI系统性地嵌入国家级科学研究体系之中。

  

  这些探索路径虽不相同,却共同指向一个核心共识:

  真正推动科学进步的AI,不是只会在竞赛中给出标准答案,而是能够在真实科研环境中,面对超长程科研任务时,经受长时间试错、不断自我演化,并在持续迭代中逐步演化出可靠能力。

  正是在这样的背景下,AI4AI(AIfor AI)逐渐成为一个至关重要的方向:

  它既是AI参与科学研究的重要形态之一,更直接关系到AI能否通过自身实践推动能力增长,从而支撑更长期、更复杂的科研任务。

  因而,OpenAI所提出的MLE-bench中所聚焦的机器学习工程(Machine LearningEngineering, MLE)任务,恰恰成为AI4AI场景下极为贴切的研究对象。

  相比理想化的答题类型任务,真实的MLE科研往往需要在十几个甚至数十小时内,持续经历实验设计、代码实现、调试修正与结果分析等完整闭环,其过程高度依赖长期试错与经验积累。

  这也使得MLE-bench成为少数能够真实反映AI是否具备长期科研演化能力的评测基准之一。

  

  由上海交通大学人工智能学院、上海算法创新研究院、深势科技组成的SciMaster团队推出的面向真实机器学习科研任务的自主智能体ML-Master 2.0,就是这样一个专门为「机器学习工程」而生的AI4AI(AI for AI)系统。

  结合EigenAI提供的稳定高性能AI基础设施,该智能体基于国产大模型DeepSeek-V3.2-Speciale,MLE-bench上击败Google,Meta,Microsoft等团队构建的一系列智能体,取得全球第一的成绩。

  更重要的是,它已经在多家科技公司与实验室中落地,用于具身智能机器人训练、理论物理模拟与发现等前沿场景。

  

  这一结果不仅是一项榜单排名,更清晰地表明:

  在面向真实科研任务、强调长期演化与工程闭环的自主智能体方向上,中国研究者已经具备与国际顶尖团队同台竞争、并实现领先突破的能力。

  ML-Master 2.0

  为真实机器学习科研而生的自主智能体

  在真实的机器学习工程(Machine Learning Engineering, MLE)中,科研并不是一次性「把题做对」。

  相反,它往往是一个漫长而反复的过程:

  设定实验假设、编写与修改代码、定位bug、分析结果、推翻假设、再重新开始。这样的循环,可能持续几个,甚至数十个小时。

  ML-Master 2.0正是围绕这一真实科研场景被系统性设计出来的。

  与许多只关注短程推理或单次任务成功的智能体不同,它从设计之初就假定:

  没有人类在旁实时纠错;

  实验失败是常态而非例外;

  真正有价值的能力,来自长期反复试错中的积累。

  在保留原有ML-Master探索—利用闭环的基础上,ML-Master 2.0进一步着重长时间的探索中保持研究方向不跑偏并且将失败转化为可复用的经验的能力

  这也直接引出了其关键设计理念之一:

  科研型智能体必须具备长期认知积累的能力,而不是将上下文视为一次性消耗的推理材料。

  超长程自主:能跑代码,更能长期思考

  在ML-Master 2.0的设计中,这种能力被明确概括为一个核心概念:

  超长程自主(Ultra-Long-Horizon Autonomy)

  在MLE场景下,真正的自主性并不等价于更强的代码生成能力,而体现在系统是否能够:

  在长达数十小时的探索中持续围绕同一科研目标展开;

  从大量失败实验中总结规律,而不是简单重复尝试;

  主动避开已经验证无效的技术路径;

  将一次任务中获得的经验迁移到后续的新任务中。

  换句话说,问题的关键并不在于「上下文够不够长」,而在于:

  这些上下文是否能够被持续整理、筛选,并真正沉淀为可复用的认知资产。

  以「认知积累」为核心的ML-Master 2.0架构

  基于上述思考,ML-Master 2.0构建了一套围绕长期科研探索的整体技术框架。

  在这一架构中,上下文不再被视为「用完即丢」的推理输入,而是被建模为一种具有生命周期的认知资产

  随着科研过程不断推进,系统内部的认知逐步发生分化:

  Experience(经验)直接服务于当前决策的即时执行轨迹;

  Knowledge(知识)在同一任务中多次验证后形成的稳定结论;

  Wisdom(智慧)能够跨任务复用的高层策略与认知原型。

  为了系统性地管理这一演化过程,ML-Master 2.0引入了层次化认知缓存(Hierarchical Cognitive Caching, HCC)机制。

  

  层次化认知缓存:为长程科研提供记忆支点

  从直观层面看,层次化认知缓存并不是简单地「把上下文存得更多」,而是让不同时间尺度的认知各司其职:

  即时演化的经验用于保证当前探索过程的连续性;

  阶段性稳定的知识在同一科研任务中被反复调用;

  跨任务沉淀的先验智慧为新问题提供高质量起点。

  在这一机制下,有价值的认知会在探索过程中被不断筛选并逐步提升层级,而噪声信息则会自然被淘汰。

  这使得ML-Master 2.0即使在长时间运行中,也能够保持稳定、可控的科研节奏,而不会陷入「上下文爆炸」或「遗忘历史经验」的困境。

  ML-Master 2.0重登MLE-bench榜首

  在OpenAI MLE-bench的系统评测中,ML-Master 2.0在完全无人工干预的条件下,基于国产Deepseek-V3.2-Speciale开源大模型,取得了56.44%的奖牌率,位列榜单第一,相较于Google等团队的基于闭源模型的智能体提升28.3%。

  并且ML-Master 2.0已经开始在真实科研中发挥作用,参与协助理论计算物理以及具身智能等领域的前沿研究。

  

  走向真正的自主AI科学家

  ML-Master 2.0的优异成果表明,通过将认知过程视为可积累、可迁移、可演化的资源,并以层次化方式对其进行管理,我们正在接近这样一种智能体:

  它不仅能完成一次任务,而是能够在长期探索中,真正成长为一名自主的AI科学家。

  在全球AI4Science竞逐加速的今天,我们很高兴看到:

  中国团队,正在用中国的开源大模型,参与并引领这一关键范式的转变。

  此前,ML-Master的核心代码已经开源,研究者和工程师可以通过GitHub访问并了解其整体设计与实现细节。

  与此同时,ML-Master 2.0所代表的这一整套「面向真实科研的自主智能体能力」,也将以产品形态逐步开放。

  该能力即将通过SciMaster平台上线,面向机器学习与AI4Science场景提供更完整、更稳定的使用体验。

  目前该功能开放了Waiting List阶段,感兴趣的研究者与工程团队可以在SciMaster主页通过「SciMaster的朋友圈」提前申请体验资格。

  

  项目地址:

  https://github.com/sjtu-sai-agents/ML-Master

  SciMaster主页:

  https://scimaster.bohrium.com/chat/

  EigenAI主页:

  https://www.eigenai.com/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一人睡遍整个娱乐圈?司晓迪打响了2026年第一炮

一人睡遍整个娱乐圈?司晓迪打响了2026年第一炮

阅毒君
2026-01-05 07:05:06
葡体再造锋霸!6690万欧卖约克雷斯 2220万欧签西乙金靴 29球6助

葡体再造锋霸!6690万欧卖约克雷斯 2220万欧签西乙金靴 29球6助

智道足球
2026-02-28 17:16:28
有什么反击混账父母原生家庭的案例 网友的讲述真是让人惊掉下巴

有什么反击混账父母原生家庭的案例 网友的讲述真是让人惊掉下巴

侃神评故事
2026-02-21 17:35:03
中国男篮官宣对阵台北阵容名单,张镇麟引发争议,三名裁判确定!

中国男篮官宣对阵台北阵容名单,张镇麟引发争议,三名裁判确定!

中国篮坛快讯
2026-02-28 18:42:24
“联系大使馆!必须派飞机!”

“联系大使馆!必须派飞机!”

百态人间
2026-02-05 15:35:32
成龙代言又添“受害者”:老牌空调巨头宣布破产

成龙代言又添“受害者”:老牌空调巨头宣布破产

帅真商业
2026-02-28 19:08:58
“我就是她取精生子的工具”清华学霸哭诉,撕开了女富豪的遮羞布

“我就是她取精生子的工具”清华学霸哭诉,撕开了女富豪的遮羞布

百态中的情感起伏
2026-02-23 12:25:50
恩爱23年抵不过现实,73岁梁锦松年老色衰,47岁伏明霞花样年华

恩爱23年抵不过现实,73岁梁锦松年老色衰,47岁伏明霞花样年华

小熊侃史
2026-02-24 18:03:53
领克为高速“失明”紧急致歉,华为这点差别值得行业深思

领克为高速“失明”紧急致歉,华为这点差别值得行业深思

ZAKER新闻
2026-02-27 11:02:51
这次荷兰没话说了!中方正式宣布:更换国内供应商,从此不再合作

这次荷兰没话说了!中方正式宣布:更换国内供应商,从此不再合作

古事寻踪记
2026-02-28 07:32:51
五角大楼怒了!F-35首席教官去中国打工,难怪我军总能逮个正着

五角大楼怒了!F-35首席教官去中国打工,难怪我军总能逮个正着

书纪文谭
2026-02-28 16:48:05
哈梅内伊应对“斩首”,委任拉里贾尼在自己遭遇不测后领导国家,并建立了四层继任人选体系

哈梅内伊应对“斩首”,委任拉里贾尼在自己遭遇不测后领导国家,并建立了四层继任人选体系

极目新闻
2026-02-28 17:13:18
“00后”陈某某被押赴刑场 执行死刑

“00后”陈某某被押赴刑场 执行死刑

闪电新闻
2026-02-07 16:53:35
有色金属大周期:中国四大战略矿产迎来价值重估

有色金属大周期:中国四大战略矿产迎来价值重估

蓝色海边
2026-03-01 08:05:11
34岁东北姑娘拿下81岁全球首富,长的很漂亮,一年抱俩娃身价上亿

34岁东北姑娘拿下81岁全球首富,长的很漂亮,一年抱俩娃身价上亿

云舟史策
2025-09-13 07:37:04
重大进展!伊朗作出“前所未有”承诺:同意永远不拥有可制造核武器的核材料,将实现“零积累、零库存”,并接受全面核查!特朗普最新表态

重大进展!伊朗作出“前所未有”承诺:同意永远不拥有可制造核武器的核材料,将实现“零积累、零库存”,并接受全面核查!特朗普最新表态

每日经济新闻
2026-02-28 10:40:45
裸体被看20秒!浙江女子健身房洗澡时,遭男外卖员闯入,事后日日噩梦……

裸体被看20秒!浙江女子健身房洗澡时,遭男外卖员闯入,事后日日噩梦……

上观新闻
2026-02-28 10:27:31
狼王一生有多悲催?野狼当新狼王后,会把原有狼群中的幼崽给杀掉

狼王一生有多悲催?野狼当新狼王后,会把原有狼群中的幼崽给杀掉

南权先生
2026-02-10 15:41:13
伊朗德黑兰市食品供应及公共交通服务正常

伊朗德黑兰市食品供应及公共交通服务正常

财联社
2026-02-28 19:21:57
伊朗最高领袖确认遇袭!一文看懂周一开盘,钱会往哪逃、往哪冲?

伊朗最高领袖确认遇袭!一文看懂周一开盘,钱会往哪逃、往哪冲?

汇通网
2026-03-01 10:43:20
2026-03-01 13:03:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14617文章数 66649关注度
往期回顾 全部

科技要闻

小米超跑概念车全球首秀!杀入顶豪俱乐部

头条要闻

伊方:目前用的只是"废旧导弹" 将展示不可预见的武器

头条要闻

伊方:目前用的只是"废旧导弹" 将展示不可预见的武器

体育要闻

火箭输给热火:乌度卡又输斯波教练

娱乐要闻

《江山为聘》:吴谨言陈哲远燃炸朝堂

财经要闻

中东局势升级 如何影响A股、黄金和原油

汽车要闻

小米汽车2月交付超20000台 雷军:为新SU7量产作准备

态度原创

游戏
时尚
手机
本地
旅游

爆料称PlayStation不再移植到PC的决定从去年已定

普通人穿衣不需要太复杂!颜色恰当、搭配和谐,高级又耐看

手机要闻

小米REDMI A7 Pro手机印尼上市,配备6000mAh电池

本地新闻

津南好·四时总相宜

旅游要闻

重庆位居TOP10热门错峰游目的地,错峰出游迎来“黄金窗口期”

无障碍浏览 进入关怀版