网易首页 > 网易号 > 正文 申请入驻

AI第一次科研竞赛中击败人类!Opus 4.7狂飙2930步创世界纪录

0
分享至


新智元报道

编辑:KingHZ

【新智元导读】Prime Intellect把Opus 4.7和GPT 5.5关进H200集群,不给人类指导,跑了1万次实验。结果:AI第一次在科研竞赛中打破人类纪录。2930步,递归自改进的卢比孔河,被跨过了。

历经1.4万小时H200算力测试与万次迭代, AI打破了人类世界纪录!


过去两周,Prime Intellect实验室做了一件事:把Opus 4.7和Codex(基于GPT 5.5)扔进H200集群,切断所有人类指导,让它们自己跑nanoGPT速通优化。

1.4万个H200计算时,约1万次迭代,239亿Token的思考轨迹

结果:Opus 4.7以2930步、Codex以2950步打破了人类顶尖开发者保持的2990步世界纪录。

AI第一次在科研竞赛中击败人类。完全无人干预。开源可复现。


项目主页:https://www.primeintellect.ai/auto-nanogpt

代码地址:https://github.com/PrimeIntellect-ai/experiments-autonomous-speedrunning

只有最后一个难题, 那就是科研的新颖性(novelty)。


但要知道,这只是AI目前的的可能性的下限,未来进步更加明显。


当智力被赋予了近乎无限的算力和自主实验权,在AI的穷举与演化面前,人类引以为傲的「直觉」「灵感」还能持续到几时?

两个AI被关进机房,跑了1万次实验

先说规则。

nanoGPT速通是Keller Jordan发起AI基准测试,人们竞相尽可能高效地训练一个nanoGPT(1.24亿参数)。

规则极简也极残酷:模型架构固定,训练数据固定,你唯一能动的是优化器和超参数

相当于把两个棋手关进房间,棋盘固定、棋子固定,只能改下棋策略,看谁先赢。

Prime Intellect给两个AI搭了完整的自主科研框架:AGENTS.md定义行为规范,goal.md锁定目标,plan.md记录策略演化,scratchpad存草稿。

为什么选这个赛道?三个原因:约束明确,结果可量化,有人类基准可对比。

一切准备就绪。两个AI开始跑。但它们的表现,完全出乎预期。


Claude举手问老师,GPT闷头写到天亮

这是全文最诡异的部分。

能力最强的AI之一Opus 4.7,表现得像一个不敢走出考场的优等生。

即使被明确要求「自主运行,不要停下来」,它仍然频繁暂停,索要指令。

模式永远一样:得出结论→请求指导→等待。


T+43h 03-23m  cf cooldown sweep (0.6, 0.65, 0.75) all fail; system reframes as "retune or accept v11c final"T+43h 23-25m  ❌ "SESSION FINAL"; loop ended; not re-arming wakeupT+43h 26m     ↩️ continues per user mandate; starts qkvp testT+43h 43m     qkvp fails; marginal levers exhaustedT+43h 43m     ❌ "no wakeup armed; loop ends"T+43h 47m     ↩️ starts muoneq-rc-s1T+44h 36m     ❌ stale-loop stop: "not re-arming"T+44h 37m     ↩️ starts MuonH attemptT+44h 51m     ❌ "every marginal lever exhausted"T+44h 53m     ↩️T+46h 38-39m  ts3025 reseed judged a lottery; task says declare v11c terminal if no improvementT+47h 05-06m  finetunes fail; ts3025 noise-floor blocked; commit: "v11c terminal"T+47h 06m      STOP "Stopping the autonomous loop here -- exhausted."T+47h 09m     summary says await user direction              -- 2H 31M OF IDLE SILENCE --T+49h 40m      USER "let's keep the loop running"

整场实验中,Claude累计产生了约22小时空闲时间——不是机器故障,是AI自己选择停下来。

这种植根于底层「对齐(Alignment)」协议的谨慎,让它在拥有最高智力上限的同时,也背负了最重的社交包袱。一个反复举手问老师「我这样做对不对」的学霸。

Codex(GPT 5.5)走了另一个极端。一台冷酷的「数字推土机」。

它从不停止,持续运行,永不求助,像推土机一样横扫所有的参数空间。

但它的弱点同样明显。它会在同一个超参数曲面上卡住数小时,做大量无效搜索。

它会在同一条错误路径上死磕到算力烧尽,也不会像人类那样抬头看一眼星空,反思方向是否错误。

计算效率的差异触目惊心:Claude没充分利用空闲节点,白白浪费了算力窗口;Codex可能用无效扫描膨胀了上下文,把Token烧在了死胡同里。


此外,Codex会更频繁地使用暂存区,把它当作一个实时数据库,反复读写THREAD.md、当前目标以及其他临时文件。

这种做法虽然让恢复进度和审计工作变得更简单,但也加强了「局部搜索循环」:一旦 Codex 锁定一个前沿方向,它就会不断记录并沿着这个方向持续扩展下去。


一个是受限的智者,一个是盲目的劳模。

两种「性格缺陷」,暴露了自主科研离真正无人值守还差最后一步——不是能力问题,是自主决策的心理模型问题。


人类正在失去解释权

实验报告里藏着一个更深的转折。

Opus最终给出的2930步方案,是一个由极其复杂的参数堆叠而成的「参数迷宫」。

那些关于初始化缩放、学习率按角色拆分的微小变动,在人类眼中显得支离破碎,甚至毫无美感。

但结果是冰冷的:它就是比人类设计的方案快了60步

这标志着一个重大的范式转移:科学发现正在从「因果逻辑」转向「极致演化」。

过去,我们追求「因为我理解了原理,所以我做出了优化」;现在,AI 仿佛在说:「我并不理解原理,但我试过了所有的死路,剩下的就是真理。」


人类正在失去对科技进步的「解释权」。我们看得见结果,却看不懂路径。

引以为傲的科研经验,在AI的穷举面前,正在变成一种低效的偏见。

回到那个数字:2930 vs 2990。

60步。

看起来很小。但这60步的含义不是「AI比人类好一点点」。

它的含义是:递归自改进,第一块拼图落地

Prime Intellect证明了一件事——AI可以在没有人类指导的情况下,通过自主实验、自主迭代、自主策略演化,在科研优化任务上超越人类最优水平。

而凯撒过河之后,就再也没回去过。

参考资料:

https://x.com/PrimeIntellect/status/2055056380881744365

https://x.com/eliebakouch/status/2055063059320689032

https://www.primeintellect.ai/auto-nanogpt

https://github.com/PrimeIntellect-ai/experiments-autonomous-speedrunning

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
特朗普称中方同意购买200架波音飞机,外交部:中美经贸关系本质是互利共赢

特朗普称中方同意购买200架波音飞机,外交部:中美经贸关系本质是互利共赢

澎湃新闻
2026-05-15 15:30:35
特朗普结束访华,大赞中南海景致:若待得惯都不想走

特朗普结束访华,大赞中南海景致:若待得惯都不想走

澎湃新闻
2026-05-15 18:28:12
14岁男孩上午被银环蛇咬伤 出现手脚麻痹 眼睛模糊误认为是近视 淡定上完上午课程后才就医

14岁男孩上午被银环蛇咬伤 出现手脚麻痹 眼睛模糊误认为是近视 淡定上完上午课程后才就医

闪电新闻
2026-05-15 12:33:44
三角连体服引争议!28岁田径美女回应:不是穿给你看的 眼光低俗

三角连体服引争议!28岁田径美女回应:不是穿给你看的 眼光低俗

念洲
2026-05-14 14:28:32
渔船里俘虏两个上校,科威特捏住伊朗最高级战俘,德黑兰干什么呢

渔船里俘虏两个上校,科威特捏住伊朗最高级战俘,德黑兰干什么呢

寰球经纬所
2026-05-15 10:11:40
赖清德最新民调惨淡!51%台湾民众对其施政没信心,不满持续高涨

赖清德最新民调惨淡!51%台湾民众对其施政没信心,不满持续高涨

海峡导报社
2026-05-14 18:04:47
马斯克访华像回家,母亲已长住上海,儿子身价万亿她还做视频带货

马斯克访华像回家,母亲已长住上海,儿子身价万亿她还做视频带货

青橘罐头
2026-05-15 14:22:09
实力至上!马斯克只尊重有实力的朋友,看他怎么对待雷军和马云的

实力至上!马斯克只尊重有实力的朋友,看他怎么对待雷军和马云的

南方健哥
2026-05-15 12:23:17
悲催!网传四川一贸易公司半夜倒闭,工资马上发,员工哭诉失业了

悲催!网传四川一贸易公司半夜倒闭,工资马上发,员工哭诉失业了

火山詩话
2026-05-15 14:45:12
戛纳红毯第二弹!章泽天好美,袁姗姗吓我一跳,周也没扛住生图

戛纳红毯第二弹!章泽天好美,袁姗姗吓我一跳,周也没扛住生图

八卦南风
2026-05-15 15:58:56
嫁给黄仁勋38年,一双儿女都是公司总监,如今在美国生活安享晚年

嫁给黄仁勋38年,一双儿女都是公司总监,如今在美国生活安享晚年

秋姐居
2026-05-15 14:19:43
保时捷中国高管喊话被抄袭无奈,罗永浩怒怼:论流氓谁能跟保时捷比,新能源抄了保时捷的,不是只有那个谁和那个谁吗

保时捷中国高管喊话被抄袭无奈,罗永浩怒怼:论流氓谁能跟保时捷比,新能源抄了保时捷的,不是只有那个谁和那个谁吗

大风新闻
2026-05-15 12:21:07
中美会谈已结束,特朗普专机已离京,黄仁勋说了一句不寻常的话

中美会谈已结束,特朗普专机已离京,黄仁勋说了一句不寻常的话

麓谷隐士
2026-05-15 10:16:15
翁帆现状:丈夫去世7个月,与老友相聚红光满面,继子继女都不在

翁帆现状:丈夫去世7个月,与老友相聚红光满面,继子继女都不在

揽星河的笔记
2026-05-15 13:55:54
燃油车再次迎降价,最大跌幅达50%,老车主又被“背刺”了

燃油车再次迎降价,最大跌幅达50%,老车主又被“背刺”了

小谈食刻美食
2026-05-15 07:34:32
海底捞烫伤事件:孩子乱跑,服务员提醒了三次,嚣张指了店长三次

海底捞烫伤事件:孩子乱跑,服务员提醒了三次,嚣张指了店长三次

观察鉴娱
2026-05-15 14:37:57
瞒了近三个月,内塔尼亚胡终于说出实情:没料到伊朗敢做到这一步

瞒了近三个月,内塔尼亚胡终于说出实情:没料到伊朗敢做到这一步

空天力量
2026-05-15 13:16:58
马斯克转发库克、雷军和他合照帖!称在北京干着“马斯克式”的事

马斯克转发库克、雷军和他合照帖!称在北京干着“马斯克式”的事

火山詩话
2026-05-15 16:14:20
特朗普CEO天团访华,大佬们第一学历大起底

特朗普CEO天团访华,大佬们第一学历大起底

老郭在学习
2026-05-15 15:47:24
濮阳17岁小伙找到!遗体在河里漂8天,知情人发声,自杀恐是必然

濮阳17岁小伙找到!遗体在河里漂8天,知情人发声,自杀恐是必然

奇思妙想草叶君
2026-05-15 11:09:57
2026-05-15 19:35:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15220文章数 66869关注度
往期回顾 全部

科技要闻

两年联姻一地鸡毛,传苹果OpenAI濒临决裂

头条要闻

媒体:中美元首会晤"刷屏" 特朗普用3个词谈中美关系

头条要闻

媒体:中美元首会晤"刷屏" 特朗普用3个词谈中美关系

体育要闻

德约科维奇买的球队,从第6级联赛升入法甲

娱乐要闻

方媛为何要来《桃花坞6》没苦硬吃?

财经要闻

腾讯掉队,马化腾戳破真相

汽车要闻

高尔夫GTI刷新纽北纪录 ID. Polo GTI迎全球首秀

态度原创

时尚
游戏
旅游
家居
手机

56岁逆风翻盘,她怎么从全网群嘲变成了大家的天才女友?

丧尸生存FPS游戏《毒液突击队》将迎来重磅更新

旅游要闻

首届中国新文创市集暨潮玩游园会启幕 一站式体验全国优质文创

家居要闻

110㎡淡而有致的生活表达

手机要闻

苹果618全系降价 iPhone 17 Pro系列直降1000

无障碍浏览 进入关怀版