网易首页 > 网易号 > 正文 申请入驻

科研奇点已至:AI两小时完成博士数月工作

0
分享至

【导读】就在今天,Agentic AI工程师发现:博士80小时的科研任务,Codex不到2小时就跑完了,效率差达到了40倍!其实按照旧标准,AGI早已存在了,只是全行业都在移动球门。

科研界的「奇点」真的来了,比所有人预想的都要近。

近日,一项针对Codex「目标模式(Goal Mode)」的实验震惊了学术界:Codex可以让AI科研效率猛增40倍!

Agentic AI工程师Dan McAteer近日在X上披露一次实验:用OpenAI Codex的Goal Mode跑一项机械可解释性(Mechanistic Interpretability)研究任务。



GPT-5.5自己估算这个任务博士可能需要约80小时才完成,在实际操作中,AI 仅用时1小时56分钟便彻底完成了任务。



表面效率提升约40倍!



他所使用的是Codex中一种内置的技能 /goal。

也就是,让模型自行设定目标,其中的关键就是它写出的提示词很可能比你的更出色。



这不再是简单的「效率提升」,而是一场彻头彻尾的「降维打击」。

当科研周期从以「周」为单位缩减至「小时」,当 AI 开始自主撰写自己的实验目标(/goal),我们必须承认一个残酷的现实:

「智能爆炸」的斜率已经现身,AI 的自我迭代速度正在脱离人类的掌控节奏!

先来看看这个实验是怎么进行的。

实验发起人是Dan McAteer,Agentic AI工程师,前Amp Code工程师。

常年在X上分享AI agent工程化的具体实践。



他的实验配置很简单——

他自己对这套配置的描述是:当前可用的最高效的AI智能体配置。

这件事真正值得说的是Codex /goal这个模式本身。



按OpenAI Codex工程师Philip Corey的描述,/goal是我们对Ralph loop的一种实现——让目标在多轮对话里持续存在,不达成不停止。

简单说,普通的Codex调用是你说一句、它做一步、回你一句。

Codex /goal是你说一个目标、它自己拆分子任务、自己执行、自己review、自己继续,直到达成或失败。

这是从对话式AI到目标驱动AI的工程切换。



对Mechanistic Interpretability这类研究任务,/goal模式的天然契合度高。

研究流程本身就是提出假设→设计实验→运行→看结果→修正假设→再实验的循环,正好可以喂给一个会自我循环的agent。

McAteer的实验真正证明的,是Codex /goal 模式在科研型循环任务上具备可用性:不是替代研究员,是替代研究员的重复操作部分。



这个能力如果能稳定下来,对AI研究本身有非常直接的杠杆。

它意味着AI实验室自己内部的AI研究员,未来某天可以用AI agent去做训练数据准备、实验设置、消融研究、可视化生成、初步结果分析这些重复工作。

这也就是Anthropic和OpenAI最近反复说的AI正在加速AI研究本身。

这套流程之所以漫长,是因为人类大脑在处理复杂逻辑和海量数据时,存在物理上限。

但Codex的这次实验彻底打破了这种认知。



在「/goal + GPT-5.5 High + Fast Mode」的最强智能体配置下,AI不再是一个「听指令」的工具,而是一个「出策略」的独立研究员。

它能够理解复杂的自然语言自动编码器(NLA)实验需求,自主拆解任务,并在不到2小时的时间里走完了人类精英需要两周才能走完的路。

这代表着,从此人类的科研门槛彻底崩塌。曾经需要数年寒窗苦读换来的专业分析能力,正在被算法模块化。

而且,自主AI研究员已经提前降临了!

OpenAI此前设定的目标是2026年底实现AI自主科研。

但从目前的实验进度看,2026年可能不是开始,而是人类彻底交出科研接力棒的终点。

如果说Codex 40倍速实验是一个刺眼的个案,那更让人坐不住的,是围绕「递归自我改进」的证据正在密集涌现。

5月7日,据Axios报道,Anthropic联创Jack Clark公开给出了一个概率:

到2028年底,AI实现完全递归自我改进的概率超过60%。





Sakana AI和UBC的研究团队今年造出了Darwin Gödel Machine,一个能改写自己源代码来提升自身能力的编程智能体。



在SWE-bench上,它的得分从20.0%自我提升到50.0%。全程没有人类插手。



同一个团队的AI Scientist项目今年3月发表在Nature上。

一整条科研流水线,从头到尾,AI独立完成。



再看一组硬数据。GPQA Diamond,一个由博士专家出题的科学问答基准。2023年11月GPT-4得分39%。人类领域专家的平均水平约65%。

2026年4月,前沿模型集体越线:Gemini 3.1 Pro得分94.3%,Claude Opus 4.7得分94.2%。

所有前沿模型都已远远甩开人类博士专家。



SWE-bench的轨迹更能说明加速度。



2023年底,Claude 2的通过率是2%。现在,93.9%。

两年半,就从2%飙升到了93.9%。

这条曲线画出来,任何一个学过高中数学的人都认识它的形状。

显然,递归自我改进(RSI)的进程已经开始。

一旦 AI 开始用这种 40 倍的效率去改写自己的底层代码、优化自己的架构,智力的增长将不再是线性的,而是垂直向上的。



按照 2022 年之前的定义,AGI其实早已实现。

之所以现在还没人承认,是因为整个AI行业正在对公众进行一场集体性的「煤气灯效应」。



2022 年前,只要能通过图灵测试、能跨领域处理任务,就是AGI。

ChatGPT出现后: 「光有这些不行,还得有完美的推理、得有身体(具身性)、得有自我意识。」

每当模型突破一个关口,人类就会即兴加入新的、虚无缥缈的指标作为门槛,不断移动球门。

问题是,如果AGI已经存在,那么现在的行业逻辑就变得极其荒诞。

OpenAI 还在筹集 400 亿美元声称要「构建 AGI」;Anthropic 每次发布新模型都要包装成「接近 AGI」的期货。



如今,我们正处于一个极其诡异的节点。

在实验室里,AI已经用 40 倍速在进行机械解释性研究,甚至在帮自己写代码。

在市场上,算力依然是硬通货,英伟达的 Blackwell 芯片被疯抢,每一块芯片都在加速那个奇点的到来。

然而在社会心理上,大众还在用「复读机」和「概率预测」这种过时的词汇来安慰自己。

当 AI 能够独立完成博士级任务时,我们现有的教育体系、职称评定、甚至专家这个词本身的含义,都将面临灭顶之灾。

正如哥白尼将地球移出了宇宙中心,现在的 AI 正在将人类移出「唯一智慧生命」的圣殿。

现在,这场名为智能爆炸的战争没有硝烟。

我们要么学会如何与这种智能新物种共生,要么就只能眼睁睁地看着它,以 40 倍的速度,把我们甩在尘埃里。

声明:个人原创,仅供参考

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
227周戛然而止!郑钦文将跌出世界前100,美网从资格赛打起?

227周戛然而止!郑钦文将跌出世界前100,美网从资格赛打起?

全景体育V
2026-05-25 19:13:23
假装激光雷达,实则“小蓝灯”?东风奕派引发争议

假装激光雷达,实则“小蓝灯”?东风奕派引发争议

观察者网
2026-05-25 17:38:09
53岁袁立病房照曝光!钱再多有什么用?她给所有中年女人提了个醒

53岁袁立病房照曝光!钱再多有什么用?她给所有中年女人提了个醒

文刀贰
2026-05-24 21:21:45
深圳人口增长全国第一!更炸裂的是……

深圳人口增长全国第一!更炸裂的是……

博闻财经
2026-05-25 19:51:49
泪洒发布会!郑钦文眼睛哭肿:首轮出局和教练无关 脚有泡跑动疼

泪洒发布会!郑钦文眼睛哭肿:首轮出局和教练无关 脚有泡跑动疼

念洲
2026-05-25 22:18:55
被央视点名的洗洁精,不仅有毒还致癌?提醒:3种洗洁精尽量少用

被央视点名的洗洁精,不仅有毒还致癌?提醒:3种洗洁精尽量少用

39健康网
2026-05-25 19:10:41
反转了!耿同学从吉大出来后,短短几天判若两人,网友发帖引热议

反转了!耿同学从吉大出来后,短短几天判若两人,网友发帖引热议

火山詩话
2026-05-25 07:42:09
“泡药杨梅”事件,问责处理28人为何都隐姓埋名?

“泡药杨梅”事件,问责处理28人为何都隐姓埋名?

方清云
2026-05-25 17:18:27
绿军酝酿重磅交易!塔图姆布朗有望联手七届全明星组建豪华三巨头

绿军酝酿重磅交易!塔图姆布朗有望联手七届全明星组建豪华三巨头

夜白侃球
2026-05-25 09:36:43
太辣眼了!网红白冰,出轨聊天记录曝光, 其中到底有多炸裂?

太辣眼了!网红白冰,出轨聊天记录曝光, 其中到底有多炸裂?

川渝视觉
2026-05-24 20:57:57
开拓者老板回应大裁员:并非刻意缩减开支 球员投入方面绝不吝啬

开拓者老板回应大裁员:并非刻意缩减开支 球员投入方面绝不吝啬

罗说NBA
2026-05-26 06:37:26
武契奇大雨中前往人民英雄纪念碑献花圈

武契奇大雨中前往人民英雄纪念碑献花圈

看看新闻Knews
2026-05-25 19:19:43
中国工程院撤销张尧学院士称号

中国工程院撤销张尧学院士称号

看看新闻Knews
2026-05-25 23:51:11
大冷!郑钦文0-2连丢8局遭赫瓦林斯卡横扫 5战法网首次一轮游

大冷!郑钦文0-2连丢8局遭赫瓦林斯卡横扫 5战法网首次一轮游

醉卧浮生
2026-05-25 18:41:26
盒马“粉木耳”配女性轮廓剪影,是否涉嫌性暗示、“内涵”女性?

盒马“粉木耳”配女性轮廓剪影,是否涉嫌性暗示、“内涵”女性?

乔志峰
2026-05-25 17:04:18
铁原阻击战:彭德怀拒不采纳的建议,差点让志愿军全军覆没?

铁原阻击战:彭德怀拒不采纳的建议,差点让志愿军全军覆没?

浪子说
2026-05-26 00:45:03
深度:澳大利亚14天逼退中资!国资委雷霆出手,民企"野战军"也应该管!

深度:澳大利亚14天逼退中资!国资委雷霆出手,民企"野战军"也应该管!

华山穹剑
2026-05-25 21:11:01
山东烟台“最美女律师”迟宗琳遇车祸去世,年仅42岁:生前常免费帮弱势群体打官司,还率一家七口登记捐献遗体角膜,如今名字与父亲同刻纪念墙

山东烟台“最美女律师”迟宗琳遇车祸去世,年仅42岁:生前常免费帮弱势群体打官司,还率一家七口登记捐献遗体角膜,如今名字与父亲同刻纪念墙

极目新闻
2026-05-25 11:29:35
字母布朗卷入三方交易?雄鹿超巨心仪绿军热火 火箭等队有意布朗

字母布朗卷入三方交易?雄鹿超巨心仪绿军热火 火箭等队有意布朗

罗说NBA
2026-05-26 06:32:21
在刚刚!CBA官宣第9位主帅下课!接替者是名帅,曾任中国男篮教练

在刚刚!CBA官宣第9位主帅下课!接替者是名帅,曾任中国男篮教练

老吴说体育
2026-05-25 19:07:36
2026-05-26 07:40:49
地球记
地球记
科普世界地理知识,有不对的欢迎指正!
785文章数 787关注度
往期回顾 全部

科技要闻

微软22.8万人,被迫过创业公司的日子

头条要闻

燃油车齐降价捷豹路虎打对折 网友:感觉燃油车又香了

头条要闻

燃油车齐降价捷豹路虎打对折 网友:感觉燃油车又香了

体育要闻

如果不好好守门,他可能早就继承家业了

娱乐要闻

李晨郑恺跑男停宣:12年元老被边缘化

财经要闻

起底煤矿“暗面”:假整改、假数据

汽车要闻

启境GT7定档5月29日预售 提供三电机版本

态度原创

时尚
房产
游戏
本地
军事航空

Bella的戛纳之旅,次次“神级”表现

房产要闻

工抵房骗局!134套房款入私账!海南这个盘,坑惨买房人!

魔兽世界:时光服提升难度谁受益?只管输出DPS,TN却在疯狂抗压

本地新闻

用云锦的方式,打开江苏南京

军事要闻

俄军出动“榛树”导弹袭击乌克兰

无障碍浏览 进入关怀版