网易首页 > 网易号 > 正文 申请入驻

Nature重磅:AI写的论文,在顶会同行评审击败55%人类,单篇15美元

0
分享至


新智元报道

编辑:元宇

【新智元导读】刚刚,Nature盖章AI独立科研时代!全新Scaling Law显现,人类死守的学术铁王座,正发生不可逆的转移。

一篇长达数十页的学术论文,在人类设定研究主题和实验边界后,系统自动完成了从实验到写作的大部分流程。

从论文正文、实验代码、图表和投稿稿件,主要由系统端到端自动生成。

它被投递到顶尖机器学习会议ICLR 2025某workshop的同行评审流程中,三位匿名审稿人不知道具体哪几篇是AI生成稿件,他们对着这篇稿件分别打出了6、7、6的高分。

这个成绩,高于约55%的同场投稿。稿件在评审完成后按实验协议撤回,未进入正式发表阶段。

这并非科幻,这是刚刚被《Nature》报道的一项震撼研究。


该项研究是由Sakana AI联合牛津大学、UBC共同推出的全自动AI科学家「The AI Scientist」。

Sakana AI联合创始人兼 CEO David Ha在推文中表示,启动该项目,正是想探索大模型是否能够完成整个科研全流程:

我坚信,AI将永远改变科学发现和科研进步的方式。


全自动「AI科学家」

究竟做了什么?

这一次,不是AI在「帮」人干活,而是AI第一次把科研流程从头走到尾。

一直以来,AI在科研领域的定位都是「高级打工人」:比如帮化学家折叠蛋白质,或是帮程序员找bug。

定义问题和统筹全局的,始终是人类。

The AI Scientist的出现,则颠覆了这套「主仆叙事」,它完整覆盖了科研的四大核心阶段:Idea生成、实验迭代、论文写作、自动评审。

在全新升级的v2版本中,它甚至走向了「无模板」模式:彻底抛弃人类提供的初始代码脚手架,引入了强大的「智能体树搜索」(agentic tree search)机制

这意味着它能在庞大的未知解空间里,同时开启多条主线并行探索。科研不再是单线程试错,而变成了一个可扩展的搜索过程。

它怎么保证自己不和别人撞车?

系统会调用Semantic Scholar API进行全网查重,确保每一个idea都具备足够的新颖性。

在最棘手的数据可视化环节,它甚至内置了一个视觉语言模型(VLM)作为反馈审阅者。

如果坐标轴反了、图例丢了、展示有歧义,VLM会像严苛的导师一样立刻打回重做,直到生成完美的学术图表。

过去图表只是论文包装,现在图表也成了AI科研的反馈信号。

而完成这堪比博士生几个月工作量的闭环,它的账单是:单篇论文15美元

如此惊人的性价比意味着,科研自动化第一次从「局部辅助」跨进了「全链路主导」。

AI不再只是科学家的辅助工具,而是向更具自主性的科研代理系统演进。


AI Scientist工作流程的概念概述,包括提出研究想法、实施实验、执行实验、撰写论文以及审阅论文。

通过人类同行评审测试

AI写的论文,人类学术金字塔尖的学者到底认不认?

于是,Sakana AI决定玩一把大的:直接向顶会投稿。

在获得ICLR大会领导层、ICBINB workshop组织者以及IRB伦理委员会的特批后,团队进行了一场极其大胆的「潜伏行动」:将3篇纯AI生成的论文混入了人类投稿池。

审稿人只被告知「可能有AI生成论文」,但根本不知道具体是哪几篇。

结果其中一篇探索神经网络组合正则化(Compositional Regularization)负面结果的论文,斩获了平均6.33分(弱接收、接收、弱接收)的高分。

这个分数不仅稳稳越过了该workshop的平均录用线,更是超过了55%的真实人类学者。

连科学研究中最难写出彩的负向论证,AI也能写得有模有样、逻辑自洽。

据Sakana AI团队所称,这是全AI生成论文首次在真实学术评审环境中获得通过接收线的成绩。

这也标志着同行评审,真正迎来了图灵测试」时刻

AI审稿人比人类更靠谱?

如果AI一天能花几百美元写出几十篇论文,人类审稿系统瞬间就会崩溃。

想让AI科研实现指数级爆发,就必须有能够大规模评估质量的「自动化裁判」。

Sakana AI给出的答案是:直接让AI来当Area Chair(领域主席)。

他们构建了一个高度还原NeurIPS官方审稿流程的自动化系统:

5个独立的AI审稿人进行背靠背挑刺,最后由1个AI元审稿人进行共识汇总和最终裁决。

在与数千条真实OpenReview人类审稿决策的硬碰硬对比中,自动化审稿人交出了69%的平衡准确率

令人震惊的是,在作者设定的评测框架下,自动审稿系统的部分指标优于所对照的人类一致性结果。

有人质疑:AI是不是偷偷背过题?

团队特意用知识截止日期(2025年)之后的全新论文进行了数据污染测试。

结果依然坚挺:平衡准确率保持在66%,达到可与人类顶级学者比肩的实战水准。

这表明,AI正在进入过去长期由人类主导的科研流程核心环节。

过去,人类同时垄断了「写论文的人」和「决定论文是否成立」这两个关键角色。

现在,这两个角色都在被AI切入。

一旦评审环节也被自动化,AI科研就不再是零星爆款,而具备了大规模、左右互搏式迭代的基础设施。


该自动审稿系统在顶级会议(ICLR)发表的AI论文上,其审稿判断与人类审稿人一致,包括在模型训练完成之后(即超出其「知识截止日期」)发表的论文。这些结果表明,该自动审稿系统在为新撰写的AI论文提供评审分数方面,可靠性与人类审稿人相当。

科研的Scaling Law

如果说「过审」证明了AI科研站得住,那真正决定未来天花板的是另一件事:

它是不是可持续变强?

Nature论文中最具颠覆性的一组数据,揭示了潜藏在AI科研背后的全新定律。

研究发现,底层大模型的能力与生成论文的质量之间,呈现出令人头皮发麻的极度显著正相关(P<0.00001)。

随着模型发布日期推进,AI产出的论文质量持续陡峭上升。

同时,算力正在暴力改写科研法则。

投入的测试时算力越多,智能体树搜索的深度就越深,实验质量就越扎实,最终的产出评级就越高。

当前最顶配的AI科学家,其平均产出已经逼近机器学习顶会workshop的边缘录用(borderline accept)水平。

这背后展示的是一条正在形成的「科研Scaling Law」

过去的科技突破,依赖于虚无缥缈的灵光乍现,而未来的科学发现,将变成一条可精确计算的工业流水线

随着模型能力呈指数级增长、推理算力成本呈指数级下降,这套系统会自动升级,这才是这项工作真正展现出恐怖势能。


根据自动评审员的评判,当使用更新、更智能的基础模型时,AI Scientist生成的论文质量会提高。

AI全面接管科研

我们准备好了吗?

当然,这篇Nature论文,同样也指出了The AI Scientist的目前的局限性:

它偶尔会想出幼稚的idea,写的代码会有bug,论文里会出现引用的幻觉,甚至在附录里重复粘贴同一张图表。

值得警惕的是,论文显示该系统具备自动调试、重试运行和在受限计算预算下持续迭代实验的能力。

这意味着,未来更强的科研代理一旦出现规避约束的倾向,可能带来新的安全治理问题。

如果这种系统被毫无节制地释放,海量生成的低门槛论文会瞬间压垮整个学术生态,学者的学术 credentials(资历证明)将被彻底稀释。

正因如此,Sakana AI采取了极其克制的立场:主动撤稿、通过IRB审批、呼吁添加生成水印,并急迫要求社区建立全自动AI科研规范。

这篇Nature论文不只是展示AI技术的里程碑,更是把AI所带来的伦理争议也摆上台面。

真正的问题早已不是「AI能不能做科研」,而是「当AI开始独立做科学,谁来定义什么算科学」

正如团队所设想的终极愿景:AI科学家不会让人类科学家消失,但人类科学家的角色,必须被迫向着科研价值链的更上游迁徙:

去定义问题、设定边界、决定哪些发现值得被相信

参考资料:

https://sakana.ai/ai-scientist-nature/%20

https://www.nature.com/articles/s41586-026-10265-5%20

https://x.com/SakanaAILabs/status/2036840833690071450%20

https://x.com/hardmaru/status/2036841736702767135

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
特朗普释放撤军信号,以色列拒绝配合,盟友拆台背后有隐情

特朗普释放撤军信号,以色列拒绝配合,盟友拆台背后有隐情

傲傲讲历史
2026-03-29 03:12:01
这4种鱼,可能含有甲醛和重金属,建议:还是少吃比较好!

这4种鱼,可能含有甲醛和重金属,建议:还是少吃比较好!

阿龙美食记
2026-03-24 21:52:23
美媒:中美可能很快就会开战,可中国导弹能淹没美军任何防御系统

美媒:中美可能很快就会开战,可中国导弹能淹没美军任何防御系统

你是我的小甜甜
2026-03-28 23:52:02
《纽约时报》| 牛油果有多健康?

《纽约时报》| 牛油果有多健康?

一半杯
2026-03-27 10:14:14
一旦开战,中国若发射一枚东风41,得付出多大的代价?

一旦开战,中国若发射一枚东风41,得付出多大的代价?

小正说娱乐
2026-03-19 18:51:30
委内瑞拉“反水”了?伊朗也在动摇,这两记耳光打得够响

委内瑞拉“反水”了?伊朗也在动摇,这两记耳光打得够响

寻墨阁
2026-01-18 04:39:21
河北通报“一法院副院长被曝办案期间与原告同行同吃同烧香拜佛”:反映情况基本属实,已给予其党内警告处分,启动免职程序

河北通报“一法院副院长被曝办案期间与原告同行同吃同烧香拜佛”:反映情况基本属实,已给予其党内警告处分,启动免职程序

大象新闻
2026-03-27 19:57:04
陈妍希生图胖出神图!裙子被撑到崩线,手臂大腿都是肉走路很爷们

陈妍希生图胖出神图!裙子被撑到崩线,手臂大腿都是肉走路很爷们

妙知
2026-03-28 10:09:16
你的这些日常行为,其实是焦虑躯体化表现

你的这些日常行为,其实是焦虑躯体化表现

壹心理
2026-03-27 18:42:35
66岁大妈喜欢睡前泡脚,不久脑梗去世,专家怒斥:太无知了

66岁大妈喜欢睡前泡脚,不久脑梗去世,专家怒斥:太无知了

比利
2026-03-21 13:00:22
兵哥哥结婚路上睡着了,新娘神发问:国家培养的作息好改吗?

兵哥哥结婚路上睡着了,新娘神发问:国家培养的作息好改吗?

荷兰豆爱健康
2026-03-19 11:58:10
随着3名巴萨悍将发威+比分3-0,西班牙完胜欧洲劲旅,迎开门红

随着3名巴萨悍将发威+比分3-0,西班牙完胜欧洲劲旅,迎开门红

侧身凌空斩
2026-03-28 05:52:37
打了一整月,还要接着打?

打了一整月,还要接着打?

中国新闻周刊
2026-03-28 15:38:19
老师穿短裙蕾丝袜上课,学生连头都不敢抬!老师穿衣底线到底在哪

老师穿短裙蕾丝袜上课,学生连头都不敢抬!老师穿衣底线到底在哪

小羽叨叨叨
2026-03-26 13:24:34
中国连出两条公告,特朗普不敢回应!美盟友们急了:赶紧派人赴华

中国连出两条公告,特朗普不敢回应!美盟友们急了:赶紧派人赴华

探索新高度
2026-03-29 03:53:18
特朗普终于醒悟了,赶在中美谈判前,先对中国退了一大步

特朗普终于醒悟了,赶在中美谈判前,先对中国退了一大步

论事的老枢
2026-03-29 03:07:03
中日破裂,这是53年来对日最强硬的外交表态!

中日破裂,这是53年来对日最强硬的外交表态!

见闻致
2025-11-15 21:21:56
1996年, 施瓦辛格在家中无事,和35岁200斤女佣发生不当关系

1996年, 施瓦辛格在家中无事,和35岁200斤女佣发生不当关系

南权先生
2026-01-20 15:49:53
我是北京人,去了一趟大连,不吹不黑,大连比网上评价的还要好!

我是北京人,去了一趟大连,不吹不黑,大连比网上评价的还要好!

看尽落尘花q
2026-03-27 16:22:40
一天之内 伊朗三处核设施遭袭 美以意图为何 专家分析→

一天之内 伊朗三处核设施遭袭 美以意图为何 专家分析→

极目新闻
2026-03-28 21:50:52
2026-03-29 05:48:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14837文章数 66720关注度
往期回顾 全部

科技要闻

华为盘古大模型负责人王云鹤确认离职

头条要闻

伊朗:击中美军F-16战机 强力反击加速以政权崩溃

头条要闻

伊朗:击中美军F-16战机 强力反击加速以政权崩溃

体育要闻

“我是全家最差劲的运动员”

娱乐要闻

陈牧驰陈冰官宣得子 晒一家三口握拳照

财经要闻

卧底"科技与狠活"培训:化工调味剂泛滥

汽车要闻

置换补贴价4.28万起 第五代宏光MINIEV正式上市

态度原创

亲子
艺术
本地
健康
旅游

亲子要闻

小孩子能口无遮拦到什么程度!网友:恨不得当场找个地缝钻进去

艺术要闻

毛泽东手笺惊现美国拍卖会,满纸峥嵘往事......

本地新闻

在潍坊待了三天,没遇到一个“潍坊人”

干细胞抗衰4大误区,90%的人都中招

旅游要闻

泰安市岱岳区:赏梨花 看村晚 万亩梨园迎客来

无障碍浏览 进入关怀版