网易首页 > 网易号 > 正文 申请入驻

AI科学家登上Nature,论文从构思到发表全自动化,一篇已通过评审

0
分享至

几小时前,Nature 宣布了真正意义上的 AI 科学家的首次实现。由“Transformer 八子”之一联合创办的日本 Sakana AI 与英国牛津大学、英属哥伦比亚大学的研究团队打造了一个从零开始搞科研的 AI,实现了从构思到论文发表的完整端到端自动化,并有 AI 论文通过国际顶会 ICLR 2025 同行评审,这是 AI 科研范式的突破,触及了人类创造力的边界。


图 | 被选中的 AI 论文节选(来源:https://www.nature.com/art)

值得注意的是,来自英国牛津大学的 Chris Lu 和来自英属哥伦比亚大学的 Cong Lu 是共同一作之一。


图 | 从左到右:Chris Lu 和 Cong Lu(来源:资料图)

研究中,他们造出了一个叫 AI 科学家( AI Scientist)的系统,从想点子、写代码、跑实验、分析数据,到写论文、自己审稿,全由AI自己完成。

更让人震惊的是,其中一篇完全由AI生成的论文,投到了 ICLR 2025 的一个研讨会,拿到了 6 分、7 分、6 分的评审分数,超过了这个研讨会平均的录取线。这篇论文如果没被主动撤稿,大概率会被接收。


(来源:https://www.nature.com/articles/s41586-026-10265-5)

据了解,AI 科学家的工作流程分成四块。

第一步是想点子。

它被喂进一个研究领域后,会自己生成一批研究方向,每一条都带着标题、研究理由、实验方案,还给自己打分,有趣程度、新颖程度、可行性,1 到 10 分自己评。然后它连上 Semantic Scholar 的学术搜索引擎,把跟已有工作太像的点子扔掉。

第二步是做实验。

这里分两种模式。

第一种是模板模式,研究人员先给它一段能跑通的代码做起点,它在这个基础上想新点子,然后叫一个叫 Aider 的代码助手来改代码、跑实验,出错了自己看日志、自己修,修好了继续跑。

另一种是无模板模式,它连起点代码都没有,得从零开始写。这时候它会搞一个树形搜索,一个点子长出好几个分支,每个分支跑不同参数、不同设置,跑完一轮选最好的那个继续往下走。这个过程会并行跑很多个节点,谁效果好谁被选中继续深挖。

第三步是写论文。

它把自己实验里记的笔记、生成的图表填进一个标准的 LaTeX 模板里,一节一节地写,引言、方法、结果、结论,全齐。要写相关工作部分的时候,它再去查 Semantic Scholar,把相关的论文找出来,然后读摘要和写引用。写完还会自己编译 LaTeX,报错了自己改,最多可以改五次,直到出一份能看的 PDF。

第四步是自己审稿。

研究团队还造了一个自动化审稿器,照着 NeurIPS 的审稿指南,对论文打分,给优点、缺点、伦理问题,最后给一个接受或拒绝的建议。五份独立审稿结果汇总,再由它自己当领域主席做一个综合判断。

这个自动化审稿器不是随便做的,研究团队拿它跟真实的人类审稿记录做了对比。他们从 OpenReview 上拿了 ICLR 的论文数据,让自动化审稿器打分,结果它的平衡准确率达到 了69%,跟人类审稿人的 66% 差不多。

在 F1 分数上,它甚至比 NeurIPS 2021 那个著名的审稿一致性实验里的人类审稿人之间的一致性还高。这意味着自动化审稿器打出来的分数,跟一个真实的人类审稿专家基本在一个水平线上。

他们还专门测了数据污染的问题。模型训练时用的数据可能包含 2017 到 2024 年的论文,所以他们又拿 2025 年出的新论文测了一遍,结果平衡准确率降到了 66%,仍然和人类审稿人持平。这说明自动化审稿器不是靠背答案,它其实是真的能够自己判断论文质量。


(来源:https://www.nature.com/articles/s41586-026-10265-5)

研究团队还发现了一个规律,AI 科学家生成的论文质量,跟它底下用的基础模型强相关。他们用不同时间发布的模型跑同一套流程,从较老的模型到最新的模型,生成的论文评分一直在涨。这说明随着基础模型越来越强,AI 科学家写出来的论文也会越来越接近人类水平。

同时,给 AI 科学家分配的计算资源越多,它写出来的论文质量也越高。这有点像给一个研究生更多时间做实验,最后成果也会更好。这两个趋势加在一起,意味着未来 AI 科学家的能力会随着模型升级和算力增长持续提升。


(来源:Nature)

被研讨会评审看上的那篇论文,研究的是深度学习里的一个负向结果,正好契合那个叫 ICBINB 的研讨会主题。这篇论文由AI科学家在无模板模式下生成,从头到尾没有人类修改过。它从选题、设计实验、跑代码、出图表、写 LaTeX,全部是自己完成的。

研究团队一共投了三篇,只有这一篇过了线,另外两篇没达标。这说明 AI 科学家目前还不是每次都能写出高质量论文,但这明确证明 AI 写出来的东西已经能骗过人类审稿人,让它以为自己是在审一个人类研究生的作业。

当然,AI 科学家现在还远不够完美。它偶尔会想出很幼稚的点子,方法论不够严谨,写代码时会出各种 bug,还会产生幻觉,比如引文明明是错的它硬说对,或者附录里把同一张图放两遍。

不过,研究团队发现在机器学习这个领域,很多技术刚出现时都不完美,甚至漏洞百出,但只要它能让做出来这件事本身成立,后续通过扩大规模、更好的模型、更优的技术,这项能力就会迅速提升,进而很快超越人类水平。

总的来说,这项工作的意义远远不止让 AI 写几篇论文,它把整个科研流程从头到尾连起来了,从想点子到做实验到写论文到审稿,全在计算机里跑通。

未来可以用 AI 来加速科研,比如在药物发现、材料设计、气候建模这些领域,让 AI 科学家 7×24 小时地跑实验、试方向,而人类科学家只需要在关键节点做判断和选择。

同时,研究团队在论文最后也提到了风险,比如AI论文洪流可能会压垮现有的审稿系统,或者有人拿 AI 灌水、批量发假论文。所以他们主动把投出去的论文撤回来了,也在所有生成的论文里加了水印,方便识别。他们还建议学术界尽快建立规范,告诉人们 AI 写的论文应该怎么标注和怎么对待。

参考资料:

相关论文https://www.nature.com/articles/s41586-026-10265-5

https://www.linkedin.com/in/chris-lu-37471b119/

https://chrislu.page/

https://www.linkedin.com/in/cong-lu-530b74104/

https://www.conglu.co.uk/

https://sakana.ai/ai-scientist-nature/

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
安徽少女溺亡后续!母亲控诉救援队,当地霸气反击,网友:真活该

安徽少女溺亡后续!母亲控诉救援队,当地霸气反击,网友:真活该

哄动一时啊
2026-06-26 16:42:24
出人意料!绿营态度大转变、蓝营“内鬼”全变脸,郑丽文面临危机

出人意料!绿营态度大转变、蓝营“内鬼”全变脸,郑丽文面临危机

野史日记
2026-06-26 21:45:07
iPhone 18 Pro Max曝光:灵动岛暴瘦35,苹果正面设计四年首变

iPhone 18 Pro Max曝光:灵动岛暴瘦35,苹果正面设计四年首变

小柱解说游戏
2026-06-25 02:56:49
奔驰新车官宣:7月8日,正式上市

奔驰新车官宣:7月8日,正式上市

科技堡垒
2026-06-26 11:27:42
内马尔登场时小安切洛蒂摇头引发争议,本人社媒澄清

内马尔登场时小安切洛蒂摇头引发争议,本人社媒澄清

懂球帝
2026-06-27 14:30:19
举杯美加墨·聚焦|从世界“角”来到世界杯中央,佛得角首次亮相就晋级淘汰赛

举杯美加墨·聚焦|从世界“角”来到世界杯中央,佛得角首次亮相就晋级淘汰赛

上观新闻
2026-06-27 11:20:33
大家提前做好准备,不出意外的话,7月开始中国或将出现4大变化

大家提前做好准备,不出意外的话,7月开始中国或将出现4大变化

春之韵
2026-06-26 23:36:35
特朗普威胁:征收100%报复性关税

特朗普威胁:征收100%报复性关税

第一财经资讯
2026-06-27 10:16:04
随着伊朗1-1,比利时5-1,世界杯32强出28席,韩国等9队争最后4席

随着伊朗1-1,比利时5-1,世界杯32强出28席,韩国等9队争最后4席

小火箭爱体育
2026-06-27 13:42:01
南野拓实:巴西绝不是不可战胜的对手,我觉得我们完全有机会

南野拓实:巴西绝不是不可战胜的对手,我觉得我们完全有机会

懂球帝
2026-06-27 16:37:19
雄鹿拆队甩卖!火箭有意27岁射手,场均8+1+1,下赛季薪资仅388万

雄鹿拆队甩卖!火箭有意27岁射手,场均8+1+1,下赛季薪资仅388万

熊哥爱篮球
2026-06-27 22:01:04
美国结束37.6万辆特斯拉转向问题调查:召回后问题已解决

美国结束37.6万辆特斯拉转向问题调查:召回后问题已解决

IT之家
2026-06-27 17:30:40
半只脚越位!伊朗主帅谈绝杀被吹:我们不仅备受打压,还很倒霉

半只脚越位!伊朗主帅谈绝杀被吹:我们不仅备受打压,还很倒霉

兰亭墨未干
2026-06-27 21:06:13
心理学:没有任何物种会因为“被养大”而终身服从,幼崽离巢时从不回头张望,进化论里最冰冷的底层代码,亲缘的尽头只写着两个字

心理学:没有任何物种会因为“被养大”而终身服从,幼崽离巢时从不回头张望,进化论里最冰冷的底层代码,亲缘的尽头只写着两个字

心理观察局
2026-06-26 07:26:06
电影《抓特务》票房扑街,这个时代的观众不喜欢任何人通过电影“夹带私货”

电影《抓特务》票房扑街,这个时代的观众不喜欢任何人通过电影“夹带私货”

明叔杂谈
2026-06-27 20:18:56
磷化铟现货全线紧缺供不应求,6大铟矿资源龙头暗藏涨价红利

磷化铟现货全线紧缺供不应求,6大铟矿资源龙头暗藏涨价红利

白浅娱乐聊
2026-06-27 08:39:31
油价大跌1.28元/升,92汽油大降三次后,下次7月3日调整

油价大跌1.28元/升,92汽油大降三次后,下次7月3日调整

猪友巴巴
2026-06-27 17:20:03
买乌郎练出来了,泰山队没克雷桑,踢出团队足球,依木兰交学费了

买乌郎练出来了,泰山队没克雷桑,踢出团队足球,依木兰交学费了

替补席看球
2026-06-27 21:06:13
稀土归零5个月,光刻胶暴跌95%:中日互相卡脖子,谁先扛不住?

稀土归零5个月,光刻胶暴跌95%:中日互相卡脖子,谁先扛不住?

混沌录
2026-06-27 00:00:52
世界杯最后6场小组赛预测:人性的选择比实力更重要,默契球很多

世界杯最后6场小组赛预测:人性的选择比实力更重要,默契球很多

铁甲西奇
2026-06-27 21:33:35
2026-06-27 23:04:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16890文章数 515056关注度
往期回顾 全部

科技要闻

GPT-5.6发布,你暂时用不了!Mythos也放行

头条要闻

张雪公布“东鹏特饮事件”原视频

头条要闻

张雪公布“东鹏特饮事件”原视频

体育要闻

世界杯最火门将,站到了阿根廷和梅西面前

娱乐要闻

四提白玉兰终封后,杨紫:仍觉不真实

财经要闻

OpenAI推迟IPO重创软银!

汽车要闻

搭载华为乾崑ADS 5 全新猛士M817上市售29.99万起

态度原创

游戏
房产
家居
时尚
手机

《GTA6》还是没有光盘实体版 此前消息属于误读

房产要闻

全国高考大放水,300分就能上本科!论上岸率,海南没输过!

家居要闻

绿意盎然 自然之境

伊姐周六热推:电视剧《昨夜将至》;电影《蝴蝶楼·惊魂》......

手机要闻

iPhone18配9GB内存,Pro万元起售?

无障碍浏览 进入关怀版