网易首页 > 网易号 > 正文 申请入驻

AI写的论文能过审?双盲评审6.25分,达到ICLR研讨会水平

0
分享至

机器之心报道

编辑:2049、Panda

去年 8 月,Transformer 论文作者之一 Llion Jones 与前谷歌研究者 David Ha 共同创立的人工智能公司 Sakana AI 推出了首个全自动科学发现的 AI 系统:AI Scientist,即「AI 科学家」。到 12 月份,他们又拿出了另一项震撼性的重磅研究成果:使用基础模型搜索人工生命的系统 ASAL。这两项成果都吸引了无数眼球。

而就在昨天,Sakana AI 又宣布:AI Scientist-v2 通过了 ICLR 会议一个研讨会的同行评审过程。这是 AI 科学家写出的首篇通过同行评审的科研论文!

这个研究会的名字很长:「I Can't Believe It's Not Better: Challenges in Applied Deep Learning」,即「我简直不敢相信它没有变得更好:应用深度学习的挑战」。

研讨会地址:https://sites.google.com/view/icbinb-2025

之所以提交给这个 ICLR 研讨会,是因为其涵盖了广泛的研究范围,能够挑战研究者和 AI 系统处理深度学习实际局限性的各种课题。ICLR 与 NeurIPS 和 ICML 并列为机器学习和人工智能领域的三大顶级会议。

该项目由不列颠哥伦比亚大学和牛津大学的研究团队合作完成,AI Scientist-v2 系统的完整细节将在近期发布。David Ha 表示 AI Scientist-v2 也将开源发布。

评估流程

研究团队与 ICLR 研讨会组织者合作,提交了 3 篇完全由 AI 生成的论文进行同行评审,评审人未被明确告知论文来源(双盲评审)。

这些论文由 AI Scientist-v2 完全端到端生成,无人类修改。AI 自主提出研究假设、设计实验、编写代码、运行实验、分析数据、创建可视化图表,并撰写了包括标题到参考文献的全部内容。

研究团队仅提供了广泛研究主题,并从 AI 生成的多篇论文中选择了 3 篇提交。在提交的论文中,一篇获得平均 6.25 分(具体为:6、7、6、6,其中 6 分为略高于接受阈值,7 分为优秀),在所有提交论文中排名约 45%,超过了平均接受阈值,表现优于许多人类撰写的论文。

根据预先确定的实验协议,即使 AI 论文被接受,团队也会在正式发表前撤回,因为学术界尚未就 AI 生成手稿的发表达成共识。据团队所知,这是首次完全由 AI 生成的论文达到足以通过标准科学同行评审流程的水平。

这篇论文报告了人工智能科学家在尝试创新训练神经网络的新型正则化方法时遇到的负面结果,这种方法可以提高神经网络的组成泛化能力。

透明度和道德行为守则的重要性

科学界研究人工智能生成内容质量的重要性不言而喻,最有效方法之一是将部分样本提交至与人类研究相同的严格同行评审流程(在获得相关管理方许可的前提下)。

需说明,这些人工智能生成的论文不会在 OpenReview 公共平台公开。根据各方共同协议,此类论文将在同行评审结束后被撤回并自动不予录用。

学术界需建立人工智能生成科学的规范体系,明确何时、如何声明论文的人工智能生成属性,以及研究过程中的适当时机。总体原则是提供最大透明度,尽管这涉及一个复杂问题:是否应先基于科学价值本身进行评判,以避免不必要偏见。

挑战和局限性

需要指出,虽然这些 AI 科学家的成果成功完成了同行评审,但却是研讨会,而不是主会议。另需强调:该研讨会只接收了 3 篇论文中的 1 篇。

通常而言,相比于提交给主会议的论文,提交给研讨会的论文提出的初步发现不够精细。事实上,许多会议论文都是从研讨会论文开始的。

下面也会提到这一点,Sakana 内部按照 ICLR 主会议的标准对这三篇论文进行了评审。结果它们都没有通过审核。

顶级机器学习会议(如 ICLR、ICML 和 NeurIPS)主会议的接受率通常在 20-30% 左右,而 Sakana 提交的研讨会(在顶级机器学习会议上举办)的接受率在 60-70% 左右。

该团队还指出,AI Scientist 是一个基于前沿 LLM 的系统,因此,AI Scientist 的表现与这些 LLM 的表现直接相关。如果前沿基础模型不断改进(许多科学家也如此预期),那么 AI Scientist 也将继续进步。

分析 AI 生成的论文

除了让同行评审 AI 生成的论文,Sakana 自己的团队也对这三篇 AI 生成的论文进行了分析和评价。

该团队将这三篇论文看作是提交给 ICLR 主会议的稿件(其接受标准更高),然后他们为每篇论文都生成了完整的评审意见。

除了评价,该团队还为每篇论文增加了内联评论。

该团队将自己的身份设定为 ICLR 会议审阅者,向论文作者(AI 科学家)提供了他们在论文中发现的问题以及修改建议 —— 作者可以根据评论和问题改进论文。不同于研讨会审阅流程,这种来回交流是顶级会议或期刊的典型同行评审过程的一部分 —— 审阅者与作者一起改进研究成果。

AI 科学家偶尔会犯令人尴尬的引用错误。例如,Sakana 发现它错误地将基于 LSTM 的神经网络的作者标记给了 Goodfellow (2016),但正确的作者其实是 Hochreiter and Schmidhuber (1997)。

除了评论和意见外,他们还在初始审查阶段为每篇论文提供了初步评估分数 —— 该分数是根据 NeurIPS 和 ICLR 等顶级机器学习会议的指导方针给出的。

最终,他们得出结论是:这 3 篇论文都没有通过 Sakana 的内部标准 —— 其当前形式达不到被 ICLR 主会议接受的质量。「然而,我们认为我们提交给那个研讨会的论文包含虽然初步但也很有趣的原创想法,可以进一步发展,因此我们相信它们可能有资格被该 ICLR 研讨会接收。」

如果你有兴趣详细读一读这三篇论文与 Sakana 团队的评审意见,可以访问:https://github.com/SakanaAI/AI-Scientist-ICLR2025-Workshop-Experiment

AI 科学家的未来

Sakana 团队表示:「我们相信,下一代 AI 科学家将开启科学的新时代。」

现在,AI 已经可以生成一篇完整的科学论文,并通过顶级机器学习研讨会的同行评审,这暗含着 AI 科学家的巨大潜力。

「我们预计 AI 将继续提升,可能呈指数级提升。在未来的某个时候,AI 或许能够生成与人类水平相当甚至超越人类水平的论文,包括最高水平的学术论文。」他们预测,AI 科学家和类似的系统不仅将能写出可被顶级机器学习会议接收的论文,也能写出可在顶级科学期刊上发表的论文。

该团队表示:「最终,我们认为最重要的不是如何评判 AI 科学与人类科学,而是它的发现是否有助于人类繁荣,例如治愈疾病或扩展我们对宇宙规律的认识。我们期待着帮助开启 AI 科学为人类进步做出贡献的时代。」

https://x.com/hardmaru/status/1899665717215326283

https://sakana.ai/ai-scientist-first-publication/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
闯入使馆的不法之徒细节曝光,中方要求严惩,日本很可能高举轻放

闯入使馆的不法之徒细节曝光,中方要求严惩,日本很可能高举轻放

光电科技君
2026-03-26 19:35:26
初中和高中一对比,你会发现:初中成绩好,高中掉队的概率真不小

初中和高中一对比,你会发现:初中成绩好,高中掉队的概率真不小

好爸育儿
2026-03-26 15:45:14
人不会无缘无故患癌症!研究发现:得癌症的人,离不开这6点

人不会无缘无故患癌症!研究发现:得癌症的人,离不开这6点

医学原创故事会
2026-03-07 21:55:05
以色列人哭了:这不是该发生在劣等民族身上的吗?

以色列人哭了:这不是该发生在劣等民族身上的吗?

李荣茂
2026-03-23 18:59:00
一审重判整整17年,柯文哲当庭最后一搏,藏着赖清德最担心的结局

一审重判整整17年,柯文哲当庭最后一搏,藏着赖清德最担心的结局

李健政观察
2026-03-26 18:16:56
美油布油均涨超4%

美油布油均涨超4%

财联社
2026-03-26 19:46:07
浙江男老师意外发现女学生长相酷似亡妻,鉴定后,结果让他当场愣住

浙江男老师意外发现女学生长相酷似亡妻,鉴定后,结果让他当场愣住

红豆讲堂
2024-09-13 09:35:43
张雪峰去世后,第一个被骂的明星出现了!网友强烈呼吁封杀

张雪峰去世后,第一个被骂的明星出现了!网友强烈呼吁封杀

星星没有你亮
2026-03-26 18:26:16
伊朗一对“情侣”躲进谷仓中拥吻,被发现时,已经吻了2800年

伊朗一对“情侣”躲进谷仓中拥吻,被发现时,已经吻了2800年

北海史记
2026-03-26 13:31:29
西甲希望之星杯:巴萨5-0上海海港,皇马4球大胜维达德

西甲希望之星杯:巴萨5-0上海海港,皇马4球大胜维达德

懂球帝
2026-03-26 14:33:09
碘伏再次成为关注对象!医生发现:使用碘伏,千万多留意这几点

碘伏再次成为关注对象!医生发现:使用碘伏,千万多留意这几点

39健康网
2026-03-25 16:00:38
百亿龙头,直线涨停!封单超12万手

百亿龙头,直线涨停!封单超12万手

新浪财经
2026-03-26 16:32:05
佳兆业预告扭亏为盈超500亿,深圳核心项目价值凸显

佳兆业预告扭亏为盈超500亿,深圳核心项目价值凸显

乐居财经官方
2026-03-26 10:14:46
从广东到东北!刘强东游艇版图扩容,150亿元项目进驻大连

从广东到东北!刘强东游艇版图扩容,150亿元项目进驻大连

南方都市报
2026-03-26 14:42:13
装钱的麻袋都不够了!俄罗斯每天多挣500亿,四年战争,一朝回血

装钱的麻袋都不够了!俄罗斯每天多挣500亿,四年战争,一朝回血

泠泠说史
2026-03-20 18:31:09
国家出手逮捕的3名华人首富,疯狂敛财坑害百姓,每个都罪有应得

国家出手逮捕的3名华人首富,疯狂敛财坑害百姓,每个都罪有应得

林轻吟
2026-03-25 07:15:32
“封杀”5年后,34岁郑爽财力现状被扒,结果估计和你想得不一样

“封杀”5年后,34岁郑爽财力现状被扒,结果估计和你想得不一样

梨花黛娱
2026-03-24 14:47:07
他是CBA现役最老球员,打了20年拿5冠,身家过亿,已为退役铺路

他是CBA现役最老球员,打了20年拿5冠,身家过亿,已为退役铺路

以茶带书
2026-03-25 16:35:52
2026全国停车统一收费落地,路边停车再也不用乱花钱了!

2026全国停车统一收费落地,路边停车再也不用乱花钱了!

智慧生活笔记
2026-03-25 10:04:03
语出惊人!摩根大通CEO戴蒙称,伊朗战争长期来看是好事!为什么这样说?

语出惊人!摩根大通CEO戴蒙称,伊朗战争长期来看是好事!为什么这样说?

王爷说图表
2026-03-25 18:51:12
2026-03-26 20:20:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12606文章数 142594关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

健康
游戏
旅游
教育
时尚

转头就晕的耳石症,能开车上班吗?

《迷你金属2》4月开启开发版测试 军事题材战略模拟

旅游要闻

鲁冰花开啦!快来新乡南太行八里沟 赴一场春日之约

教育要闻

2026人工智能时代下的教育课堂变革

皮衣+裙,高级到炸

无障碍浏览 进入关怀版