网易首页 > 网易号 > 正文 申请入驻

AI写的论文能过审?双盲评审6.25分,达到ICLR研讨会水平

0
分享至

机器之心报道

编辑:2049、Panda

去年 8 月,Transformer 论文作者之一 Llion Jones 与前谷歌研究者 David Ha 共同创立的人工智能公司 Sakana AI 推出了首个全自动科学发现的 AI 系统:AI Scientist,即「AI 科学家」。到 12 月份,他们又拿出了另一项震撼性的重磅研究成果:使用基础模型搜索人工生命的系统 ASAL。这两项成果都吸引了无数眼球。

而就在昨天,Sakana AI 又宣布:AI Scientist-v2 通过了 ICLR 会议一个研讨会的同行评审过程。这是 AI 科学家写出的首篇通过同行评审的科研论文!

这个研究会的名字很长:「I Can't Believe It's Not Better: Challenges in Applied Deep Learning」,即「我简直不敢相信它没有变得更好:应用深度学习的挑战」。

研讨会地址:https://sites.google.com/view/icbinb-2025

之所以提交给这个 ICLR 研讨会,是因为其涵盖了广泛的研究范围,能够挑战研究者和 AI 系统处理深度学习实际局限性的各种课题。ICLR 与 NeurIPS 和 ICML 并列为机器学习和人工智能领域的三大顶级会议。

该项目由不列颠哥伦比亚大学和牛津大学的研究团队合作完成,AI Scientist-v2 系统的完整细节将在近期发布。David Ha 表示 AI Scientist-v2 也将开源发布。

评估流程

研究团队与 ICLR 研讨会组织者合作,提交了 3 篇完全由 AI 生成的论文进行同行评审,评审人未被明确告知论文来源(双盲评审)。

这些论文由 AI Scientist-v2 完全端到端生成,无人类修改。AI 自主提出研究假设、设计实验、编写代码、运行实验、分析数据、创建可视化图表,并撰写了包括标题到参考文献的全部内容。

研究团队仅提供了广泛研究主题,并从 AI 生成的多篇论文中选择了 3 篇提交。在提交的论文中,一篇获得平均 6.25 分(具体为:6、7、6、6,其中 6 分为略高于接受阈值,7 分为优秀),在所有提交论文中排名约 45%,超过了平均接受阈值,表现优于许多人类撰写的论文。

根据预先确定的实验协议,即使 AI 论文被接受,团队也会在正式发表前撤回,因为学术界尚未就 AI 生成手稿的发表达成共识。据团队所知,这是首次完全由 AI 生成的论文达到足以通过标准科学同行评审流程的水平。

这篇论文报告了人工智能科学家在尝试创新训练神经网络的新型正则化方法时遇到的负面结果,这种方法可以提高神经网络的组成泛化能力。

透明度和道德行为守则的重要性

科学界研究人工智能生成内容质量的重要性不言而喻,最有效方法之一是将部分样本提交至与人类研究相同的严格同行评审流程(在获得相关管理方许可的前提下)。

需说明,这些人工智能生成的论文不会在 OpenReview 公共平台公开。根据各方共同协议,此类论文将在同行评审结束后被撤回并自动不予录用。

学术界需建立人工智能生成科学的规范体系,明确何时、如何声明论文的人工智能生成属性,以及研究过程中的适当时机。总体原则是提供最大透明度,尽管这涉及一个复杂问题:是否应先基于科学价值本身进行评判,以避免不必要偏见。

挑战和局限性

需要指出,虽然这些 AI 科学家的成果成功完成了同行评审,但却是研讨会,而不是主会议。另需强调:该研讨会只接收了 3 篇论文中的 1 篇。

通常而言,相比于提交给主会议的论文,提交给研讨会的论文提出的初步发现不够精细。事实上,许多会议论文都是从研讨会论文开始的。

下面也会提到这一点,Sakana 内部按照 ICLR 主会议的标准对这三篇论文进行了评审。结果它们都没有通过审核。

顶级机器学习会议(如 ICLR、ICML 和 NeurIPS)主会议的接受率通常在 20-30% 左右,而 Sakana 提交的研讨会(在顶级机器学习会议上举办)的接受率在 60-70% 左右。

该团队还指出,AI Scientist 是一个基于前沿 LLM 的系统,因此,AI Scientist 的表现与这些 LLM 的表现直接相关。如果前沿基础模型不断改进(许多科学家也如此预期),那么 AI Scientist 也将继续进步。

分析 AI 生成的论文

除了让同行评审 AI 生成的论文,Sakana 自己的团队也对这三篇 AI 生成的论文进行了分析和评价。

该团队将这三篇论文看作是提交给 ICLR 主会议的稿件(其接受标准更高),然后他们为每篇论文都生成了完整的评审意见。

除了评价,该团队还为每篇论文增加了内联评论。

该团队将自己的身份设定为 ICLR 会议审阅者,向论文作者(AI 科学家)提供了他们在论文中发现的问题以及修改建议 —— 作者可以根据评论和问题改进论文。不同于研讨会审阅流程,这种来回交流是顶级会议或期刊的典型同行评审过程的一部分 —— 审阅者与作者一起改进研究成果。

AI 科学家偶尔会犯令人尴尬的引用错误。例如,Sakana 发现它错误地将基于 LSTM 的神经网络的作者标记给了 Goodfellow (2016),但正确的作者其实是 Hochreiter and Schmidhuber (1997)。

除了评论和意见外,他们还在初始审查阶段为每篇论文提供了初步评估分数 —— 该分数是根据 NeurIPS 和 ICLR 等顶级机器学习会议的指导方针给出的。

最终,他们得出结论是:这 3 篇论文都没有通过 Sakana 的内部标准 —— 其当前形式达不到被 ICLR 主会议接受的质量。「然而,我们认为我们提交给那个研讨会的论文包含虽然初步但也很有趣的原创想法,可以进一步发展,因此我们相信它们可能有资格被该 ICLR 研讨会接收。」

如果你有兴趣详细读一读这三篇论文与 Sakana 团队的评审意见,可以访问:https://github.com/SakanaAI/AI-Scientist-ICLR2025-Workshop-Experiment

AI 科学家的未来

Sakana 团队表示:「我们相信,下一代 AI 科学家将开启科学的新时代。」

现在,AI 已经可以生成一篇完整的科学论文,并通过顶级机器学习研讨会的同行评审,这暗含着 AI 科学家的巨大潜力。

「我们预计 AI 将继续提升,可能呈指数级提升。在未来的某个时候,AI 或许能够生成与人类水平相当甚至超越人类水平的论文,包括最高水平的学术论文。」他们预测,AI 科学家和类似的系统不仅将能写出可被顶级机器学习会议接收的论文,也能写出可在顶级科学期刊上发表的论文。

该团队表示:「最终,我们认为最重要的不是如何评判 AI 科学与人类科学,而是它的发现是否有助于人类繁荣,例如治愈疾病或扩展我们对宇宙规律的认识。我们期待着帮助开启 AI 科学为人类进步做出贡献的时代。」

https://x.com/hardmaru/status/1899665717215326283

https://sakana.ai/ai-scientist-first-publication/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
以为她不敢报警!浙江男子跨省约女网友,发生关系时勒颈抢4.7万

以为她不敢报警!浙江男子跨省约女网友,发生关系时勒颈抢4.7万

一丝不苟的法律人
2026-01-23 21:54:34
140亿卖身美国!中国养大的AI白眼狼,被商务部一招摁死!

140亿卖身美国!中国养大的AI白眼狼,被商务部一招摁死!

快乐彼岸
2026-01-24 17:57:59
中国股市稳定复利的笨方法:持有一只股,保留50%仓位,长期做T

中国股市稳定复利的笨方法:持有一只股,保留50%仓位,长期做T

股经纵横谈
2026-01-18 16:12:10
1990年,利比里亚总统多伊浑身赤裸地瘫坐在地上,他的十指被砍掉

1990年,利比里亚总统多伊浑身赤裸地瘫坐在地上,他的十指被砍掉

南权先生
2026-01-21 15:42:34
《突然的喜欢》王玉雯火了:把“猥琐劲儿”都能演成全网爆款

《突然的喜欢》王玉雯火了:把“猥琐劲儿”都能演成全网爆款

紫苏生活派
2026-01-23 15:27:49
越南:坦言要是中国晚撤五日,谅山守军或将被全歼,最终结果如何

越南:坦言要是中国晚撤五日,谅山守军或将被全歼,最终结果如何

磊子讲史
2026-01-21 12:01:14
越南球迷在亚足联官媒刷屏:请日本揍中国队10-0 他们只会摆大巴

越南球迷在亚足联官媒刷屏:请日本揍中国队10-0 他们只会摆大巴

风过乡
2026-01-24 17:17:13
顺丰员工:省考笔试第一,离职备考面试。领导威胁后续政审不配合

顺丰员工:省考笔试第一,离职备考面试。领导威胁后续政审不配合

蚂蚁大喇叭
2026-01-24 14:38:01
广东赢山西10分!北京6分败北控!赵睿徐杰受伤离场,更新积分榜

广东赢山西10分!北京6分败北控!赵睿徐杰受伤离场,更新积分榜

老吴说体育
2026-01-25 01:30:21
宁死不向中国低头!连走7年下坡路,1块钱贱卖自己,逃出中国市场

宁死不向中国低头!连走7年下坡路,1块钱贱卖自己,逃出中国市场

胖哥不胡说
2026-01-22 17:12:38
马斯克:中国似乎听取了我的所有建议(达沃斯对话实录中英全文)

马斯克:中国似乎听取了我的所有建议(达沃斯对话实录中英全文)

互联网思维
2026-01-24 23:30:50
观察|越共十四大闭幕,越南小心确立“速度与克制”间平衡

观察|越共十四大闭幕,越南小心确立“速度与克制”间平衡

澎湃新闻
2026-01-24 07:47:17
43分+44分+54分!联盟第1!东部第一后卫诞生,MVP又有悬念了

43分+44分+54分!联盟第1!东部第一后卫诞生,MVP又有悬念了

世界体育圈
2026-01-24 11:31:43
后继有人!辽宁青年女排名单数据惊人~二传姜玥婷身高192扣球340

后继有人!辽宁青年女排名单数据惊人~二传姜玥婷身高192扣球340

排球大视界
2026-01-24 21:13:05
胡宗南明知熊向晖是中共卧底却不抓他,沈醉晚年回忆说出背后原因

胡宗南明知熊向晖是中共卧底却不抓他,沈醉晚年回忆说出背后原因

饭小妹说历史
2026-01-07 09:30:45
中方已做好最坏打算!南海发生激烈对峙,黄岩岛突现072登陆舰队

中方已做好最坏打算!南海发生激烈对峙,黄岩岛突现072登陆舰队

老范谈史
2026-01-22 01:41:37
炸锅!冯德莱恩宣言:旧秩序已死,欧洲从此不再听从美国指挥!

炸锅!冯德莱恩宣言:旧秩序已死,欧洲从此不再听从美国指挥!

叮当当科技
2026-01-25 01:33:40
平均每人负债1300万,书记吴仁宝去世10年后,华西村的现况如何?

平均每人负债1300万,书记吴仁宝去世10年后,华西村的现况如何?

哄动一时啊
2026-01-24 21:29:54
果然,中国拒绝后,土耳其立马变脸,比亚迪宣布,中国不再吃亏!

果然,中国拒绝后,土耳其立马变脸,比亚迪宣布,中国不再吃亏!

达文西看世界
2026-01-23 18:04:58
4289万公款如何被一人蚕食?财务监管漏洞大起底

4289万公款如何被一人蚕食?财务监管漏洞大起底

青青之窗
2026-01-24 18:25:09
2026-01-25 03:12:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12179文章数 142549关注度
往期回顾 全部

科技要闻

黄仁勋现身上海菜市场

头条要闻

张又侠、刘振立被查 解放军报发布社论

头条要闻

张又侠、刘振立被查 解放军报发布社论

体育要闻

当家球星打替补,他们在故意摆烂?

娱乐要闻

回归还是顶流 凤凰传奇将现身马年春晚

财经要闻

“百年老字号”张小泉遭60亿债务压顶

汽车要闻

有增程和纯电版可选 日产NX8或于3-4月间上市

态度原创

艺术
亲子
家居
手机
本地

艺术要闻

634米!世界第一高塔:东京晴空塔建设纪实

亲子要闻

幼儿园体能课秒变“绝活”秀场! 萌娃个个身手不凡,活力满满~ #睡个好觉

家居要闻

在家度假 160平南洋混搭宅

手机要闻

追觅首款手机狂揽亿元订单:自研芯片+模块化影像,硬刚华为小米

本地新闻

云游中国|格尔木的四季朋友圈,张张值得你点赞

无障碍浏览 进入关怀版