一会议要求所有投稿的主要作者都得有AI，并需要接受AI的审稿|学术|科学|论文|审稿人|james

一会议要求所有投稿的主要作者都得有AI，并需要接受AI的审稿

2025-11-05 19:56:14　来源: 医咖会

北京举报

分享至

本文整理自Science官网在2025年10月23日发布的一篇文章，原文标题为“At futuristic meeting, AIs took the lead in producing and reviewing all the studies”

众多学术期刊和会议禁止将ChatGPT等AI工具列为研究的作者或审稿人，其核心理念在于机器无法承担责任。但近日，一场突破常规的会议颠覆了这一禁忌：所有提交的48篇论文（研究主题从蛋白质设计到心理健康），不仅必须将AI列为主要作者，还需接受AI审稿人的全面评审。

这场名为"Agents4Science"的虚拟会议开创了先河，它探讨的主题在一年前或许还被归为科幻范畴：AI能否主导提出研究假设、设计并运行计算验证、最终撰写研究论文？而大语言模型又能否有效评审学术论文？

链接：https://agents4science.stanford.edu/index.html

组织者表示，会议旨在推动"制定AI参与科研的指南"。他们希望全面接纳AI加速科研进程，并减轻审稿人日益增长的审稿压力。

但部分研究者对该会议的立意提出强烈批评。悉尼大学数字创新研究员Raffaele Ciriello在会前通过媒体中心发表声明指出："不应将此认为是学术研究。科学不是将数据转化为结论的工厂，而是根植于阐释、判断与批判的人类集体事业。将研究视作机械流程......无异于假定只要输出结果在统计上有效，探索的过程就无足轻重。"

会议主席、斯坦福大学AI研究员James Zou则认为，以创新方式审视AI在科研中的角色至关重要。他指出，尽管越来越多科学家使用AI，但证据显示多数人未按期刊会议要求公开使用情况。

Zou向《Science》表示："使用AI仍存在污名化现象，人们倾向于隐瞒或淡化AI的使用。会议组织者希望公开进行这些研究，以便收集真实数据来解答这些重要问题。"

这场吸引1800名注册者的会议采取了与期刊背道而驰的评审方式。组织者使用三种常见的大语言模型，GPT-5、Gemini 2.5 Pro和Claude Sonnet 4，对提交的315篇论文进行六分制评分，并取平均值（均分在2.3-4.2分）。

随后由人类对达到分数门槛的80篇论文进行复审，最终综合AI与人工的评审意见接收48篇。论文主题横跨化学（寻找降低大气二氧化碳的新催化剂）、医学（阿尔茨海默病的新候选治疗药物）、心理学（模拟长期航天任务中宇航员的心理压力）等多个学科。

麻省理工学院生物学家Sergey Ovchinnikov提交的论文受到组委会的重点关注。他的团队要求ChatGPT进阶版（推理模型o3、o4-mini和o4-mini-high）生成具有四螺旋束结构特征的生物活性蛋白质氨基酸序列。

令人惊讶的是，ChatGPT在未优化提问的情况下直接输出了基因序列。经团队进一步分析及实验室测试，确认其中一个序列成功合成具有四螺旋束结构的蛋白质。Ovchinnikov指出，鉴于ChatGPT的易用性，该成果颇具潜力。目前科学家通常需专用软件设计蛋白质，但他也发现ChatGPT在此任务中仍需优化，团队生成的大部分序列未能获得形成目标蛋白质结构的"高置信度"评分。

会议数据表明，AI可在科研项目中与人类协作，但尚无法完全取代人类。组织者要求作者团队报告AI与人类在生成假设、数据分析和论文撰写等关键环节的贡献比例。在57%的投稿和52%的录用论文中，AI承担了主要假设的生成工作；在约90%的论文中，AI在写作环节贡献显著，这或许反映出写作任务的计算需求较低。

一些参会研究者称赞AI助手能将通常耗时数周的任务压缩至数日完成，并促进了跨学科合作，但也指出AI存在缺陷：曲解复杂方法、编写的代码需人工调试、编造无关或虚构参考文献。

斯坦福计算天体物理学家Risa Wechsler在评审投稿后指出，AI的表层检查可提升论文质量，但对需要深度概念推理与科学判断的任务，科学家应保持审慎态度。她在专题讨论中表示："我对AI赋能科研感到振奋，但本次会议也有效揭示了AI的局限性。目前AI显然不具备设计能推动领域发展的科学问题的能力。"

她评审的一篇论文"技术层面无误，但既无趣又缺乏重要意义"，她认为"培养科学鉴赏力是人类科学家的核心素养，而如何将此赋予AI仍是未知数"。

芝加哥大学计算社会科学家James Evans提出，科学想法的自动化评估可能需要多个AI智能体协同工作，各自持续提供批判视角。但现阶段主流商业AI表现出"谄媚倾向"，只会生成迎合人类请求的内容。Evans指出："所有主流商业AI都过于友善，它们无法产生突破性工作所需的观点冲突与多元视角。"

会议组织者计划发布分析报告，比较每篇论文的AI评审与人工评审意见。这种分歧在Ovchinnikov的蛋白质设计论文评审中已现端倪：AI审稿人盛赞其"意义深远"，而人类专家则评价为"有趣的概念验证研究，但仍存在一些未解的问题"。

内容整理自：https://www.science.org/content/article/futuristic-meeting-ais-took-lead-producing-and-reviewing-all-studies

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.