本文整理自Science官网在2025年10月23日发布的一篇文章,原文标题为“At futuristic meeting, AIs took the lead in producing and reviewing all the studies”
众多学术期刊和会议禁止将ChatGPT等AI工具列为研究的作者或审稿人,其核心理念在于机器无法承担责任。但近日,一场突破常规的会议颠覆了这一禁忌:所有提交的48篇论文(研究主题从蛋白质设计到心理健康),不仅必须将AI列为主要作者,还需接受AI审稿人的全面评审。
这场名为"Agents4Science"的虚拟会议开创了先河,它探讨的主题在一年前或许还被归为科幻范畴:AI能否主导提出研究假设、设计并运行计算验证、最终撰写研究论文?而大语言模型又能否有效评审学术论文?
![]()
链接:https://agents4science.stanford.edu/index.html
组织者表示,会议旨在推动"制定AI参与科研的指南"。他们希望全面接纳AI加速科研进程,并减轻审稿人日益增长的审稿压力。
但部分研究者对该会议的立意提出强烈批评。悉尼大学数字创新研究员Raffaele Ciriello在会前通过媒体中心发表声明指出:"不应将此认为是学术研究。科学不是将数据转化为结论的工厂,而是根植于阐释、判断与批判的人类集体事业。将研究视作机械流程......无异于假定只要输出结果在统计上有效,探索的过程就无足轻重。"
会议主席、斯坦福大学AI研究员James Zou则认为,以创新方式审视AI在科研中的角色至关重要。他指出,尽管越来越多科学家使用AI,但证据显示多数人未按期刊会议要求公开使用情况。
Zou向《Science》表示:"使用AI仍存在污名化现象,人们倾向于隐瞒或淡化AI的使用。会议组织者希望公开进行这些研究,以便收集真实数据来解答这些重要问题。"
这场吸引1800名注册者的会议采取了与期刊背道而驰的评审方式。组织者使用三种常见的大语言模型,GPT-5、Gemini 2.5 Pro和Claude Sonnet 4,对提交的315篇论文进行六分制评分,并取平均值(均分在2.3-4.2分)。
随后由人类对达到分数门槛的80篇论文进行复审,最终综合AI与人工的评审意见接收48篇。论文主题横跨化学(寻找降低大气二氧化碳的新催化剂)、医学(阿尔茨海默病的新候选治疗药物)、心理学(模拟长期航天任务中宇航员的心理压力)等多个学科。
麻省理工学院生物学家Sergey Ovchinnikov提交的论文受到组委会的重点关注。他的团队要求ChatGPT进阶版(推理模型o3、o4-mini和o4-mini-high)生成具有四螺旋束结构特征的生物活性蛋白质氨基酸序列。
令人惊讶的是,ChatGPT在未优化提问的情况下直接输出了基因序列。经团队进一步分析及实验室测试,确认其中一个序列成功合成具有四螺旋束结构的蛋白质。Ovchinnikov指出,鉴于ChatGPT的易用性,该成果颇具潜力。目前科学家通常需专用软件设计蛋白质,但他也发现ChatGPT在此任务中仍需优化,团队生成的大部分序列未能获得形成目标蛋白质结构的"高置信度"评分。
会议数据表明,AI可在科研项目中与人类协作,但尚无法完全取代人类。组织者要求作者团队报告AI与人类在生成假设、数据分析和论文撰写等关键环节的贡献比例。在57%的投稿和52%的录用论文中,AI承担了主要假设的生成工作;在约90%的论文中,AI在写作环节贡献显著,这或许反映出写作任务的计算需求较低。
一些参会研究者称赞AI助手能将通常耗时数周的任务压缩至数日完成,并促进了跨学科合作,但也指出AI存在缺陷:曲解复杂方法、编写的代码需人工调试、编造无关或虚构参考文献。
斯坦福计算天体物理学家Risa Wechsler在评审投稿后指出,AI的表层检查可提升论文质量,但对需要深度概念推理与科学判断的任务,科学家应保持审慎态度。她在专题讨论中表示:"我对AI赋能科研感到振奋,但本次会议也有效揭示了AI的局限性。目前AI显然不具备设计能推动领域发展的科学问题的能力。"
她评审的一篇论文"技术层面无误,但既无趣又缺乏重要意义",她认为"培养科学鉴赏力是人类科学家的核心素养,而如何将此赋予AI仍是未知数"。
芝加哥大学计算社会科学家James Evans提出,科学想法的自动化评估可能需要多个AI智能体协同工作,各自持续提供批判视角。但现阶段主流商业AI表现出"谄媚倾向",只会生成迎合人类请求的内容。Evans指出:"所有主流商业AI都过于友善,它们无法产生突破性工作所需的观点冲突与多元视角。"
会议组织者计划发布分析报告,比较每篇论文的AI评审与人工评审意见。这种分歧在Ovchinnikov的蛋白质设计论文评审中已现端倪:AI审稿人盛赞其"意义深远",而人类专家则评价为"有趣的概念验证研究,但仍存在一些未解的问题"。
内容整理自:https://www.science.org/content/article/futuristic-meeting-ais-took-lead-producing-and-reviewing-all-studies
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.