Science：大语言模型如何重塑科学产出|学术|论文|文献|science

分享至

导语

尽管生成式人工智能（Gen AI）在各学科中快速被接受的兴奋（和担忧）日益增长，但实证证据仍然零散，对大型语言模型（LLMs）在科学领域影响的系统理解仍然有限。

美国康奈尔大学的殷裔安教授及其团队于2025年12月18日发表在Science的论文分析了三大主要预印本库的大规模数据，表明使用大型语言模型加速了手稿产出，减少了非英语母语者的障碍，并丰富了既有文献的发现。然而，传统的科学质量信号，如语言复杂性，正逐渐成为不可靠的价值指标，正如我们正经历科学工作数量的上升。随着人工智能系统的进步，它们将挑战我们对研究质量、学术交流以及知识劳动本质的基本假设。科学政策制定者必须考虑如何发展我们的科学机构，以适应快速变化的科学生产过程。

关键词：大语言模型（LLM），科学学，学术写作，语言公平

任筱芃丨作者

殷裔安、赵思怡丨审校

论文题目：Scientific production in the era of large language models: With the production process rapidly evolving, science policy must consider how institutions could evolve 论文链接：https://doi.org/10.1126/science.adw3000 发表时间：2025年12月18日论文来源：Science

研究背景与问题

科学生产的历史性转折

科学研究始终与技术革新紧密相连。从显微镜的发明到超级计算机的出现，技术进步不断推动着研究前沿的拓展。近年来，大语言模型在蛋白质结构预测、材料发现等领域的成功应用，展示了AI在特定科学任务中的巨大价值。但这些成功案例大多可以被归类为碎片化的证据，其对科学整体生产流程的宏观影响（macro-level impact）仍待解答。

康奈尔大学殷裔安团队收集了三个主要预印本数据库的数据，涵盖2018年至2024年的210多万篇论文：arXiv（数学、物理、计算机科学等领域）、bioRxiv（生命科学）和SSRN（社会科学、法律、人文）。选择预印本有两个好处：其一，发布时间更接近研究完成时点，更适合做论文被采用前后的动态比较；其二，覆盖面广，能观察到不同学科的共同趋势，而不被单一领域的短期热点带偏。这些大型数据集为理解LLMs对科学研究的宏观影响提供了实证基础。

核心研究问题

研究聚焦于四个关键问题：

生产力效应：LLM使用是否让研究者单位时间内产出更多论文？
语言公平性：这种效率提升是否跨越了语言背景的界限？
质量评估挑战：当写作能力被技术标准化后，传统评价指标是否还能有效识别研究质量？
对已有知识的使用：LLM使用是否改变研究者对已有文献的阅读和引用行为?

该研究团队训练了一个基于文本特征的AI检测算法，通过比较2023年ChatGPT发布前后的摘要词汇分布变化，识别出可能使用LLM辅助的论文。这种方法虽不完美，但在现有技术条件下提供了最可行的实证路径。

主要研究发现

生产力跃升

在严格控制了AI领域自身研究热潮带来的干扰后，研究团队发现，LLM采用者的论文产出增长在不同学科呈现出普遍性：arXiv增长36.2%，bioRxiv达52.9%，SSRN更是高达59.8%。更关键的是，尽管不同的 LLM 识别方法及统计模型值会影响估计系数的大小，敏感性分析显示生产力效应在不同的模型下都保持稳健。

图1：以作者首次被检测为 LLM-assisted所在月份为 0（竖虚线），横轴为相对月份，纵轴为采用者相对未采用者的产出变化（%）；点为估计值，竖线代表 95% 置信区间。图中可见采用后产出在多个后续月份保持在更高水平。

LLM最早、最直接的影响往往发生在程序性的部分——摘要、引言、相关工作、措辞润色、结构整理、语法纠错等。这些操作都属于高频、耗时、却相对可被语言模型接管的工作。但需要注意的是，这是一种采用LLM与产出上升的强相关，并不等同于严格意义的因果关系。

更重要的发现是，在写作层面，LLM 有潜力降低语言门槛，并且这种收益并不平均。例如，在SSRN中，亚洲姓名研究者+亚洲机构生产力增幅达到了88.9%，远超英语国家研究者的46.2%。长期以来，非英语母语学者承受着双重负担——既要做出一流研究，又要用外语精准表达学术思想的微妙之处。这意味着，LLMs正在一定程度上缓解非英语母语研究者在学术写作中的劣势。

质量信号失灵

然而，研究团队发现了一个更为复杂的现象。在LLM辅助的论文中，写作复杂度与发表概率之间出现了传统预期的逆转。

图2：横轴为写作复杂度，纵轴为稿件最终发表（同行评审期刊/会议）的概率；橙线为 LLM-assisted样本，蓝线为 non–LLM-assisted样本，阴影为 95% 置信区间。非 LLM 文本里复杂度越高，发表概率越高；但在 LLM 辅助文本里，复杂度越高对应更低的发表概率。

研究团队基于Flesch Reading Ease来衡量论文语言学上的复杂度。这个复杂性指标综合了平均句长与每词音节数进行量化。分数越高，代表文本越复杂、越难读。对于 2023 年之后发布的预印本，研究团队考察其是否在 2024 年 6 月之前发表于同行评议的期刊或会议，并以此作为论文科学质量的近似衡量。这一指标当然并非完美的质量定义，但它提供了一个跨学科可比、且与学术体系奖励机制高度相关的结果变量。

研究团队发现，传统的人类撰写的论文遵循"语言越复杂精致，越容易被接收"的预期。这符合学术界的直觉，长难句反映深厚功力、精准定义或传递复杂性的能力。但在LLM辅助论文中，这条法则被颠覆：那些语言结构最复杂、词汇最艰深的稿件，反而更可能被拒稿。研究团队还用多种替代指标复现这一点：词汇复杂度、形态复杂度（如分词从句比例），以及“促销性语言”（例如过度使用“前所未有”“颠覆性”这类营销式表述）等，都显示出 LLM 文本与人类写作在统计特征上的显著差异。

这一发现在所有三个数据库中都得到了验证。为了进一步检验这一现象是否与不同期刊和会议的过审机制有关，研究团队引入 ICLR-2024 会议数据，涵盖7243 篇投稿、约 2.8 万份评审报告。用评审分数作为科学质量的结果变量后，研究团队发现相关性仍然成立，即在 LLM 辅助文本中语言复杂度不再是正向信号。这也许在指代当AI能够轻松生成复杂、专业的学术语言时，语言复杂度作为研究质量信号的价值正在消失。

研究团队据此提出一个更一般的机制解释：写作复杂度过去之所以能当作质量信号，是因为它与作者投入的时间、语言训练与学术社会化高度相关；而 LLM 降低了生成复杂语言的成本，于是在语句上的与学术上的投入解耦。由此带来的次级风险是更容易出现“看起来很像优秀论文”的文本，拥塞学术交流通道，增加评审负担，并削弱传统筛选机制。

知识流动的新图景

生产力与评审只是科研流程的一部分。更隐蔽、但更长期的影响，可以从文献与引用结构的变化观测。研究团队从搜索行为的社会实验，以及采用前后的引用行为对比两个角度观察"AI会强化经典文献马太效应"的担忧是否为真。

2023年2月，Bing 推出集成 GPT-4 的对话式搜索。作者利用一个大规模的行为数据集：2.46 亿次 arXiv 论文浏览/下载记录，并区分访问来源（Bing、Google）。

图3：以 Bing Chat 发布当周为 0 周（竖虚线），点表示“Bing 引流用户 vs Google 引流用户”的差异估计，竖线为 95% 置信区间。上图显示上线后 Bing 用户访问书籍的比例显著上升；下图显示上线后 Bing 用户访问到的文献中位年龄下降（平均约新 2.1 个月）。

在DID框架下，研究团队比较 Bing 引流用户在上线前后的变化，并以 Google 引流用户作为对照。结果显示，Bing 用户在 GPT-4（ChatGPT-4显然也是一个大语言模型）集成后访问书籍的比例提高26.3%、访问文献的中位已发表时间下降0.18 年且并未更偏向高被引经典而是更多接触到已有的引用较少的工作。

如果把搜索引擎理解为一个注意力窗口，那么这组结果意味着 LLM 可能在一定程度上降低了发现长文本和冷门新文献的门槛。它不只是把用户带向最热门、最匹配的结构，而可能扩展了可见的知识边界。

研究团队进一步把三大预印本库连接到 OpenAlex 与 Semantic Scholar，得到 1.016 亿条引用关系，并用事件研究比较作者采用前后的引用模式变化，发现了与上述结果高度一致的变化：科学家在使用LLM后：

更可能引用书籍（总体上 +11.9%，但在 SSRN 不显著）；
所引文献平均更“年轻”（平均已发表时间减少 0.379 年）；
所引文献的引用影响更低（平均对数被引下降 2.34%）。

把两部分放在一起看，采用LLM 可能把注意力引向一个更多样化的知识基础，而不是一味强化既有正典（scientific canons）。研究团队的解释是LLM 既可能通过写作辅助降低整合文献的成本，也可能通过对话式搜索改变信息获取路径，从而让研究者更容易进入新的、分散的、非经典的文本空间。

审稿人怎么办

如果复杂、工整的语言不再可靠，那审稿人到底要看什么？在信息过载的现实里，最容易发生的并不是大家突然变得更严谨，而是大家用更省力的但是新型的启发式做判断。例如作者出身、机构名头、学术血统重新变成质量的，或者说用地位标记来替代语言的，标记。这会让 LLM 带来的语言平权显得有点像递弱代偿。旧的门槛被抬走了一部分，新的门槛却可能在别的地方又竖起来。

作者给出的回应是，既然语言模型让表面信号失灵，一种可能的方案是将LLM技术拉进评审流程——引入“审稿代理”（reviewer agent），去提示方法不一致、核验关键声明、甚至辅助判断新颖性，尝试把注意力重新拉回研究的实质。这种可规模化的评审辅助，究竟会让同行评审更重实证，还是会引入新的偏差与意料之外的副作用——这本身就是 LLM 时代的一项关键不确定性。

该研究的局限性

研究团队坦诚了AI检测方法面临的挑战。他们使用的基于文本的AI检测算法虽然能够识别LLM辅助写作的统计特征，但存在以下局限：

仅基于摘要：检测仅限于论文摘要，无法扩展到全文
无法定位具体作者：无法确定团队中哪位具体作者使用了LLM
可能漏检：可能无法检测到对LLM输出进行大量修改的使用情况
技术演进过快：当新模型具备更强的推理、“深度研究”等能力后，影响可能扩大或嬗变
因果解释需要强假设：社会交互中采用 LLM 与产出、引用、语言信号之间一系列一致的变化难以控制变量
选择偏差：“首次被检测为采用”的时间点，可能与生产力变化本身纠缠在一起

这些局限性提醒我们，在快速发展的AI时代，保持科学的批判性思维和方法学严谨性比以往任何时候都更重要。

论文作者：

AI+Science 读书会

AI+Science 是近年兴起的将人工智能和科学相结合的一种趋势。一方面是 AI for Science，机器学习和其他 AI 技术可以用来解决科学研究中的问题，从预测天气和蛋白质结构，到模拟星系碰撞、设计优化核聚变反应堆，甚至像科学家一样进行科学发现，被称为科学发现的“第五范式”。另一方面是 Science for AI，科学尤其是物理学中的规律和思想启发机器学习理论，为人工智能的发展提供全新的视角和方法。

集智俱乐部联合斯坦福大学计算机科学系博士后研究员吴泰霖（Jure Leskovec 教授指导）、哈佛量子计划研究员扈鸿业、麻省理工学院物理系博士生刘子鸣（Max Tegmark 教授指导），共同发起以”为主题的读书会，探讨该领域的重要问题，共学共研相关文献。读书会已完结，现在报名可加入社群并解锁回放视频权限。

详情请见：

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.