![]()
导语
尽管生成式人工智能(Gen AI)在各学科中快速被接受的兴奋(和担忧)日益增长,但实证证据仍然零散,对大型语言模型(LLMs)在科学领域影响的系统理解仍然有限。
美国康奈尔大学的殷裔安教授及其团队于2025年12月18日发表在Science的论文分析了三大主要预印本库的大规模数据,表明使用大型语言模型加速了手稿产出,减少了非英语母语者的障碍,并丰富了既有文献的发现。然而,传统的科学质量信号,如语言复杂性,正逐渐成为不可靠的价值指标,正如我们正经历科学工作数量的上升。随着人工智能系统的进步,它们将挑战我们对研究质量、学术交流以及知识劳动本质的基本假设。科学政策制定者必须考虑如何发展我们的科学机构,以适应快速变化的科学生产过程。
关键词:大语言模型(LLM),科学学,学术写作,语言公平
任筱芃丨作者
殷裔安、赵思怡丨审校
![]()
论文题目:Scientific production in the era of large language models: With the production process rapidly evolving, science policy must consider how institutions could evolve 论文链接:https://doi.org/10.1126/science.adw3000 发表时间:2025年12月18日 论文来源:Science
研究背景与问题
科学生产的历史性转折
科学研究始终与技术革新紧密相连。从显微镜的发明到超级计算机的出现,技术进步不断推动着研究前沿的拓展。近年来,大语言模型在蛋白质结构预测、材料发现等领域的成功应用,展示了AI在特定科学任务中的巨大价值。但这些成功案例大多可以被归类为碎片化的证据,其对科学整体生产流程的宏观影响(macro-level impact)仍待解答。
康奈尔大学殷裔安团队收集了三个主要预印本数据库的数据,涵盖2018年至2024年的210多万篇论文:arXiv(数学、物理、计算机科学等领域)、bioRxiv(生命科学)和SSRN(社会科学、法律、人文)。选择预印本有两个好处:其一,发布时间更接近研究完成时点,更适合做论文被采用前后的动态比较;其二,覆盖面广,能观察到不同学科的共同趋势,而不被单一领域的短期热点带偏。这些大型数据集为理解LLMs对科学研究的宏观影响提供了实证基础。
核心研究问题
研究聚焦于四个关键问题:
生产力效应:LLM使用是否让研究者单位时间内产出更多论文?
语言公平性:这种效率提升是否跨越了语言背景的界限?
质量评估挑战:当写作能力被技术标准化后,传统评价指标是否还能有效识别研究质量?
对已有知识的使用:LLM使用是否改变研究者对已有文献的阅读和引用行为?
该研究团队训练了一个基于文本特征的AI检测算法,通过比较2023年ChatGPT发布前后的摘要词汇分布变化,识别出可能使用LLM辅助的论文。这种方法虽不完美,但在现有技术条件下提供了最可行的实证路径。
主要研究发现
生产力跃升
在严格控制了AI领域自身研究热潮带来的干扰后,研究团队发现,LLM采用者的论文产出增长在不同学科呈现出普遍性:arXiv增长36.2%,bioRxiv达52.9%,SSRN更是高达59.8%。更关键的是,尽管不同的 LLM 识别方法及统计模型值会影响估计系数的大小,敏感性分析显示生产力效应在不同的模型下都保持稳健。
![]()
图1:以作者首次被检测为 LLM-assisted所在月份为 0(竖虚线),横轴为相对月份,纵轴为采用者相对未采用者的产出变化(%);点为估计值,竖线代表 95% 置信区间。图中可见采用后产出在多个后续月份保持在更高水平。
LLM最早、最直接的影响往往发生在程序性的部分——摘要、引言、相关工作、措辞润色、结构整理、语法纠错等。这些操作都属于高频、耗时、却相对可被语言模型接管的工作。但需要注意的是,这是一种采用LLM与产出上升的强相关,并不等同于严格意义的因果关系。
更重要的发现是,在写作层面,LLM 有潜力降低语言门槛,并且这种收益并不平均。例如,在SSRN中,亚洲姓名研究者+亚洲机构生产力增幅达到了88.9%,远超英语国家研究者的46.2%。长期以来,非英语母语学者承受着双重负担——既要做出一流研究,又要用外语精准表达学术思想的微妙之处。这意味着,LLMs正在一定程度上缓解非英语母语研究者在学术写作中的劣势。
质量信号失灵
然而,研究团队发现了一个更为复杂的现象。在LLM辅助的论文中,写作复杂度与发表概率之间出现了传统预期的逆转。
![]()
图2:横轴为写作复杂度,纵轴为稿件最终发表(同行评审期刊/会议)的概率;橙线为 LLM-assisted样本,蓝线为 non–LLM-assisted样本,阴影为 95% 置信区间。非 LLM 文本里复杂度越高,发表概率越高;但在 LLM 辅助文本里,复杂度越高对应更低的发表概率。
研究团队基于Flesch Reading Ease来衡量论文语言学上的复杂度。这个复杂性指标综合了平均句长与每词音节数进行量化。分数越高,代表文本越复杂、越难读。对于 2023 年之后发布的预印本,研究团队考察其是否在 2024 年 6 月之前发表于同行评议的期刊或会议,并以此作为论文科学质量的近似衡量。这一指标当然并非完美的质量定义,但它提供了一个跨学科可比、且与学术体系奖励机制高度相关的结果变量。
研究团队发现,传统的人类撰写的论文遵循"语言越复杂精致,越容易被接收"的预期。这符合学术界的直觉,长难句反映深厚功力、精准定义或传递复杂性的能力。但在LLM辅助论文中,这条法则被颠覆:那些语言结构最复杂、词汇最艰深的稿件,反而更可能被拒稿。研究团队还用多种替代指标复现这一点:词汇复杂度、形态复杂度(如分词从句比例),以及“促销性语言”(例如过度使用“前所未有”“颠覆性”这类营销式表述)等,都显示出 LLM 文本与人类写作在统计特征上的显著差异。
这一发现在所有三个数据库中都得到了验证。为了进一步检验这一现象是否与不同期刊和会议的过审机制有关,研究团队引入 ICLR-2024 会议数据,涵盖7243 篇投稿、约 2.8 万份评审报告。用评审分数作为科学质量的结果变量后,研究团队发现相关性仍然成立,即在 LLM 辅助文本中语言复杂度不再是正向信号。这也许在指代当AI能够轻松生成复杂、专业的学术语言时,语言复杂度作为研究质量信号的价值正在消失。
研究团队据此提出一个更一般的机制解释:写作复杂度过去之所以能当作质量信号,是因为它与作者投入的时间、语言训练与学术社会化高度相关;而 LLM 降低了生成复杂语言的成本,于是在语句上的与学术上的投入解耦。由此带来的次级风险是更容易出现“看起来很像优秀论文”的文本,拥塞学术交流通道,增加评审负担,并削弱传统筛选机制。
知识流动的新图景
生产力与评审只是科研流程的一部分。更隐蔽、但更长期的影响,可以从文献与引用结构的变化观测。研究团队从搜索行为的社会实验,以及采用前后的引用行为对比两个角度观察"AI会强化经典文献马太效应"的担忧是否为真。
2023年2月,Bing 推出集成 GPT-4 的对话式搜索。作者利用一个大规模的行为数据集:2.46 亿次 arXiv 论文浏览/下载记录,并区分访问来源(Bing、Google)。
![]()
图3:以 Bing Chat 发布当周为 0 周(竖虚线),点表示“Bing 引流用户 vs Google 引流用户”的差异估计,竖线为 95% 置信区间。上图显示上线后 Bing 用户访问书籍的比例显著上升;下图显示上线后 Bing 用户访问到的文献中位年龄下降(平均约新 2.1 个月)。
在DID框架下,研究团队比较 Bing 引流用户在上线前后的变化,并以 Google 引流用户作为对照。结果显示,Bing 用户在 GPT-4(ChatGPT-4显然也是一个大语言模型)集成后访问书籍的比例提高26.3%、访问文献的中位已发表时间下降0.18 年且并未更偏向高被引经典而是更多接触到已有的引用较少的工作。
如果把搜索引擎理解为一个注意力窗口,那么这组结果意味着 LLM 可能在一定程度上降低了发现长文本和冷门新文献的门槛。它不只是把用户带向最热门、最匹配的结构,而可能扩展了可见的知识边界。
研究团队进一步把三大预印本库连接到 OpenAlex 与 Semantic Scholar,得到 1.016 亿条引用关系,并用事件研究比较作者采用前后的引用模式变化,发现了与上述结果高度一致的变化:科学家在使用LLM后:
更可能引用书籍(总体上 +11.9%,但在 SSRN 不显著);
所引文献平均更“年轻”(平均已发表时间减少 0.379 年);
所引文献的引用影响更低(平均对数被引下降 2.34%)。
把两部分放在一起看,采用LLM 可能把注意力引向一个更多样化的知识基础,而不是一味强化既有正典(scientific canons)。研究团队的解释是LLM 既可能通过写作辅助降低整合文献的成本,也可能通过对话式搜索改变信息获取路径,从而让研究者更容易进入新的、分散的、非经典的文本空间。
审稿人怎么办
如果复杂、工整的语言不再可靠,那审稿人到底要看什么?在信息过载的现实里,最容易发生的并不是大家突然变得更严谨,而是大家用更省力的但是新型的启发式做判断。例如作者出身、机构名头、学术血统重新变成质量的,或者说用地位标记来替代语言的,标记。这会让 LLM 带来的语言平权显得有点像递弱代偿。旧的门槛被抬走了一部分,新的门槛却可能在别的地方又竖起来。
作者给出的回应是,既然语言模型让表面信号失灵,一种可能的方案是将LLM技术拉进评审流程——引入“审稿代理”(reviewer agent),去提示方法不一致、核验关键声明、甚至辅助判断新颖性,尝试把注意力重新拉回研究的实质。这种可规模化的评审辅助,究竟会让同行评审更重实证,还是会引入新的偏差与意料之外的副作用——这本身就是 LLM 时代的一项关键不确定性。
该研究的局限性
研究团队坦诚了AI检测方法面临的挑战。他们使用的基于文本的AI检测算法虽然能够识别LLM辅助写作的统计特征,但存在以下局限:
仅基于摘要:检测仅限于论文摘要,无法扩展到全文
无法定位具体作者:无法确定团队中哪位具体作者使用了LLM
可能漏检:可能无法检测到对LLM输出进行大量修改的使用情况
技术演进过快:当新模型具备更强的推理、“深度研究”等能力后,影响可能扩大或嬗变
因果解释需要强假设:社会交互中采用 LLM 与产出、引用、语言信号之间一系列一致的变化难以控制变量
选择偏差:“首次被检测为采用”的时间点,可能与生产力变化本身纠缠在一起
这些局限性提醒我们,在快速发展的AI时代,保持科学的批判性思维和方法学严谨性比以往任何时候都更重要。
论文作者:
AI+Science 读书会
AI+Science 是近年兴起的将人工智能和科学相结合的一种趋势。 一方面是 AI for Science,机器学习和其他 AI 技术可以用来解决科学研究中的问题,从预测天气和蛋白质结构,到模拟星系碰撞、设计优化核聚变反应堆,甚至像科学家一样进行科学发现,被称为科学发现的“第五范式”。 另一方面是 Science for AI,科学尤其是物理学中的规律和思想启发机器学习理论,为人工智能的发展提供全新的视角和方法。
集智俱乐部联合斯坦福大学计算机科学系博士后研究员吴泰霖(Jure Leskovec 教授指导)、哈佛量子计划研究员扈鸿业、麻省理工学院物理系博士生刘子鸣(Max Tegmark 教授指导),共同发起以”为主题的读书会,探讨该领域的重要问题,共学共研相关文献。 读书会已完结,现在报名可加入社群并解锁回放视频权限。
详情请见:
1.
2.
3.
4.
5.
6.
7.
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.