网易首页 > 网易号 > 正文 申请入驻

Science:大语言模型如何重塑科学产出

0
分享至


导语

尽管生成式人工智能(Gen AI)在各学科中快速被接受的兴奋(和担忧)日益增长,但实证证据仍然零散,对大型语言模型(LLMs)在科学领域影响的系统理解仍然有限。

美国康奈尔大学的殷裔安教授及其团队于2025年12月18日发表在Science的论文分析了三大主要预印本库的大规模数据,表明使用大型语言模型加速了手稿产出,减少了非英语母语者的障碍,并丰富了既有文献的发现。然而,传统的科学质量信号,如语言复杂性,正逐渐成为不可靠的价值指标,正如我们正经历科学工作数量的上升。随着人工智能系统的进步,它们将挑战我们对研究质量、学术交流以及知识劳动本质的基本假设。科学政策制定者必须考虑如何发展我们的科学机构,以适应快速变化的科学生产过程。

关键词:大语言模型(LLM),科学学,学术写作,语言公平

任筱芃丨作者

殷裔安、赵思怡丨审校


论文题目:Scientific production in the era of large language models: With the production process rapidly evolving, science policy must consider how institutions could evolve 论文链接:https://doi.org/10.1126/science.adw3000 发表时间:2025年12月18日 论文来源:Science

研究背景与问题

科学生产的历史性转折

科学研究始终与技术革新紧密相连。从显微镜的发明到超级计算机的出现,技术进步不断推动着研究前沿的拓展。近年来,大语言模型在蛋白质结构预测、材料发现等领域的成功应用,展示了AI在特定科学任务中的巨大价值。但这些成功案例大多可以被归类为碎片化的证据,其对科学整体生产流程的宏观影响(macro-level impact)仍待解答。

康奈尔大学殷裔安团队收集了三个主要预印本数据库的数据,涵盖2018年至2024年的210多万篇论文:arXiv(数学、物理、计算机科学等领域)、bioRxiv(生命科学)和SSRN(社会科学、法律、人文)。选择预印本有两个好处:其一,发布时间更接近研究完成时点,更适合做论文被采用前后的动态比较;其二,覆盖面广,能观察到不同学科的共同趋势,而不被单一领域的短期热点带偏。这些大型数据集为理解LLMs对科学研究的宏观影响提供了实证基础。

核心研究问题

研究聚焦于四个关键问题:

  1. 生产力效应:LLM使用是否让研究者单位时间内产出更多论文?

  2. 语言公平性:这种效率提升是否跨越了语言背景的界限?

  3. 质量评估挑战:当写作能力被技术标准化后,传统评价指标是否还能有效识别研究质量?

  4. 对已有知识的使用:LLM使用是否改变研究者对已有文献的阅读和引用行为?

该研究团队训练了一个基于文本特征的AI检测算法,通过比较2023年ChatGPT发布前后的摘要词汇分布变化,识别出可能使用LLM辅助的论文。这种方法虽不完美,但在现有技术条件下提供了最可行的实证路径。

主要研究发现

生产力跃升

在严格控制了AI领域自身研究热潮带来的干扰后,研究团队发现,LLM采用者的论文产出增长在不同学科呈现出普遍性:arXiv增长36.2%,bioRxiv达52.9%,SSRN更是高达59.8%。更关键的是,尽管不同的 LLM 识别方法及统计模型值会影响估计系数的大小,敏感性分析显示生产力效应在不同的模型下都保持稳健。


图1:以作者首次被检测为 LLM-assisted所在月份为 0(竖虚线),横轴为相对月份,纵轴为采用者相对未采用者的产出变化(%);点为估计值,竖线代表 95% 置信区间。图中可见采用后产出在多个后续月份保持在更高水平。

LLM最早、最直接的影响往往发生在程序性的部分——摘要、引言、相关工作、措辞润色、结构整理、语法纠错等。这些操作都属于高频、耗时、却相对可被语言模型接管的工作。但需要注意的是,这是一种采用LLM与产出上升的强相关,并不等同于严格意义的因果关系。

更重要的发现是,在写作层面,LLM 有潜力降低语言门槛,并且这种收益并不平均。例如,在SSRN中,亚洲姓名研究者+亚洲机构生产力增幅达到了88.9%,远超英语国家研究者的46.2%。长期以来,非英语母语学者承受着双重负担——既要做出一流研究,又要用外语精准表达学术思想的微妙之处。这意味着,LLMs正在一定程度上缓解非英语母语研究者在学术写作中的劣势

质量信号失灵

然而,研究团队发现了一个更为复杂的现象。在LLM辅助的论文中,写作复杂度与发表概率之间出现了传统预期的逆转


图2:横轴为写作复杂度,纵轴为稿件最终发表(同行评审期刊/会议)的概率;橙线为 LLM-assisted样本,蓝线为 non–LLM-assisted样本,阴影为 95% 置信区间。非 LLM 文本里复杂度越高,发表概率越高;但在 LLM 辅助文本里,复杂度越高对应更低的发表概率。

研究团队基于Flesch Reading Ease来衡量论文语言学上的复杂度。这个复杂性指标综合了平均句长与每词音节数进行量化。分数越高,代表文本越复杂、越难读。对于 2023 年之后发布的预印本,研究团队考察其是否在 2024 年 6 月之前发表于同行评议的期刊或会议,并以此作为论文科学质量的近似衡量。这一指标当然并非完美的质量定义,但它提供了一个跨学科可比、且与学术体系奖励机制高度相关的结果变量。

研究团队发现,传统的人类撰写的论文遵循"语言越复杂精致,越容易被接收"的预期。这符合学术界的直觉,长难句反映深厚功力、精准定义或传递复杂性的能力。但在LLM辅助论文中,这条法则被颠覆:那些语言结构最复杂、词汇最艰深的稿件,反而更可能被拒稿。研究团队还用多种替代指标复现这一点:词汇复杂度、形态复杂度(如分词从句比例),以及“促销性语言”(例如过度使用“前所未有”“颠覆性”这类营销式表述)等,都显示出 LLM 文本与人类写作在统计特征上的显著差异。

这一发现在所有三个数据库中都得到了验证。为了进一步检验这一现象是否与不同期刊和会议的过审机制有关,研究团队引入 ICLR-2024 会议数据,涵盖7243 篇投稿、约 2.8 万份评审报告。用评审分数作为科学质量的结果变量后,研究团队发现相关性仍然成立,即在 LLM 辅助文本中语言复杂度不再是正向信号。这也许在指代当AI能够轻松生成复杂、专业的学术语言时,语言复杂度作为研究质量信号的价值正在消失。

研究团队据此提出一个更一般的机制解释:写作复杂度过去之所以能当作质量信号,是因为它与作者投入的时间、语言训练与学术社会化高度相关;而 LLM 降低了生成复杂语言的成本,于是在语句上的与学术上的投入解耦。由此带来的次级风险是更容易出现“看起来很像优秀论文”的文本,拥塞学术交流通道,增加评审负担,并削弱传统筛选机制。

知识流动的新图景

生产力与评审只是科研流程的一部分。更隐蔽、但更长期的影响,可以从文献与引用结构的变化观测。研究团队从搜索行为的社会实验,以及采用前后的引用行为对比两个角度观察"AI会强化经典文献马太效应"的担忧是否为真。

2023年2月,Bing 推出集成 GPT-4 的对话式搜索。作者利用一个大规模的行为数据集:2.46 亿次 arXiv 论文浏览/下载记录,并区分访问来源(Bing、Google)。


图3:以 Bing Chat 发布当周为 0 周(竖虚线),点表示“Bing 引流用户 vs Google 引流用户”的差异估计,竖线为 95% 置信区间。上图显示上线后 Bing 用户访问书籍的比例显著上升;下图显示上线后 Bing 用户访问到的文献中位年龄下降(平均约新 2.1 个月)。

在DID框架下,研究团队比较 Bing 引流用户在上线前后的变化,并以 Google 引流用户作为对照。结果显示,Bing 用户在 GPT-4(ChatGPT-4显然也是一个大语言模型)集成后访问书籍的比例提高26.3%、访问文献的中位已发表时间下降0.18 年且并未更偏向高被引经典而是更多接触到已有的引用较少的工作。

如果把搜索引擎理解为一个注意力窗口,那么这组结果意味着 LLM 可能在一定程度上降低了发现长文本和冷门新文献的门槛。它不只是把用户带向最热门、最匹配的结构,而可能扩展了可见的知识边界。

研究团队进一步把三大预印本库连接到 OpenAlex 与 Semantic Scholar,得到 1.016 亿条引用关系,并用事件研究比较作者采用前后的引用模式变化,发现了与上述结果高度一致的变化:科学家在使用LLM后:

  • 更可能引用书籍(总体上 +11.9%,但在 SSRN 不显著);

  • 所引文献平均更“年轻”(平均已发表时间减少 0.379 年);

  • 所引文献的引用影响更低(平均对数被引下降 2.34%)。

把两部分放在一起看,采用LLM 可能把注意力引向一个更多样化的知识基础,而不是一味强化既有正典(scientific canons)。研究团队的解释是LLM 既可能通过写作辅助降低整合文献的成本,也可能通过对话式搜索改变信息获取路径,从而让研究者更容易进入新的、分散的、非经典的文本空间。

审稿人怎么办

如果复杂、工整的语言不再可靠,那审稿人到底要看什么?在信息过载的现实里,最容易发生的并不是大家突然变得更严谨,而是大家用更省力的但是新型的启发式做判断。例如作者出身、机构名头、学术血统重新变成质量的,或者说用地位标记来替代语言的,标记。这会让 LLM 带来的语言平权显得有点像递弱代偿。旧的门槛被抬走了一部分,新的门槛却可能在别的地方又竖起来。

作者给出的回应是,既然语言模型让表面信号失灵,一种可能的方案是将LLM技术拉进评审流程——引入“审稿代理”(reviewer agent),去提示方法不一致、核验关键声明、甚至辅助判断新颖性,尝试把注意力重新拉回研究的实质。这种可规模化的评审辅助,究竟会让同行评审更重实证,还是会引入新的偏差与意料之外的副作用——这本身就是 LLM 时代的一项关键不确定性。

该研究的局限性

研究团队坦诚了AI检测方法面临的挑战。他们使用的基于文本的AI检测算法虽然能够识别LLM辅助写作的统计特征,但存在以下局限:

  1. 仅基于摘要:检测仅限于论文摘要,无法扩展到全文

  2. 无法定位具体作者:无法确定团队中哪位具体作者使用了LLM

  3. 可能漏检:可能无法检测到对LLM输出进行大量修改的使用情况

  4. 技术演进过快:当新模型具备更强的推理、“深度研究”等能力后,影响可能扩大或嬗变

  5. 因果解释需要强假设:社会交互中采用 LLM 与产出、引用、语言信号之间一系列一致的变化难以控制变量

  6. 选择偏差:“首次被检测为采用”的时间点,可能与生产力变化本身纠缠在一起

这些局限性提醒我们,在快速发展的AI时代,保持科学的批判性思维和方法学严谨性比以往任何时候都更重要。

论文作者:

AI+Science 读书会

AI+Science 是近年兴起的将人工智能和科学相结合的一种趋势。 一方面是 AI for Science,机器学习和其他 AI 技术可以用来解决科学研究中的问题,从预测天气和蛋白质结构,到模拟星系碰撞、设计优化核聚变反应堆,甚至像科学家一样进行科学发现,被称为科学发现的“第五范式”。 另一方面是 Science for AI,科学尤其是物理学中的规律和思想启发机器学习理论,为人工智能的发展提供全新的视角和方法。

集智俱乐部联合斯坦福大学计算机科学系博士后研究员吴泰霖(Jure Leskovec 教授指导)、哈佛量子计划研究员扈鸿业、麻省理工学院物理系博士生刘子鸣(Max Tegmark 教授指导),共同发起以”为主题的读书会,探讨该领域的重要问题,共学共研相关文献。 读书会已完结,现在报名可加入社群并解锁回放视频权限。

详情请见:

1.

2.

3.

4.

5.

6.

7.

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
漂亮妻坠江第5天,丈夫直播澄清上热搜,已排除刑案,曝更多细节

漂亮妻坠江第5天,丈夫直播澄清上热搜,已排除刑案,曝更多细节

小蜜情感说
2026-02-08 12:58:37
刘晓庆:将外甥当儿子养,如今亲情失血伤了她的心

刘晓庆:将外甥当儿子养,如今亲情失血伤了她的心

可乐谈情感
2026-02-08 13:59:14
回归红魔的正常水准!曼联25轮后积44分,超越上赛季的总积分

回归红魔的正常水准!曼联25轮后积44分,超越上赛季的总积分

懂球帝
2026-02-07 22:37:19
大空头遭限空!黄金白银将迎来报复性反抽

大空头遭限空!黄金白银将迎来报复性反抽

东方豪侠
2026-02-08 12:01:54
浙江90后女生滑雪摔倒,屁股“长”出“血馒头”,医生:雪道的尽头非骨科,会“摔”才安全

浙江90后女生滑雪摔倒,屁股“长”出“血馒头”,医生:雪道的尽头非骨科,会“摔”才安全

环球网资讯
2026-02-08 08:02:11
王禹:国安是很高的平台,到这里是我的荣幸

王禹:国安是很高的平台,到这里是我的荣幸

懂球帝
2026-02-08 12:46:20
惊出一身冷汗!21岁女生说有性生活史,医生开完阴超,B超室紧急叫停…(医护必看避坑指南)

惊出一身冷汗!21岁女生说有性生活史,医生开完阴超,B超室紧急叫停…(医护必看避坑指南)

医脉圈
2026-02-05 12:07:13
3-2!意甲冠军少打1人仍逆转 曼联2弃将携手爆发 霍伊伦双响+点杀

3-2!意甲冠军少打1人仍逆转 曼联2弃将携手爆发 霍伊伦双响+点杀

我爱英超
2026-02-08 06:59:39
哈格里夫斯:我从未见梅努踢过一场臭球,不敢相信天赋这么高

哈格里夫斯:我从未见梅努踢过一场臭球,不敢相信天赋这么高

懂球帝
2026-02-07 23:18:29
自从在越南发现了跟三星堆相似的文物,基本就能确定了

自从在越南发现了跟三星堆相似的文物,基本就能确定了

南权先生
2026-02-06 15:50:09
牛鬼神蛇现原形!聂卫平去世仅一天,私生活被扒,王刚郎平被牵连

牛鬼神蛇现原形!聂卫平去世仅一天,私生活被扒,王刚郎平被牵连

春露秋霜
2026-01-16 06:27:20
广州绿皮火车走红,是因为穷还是为了情怀?

广州绿皮火车走红,是因为穷还是为了情怀?

八桂知事
2026-02-08 13:10:27
罗体:梅西在厄瓜多尔受国家元首级接待,安保措施创纪录

罗体:梅西在厄瓜多尔受国家元首级接待,安保措施创纪录

懂球帝
2026-02-08 10:11:45
妻子打麻将连赢十几年,真能通灵?丈夫进入地窖,发现惊天秘密

妻子打麻将连赢十几年,真能通灵?丈夫进入地窖,发现惊天秘密

农村情感故事
2025-09-07 07:51:19
畸形儿风波后,阚清子首度表态,早产女婴夭折传闻终于真相大白

畸形儿风波后,阚清子首度表态,早产女婴夭折传闻终于真相大白

漫婷侃娱乐
2026-02-02 13:55:21
4天换4队!华子急了!他们合砍85分大逆转!

4天换4队!华子急了!他们合砍85分大逆转!

柚子说球
2026-02-07 14:39:36
短节目失误能否抹去四年努力?隋文静的心理与状态引发热议

短节目失误能否抹去四年努力?隋文静的心理与状态引发热议

林子说事
2026-02-08 13:20:57
解放军为何迟迟不武统台湾?台前任防卫总长:目前大陆有3大障碍

解放军为何迟迟不武统台湾?台前任防卫总长:目前大陆有3大障碍

混沌录
2026-02-05 21:17:04
头部金店紧急调整回购规则,节假日不能卖金了

头部金店紧急调整回购规则,节假日不能卖金了

21世纪经济报道
2026-02-08 07:15:39
国民党访陆重启交流,两岸达成共识,解放军巡台震慑“台独”

国民党访陆重启交流,两岸达成共识,解放军巡台震慑“台独”

上视韬说
2026-02-08 09:45:11
2026-02-08 14:35:00
集智俱乐部 incentive-icons
集智俱乐部
科普人工智能相关知识技能
5651文章数 4662关注度
往期回顾 全部

科技要闻

欧盟认定存在"上瘾"设计 TikTok:结论错误

头条要闻

美国拉拢 阿根廷明确表态:不排除来自中国的投资

头条要闻

美国拉拢 阿根廷明确表态:不排除来自中国的投资

体育要闻

铜牌与苏翊鸣的这四年,他说:我对得起自己

娱乐要闻

曝带女星回老家小区,罗云熙紧急回应

财经要闻

金银震荡144小时 大爷大妈排队「抄底」

汽车要闻

VLA司机大模型优化 理想汽车OTA8.3版本更新

态度原创

艺术
时尚
房产
本地
手机

艺术要闻

10秒内认全狂草的人只有1%,你敢挑战吗?

40+女性冬季这样穿:“长外套+裙子”,保暖与洋气双向在线

房产要闻

新春三亚置业,看过这个热盘再说!

本地新闻

围观了北京第一届黑色羽绒服大赛,我笑疯了

手机要闻

华为双喜临门,鸿蒙OS 6开发者招募,Mate80系列销量强势破280万

无障碍浏览 进入关怀版