「论文DDoS」这事，这篇NeurIPS论文早有讨论|学术|综述|文献|ddos|arxiv

「论文DDoS」这事，这篇NeurIPS论文早有讨论

2025-11-17 14:36:45　来源: 新浪财经

河北举报

分享至

来源：市场资讯

（来源：机器之心Pro）

近日，全球人工智能和计算机科学学术圈被一条消息刷屏：arXiv，这个领域内最重要的预印本服务器，突然宣布了一项重大的实践更新。

消息一出，科研圈一片哗然。arXiv 明确指出，这场风波的源头正是生成式 AI 与大语言模型。

然而，就在 arXiv 官方拉响警报的前几周，一篇中稿2025年 NeurIPS Position Paper Track的立场性文章恰好也登上了 arXiv。它的标题精准地概括了这场危机：《Stop DDoS Attacking the Research Community with AI-Generated Survey Papers》。来自上海交通大学的研究团队精准地预见、识别、量化并命名了这场由大模型引发的学术界危机。该论文的作者团队来自上海交通大学，第一作者为安泰智能计算研究院助理教授林江浩，通讯作者为计算机学院张伟楠教授。

AI 综述不仅是洪水漫灌，更是 DDoS 攻击

这篇论文的核心贡献，在于提出了一个极度精准的隐喻：“综述论文 DDoS 攻击”（Survey Paper DDoS attack）。这个概念的精妙之处在于，它点明了问题的本质远非 “论文太多、大水漫灌” 那么简单。

这导致的后果和 DDoS 攻击一样，它构成了事实上的 “拒绝服务”。当有价值的、深刻的见解被海量的 AI 生成内容所淹没时，研究人员（尤其是新手）就等于被 “拒绝访问” 到真正的学术洞察，研究者的有限注意力也将被无限分散。

arXiv 的紧急措施，就是这台 “服务器” 在不堪重负时，被迫切断部分流量的无奈之举。

量化证据链：“后 2022 时代” 的数据激增

这篇论文中，作者们通过实证与数据分析，精准量化、验证并揭示了这场 “综述论文 DDoS 攻击” 的规模和来源。

他们收集并分析了 2020 年至 2024 年间 arXiv 上共计 10,063 篇 CS 领域的综述论文。研究结果（如下图）揭示了一个清晰无误的转折点 ——“后 2022 年激增”（Post-2022 Spike）。

论文从三个维度进行量化分析：

1.CS综述论文总量：呈爆发式增长，尤其在 2022 年以后，论文数量激增，研究者已不堪重负。

2.平均 AI 生成分数：AI 内容检测分数翻了一倍多，清晰表明 AI 是这场增长的核心驱动力。

3.可疑的发表行为：那些在短期内（一个月内）以极少合作者（少于 2 人）发表超过 3 篇综述的异常作者数量激增，指向 AI 辅助下的批量生产。

而 2022 年底，正是 ChatGPT 发布并引发全球生成式 AI 浪潮的时刻。这映证了学术界正在经历的不是正常的学术增长，而是一场由 AI 工具驱动的、混杂着大量可疑动机的内容冲击。

为了确保量化分析结论的稳健性，该团队还使用了多种不同的 AI 内容检测器（如 DeTeTeCtive, MAGE）和规则式方案（如引用重复度、语义相似性）进行交叉验证，结果均显示了同样的后 2022 年激增趋势。

危害：不只是 “噪音”，更是 “文献投毒”

如果 AI 生成的综述只是数量多，那它们仅仅是噪音。但这篇论文指出，真正致命的是其质量参差不齐、重复冗余的特性，这正在对学术生态造成系统性破坏。

传统的、由专家撰写的综述是学术的灯塔，它们提供深刻的洞见、批判性的分析和高屋建瓴的分类。而 AI 生成的综述，往往存在以下四种典型缺陷：

1.结构性空洞（Structural Differences）：它们通常只是 “无组织的主题枚举”，缺乏清晰的叙事流程和逻辑结构。读起来就像是一份没有灵魂的文献清单。

2.缺乏创新的分类法（Lack of Novel Taxonomy）：高质量综述的核心价值是提出全新的视角和分类体系。而 AI 综述只会 “模仿现有的分类”，有时甚至只是拙劣地复述维基百科的词条。

3.引文与内容错漏（Citation and Content Inaccuracy）： AI 综述极有可能出现捏造的或不正确的参考文献与内容。这就是 LLM 的幻觉问题，它正在被不加鉴别地复制粘贴到本应严谨的学术记录中，并且在下一轮 AI 深度调研中被进一步广播。

4.高度冗余和极低的边际效用（Redundancy and Low Marginal Utility）：AI 极大地降低了 “灌水” 成本。论文作者观察到，某个新兴主题在短短一个月内就出现了超过五篇的综述预印本。这绝对是多余的，当 “第 N 篇关于 X 的综述” 发表时，其 “边际学术价值几乎为零”。

当这四个要素结合在一起，由 “综述论文 DDoS 攻击” 产生了“文献投毒”（Literature Poisoning）现象：

出路：从封堵到新机制构建

面对如此严峻的 “DDDoS 攻击” 和 “文献投毒”，我们该怎么办？

例如 arXiv 的新规正是一种防御性的紧急熔断措施。

该论文的作者也给出了自己的解决方案，分为两部分：近期的务实策略和长期的愿景革新。论文在文中提出了一系列政策建议，包括：

更进一步，作者们认为，在 AI 时代，仅仅依靠 “封堵” 和 “提高门槛” 是被动的，我们必须主动拥抱变革，用更先进的范式来解决问题。由此，作者们提出了一种构想：动态实时综述（Dynamic Live Surveys， DLS）。

简单来说，不要再写那种一次性的、静态的、存在过时风险的 PDF 综述了。我们应该借鉴维基百科、GitHub、甚至 Google Doc 的平台，为每个研究领域建立一个由社区共同维护的、版本可控的在线知识库，并构建 “人 - AI 协作的策展循环”（Human-AI Curation Loop）：

这种模式从根本上解决了现有问题：它能解决冗余（一个主题或分类方法只需要一个 DLS），能保证质量（由人类专家掌舵），也能解决时效性（实时更新）。

这种模式不再将 AI 视为洪水猛兽，而是将其转变为强大的科研助手，让人类专家从繁琐的文献整理中解放出来，专注于最高价值的思考和洞察。

结语

arXiv 的新规是一个重要的信号，它标志着学术界对 AI 冲击波的被动防御已经开始。这是一个必要的 “止血带”。

而上海交大团队的这篇论文，不仅精准预言、量化并概括了这场危机（综述论文 DDoS 攻击和文献投毒），更指明了一条可能的路径措施。即，我们不能永远停留在 “提高围墙” 的防御姿态上，在 AI 时代，我们必须主动进化，从静态的、孤立的 “论文发表” 模式，转向动态的、协作的 “知识策展” 模式。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.