![]()
去年某个深夜,一位维基编辑在审核新条目时发现了诡异现象——一篇关于18世纪荷兰航海家的词条,文风工整得像高考满分作文,但参考文献却指向了根本不存在的期刊。这不是孤例。2024年全年,英文维基百科检测到AI生成内容激增340%,部分条目甚至出现了"幻觉引用"(hallucinated citations),即大型语言模型编造的虚假学术来源。
全球最大知识库正在经历一场静默的"清退行动"。
上周,维基媒体基金会正式更新编辑准则:禁止用户使用AI撰写或重写完整条目。这项覆盖6500万月活用户、1100万篇英文词条的平台,首次对生成式AI亮出红牌。但细则留有余地——AI仍可用于基础校对和跨语言翻译,前提是"不引入原创内容"。
从"放任自流"到"划清界限":三个月政策急转弯
时间线拉回2024年。年初,维基社区对AI工具的态度堪称暧昧。当时部分编辑尝试用ChatGPT辅助起草条目框架,社区讨论帖中甚至出现"AI能解放人力去处理更复杂的词条编辑"这类乐观判断。
转折点出现在2024年夏。WikiProject AI Cleanup项目发起人Chaotic Enby在站内发布统计:过去六个月,因"来源不可靠"被快速删除的新建条目中,67%呈现典型的LLM(大型语言模型)输出特征——过度使用连接词、事实密度低于人工撰写版本、参考文献格式规范但内容经不起核验。
更棘手的是"风格模仿"困境。新准则特意警告:某些人类作者的写作习惯本就接近AI输出,编辑不能仅凭"文风可疑"就限制他人权限。这意味着审核者必须逐条核对事实准确性,而非依赖直觉判断——工作量不降反增。
Chaotic Enby的提案在去年底进入表决流程。讨论串累积了超过400条回复,最终"压倒性多数"支持全面禁止AI代写。一位参与投票的资深编辑在总结中写道:「我们不是在反对技术,是在捍卫可验证性这条底线。」
![]()
被允许的"灰色地带":翻译和校对为何能幸免
细读政策文本会发现,维基对AI的态度并非一刀切的排斥。两类场景仍被放行:
第一类是基础文字润色。编辑可以用LLM检查语法错误或调整句式,但系统输出的修改建议必须经人工逐句确认,且"不得添加原文不存在的信息"。这相当于把AI降级为带风险提示的语法检查器。
第二类是跨语言翻译。英文维基允许编辑借助AI将其他语言版本的内容转译,但附加了严苛条件——操作者必须具备足够的源语言能力,能独立核实译文的准确性。2023年德语维基百科的一项研究显示,未经人工复核的AI翻译,历史类条目的事实错误率达到12%,生物类条目更是高达19%。
翻译许可的背后,是维基百科独特的多语言架构压力。英文版虽是流量核心,但内容源头大量依赖小语种社区的原创贡献。完全禁用AI翻译,意味着非英语编辑的劳动成果难以向全球读者开放——这是平台不愿承受的代价。
幻觉引用:AI写作最隐蔽的毒性
维基百科的核心内容政策中,"可验证性"(verifiability)位列第一。任何主张必须有可靠来源支撑,这是它区别于普通内容平台的生命线。
AI生成内容恰恰在此露出致命破绽。2024年斯坦福大学的一项检测实验显示,GPT-4在生成学术风格段落时,平均每千字会捏造1.7个参考文献。这些"幻觉引用"往往格式完美——作者名、期刊名、发表年份一应俱全,但点击链接或检索数据库就会暴露:论文不存在,作者查无此人,卷期号对应的是完全不同的研究。
![]()
一位维基管理员向我描述过典型场景:「你读到一段关于量子计算发展史的文字,引用了2019年《自然·物理》的某篇综述。去官网搜索,发现那期杂志根本没有这篇文章。更糟的是,这段文字的其他部分可能是准确的,混杂真假让核查变成噩梦。」
这种"半真半假"的毒性,比 outright 错误更难防范。WikiProject AI Cleanup的识别指南中,将"参考文献与正文内容不匹配"列为首要红旗信号——但人工逐条核验的成本,在AI内容洪峰面前几近杯水车薪。
平台博弈:维基的选择为何与众不同
对比其他内容平台的AI策略,维基百科的强硬姿态显得突兀。
Reddit允许AI生成内容,但要求标注;Stack Overflow一度禁用过ChatGPT回答,2024年又部分松绑;新闻机构如美联社、彭博社则积极将AI纳入采编流程,用于财报快讯等结构化内容。维基的选择,根植于其独特的组织形态——没有雇佣编辑,全靠志愿者自治,任何增加审核复杂度的政策都会直接转化为社区负荷。
更深层的张力在于知识权威性的维护。维基百科的商业模式(或者说非商业模式)建立在"任何人可编辑,但须接受同行审视"的契约上。如果读者开始怀疑条目的真实作者身份,这份契约就会松动。一位基金会职员在内部论坛的留言被公开引用:「我们卖的不是信息,是信任。AI代写摧毁的是信任的生产机制。」
但禁令的执行效果存疑。检测AI生成文本的技术仍在军备竞赛中,最新的大模型输出已经能骗过多数商用检测工具。维基社区目前的应对是"行为分析"——关注编辑历史模式,而非单条内容特征。频繁创建完整条目、缺乏渐进修改痕迹、参考文献格式异常统一,这些行为画像比文本本身更可靠。
Chaotic Enby在提案通过后的更新中承认:「政策针对的是明目张胆的滥用,边缘地带仍需依赖编辑的集体判断。」
这场实验的终局尚未可知。当全球知识生产越来越依赖机器辅助,一个坚持"人肉验证"的平台能走多远?或者说,读者愿意为这份坚持支付多少耐心成本——当其他渠道能提供即时、流畅、看似权威的信息时?
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.