![]()
11月10日,维基百科的运营机构维基媒体基金会发布了一份声明,希望开发者能够“负责任地”使用其庞大的知识库。基金会明确提出两项核心要求:
第一,停止使用自动化程序直接抓取网站数据,因为这种行为严重消耗其服务器资源;
第二,转而采用其专为大规模数据使用设计的付费产品 ——“维基媒体企业平台”。此举旨在建立一个更可持续、互惠互利的合作模式。
这是它第一次以官方立场、明确语气介入AI行业对公共数据的使用问题。也是一次不加掩饰的反击。
过去半年,维基百科发现其站点流量出现异动。在5月和6月,一些“看起来像人类用户”的访问行为,实则由AI爬虫程序生成。它们反复调取内容,绕开现有接口,假装正常用户行为,却在背后大规模抓取数据。
同时期,“人类用户”的页面访问量同比下滑了8%。这不是一个可忽视的数字。维基百科的存续机制依赖两样东西:浏览量带来的捐赠,以及活跃用户转化为的内容编辑者。访问下降,意味着志愿者供给减少,也意味着与公众的联系在削弱。
这也是基金会决定“开口”反击的原因。
维基百科对AI公司提的要求,并不复杂。不要再白用。请开始付费。
据了解,这背后有一条长期以来默许的供需关系:AI模型的基础训练数据,大量来自维基百科。它有良好的结构化写作、事实链清晰、来源标注完整,也有开放协议与自由版权。
这使得维基百科在AI训练数据中的“性价比”极高。相比复杂、模糊的社交媒体语料,维基百科是AI时代最被依赖的公共知识资源之一。模型在回答用户问题时,也频繁直接调用维基百科页面内容的改写版本,甚至逐字照搬。
但这份依赖并未反哺给它。AI公司没有支付费用,也没有标注来源,更没有为数据维护和知识更新承担任何成本。
维基百科的担忧是:它为整个AI行业提供了底层知识供给,却正在被反过来抽空用户基础。
这是一个明显的“搭便车”问题,大型模型的运行者得到了成本极低的数据获取路径,却把访问者从维基百科原站点“导走”,这种结构性不对称,一旦持续,对维基百科这样的非营利型组织是致命的。
为此,维基媒体基金会提出了“维基媒体企业平台”作为解决方案。
据IT之家报道,这是一个采用自愿选择模式的付费 API 产品,它不仅为 AI 公司提供了稳定、高效的数据接入方式,避免了因直接抓取而给维基百科服务器带来的巨大压力,其商业收入将直接用于支持维基百科的非营利使命。通过这种方式,AI 公司在使用数据的同时,也为知识的创造与维护做出了贡献。
另一个被强调的是内容“归属感”问题。
维基媒体基金会还强调:为了让公众信任互联网上的信息,平台必须清楚地标明信息来源。
对于使用维基百科内容训练或生成结果的 AI 模型而言,提供明确的来源归属,是对背后数百万人类志愿者贡献的基本尊重。如果访问量持续减少,志愿者和捐赠者的生态系统将受到侵蚀,最终损害这个全球最大在线百科全书的内容质量与更新速度。
随着AI生成内容快速增长,内容的“来处”变得越来越模糊。用户看到的是答案,不再知道答案的出处。这种“出处被抹除”的后果是:平台获得收益,模型获得能力,但内容生产者被排除出分配链条。
从维基百科的“喊话”开始,一种新的内容分配逻辑正在被讨论。AI不只是知识的使用者,也正在成为平台层级的“再分配者”。
今天,它靠知识训练模型,明天,它就可以成为搜索的替代品。它取代的不只是用户访问路径,也正在重写内容信用体系。
维基百科此时的声明,并不是一场情绪宣泄,而是一次边界设定:开放知识不是免费的矿;模型训练不能成为合法的掠夺。
这一立场是否会被主流AI公司接受还不确定,但可以肯定的是,随着AI规模不断扩大,对公共资源的依赖也将变成一项必须回应的“公共成本”。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.