网易首页 > 网易号 > 正文 申请入驻

抗争起效,AI大厂终于不再白嫖维基百科

0
分享至

AI大厂终于意识到继续与内容平台对抗是条不归路。就在全球最知名的百科全书网站维基百科(Wikipedia)庆祝25周年之际,负责运营维基百科的维基媒体基金会方面宣布,亚马逊、Meta、微软、Mistral AI以及Perplexity等多家AI大厂加入“维基媒体企业合作伙伴计划”(Wikimedia Enterprise)。


因此也就意味着,这些厂商将付费获取维基百科的“企业级数据访问权”,以获取这家百科全书网站的实时数据。而维基媒体企业合作伙伴计划则会根据他们的特定需求,对维基百科海量的文章数据进行结构化处理,使其更易于模型训练和商业用途。对此维基媒体基金会表示,来自亚马逊、微软等厂商的授权费用将直接用于支持该非营利组织的长期运营。

简而言之,维基百科将旗下的数据资产整理成AI更易懂的形式,以方便AI厂商即拿即用。

在AI大模型的训练中,结构化数据以其固有的清晰度、一致性和效率,成为了构建可靠且可扩展AI大模型的关键。尤其是那些用于分类、回归和预测等任务的模型,结构化数据更是必不可少。


比如在金融大模型中,交易金额、交易时间、交易类型等结构化的交易记录,就可以作为模型的输入特征,帮助AI学习和识别风险模式,从而提升输出结果的稳定性。不仅如此,结构化数据与知识图谱之间存在天然的协同关系,通过将两者结合,AI大模型就可以更准确地理解数据的上下文和语义。

而维基百科之所以要向AI厂商提供结构化数据的访问权,是因为后者的爬虫已经成为了这家非营利组织的梦魇。维基媒体基金会产品高级总监Marshall Miller此前在博客文章中表示,“使用维基百科内容的AI聊天机器人必须引导更多用户访问维基百科,确保免费知识能够持续流通。访问量下降就意味着志愿者可能减少,内容更新和丰富的速度放缓,个人捐赠者对这项工作的支持也可能下降。”

为了保证内容的可访问性,维基媒体基金会针对维基百科的内容采取了分布式存储,然后根据一定的策略分配到不同的存储节点,使得数据可以就近存储,从而提高访问速度和效率。当某个内容被多次请求时,他们就会将内容缓存到离用户最近的数据中心,倘若某个内容很久都未被请求,那么就会存储在核心数据中心。

根据内容的热度存储数据,就使得维基百科能够尽可能地节省服务器开支。然而人类的偏好与AI截然不同,人类更关心时下的热点,而AI追求的是进化,后者倾向于囫囵吞枣式鲸吞所有数据。内容的热度对AI毫无意义,就意味着维基百科认为的冷门内容也会被频繁访问,也就是说AI比人类访客更能消耗宝贵的带宽。

其实维基百科想要找这些AI厂商要钱不难理解,可后者为何会在这个时间点选择付钱呢?过去三年,因AI爬虫抓取数据而引发的诉讼可谓比比皆是,AI厂商更是一直在“白嫖”内容平台,甚至宁可打官司也不愿付钱。如今,这些厂商的想法却出现了180度的大转弯。

AI大厂之所以愿意向维基百科付钱,是因为他们不希望看到维基百科倒下。AI行业一直存在一个悖论,那就是如何在不依赖于人类提供的大量训练数据的情况下,让AI变得更智能?这就好比要求一个旱鸭子横渡长江,却不给TA配游泳教练。


目前,构建AI大模型的关键技术是基于人类反馈的强化学习(RLHF),不仅依赖人类标注员,更需要持续向大模型投喂数据。就像培养一个优秀学生需要优质教师一样,大模型的性能提升需要海量的预训练数据和高质量的指令微调/强化学习数据。

在跳出RLHF模式之前,AI大模型的进化就需要汲取人类的智慧,还做不到在完全没有外部数据的情况下实现自我进化。谷歌、微软、亚马逊、Meta已经意识到一味向内容平台单方面索取会导致人类创作者降低输出内容的热情,如果没有广大创作者在互联网上分享内容,难道要他们亲自上阵?

虽然目前已经有团队基于强化学习中的“自我博弈”(Self-Play)开始探索“无数据自我进化”,也就是AI给自己出题、自己解题、再从中学习,如此循环往复,来让AI变得更聪明。但问题是由于没有来自外部的“标准答案”,评估每一个自生成问题的难度和可解性都需要让大模型实际解答,整个过程就如同反复试错的穷举法,极其耗费时间和算力。


换而言之,AI的无数据自我进化尽管省去了获取外部数据的成本,却不得不面临预训练算力激增以及模型迭代需要更多时间。对于大厂而言,算力可能不是问题,但他们缺时间。以OpenAI为例,在CEO山姆·奥特曼宣布进入红色警报(Code Red)状态,推迟非核心项目应对谷歌Gemini的强势反扑后,只花1个月时间就拿出了GPT-5.2。

当下AI业界的状态是“争先恐后”,没有哪家厂商敢于慢工出细活。当不需要外部训练数据的方法还有暂时解决不了的缺陷时,AI厂商就不得不回过头来与维基百科这种拥有高质量数据的平台和解。万一维基百科选择躺平摆烂,就该AI厂商头疼了。

更何况出钱从维基百科买数据反而更有性价比,毕竟AI厂商宝贵的人力资源要用于升级算法,让自家员工创作内容才是大材小用。

【本文图片来自网络】

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张雨绮大瓜爆出!

张雨绮大瓜爆出!

微微热评
2026-01-27 00:09:43
奔着王菲去看的春晚,结果被凤凰传奇惊艳到了,轻松实现口碑暴涨

奔着王菲去看的春晚,结果被凤凰传奇惊艳到了,轻松实现口碑暴涨

仙味少女心
2026-02-17 07:24:01
那个教小米做手机的厂商,要断气了

那个教小米做手机的厂商,要断气了

蓝字计划
2026-02-14 11:40:57
明星马年晒全家福:古巨基二胎亮相 贾乃亮甜馨团圆 杨丞琳夫妻撒糖

明星马年晒全家福:古巨基二胎亮相 贾乃亮甜馨团圆 杨丞琳夫妻撒糖

喜欢历史的阿繁
2026-02-17 07:49:47
马刺文化的缔造者!新版本小卡,顶级大锁,让多位全明星后场吃瘪

马刺文化的缔造者!新版本小卡,顶级大锁,让多位全明星后场吃瘪

你的篮球频道
2026-02-17 06:51:35
小学生“倒数第一”试卷又火了,老师:这孩子智商太高,我教不了

小学生“倒数第一”试卷又火了,老师:这孩子智商太高,我教不了

浩源的妈妈
2026-01-27 06:29:07
2026年春晚还没开始,他咋就这么火了?网友:拜托,他可是李健啊

2026年春晚还没开始,他咋就这么火了?网友:拜托,他可是李健啊

这个才是真花生有壳
2026-02-15 20:15:03
大年初一拜年, 别只会说新年快乐! 送您30句祝福语,好听不落俗套

大年初一拜年, 别只会说新年快乐! 送您30句祝福语,好听不落俗套

斯佳丽的小厨房
2026-02-17 07:00:05
别碰!正在坍塌的5个行业:门外汉抢着接盘,聪明人已在卖设备。

别碰!正在坍塌的5个行业:门外汉抢着接盘,聪明人已在卖设备。

三农老历
2026-02-15 12:47:14
2026世界杯参赛资格悬而未决:尼日利亚静待国际足联裁决

2026世界杯参赛资格悬而未决:尼日利亚静待国际足联裁决

星耀国际足坛
2026-02-16 22:59:12
马斯克:编程或将在今年消亡

马斯克:编程或将在今年消亡

界面新闻
2026-02-15 14:15:44
陈幸同更新视频,点赞网友“戒指”评论,疑似回应与周启豪分手

陈幸同更新视频,点赞网友“戒指”评论,疑似回应与周启豪分手

凤幻洋
2026-02-16 14:04:53
7年败光2个亿,邹市明冉莹颖共同发文,终究还是踏出了这一步

7年败光2个亿,邹市明冉莹颖共同发文,终究还是踏出了这一步

林轻吟
2026-02-11 11:29:40
梁洛施不再隐瞒!坦言与李泽楷分手原因,事实证明,我们都被骗了

梁洛施不再隐瞒!坦言与李泽楷分手原因,事实证明,我们都被骗了

素衣读史
2026-01-22 15:21:31
【特稿】韩国成年人过年最怕什么?发压岁钱

【特稿】韩国成年人过年最怕什么?发压岁钱

新华社
2026-02-16 13:19:03
打出9.8分,HBO的重磅新剧又封神了

打出9.8分,HBO的重磅新剧又封神了

来看美剧
2026-02-16 23:23:09
德国人冻得受不了,以前看不上广东大铁箱,后来求着中国发货

德国人冻得受不了,以前看不上广东大铁箱,后来求着中国发货

牛锅巴小钒
2026-02-16 15:56:19
一个问题:爱泼斯坦的“邪恶”从何而来?

一个问题:爱泼斯坦的“邪恶”从何而来?

百味朱砂
2026-02-14 14:46:51
穆里尼奥:我是少数几位没被皇马解雇的教练,为皇马的成就高兴

穆里尼奥:我是少数几位没被皇马解雇的教练,为皇马的成就高兴

砚底沉香
2026-02-16 23:11:03
大年初一,斯诺克开杆!中国5人征战,最佳战绩亚军,仅4将取胜!

大年初一,斯诺克开杆!中国5人征战,最佳战绩亚军,仅4将取胜!

刘姚尧的文字城堡
2026-02-16 08:33:12
2026-02-17 08:27:00
三易生活 incentive-icons
三易生活
关注科技领域,我们是一家有趣、有干货的科技媒体
63480文章数 12779关注度
往期回顾 全部

科技要闻

阿里除夕发布千问3.5,性能媲美Gemini 3

头条要闻

"王菲接了李谷一的班"上热搜 窦靖童发文"挖嘞个亲娘"

头条要闻

"王菲接了李谷一的班"上热搜 窦靖童发文"挖嘞个亲娘"

体育要闻

谷爱凌:'不小心"拿到了银牌 祝大家马年大吉

娱乐要闻

王菲六登春晚献唱 水滴钻石耳环再出圈

财经要闻

2025,中国商业十大意外,黄金只排第九

汽车要闻

叫停纯屏操作 工信部拟推车内实体操作件强制国标

态度原创

本地
亲子
游戏
时尚
公开课

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

亲子要闻

2026大年初一,祝大家三餐香甜,天天开心,身体健健康康!

男人的浪漫!新春燃擎出发,5款赛车游戏带你在家领略速度与激情

记录最近收获很大的一次深度链接

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版