网易首页 > 网易号 > 正文 申请入驻

抗争起效,AI大厂终于不再白嫖维基百科

0
分享至

AI大厂终于意识到继续与内容平台对抗是条不归路。就在全球最知名的百科全书网站维基百科(Wikipedia)庆祝25周年之际,负责运营维基百科的维基媒体基金会方面宣布,亚马逊、Meta、微软、Mistral AI以及Perplexity等多家AI大厂加入“维基媒体企业合作伙伴计划”(Wikimedia Enterprise)。


因此也就意味着,这些厂商将付费获取维基百科的“企业级数据访问权”,以获取这家百科全书网站的实时数据。而维基媒体企业合作伙伴计划则会根据他们的特定需求,对维基百科海量的文章数据进行结构化处理,使其更易于模型训练和商业用途。对此维基媒体基金会表示,来自亚马逊、微软等厂商的授权费用将直接用于支持该非营利组织的长期运营。

简而言之,维基百科将旗下的数据资产整理成AI更易懂的形式,以方便AI厂商即拿即用。

在AI大模型的训练中,结构化数据以其固有的清晰度、一致性和效率,成为了构建可靠且可扩展AI大模型的关键。尤其是那些用于分类、回归和预测等任务的模型,结构化数据更是必不可少。


比如在金融大模型中,交易金额、交易时间、交易类型等结构化的交易记录,就可以作为模型的输入特征,帮助AI学习和识别风险模式,从而提升输出结果的稳定性。不仅如此,结构化数据与知识图谱之间存在天然的协同关系,通过将两者结合,AI大模型就可以更准确地理解数据的上下文和语义。

而维基百科之所以要向AI厂商提供结构化数据的访问权,是因为后者的爬虫已经成为了这家非营利组织的梦魇。维基媒体基金会产品高级总监Marshall Miller此前在博客文章中表示,“使用维基百科内容的AI聊天机器人必须引导更多用户访问维基百科,确保免费知识能够持续流通。访问量下降就意味着志愿者可能减少,内容更新和丰富的速度放缓,个人捐赠者对这项工作的支持也可能下降。”

为了保证内容的可访问性,维基媒体基金会针对维基百科的内容采取了分布式存储,然后根据一定的策略分配到不同的存储节点,使得数据可以就近存储,从而提高访问速度和效率。当某个内容被多次请求时,他们就会将内容缓存到离用户最近的数据中心,倘若某个内容很久都未被请求,那么就会存储在核心数据中心。

根据内容的热度存储数据,就使得维基百科能够尽可能地节省服务器开支。然而人类的偏好与AI截然不同,人类更关心时下的热点,而AI追求的是进化,后者倾向于囫囵吞枣式鲸吞所有数据。内容的热度对AI毫无意义,就意味着维基百科认为的冷门内容也会被频繁访问,也就是说AI比人类访客更能消耗宝贵的带宽。

其实维基百科想要找这些AI厂商要钱不难理解,可后者为何会在这个时间点选择付钱呢?过去三年,因AI爬虫抓取数据而引发的诉讼可谓比比皆是,AI厂商更是一直在“白嫖”内容平台,甚至宁可打官司也不愿付钱。如今,这些厂商的想法却出现了180度的大转弯。

AI大厂之所以愿意向维基百科付钱,是因为他们不希望看到维基百科倒下。AI行业一直存在一个悖论,那就是如何在不依赖于人类提供的大量训练数据的情况下,让AI变得更智能?这就好比要求一个旱鸭子横渡长江,却不给TA配游泳教练。


目前,构建AI大模型的关键技术是基于人类反馈的强化学习(RLHF),不仅依赖人类标注员,更需要持续向大模型投喂数据。就像培养一个优秀学生需要优质教师一样,大模型的性能提升需要海量的预训练数据和高质量的指令微调/强化学习数据。

在跳出RLHF模式之前,AI大模型的进化就需要汲取人类的智慧,还做不到在完全没有外部数据的情况下实现自我进化。谷歌、微软、亚马逊、Meta已经意识到一味向内容平台单方面索取会导致人类创作者降低输出内容的热情,如果没有广大创作者在互联网上分享内容,难道要他们亲自上阵?

虽然目前已经有团队基于强化学习中的“自我博弈”(Self-Play)开始探索“无数据自我进化”,也就是AI给自己出题、自己解题、再从中学习,如此循环往复,来让AI变得更聪明。但问题是由于没有来自外部的“标准答案”,评估每一个自生成问题的难度和可解性都需要让大模型实际解答,整个过程就如同反复试错的穷举法,极其耗费时间和算力。


换而言之,AI的无数据自我进化尽管省去了获取外部数据的成本,却不得不面临预训练算力激增以及模型迭代需要更多时间。对于大厂而言,算力可能不是问题,但他们缺时间。以OpenAI为例,在CEO山姆·奥特曼宣布进入红色警报(Code Red)状态,推迟非核心项目应对谷歌Gemini的强势反扑后,只花1个月时间就拿出了GPT-5.2。

当下AI业界的状态是“争先恐后”,没有哪家厂商敢于慢工出细活。当不需要外部训练数据的方法还有暂时解决不了的缺陷时,AI厂商就不得不回过头来与维基百科这种拥有高质量数据的平台和解。万一维基百科选择躺平摆烂,就该AI厂商头疼了。

更何况出钱从维基百科买数据反而更有性价比,毕竟AI厂商宝贵的人力资源要用于升级算法,让自家员工创作内容才是大材小用。

【本文图片来自网络】

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
1939年,李德返回苏联后,对在中国的老婆和年幼的儿子不管不顾

1939年,李德返回苏联后,对在中国的老婆和年幼的儿子不管不顾

古书记史
2026-01-12 21:59:25
1米86小伙被妈妈“抓来”当中老年装模特,带火21年老店,妈妈发声:自家卖男装,儿子暂无女友

1米86小伙被妈妈“抓来”当中老年装模特,带火21年老店,妈妈发声:自家卖男装,儿子暂无女友

极目新闻
2026-01-31 07:53:26
紧急预警!春运出行别瞎跑!疾控中心明确“疫区”范围

紧急预警!春运出行别瞎跑!疾控中心明确“疫区”范围

老特有话说
2026-01-30 22:53:57
乒乓球赛爆冷:20岁国乒小将大爆发,淘汰大黑马,林诗栋为他开心

乒乓球赛爆冷:20岁国乒小将大爆发,淘汰大黑马,林诗栋为他开心

曹说体育
2026-01-31 18:34:44
美航母还在路上,伊朗先下死手,导弹突袭盟友基地,五角大楼慌了

美航母还在路上,伊朗先下死手,导弹突袭盟友基地,五角大楼慌了

百科密码
2026-01-30 16:30:47
斯塔默吃完饭,法国就致电北京,提了不情之请,我外长回应很高明

斯塔默吃完饭,法国就致电北京,提了不情之请,我外长回应很高明

军机Talk
2026-01-30 10:34:40
1℃→16℃!申城气温坐上“跷跷板”,下周回暖后冷空气再返

1℃→16℃!申城气温坐上“跷跷板”,下周回暖后冷空气再返

上观新闻
2026-01-31 20:59:14
36万亿美债压顶,中国拒不接盘!特朗普决定“弄死”大债主!

36万亿美债压顶,中国拒不接盘!特朗普决定“弄死”大债主!

毒sir财经
2025-10-12 20:07:17
67岁再婚老伴买7000元年货,刚到家他伸手:你得给我6000

67岁再婚老伴买7000元年货,刚到家他伸手:你得给我6000

船长与船1
2026-01-31 10:23:03
张怡宁真翻车了?嫁大20岁富商16年后,现状让人意外!

张怡宁真翻车了?嫁大20岁富商16年后,现状让人意外!

TVB的四小花
2026-01-31 06:45:00
快船负掘金吹罚尺度遭嘲讽!美媒将约基奇p成亚历山大 24分钟17罚

快船负掘金吹罚尺度遭嘲讽!美媒将约基奇p成亚历山大 24分钟17罚

Emily说个球
2026-01-31 13:05:54
前国脚出国后和发妻离婚,二婚娶女富豪,如今定居巴西已成大老板

前国脚出国后和发妻离婚,二婚娶女富豪,如今定居巴西已成大老板

萧鑟科普解说
2026-01-31 20:51:52
男频系统剧现「名场面」!床戏观摩画春宫图,女女葡萄吻

男频系统剧现「名场面」!床戏观摩画春宫图,女女葡萄吻

新腕儿
2026-01-30 13:31:22
医院里有那么多奇怪故事?网友: 医护人员让你换床,一定要听话

医院里有那么多奇怪故事?网友: 医护人员让你换床,一定要听话

夜深爱杂谈
2026-01-05 22:27:50
越南谈79年中越空战:中国虽集结700架战机,却因实力有限不敢打

越南谈79年中越空战:中国虽集结700架战机,却因实力有限不敢打

百年历史老号
2026-01-28 11:17:49
回国探亲就回不来了,Meta华人科学家O-1签证再入境被拒

回国探亲就回不来了,Meta华人科学家O-1签证再入境被拒

华人生活网
2026-01-31 04:54:00
牛鬼神蛇现原形!聂卫平去世仅一天,私生活被扒,王刚郎平被牵连

牛鬼神蛇现原形!聂卫平去世仅一天,私生活被扒,王刚郎平被牵连

春露秋霜
2026-01-16 06:27:20
2026年A股上市公司退市潮开启,第一批名单抢先看

2026年A股上市公司退市潮开启,第一批名单抢先看

界面新闻
2026-01-31 20:12:06
19岁!伊朗“机车宝贝”街头被爆头:骑摩托不戴头巾,竟成死刑?

19岁!伊朗“机车宝贝”街头被爆头:骑摩托不戴头巾,竟成死刑?

老马拉车莫少装
2026-01-29 21:27:05
违法还可能送命!2021年,上海一只被人当宠物,养大后直接丢弃

违法还可能送命!2021年,上海一只被人当宠物,养大后直接丢弃

万象硬核本尊
2026-01-30 17:17:31
2026-01-31 22:19:00
三易生活 incentive-icons
三易生活
关注科技领域,我们是一家有趣、有干货的科技媒体
63317文章数 12778关注度
往期回顾 全部

科技要闻

SpaceX申请部署百万卫星 打造太空数据中心

头条要闻

夫妻买房2年后才得知发生过两起坠楼:不敢在家里住了

头条要闻

夫妻买房2年后才得知发生过两起坠楼:不敢在家里住了

体育要闻

新时代得分王!东皇37+三双刷7纪录怒吼释放

娱乐要闻

李维嘉、吴昕、汪涵现身魏文彬追悼会

财经要闻

白银,暴跌!黄金,40年最大跌幅!

汽车要闻

新款宾利欧陆GT S/GTC S官图发布 V8混动加持

态度原创

艺术
手机
教育
本地
公开课

艺术要闻

砸8亿!388米!河南造出世界第一高“钢甲巨人”,敢登顶吗?

手机要闻

iPhone Fold配备5500mAh电池:苹果手机史上最大电量

教育要闻

已知了四边形的两条邻边的长,怎样求这个四边形的面积

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版