网易首页 > 网易号 > 正文 申请入驻

数据霸权:科技巨头如何掌控AI的力量

0
分享至

人工智能离不开数据。为了训练算法以实现预期目标,我们需要大量的数据,而输入到 AI 模型中的数据质量直接决定了输出结果的优劣。然而,问题在于 AI 开发者和研究人员对所使用的数据来源了解甚少。相比于 AI 模型开发的复杂性,AI 的数据收集实践尚不成熟,大规模数据集通常缺乏关于其内容和来源的详细信息。

为了解决这一问题,来自学术界和产业界的 50 多名研究人员开展了数据溯源计划(Data Provenance Initiative)。他们提出了一个简单而重要的问题:构建 AI 所需的数据究竟来自哪里?为此,他们审查了近 4,000 个公共数据集,这些数据集涵盖了 600 多种语言、67 个国家,并包含长达 30 年的数据,数据来源涉及 800 个独特的渠道和近 700 个组织。

这项研究的结果首次独家发布在《麻省理工科技评论》上(文末附报告链接),揭示了一个令人担忧的趋势:AI 的数据实践正在使权力过度集中于少数几家主导科技公司手中。

项目成员、MIT 研究员 Shayne Longpre 表示,在 2010 年代初期,数据集的来源相对多样化。

这些数据不仅来自百科全书和互联网,还包括议会记录、财报电话会议以及天气报告等来源。Longpre 指出,在那个时期,AI 数据集是根据具体任务的需求精心策划并从不同渠道收集的。

然而,2017 年,支撑大语言模型的架构——Transformer 的出现,改变了这一切。随着模型和数据集规模的不断扩大,AI 的性能显著提升。这使得 AI 领域逐渐倾向于采用更大规模的数据集。

如今,大多数 AI 数据集是通过从互联网上大规模、无差别地抓取内容构建的。自 2018 年起,互联网成为所有媒体类型(如音频、图像和视频)数据集的主要来源。与此同时,网络抓取的数据与更为精心策划的数据集之间的差距逐渐显现并不断扩大。

“在基础模型的开发中,数据的规模、异质性以及网络来源对模型能力的影响无与伦比。”Longpre 表示。对数据规模的需求也极大地推动了合成数据的广泛使用。

近年来,多模态生成式 AI 模型应运而生,这些模型能够生成视频和图像。与大型语言模型类似,它们需要尽可能多的数据,而目前最优的数据来源是 YouTube。

以视频模型为例,从图表中可以看出,超 70% 的语音和图像数据集的数据都来自同一来源。

对 YouTube、Google 的母公司 Alphabet 来说,这可能是一个巨大的优势。与文本数据分布在众多不同的网站和平台上不同,视频数据高度集中在单一平台。

Longpre 指出:“这使得网络上一些最重要的数据的控制权高度集中在一家企业手中。”

此外,Google 自身也在开发自己的 AI 模型,这种巨大的优势引发了关于公司如何向竞争对手提供这些数据的疑问。AI Now Institute 的联合执行主任 Sarah Myers West 表示,这值得进一步探讨。

她认为,“我们应该将数据视为通过特定过程创造出来的东西,而不是一种自然存在的资源。”

她补充道:“如果我们日常使用的大部分 AI 所依赖的数据集反映的是大公司、以利润为导向的企业的意图和设计,那么这将以符合这些大企业利益的方式重塑我们的世界基础设施。”

这种单一化也引发了关于数据集是否能够准确反映人类体验以及我们正在构建何种模型的疑问。

Cohere 公司的研究副总裁、Data Provenance Initiative 成员 Sara Hooker 表示,“人们上传到 YouTube 的视频通常是针对特定受众而制作的,视频中的行为往往带有特定的目的性。”她问道:“这些数据是否捕捉到了人类存在的所有细微差别和多样性?”

隐藏的限制

AI 公司通常不会公开用于训练模型的数据来源。一方面,这是为了保护其竞争优势;另一方面,由于数据集的打包和分发过程复杂且不透明,AI 公司自身也可能无法完全了解所有数据的具体来源。

此外,AI 公司可能不了解这些数据在使用或共享时所受到的限制。Data Provenance Initiative 的研究人员发现,许多数据集附带有严格的许可条款或使用条件,例如,可能限制其在商业用途上的应用。

“数据来源缺乏一致性,使得开发者很难正确选择使用的数据。”Hooker 表示。

Longpre 补充道,这也让开发者几乎不可能完全确保他们的模型没有使用受版权保护的数据进行训练。

近年来,像 OpenAI 和 Google 这样的公司与出版商、Reddit 等主要论坛以及社交媒体平台达成了独家数据共享协议。这种做法进一步巩固了它们的权力。

“这些独家合同实际上将互联网划分为谁能访问和谁不能访问的不同区域。”Longpre 指出。

这种趋势对能够负担此类协议的大型 AI 公司有利,但对研究人员、非营利组织和小型公司则构成了不利。这些较小的参与者将难以获得必要的数据,而大型公司不仅能签订独家协议,还拥有最强大的资源用于抓取数据集。

“这是我们在开放网络上前所未见的新一波非对称性访问。”Longpre 说道。

西方与其他地区的差距

用于训练 AI 模型的数据也存在严重的地域偏倚。研究人员分析发现,超过 90% 的数据集来自欧洲和北美,而来自非洲的数据不足 4%。

Hooker 指出:“这些数据集仅反映了我们世界和文化的一部分,却完全忽视了其他地区。”

用于训练 AI 模型的数据也存在严重的地域偏倚。研究人员分析发现,超过 90% 的数据集来自欧洲和北美,而来自非洲的数据不足 4%。

Hooker 指出:“这些数据集仅反映了我们世界和文化的一部分,却完全忽略了其他部分。”

训练数据中英语的主导地位部分可以用互联网的现状来解释。Hugging Face 的首席伦理学家 Giada Pistilli(并未参与此次研究)表示,互联网上超过 90% 的内容仍然是英语,而地球上许多地区的互联网连接非常差,甚至没有互联网。不过,她补充说,另一个原因是便利性:创建其他语言的数据集并将其他文化纳入考虑需要有意识的规划和大量的工作。

这种数据集的西方倾向在多模态模型中表现得尤为明显。Hooker 举例说,当一个 AI 模型被提示生成婚礼的场景和声音时,它可能只能呈现出西方婚礼的样子,因为它的训练数据仅限于此。

这种情况强化了偏见,可能导致 AI 模型推动一种以美国为中心的世界观,从而抹杀其他语言和文化的存在。

Hooker 指出:“我们在全球范围内使用这些模型,但模型所能看见的世界与看不见的世界之间存在巨大差距。”

1.https://www.technologyreview.com/2024/12/18/1108796/this-is-where-the-data-to-build-ai-comes-from/

2.https://www.dataprovenance.org/Multimodal_Data_Provenance.pdf

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
世界杯决赛墨西哥VS葡萄牙?《辛普森一家》的“神预测”又火了

世界杯决赛墨西哥VS葡萄牙?《辛普森一家》的“神预测”又火了

红星新闻
2026-07-02 17:48:29
央视罕见公开西太对峙细节!日舰模拟攻击辽宁舰,结果沉默?

央视罕见公开西太对峙细节!日舰模拟攻击辽宁舰,结果沉默?

青青衫书生
2026-06-30 13:24:21
同学聚会,发现一个扎心的现实:年过40的女同学中,1/3没有工作,1/3做着低薪但没前途工作,剩下的1/3基本都在体制内

同学聚会,发现一个扎心的现实:年过40的女同学中,1/3没有工作,1/3做着低薪但没前途工作,剩下的1/3基本都在体制内

品读时刻
2026-06-13 09:03:28
美联储加息,突变!黄金、白银,直线爆发!美股集体飘红

美联储加息,突变!黄金、白银,直线爆发!美股集体飘红

证券时报
2026-07-02 22:37:49
1936 钱壮飞乌江失踪成谜,寻 50 年 1986 金沙县考证结局唏嘘

1936 钱壮飞乌江失踪成谜,寻 50 年 1986 金沙县考证结局唏嘘

磊子讲史
2026-01-08 15:47:38
杀进世界杯32强之后,阿根廷迎来一个大喜讯,未来5年无后顾之忧

杀进世界杯32强之后,阿根廷迎来一个大喜讯,未来5年无后顾之忧

零度眼看球
2026-07-02 09:04:34
NBA疯狂一夜:湖人4人离队4人加盟,4换1交易达成,火箭成大赢家

NBA疯狂一夜:湖人4人离队4人加盟,4换1交易达成,火箭成大赢家

林子说事
2026-07-02 08:39:46
当“关系户”混进央八医疗剧,龇牙咧嘴,全程尬演,难怪弃剧一片

当“关系户”混进央八医疗剧,龇牙咧嘴,全程尬演,难怪弃剧一片

一娱三分地
2026-06-21 18:33:45
实体游戏店天塌了!发声:索尼伤害玩家绝不袖手旁观

实体游戏店天塌了!发声:索尼伤害玩家绝不袖手旁观

游民星空
2026-07-02 12:38:18
美的创始人何享健2250亿财富无人继承,三子女均为老总

美的创始人何享健2250亿财富无人继承,三子女均为老总

阿諬体育评论
2026-06-29 22:22:22
浪子回头?离开勇士半年,库明加无人要,若底薪回勇士,科尔要不

浪子回头?离开勇士半年,库明加无人要,若底薪回勇士,科尔要不

小齐艰难度日
2026-07-03 04:18:04
浙江:多地部署推进“扫黄打非”工作

浙江:多地部署推进“扫黄打非”工作

健身狂人
2026-07-01 17:39:09
妙玉的结局有多脏,曹雪芹对“清高”的讽刺就有多狠

妙玉的结局有多脏,曹雪芹对“清高”的讽刺就有多狠

如玉公子
2026-07-02 10:35:10
意足协主席:意大利12年没进世界杯,心态必须改变

意足协主席:意大利12年没进世界杯,心态必须改变

懂球帝
2026-07-03 06:01:20
45岁罗晋素颜照刷屏,怎么老这么多:成年人衰老,从来不只是变老

45岁罗晋素颜照刷屏,怎么老这么多:成年人衰老,从来不只是变老

李昕言温度空间
2026-07-02 21:03:54
3:0!世界杯16强已定11席,世界第二大胜,四场0失球,静等葡萄牙

3:0!世界杯16强已定11席,世界第二大胜,四场0失球,静等葡萄牙

梅亭谈
2026-07-03 05:08:16
注意!中老年男性有性生活和没性生活,差别居然这么大?

注意!中老年男性有性生活和没性生活,差别居然这么大?

皓皓情感说
2026-04-22 08:20:32
过期一天就绝对不能碰的10种危险食物,第一名你可能经常舍不得扔

过期一天就绝对不能碰的10种危险食物,第一名你可能经常舍不得扔

娱乐的硬糖吖
2026-06-24 17:00:21
外甥女领回男友,宴席上他始终不碰热菜,我一番话让她果断分手

外甥女领回男友,宴席上他始终不碰热菜,我一番话让她果断分手

晓艾故事汇
2026-06-30 09:03:41
巴萨不肯出1000万欧,利雅得新月又不愿让步,坎塞洛转会陷入僵局

巴萨不肯出1000万欧,利雅得新月又不愿让步,坎塞洛转会陷入僵局

零度眼看球
2026-07-03 06:44:32
2026-07-03 07:16:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16914文章数 515070关注度
往期回顾 全部

科技要闻

马斯克不承认,但SpaceX就该造AI手机

头条要闻

俄罗斯大使馆遇袭 2年多遭袭击次数已超25次

头条要闻

俄罗斯大使馆遇袭 2年多遭袭击次数已超25次

体育要闻

韩国人,为什么恨透了洪明甫?

娱乐要闻

众星祝福祖国,曾沛慈原形毕露?

财经要闻

千亿茶市场无赢家:澜沧巨亏 八马停"蹄"

汽车要闻

有纯电有增程 还有二代VLA支持 小鹏MONA L03预售价14.38万起

态度原创

房产
亲子
手机
公开课
军事航空

房产要闻

稀缺预警!海岸线200米+限墅令下,海南「绝版硬通货」来了!

亲子要闻

费列罗“健达快乐运动”游戏盒子将走进上海150所小学及幼儿园

手机要闻

256GB不够用了 安兔兔:512GB成手机第一大存储容量

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美军“航母杀手”首次公开 此前从未展示

无障碍浏览 进入关怀版