网易首页 > 网易号 > 正文 申请入驻

Nature研究报告:AI革命的数据正在枯竭,研究人员该怎么办?

0
分享至

AI开发人员正在快速“清空”互联网中的数据,以训练诸如ChatGPT背后的大型语言模型。以下是他们试图解决这一问题的方法。

互联网是一个浩瀚的人类知识海洋,但它并不是无限的,而人工智能(AI)研究人员几乎已经将其“榨干”了。

过去十年中,人工智能的飞速进步在很大程度上依赖于扩大神经网络的规模,并使用越来越多的数据对其进行训练。这种“扩展化”方法在提高大型语言模型(LLMs)能力方面表现出了出人意料的有效性,不仅使其在模仿对话语言方面表现更为出色,还赋予了它们诸如推理等的“涌现特性”。然而,一些专家表示,这种扩展策略的极限可能即将到来。其一是由于计算所需的能源需求急剧增加;其二则是因为LLM开发者正在耗尽用于训练模型的传统数据集。

今年,一项具有广泛影响力的研究量化了这一问题:虚拟研究机构Epoch AI的研究人员预测,到2028年,用于训练AI模型的典型数据集的规模将达到公共在线文本总量的估计规模。换句话说,大约在四年内,AI可能会耗尽可用于训练的数据(详见“数据耗尽”)。与此同时,数据所有者(如新闻出版商)也开始收紧其内容的使用规则,进一步限制对数据的访问。这种情况导致了“数据公地”规模的危机。麻省理工学院(MIT)剑桥分校的AI研究员、数据来源倡议(Data Provenance Initiative)的负责人Shayne Longpre指出,这一现象正对AI数据集的获取产生深远影响。

即将到来的数据训练瓶颈可能已经开始显现。“我强烈怀疑这已经在发生了,”Longpre表示。

数据耗尽


数据显示,训练大型语言模型所用的文本数据量正在逼近互联网中可用的文本数据总量,预计到2028年,开发者使用的数据集规模将等同于整个互联网可用的文本量。

虽然一些专家认为,数据访问的限制可能会减缓AI系统的快速进步,但开发者们正在寻找应对方法。“我不认为大型AI公司有人在恐慌,”Epoch AI的马德里研究员、2028年“数据枯竭”研究的主要作者Pablo Villalobos表示。“至少他们没有给我发过这样的邮件。”

例如,旧金山的知名AI公司OpenAI和Anthropic都已公开承认这一问题,并暗示他们已计划采用应对策略,包括生成新数据和寻找非常规数据源。OpenAI的发言人告诉《自然》杂志:“我们使用了多种数据来源,包括公开可用的数据、通过合作伙伴获取的非公开数据、合成数据生成以及来自AI训练师的数据。”

即便如此,数据短缺的危机可能会迫使生成式AI模型的类型发生巨大变革,可能从大规模的通用LLM转向更小、更专业化的模型。

万亿级的单词数据

过去十年间,LLM的发展显示了其对数据的巨大需求。尽管一些开发者并未公布其最新模型的具体参数,但Villalobos估计,自2020年以来,训练LLM所使用的“标记”(tokens,即词语的部分)的数量已增长了100倍,从数千亿增长到数十万亿。

这可能已经消耗了互联网中很大一部分的内容,尽管由于互联网总文本量过于庞大,精确估计仍十分困难。Villalobos估计,当前互联网的总文本量约为3,100万亿个标记。各种服务使用网络爬虫来抓取这些内容,然后消除重复内容,过滤掉不良内容(如色情内容),以生成更干净的数据集。一个名为“RedPajama”的常用数据集包含了数十万亿个单词。一些公司或学术机构也会自行爬取和清理数据,以制作专门用于训练LLM的定制数据集。互联网中只有一小部分被认为是“高质量”的,比如人类编辑的、社会可接受的文本,这些文本通常存在于书籍或新闻中。

然而,互联网可用内容的增长速度出乎意料地缓慢。Villalobos的研究估计,互联网可用内容的年增长率不到10%,而AI训练数据集的规模每年却增长一倍以上。将这两个增长趋势投射到未来的情境中,预计2028年这两条趋势线将会交汇。

与此同时,内容提供商正日益使用软件代码或修订其使用条款,以阻止网络爬虫或AI公司抓取他们的数据。Longpre和他的同事们于2023年7月发布了一份预印本,显示出数据提供者封锁特定爬虫的趋势急剧上升。2023年,在三个主要的清理后数据集中,受限制的标记仅占不到3%;但到2024年,这一比例上升到了20%到33%。

数据来源的法律诉讼

目前,关于数据使用的法律诉讼正在进行,原告试图为用于AI训练的数据提供者争取赔偿。2023年12月,《纽约时报》以侵犯版权为由起诉了OpenAI及其合作伙伴微软;2024年4月,Alden Global Capital旗下的八家报纸联合提起了类似的诉讼。被告方的反驳是,AI应该被允许像人类一样读取和学习在线内容,这属于“合理使用”。OpenAI公开表示,认为《纽约时报》的诉讼“毫无根据”。

如果法院支持数据提供者应获得经济补偿的观点,这将使得AI开发者和研究人员更难获得所需数据,特别是对资金有限的学术研究人员来说。Longpre认为,学术界的研究人员将受到最严重的打击。

寻找数据的新路径

AI扩展策略面临的数据危机可能是一个重大挑战。虽然在不增加训练数据的情况下扩大模型的计算能力或参数数量是可行的,但这往往会导致AI的训练成本高昂且效率低下。Longpre指出,这种方式通常不受欢迎。

寻找新数据的一个潜在方法是获取非公共数据,比如WhatsApp消息或YouTube视频的转录内容。虽然以这种方式抓取第三方内容的合法性尚未得到司法确认,但公司可以使用自己的数据。许多社交媒体公司也表示,他们利用自己的内容来训练AI模型。例如,Meta表示,其虚拟现实头显Meta Quest收集的音频和图像用于训练AI。但不同公司的政策有所不同。视频会议平台Zoom的服务条款明确规定,不会使用客户内容来训练AI系统,而转录服务OtterAI则表示会使用去标识化和加密的音频和转录数据进行训练。

使用合成数据和再利用数据

一些AI公司开始使用“合成数据”来训练AI,即AI为AI生成数据。2024年,OpenAI宣布其每天生成1000亿个单词,这一年可生成36万亿个单词——相当于当前AI训练数据集的规模。

尽管如此,合成数据也面临一些问题,比如“递归自我强化”,这可能导致模型的学习质量下降。一项2023年的研究将这一现象称为“模型自噬障碍”(Model Autophagy Disorder),简称“MAD”。

“大而全”到“小而精”

面对数据危机,开发者开始转向小而高效的LLM,这些模型专注于特定任务,要求精炼的专用数据和更好的训练技术。

一项2024年的研究表明,由于算法的改进,训练一个具有相同性能的LLM所需的计算能力每八个月减少一半。OpenAI表示,其最新的o1模型更强调“推理训练”并依赖于反馈,这为扩展方法增添了新维度。

总的来说,AI的发展可能不再需要依赖更大的数据,而是从“更聪明的算法”中获益。Stanford大学的Andy Zou表示,AI可能只需“坐下来思考”,因为它的“基础知识库”可能已经比任何个人的知识储备都要丰富。

阅读报告全文,请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828

未来知识库是“ 欧米伽 未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。 欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。

截止到11月25日 ”未来知识库”精选的100部前沿科技趋势报告

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
女人染上“性瘾”是一种怎样的体验?可能和你想象得不同

女人染上“性瘾”是一种怎样的体验?可能和你想象得不同

纸上的心语
2025-11-23 11:36:00
女主劲爆身材在中国台湾大火 游戏作者直呼"太懂艺术"

女主劲爆身材在中国台湾大火 游戏作者直呼"太懂艺术"

游民星空
2026-02-04 16:28:33
莫迪700亿豪赌,欲挑战中国稀土霸主地位

莫迪700亿豪赌,欲挑战中国稀土霸主地位

阿坹武器装备科普
2026-02-03 18:04:41
国民党刚抵京,郑丽文收到噩耗,赖清德支持率飙升,萧旭岑亮底牌

国民党刚抵京,郑丽文收到噩耗,赖清德支持率飙升,萧旭岑亮底牌

余塩搞笑段子
2026-02-03 15:32:51
人形机器人商场表演意外碰到围观老人,双双倒地,涉事商户:老人被送往医院,软组织挫伤

人形机器人商场表演意外碰到围观老人,双双倒地,涉事商户:老人被送往医院,软组织挫伤

大风新闻
2026-02-04 13:06:21
国民党率团抵达北京,下飞机后说了2句话,赖清德下达一项禁令

国民党率团抵达北京,下飞机后说了2句话,赖清德下达一项禁令

云景侃记
2026-02-04 16:59:00
70岁后想多活30年,记住这5句话,活好余生每一日

70岁后想多活30年,记住这5句话,活好余生每一日

青苹果sht
2026-01-31 05:27:33
正义的谎言:民营经济离场论

正义的谎言:民营经济离场论

生命可以承受之轻
2026-02-03 12:43:08
秦始皇生父到底是谁?赵姬临终前指着床底的一把宝剑咽气

秦始皇生父到底是谁?赵姬临终前指着床底的一把宝剑咽气

千秋文化
2026-01-24 22:25:04
一旦战争爆发,伊朗唯一活路,就是把那一万枚导弹一次全打出去!

一旦战争爆发,伊朗唯一活路,就是把那一万枚导弹一次全打出去!

议纪史
2026-02-03 18:45:05
智慧停车被拆除,况女士功不可没!路边画条线就收费,谁允许了?

智慧停车被拆除,况女士功不可没!路边画条线就收费,谁允许了?

垛垛糖
2026-02-03 14:58:55
孙千这组照片太敢!黑裤包裹蜜桃臀,蝴蝶钉在胸前,这身材绝了?

孙千这组照片太敢!黑裤包裹蜜桃臀,蝴蝶钉在胸前,这身材绝了?

娱乐领航家
2026-01-09 22:00:03
两届TVB视后官宣离巢!结束22年合作

两届TVB视后官宣离巢!结束22年合作

番禺台
2026-02-05 00:07:39
国务院安委办印发紧急通知

国务院安委办印发紧急通知

日照日报
2026-02-03 21:28:25
“这跟不穿有啥区别?”格莱美红毯“裸”战,连美国网友都喊停

“这跟不穿有啥区别?”格莱美红毯“裸”战,连美国网友都喊停

大中国
2026-02-04 01:58:09
1969年,40岁的杨洁带着自己3个孩子,嫁给了26岁的男友,王崇秋坦言:我们过得很好

1969年,40岁的杨洁带着自己3个孩子,嫁给了26岁的男友,王崇秋坦言:我们过得很好

文史明鉴
2026-01-27 19:04:10
招商局集团2位高管被带走调查

招商局集团2位高管被带走调查

地产微资讯
2026-02-04 10:55:42
纪委留置有多严?普通人为啥撑不过1周?流程扒透了

纪委留置有多严?普通人为啥撑不过1周?流程扒透了

小怪吃美食
2026-02-03 02:02:54
看不懂啊!昨晚6投0中,得0分0板球员,竟入选了中国男篮大名单

看不懂啊!昨晚6投0中,得0分0板球员,竟入选了中国男篮大名单

南海浪花
2026-02-04 08:30:49
真·换脸!妹子接受死者捐赠,把别人脸换自己头上。效果...居然还行?

真·换脸!妹子接受死者捐赠,把别人脸换自己头上。效果...居然还行?

英国那些事儿
2026-02-03 23:19:57
2026-02-05 01:39:00
人工智能学家 incentive-icons
人工智能学家
人工智能领域权威媒体
4520文章数 37401关注度
往期回顾 全部

科技要闻

太烦人遭投诉!元宝红包链接被微信屏蔽

头条要闻

"天下银楼"1205万元无人拍:纯银达1.75吨 不可以拆卖

头条要闻

"天下银楼"1205万元无人拍:纯银达1.75吨 不可以拆卖

体育要闻

哈登回应交易:不想让自己拖累快船的未来

娱乐要闻

春晚主持人阵容曝光,5位都是老面孔

财经要闻

白银,突然暴涨

汽车要闻

综合续航1730km 5座中级电混SUV吉利银河M7官图发布

态度原创

旅游
健康
数码
时尚
本地

旅游要闻

9大主题场景+9大玩法 成都端出春节“文旅大餐”

耳石症分类型,症状大不同

数码要闻

iQOO 15 Ultra正式亮相:飓风级散热 到手价4999元起

60岁的刘嘉玲、章小蕙太美了!港女的魅力从不是少女感

本地新闻

围观了北京第一届黑色羽绒服大赛,我笑疯了

无障碍浏览 进入关怀版