网易首页 > 网易号 > 正文 申请入驻

Nature研究报告:AI革命的数据正在枯竭,研究人员该怎么办?

0
分享至

AI开发人员正在快速“清空”互联网中的数据,以训练诸如ChatGPT背后的大型语言模型。以下是他们试图解决这一问题的方法。

互联网是一个浩瀚的人类知识海洋,但它并不是无限的,而人工智能(AI)研究人员几乎已经将其“榨干”了。

过去十年中,人工智能的飞速进步在很大程度上依赖于扩大神经网络的规模,并使用越来越多的数据对其进行训练。这种“扩展化”方法在提高大型语言模型(LLMs)能力方面表现出了出人意料的有效性,不仅使其在模仿对话语言方面表现更为出色,还赋予了它们诸如推理等的“涌现特性”。然而,一些专家表示,这种扩展策略的极限可能即将到来。其一是由于计算所需的能源需求急剧增加;其二则是因为LLM开发者正在耗尽用于训练模型的传统数据集。

今年,一项具有广泛影响力的研究量化了这一问题:虚拟研究机构Epoch AI的研究人员预测,到2028年,用于训练AI模型的典型数据集的规模将达到公共在线文本总量的估计规模。换句话说,大约在四年内,AI可能会耗尽可用于训练的数据(详见“数据耗尽”)。与此同时,数据所有者(如新闻出版商)也开始收紧其内容的使用规则,进一步限制对数据的访问。这种情况导致了“数据公地”规模的危机。麻省理工学院(MIT)剑桥分校的AI研究员、数据来源倡议(Data Provenance Initiative)的负责人Shayne Longpre指出,这一现象正对AI数据集的获取产生深远影响。

即将到来的数据训练瓶颈可能已经开始显现。“我强烈怀疑这已经在发生了,”Longpre表示。

数据耗尽


数据显示,训练大型语言模型所用的文本数据量正在逼近互联网中可用的文本数据总量,预计到2028年,开发者使用的数据集规模将等同于整个互联网可用的文本量。

虽然一些专家认为,数据访问的限制可能会减缓AI系统的快速进步,但开发者们正在寻找应对方法。“我不认为大型AI公司有人在恐慌,”Epoch AI的马德里研究员、2028年“数据枯竭”研究的主要作者Pablo Villalobos表示。“至少他们没有给我发过这样的邮件。”

例如,旧金山的知名AI公司OpenAI和Anthropic都已公开承认这一问题,并暗示他们已计划采用应对策略,包括生成新数据和寻找非常规数据源。OpenAI的发言人告诉《自然》杂志:“我们使用了多种数据来源,包括公开可用的数据、通过合作伙伴获取的非公开数据、合成数据生成以及来自AI训练师的数据。”

即便如此,数据短缺的危机可能会迫使生成式AI模型的类型发生巨大变革,可能从大规模的通用LLM转向更小、更专业化的模型。

万亿级的单词数据

过去十年间,LLM的发展显示了其对数据的巨大需求。尽管一些开发者并未公布其最新模型的具体参数,但Villalobos估计,自2020年以来,训练LLM所使用的“标记”(tokens,即词语的部分)的数量已增长了100倍,从数千亿增长到数十万亿。

这可能已经消耗了互联网中很大一部分的内容,尽管由于互联网总文本量过于庞大,精确估计仍十分困难。Villalobos估计,当前互联网的总文本量约为3,100万亿个标记。各种服务使用网络爬虫来抓取这些内容,然后消除重复内容,过滤掉不良内容(如色情内容),以生成更干净的数据集。一个名为“RedPajama”的常用数据集包含了数十万亿个单词。一些公司或学术机构也会自行爬取和清理数据,以制作专门用于训练LLM的定制数据集。互联网中只有一小部分被认为是“高质量”的,比如人类编辑的、社会可接受的文本,这些文本通常存在于书籍或新闻中。

然而,互联网可用内容的增长速度出乎意料地缓慢。Villalobos的研究估计,互联网可用内容的年增长率不到10%,而AI训练数据集的规模每年却增长一倍以上。将这两个增长趋势投射到未来的情境中,预计2028年这两条趋势线将会交汇。

与此同时,内容提供商正日益使用软件代码或修订其使用条款,以阻止网络爬虫或AI公司抓取他们的数据。Longpre和他的同事们于2023年7月发布了一份预印本,显示出数据提供者封锁特定爬虫的趋势急剧上升。2023年,在三个主要的清理后数据集中,受限制的标记仅占不到3%;但到2024年,这一比例上升到了20%到33%。

数据来源的法律诉讼

目前,关于数据使用的法律诉讼正在进行,原告试图为用于AI训练的数据提供者争取赔偿。2023年12月,《纽约时报》以侵犯版权为由起诉了OpenAI及其合作伙伴微软;2024年4月,Alden Global Capital旗下的八家报纸联合提起了类似的诉讼。被告方的反驳是,AI应该被允许像人类一样读取和学习在线内容,这属于“合理使用”。OpenAI公开表示,认为《纽约时报》的诉讼“毫无根据”。

如果法院支持数据提供者应获得经济补偿的观点,这将使得AI开发者和研究人员更难获得所需数据,特别是对资金有限的学术研究人员来说。Longpre认为,学术界的研究人员将受到最严重的打击。

寻找数据的新路径

AI扩展策略面临的数据危机可能是一个重大挑战。虽然在不增加训练数据的情况下扩大模型的计算能力或参数数量是可行的,但这往往会导致AI的训练成本高昂且效率低下。Longpre指出,这种方式通常不受欢迎。

寻找新数据的一个潜在方法是获取非公共数据,比如WhatsApp消息或YouTube视频的转录内容。虽然以这种方式抓取第三方内容的合法性尚未得到司法确认,但公司可以使用自己的数据。许多社交媒体公司也表示,他们利用自己的内容来训练AI模型。例如,Meta表示,其虚拟现实头显Meta Quest收集的音频和图像用于训练AI。但不同公司的政策有所不同。视频会议平台Zoom的服务条款明确规定,不会使用客户内容来训练AI系统,而转录服务OtterAI则表示会使用去标识化和加密的音频和转录数据进行训练。

使用合成数据和再利用数据

一些AI公司开始使用“合成数据”来训练AI,即AI为AI生成数据。2024年,OpenAI宣布其每天生成1000亿个单词,这一年可生成36万亿个单词——相当于当前AI训练数据集的规模。

尽管如此,合成数据也面临一些问题,比如“递归自我强化”,这可能导致模型的学习质量下降。一项2023年的研究将这一现象称为“模型自噬障碍”(Model Autophagy Disorder),简称“MAD”。

“大而全”到“小而精”

面对数据危机,开发者开始转向小而高效的LLM,这些模型专注于特定任务,要求精炼的专用数据和更好的训练技术。

一项2024年的研究表明,由于算法的改进,训练一个具有相同性能的LLM所需的计算能力每八个月减少一半。OpenAI表示,其最新的o1模型更强调“推理训练”并依赖于反馈,这为扩展方法增添了新维度。

总的来说,AI的发展可能不再需要依赖更大的数据,而是从“更聪明的算法”中获益。Stanford大学的Andy Zou表示,AI可能只需“坐下来思考”,因为它的“基础知识库”可能已经比任何个人的知识储备都要丰富。

阅读报告全文,请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828

未来知识库是“ 欧米伽 未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。 欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。

截止到11月25日 ”未来知识库”精选的100部前沿科技趋势报告

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
5年前,他靠核酸检测设备2年狂入222亿,扬言活120岁,如今咋样

5年前,他靠核酸检测设备2年狂入222亿,扬言活120岁,如今咋样

芳芳历史烩
2026-01-25 10:06:32
40岁无腿廖智现状:赴美产下四胎女儿,被美籍丈夫宠成大公主

40岁无腿廖智现状:赴美产下四胎女儿,被美籍丈夫宠成大公主

暖心萌阿菇凉
2026-02-02 22:59:12
2026年开始,长期低谷结束,慢慢走稳上坡路的三个星座

2026年开始,长期低谷结束,慢慢走稳上坡路的三个星座

小晴星座说
2026-02-03 18:52:42
紧张局势升级之际,美媒:一架俄罗斯重型运输机降落在古巴一空军基地

紧张局势升级之际,美媒:一架俄罗斯重型运输机降落在古巴一空军基地

环球网资讯
2026-02-03 19:03:09
80岁拾荒老太被富二代砸烂三轮车,她淡定拨通号码:儿子帮我个忙

80岁拾荒老太被富二代砸烂三轮车,她淡定拨通号码:儿子帮我个忙

白云故事
2026-01-30 11:40:09
杨兰兰搬新家,入住顶级海景公寓!同楼层房源周租高达$8500

杨兰兰搬新家,入住顶级海景公寓!同楼层房源周租高达$8500

澳洲红领巾
2026-02-04 14:13:33
2.37亿惊天差距!C罗矛头调转:非对家新月或本泽马?

2.37亿惊天差距!C罗矛头调转:非对家新月或本泽马?

生活新鲜市
2026-02-04 17:06:09
一旦战争爆发,伊朗唯一活路,就是把那一万枚导弹一次全打出去!

一旦战争爆发,伊朗唯一活路,就是把那一万枚导弹一次全打出去!

议纪史
2026-02-03 18:45:05
大陆高层给出台阶、国民党不下,闭口不谈统一?郑丽文说出心里话

大陆高层给出台阶、国民党不下,闭口不谈统一?郑丽文说出心里话

蛙斯基娱乐中
2026-02-04 11:13:56
容易出轨的人,有几个典型的特征

容易出轨的人,有几个典型的特征

叶飞飞情感屋
2026-02-04 18:20:22
个人股东分红,不用缴个税了!

个人股东分红,不用缴个税了!

审计之家
2026-01-28 19:58:41
“继承权”无需再争!2026新规落地:父母房产按“这些规则”处理

“继承权”无需再争!2026新规落地:父母房产按“这些规则”处理

复转这些年
2026-01-27 03:00:03
2026春晚第三次联排落幕,小品演员大换血,赵本山的担心恐成真

2026春晚第三次联排落幕,小品演员大换血,赵本山的担心恐成真

手工制作阿歼
2026-02-05 00:54:03
“难怪大学生不爱回家了”,江苏母亲晒客厅,有钱也改变不了心累

“难怪大学生不爱回家了”,江苏母亲晒客厅,有钱也改变不了心累

泽泽先生
2026-02-03 21:23:06
ESPN:哈登和伦纳德私下并无深交,两人甚至从未去过对方家里

ESPN:哈登和伦纳德私下并无深交,两人甚至从未去过对方家里

懂球帝
2026-02-04 13:37:26
涨!涨!涨!苏州384个小区抗住了降价潮!

涨!涨!涨!苏州384个小区抗住了降价潮!

苏南房地产观察
2026-02-04 13:45:56
24岁小伙爱上51岁大妈,大妈性欲高还虐待他,结果被小伙砍成5段

24岁小伙爱上51岁大妈,大妈性欲高还虐待他,结果被小伙砍成5段

胖胖侃咖
2024-04-22 08:00:09
刘震云:凡是夫妻关系好的,都有一个共性,妻子允许丈夫做自己..

刘震云:凡是夫妻关系好的,都有一个共性,妻子允许丈夫做自己..

诗词中国
2025-10-11 19:09:33
张萌 紧身瑜伽裤穿搭,天生尤物前凸后翘身材太性感迷人

张萌 紧身瑜伽裤穿搭,天生尤物前凸后翘身材太性感迷人

冒泡泡的鱼儿
2026-02-05 01:32:00
国家账户只剩217美元,从非洲粮仓到穷得吃老鼠,这波操作简直绝了,这事怎么闹的?

国家账户只剩217美元,从非洲粮仓到穷得吃老鼠,这波操作简直绝了,这事怎么闹的?

老杉说历史
2026-02-04 18:58:14
2026-02-05 02:48:49
人工智能学家 incentive-icons
人工智能学家
人工智能领域权威媒体
4520文章数 37401关注度
往期回顾 全部

科技要闻

太烦人遭投诉!元宝红包链接被微信屏蔽

头条要闻

女子痛斥爱泼斯坦:我一次又一次被强奸 他禽兽不如

头条要闻

女子痛斥爱泼斯坦:我一次又一次被强奸 他禽兽不如

体育要闻

哈登回应交易:不想让自己拖累快船的未来

娱乐要闻

春晚主持人阵容曝光,5位都是老面孔

财经要闻

白银,突然暴涨

汽车要闻

综合续航1730km 5座中级电混SUV吉利银河M7官图发布

态度原创

健康
教育
手机
数码
公开课

耳石症分类型,症状大不同

教育要闻

数学提分,往往从复盘开始

手机要闻

苹果即将强制App使用iOS 26 SDK构建,微信要适配液态玻璃了?

数码要闻

vivo联合中国联通推出“eSIM手表尝鲜季”活动

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版