网易首页 > 网易号 > 正文 申请入驻

AI大模型,又遇数据荒

0
分享至

AI训练AI,越训越傻。

我们都知道,AI容易出现“幻觉”,其中一个很大的原因是因为训练 AI 模型的数据本身就是虚假信息,最终让AI编造出自认为是真实的信息。

为了解决AI幻觉的问题,AI公司们会去挖掘更多材料用于训练,从而不断优化自身的性能。

但从2024年开始,一些互联网数据源开始有意限制AI公司去使用,例如《纽约时报》这样的新闻机构以及Youtube这样的视频网站,他们都因为版权问题与OpenAI等厂商进行过互掐,最终的结果要么是直接花钱买数据,要么是放弃这部分数据。

这其实反映了一个很现实的问题:用于训练 AI 模型的真实数据已经所剩无几

在周三晚间与 Stagwell 董事会主席马克・佩恩的直播对话中,马斯克表示:“我们现在基本上已经消耗掉了所有人类知识的积累…… 用于人工智能训练的数据。这个现象基本上是去年发生的。”

不仅是马斯克,不少人工智能专家都一致认为数据资源已经耗尽。

去年12月的温哥华NeurIPS大会上,OpenAI联合创始人兼前首席科学家伊利亚•苏茨克维尔(Ilya Sutskever)直言:“AI预训练时代无疑将终结。”

他在这场演讲里将数据比作化石燃料,而燃料终将耗尽。“算力在增长,但数据却没有增长,AI已经达到了数据峰值,不会再有更多数据了,我们必须处理好现有的数据。”

同时他表示,AI 模型的开发方式会发生改变,下一代AI模型将是真正的AI Agent,且具备推理能力 。

合成数据的前景

推理计算取代训练计算,这也是博通在年底在美股火了一把的原因之一。

AI只使用另一个 AI 生成的数据进行训练,这在过去听起来并不靠谱的做法,现在似乎成了未来的重要解决方法之一。而随着真实的新数据越来越难以获得,这种想法也越来越受重视,AI公司们也逐渐开始用合成数据用来训练他们的主力 AI 模型。

“AI 会进行自我评估,并通过这一自我学习的过程不断优化自己。”马斯克认为。

从务实的角度出发,人类的标注速度有限,并且很有可能一开始就存在标注错误的问题。另外,有效的数据都是非常昂贵的,一些手握优质数据源的网站或论坛通过向谷歌、OpenAI等公司授权数据,从而赚取高达数亿美元。

相比之下,合成数据的一个显著优势是降低成本,人工智能初创公司 Writer 表示,其 Palmyra X 004 模型几乎完全依赖合成数据进行开发,开发成本仅为 70 万美元,而一个规模相似的 OpenAI 模型的开发成本大约为 460 万美元。

合成数据的另一个作用就是帮助旧模型“升级”成 推理模型,未来的AI能以更接近思考的方式来一步步解决问题,这种能力已经非常接近AI Agent。

例如近期OpenAI近日发布的o1模型,本质上就是推理模型, 在给出回答之前,o1会思考,通过产生一个很长的内部思维链(CoT),逐步推理,模仿人类思考复杂问题的过程。

AI训AI,越训越傻?

合成数据看起来又便宜准确性越高,但如果一开始输入的数据本身就存在问题,那么AI公司甚至无法通过后期更新数据源来进行补救。

来自牛津、剑桥等学校机构的研究人员将这种现象描述成大模型的崩溃,其研究成果还登上了Nature的封面。

其实原理很好理解,模型崩溃是一个退化过程,模型生成的内容会污染下一代的训练数据集。而在被污染的数据上训练之后,新一代模型就容易误解现实。以此循环往复,一代更比一代差。

因此推理模型更适合逻辑、代码、数学这些理工科类的能力,在文字生成方面很容易受到模型崩溃的影响。反过来,文字生成等能力未来依然需要依赖“传统模型”。 因此从短时间来看,合成数据还是很难取代真实数据,AI大模型又将迎来一次数据荒。

本文作者:jh,观点仅代表个人,题图源:网络

记得星标微信公众号:镁客网(im2maker),更多干货在等你

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
查尔斯终究出手了!威廉锁死的门,被国王亲手砸开

查尔斯终究出手了!威廉锁死的门,被国王亲手砸开

全球奇趣娱乐八卦
2026-07-01 06:25:08
3天热死上千人后!法国政府终于妥协,连夜从中国抢购救命空调?

3天热死上千人后!法国政府终于妥协,连夜从中国抢购救命空调?

深度解析热点
2026-06-30 06:26:15
调查发现:喜欢锻炼的人,患脑梗概率,比久坐不动的人高10倍不止

调查发现:喜欢锻炼的人,患脑梗概率,比久坐不动的人高10倍不止

重庆头条官方
2026-06-30 10:33:35
Shams:基恩-埃利斯两年1800万美元保障合同加盟篮网

Shams:基恩-埃利斯两年1800万美元保障合同加盟篮网

北青网-北京青年报
2026-07-01 09:50:09
梅西想卫冕难了!法国状态大热4场轰13球,场均3球最低消费

梅西想卫冕难了!法国状态大热4场轰13球,场均3球最低消费

全景体育V
2026-07-01 07:30:47
他是上海社保局原局长,被富豪用美色拉下马,获刑18年后怎样了

他是上海社保局原局长,被富豪用美色拉下马,获刑18年后怎样了

名人家事情事
2026-07-01 07:10:34
有些儿媳妇总喜欢跟婆婆吵架,我觉得她们真是脑子被驴踢了!

有些儿媳妇总喜欢跟婆婆吵架,我觉得她们真是脑子被驴踢了!

张晓磊
2026-07-01 11:57:20
WTT美国大满贯:林诗栋3-0完胜日本悍将,晋级男单16强

WTT美国大满贯:林诗栋3-0完胜日本悍将,晋级男单16强

俯身冲顶
2026-07-01 11:29:37
最新民调出炉!岛内媒体人质问“青鸟”:真愿为“台独”而战?

最新民调出炉!岛内媒体人质问“青鸟”:真愿为“台独”而战?

海峡导报社
2026-07-01 12:25:38
费迪南德:一睡醒M费去热刺了,曼联的钱一定是留给楚阿梅尼

费迪南德:一睡醒M费去热刺了,曼联的钱一定是留给楚阿梅尼

懂球帝
2026-07-01 12:08:15
“美帝”没救成欧洲,美的救了!美的空调绕开3国法律,巨头懵了

“美帝”没救成欧洲,美的救了!美的空调绕开3国法律,巨头懵了

时光在作祟
2026-06-30 21:58:55
重磅!恭喜杨瀚森!28岁中锋告别开拓者...

重磅!恭喜杨瀚森!28岁中锋告别开拓者...

技巧君侃球
2026-06-30 20:21:56
DeepSeek招人,最怕“大厂味”

DeepSeek招人,最怕“大厂味”

财天COVER
2026-06-30 17:48:04
美联储扔出一枚“深水炸弹”!黄金崩了,但真正的杀招在后面

美联储扔出一枚“深水炸弹”!黄金崩了,但真正的杀招在后面

牛锅巴小钒
2026-07-01 00:54:12
1换1!送走一个玻璃人,再来一个玻璃人,勇士真要这么玩?

1换1!送走一个玻璃人,再来一个玻璃人,勇士真要这么玩?

球毛鬼胎
2026-06-30 17:00:26
宝马最新X5混动内饰曝光,这处设计让老车主集体沉默

宝马最新X5混动内饰曝光,这处设计让老车主集体沉默

体坛观察猿
2026-07-01 00:03:20
毛主席后人第四代的孩子,一个比一个优秀,毛甜懿填志愿备受关注

毛主席后人第四代的孩子,一个比一个优秀,毛甜懿填志愿备受关注

大江
2026-06-29 13:32:09
新任市委书记,楼道接省长急电,女同事吐烟拍我:去买烟!我懵了

新任市委书记,楼道接省长急电,女同事吐烟拍我:去买烟!我懵了

晓艾故事汇
2026-06-29 08:08:12
李常官已任民政部党组书记

李常官已任民政部党组书记

界面新闻
2026-06-30 22:08:41
风向变了?日本将再派代表团访华,岸田文雄:中日关系稳定很重要

风向变了?日本将再派代表团访华,岸田文雄:中日关系稳定很重要

健身狂人
2026-06-30 18:34:02
2026-07-01 13:35:00
镁客网 incentive-icons
镁客网
硬科技第一产业媒体,提供最有价值的行业观察。
5972文章数 9357关注度
往期回顾 全部

科技要闻

美国放行,Anthropic两款顶级模型将恢复

头条要闻

日裔藤森庆子当选秘鲁总统 专家:她无法远离忽视中国

头条要闻

日裔藤森庆子当选秘鲁总统 专家:她无法远离忽视中国

体育要闻

卖球衣救子的门将,把德国扑出了世界杯

娱乐要闻

罗晋大孤山素颜照,秃顶白发引热议

财经要闻

新氧贷款:宣传年化15%,实际顶格24%

汽车要闻

交付持续攀升再破纪录 零跑6月全球交付93376台

态度原创

数码
艺术
教育
公开课
军事航空

数码要闻

会是音频硬件么?华硕ROG将推“神秘新品”

艺术要闻

这5件2026届毕业油画作品,被中国美术学院美术馆收藏

教育要闻

中国民族大学招生就业工作处副处长孙洋介绍学校办学特色与优势专业。#高考高招

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

以色列防长:穆杰塔巴已被列入死亡名单

无障碍浏览 进入关怀版