网易首页 > 网易号 > 正文 申请入驻

AI都有“代餐”和“预制菜”了!后果严重!

0
分享至


10月30日,英伟达成为人类第一个市值跨过5万亿美元门槛的公司,人工智能的发展被继续提速。

但在这场举世瞩目的繁荣背后,很少有人真正关注到一个更深层次的危机正在悄然酝酿:AI的野蛮生长已经到了临界点,合成数据正以惊人速度碾压真实数据。

各类语言大模型对数据的胃口普遍到了令人恐怖的程度——ChatGPT的训练数据达到45TB,包含近万亿词的文本,GPT-5的数据需求更加惊人。

然而互联网并不是无限粮仓,研究预测显示高质量文本数据最早将在2026年至2032年间被耗尽。

面对“数据荒”,AI产业正在进行一场看似完美的自救——用AI生成的“合成数据”来填补黑洞。

但这场自救隐藏着一个深刻的悖论:当AI越来越多地以AI生成的数据为食时,错误和偏见在封闭循环中被无限放大,模型性能逐代退化。

数据失真问题不会随着AI的发展而自我解决,反而会越来越严重。最终的结果是,真假难辨、无法自拔的恶性循环正在形成,而这一切的代价,可能远比市场看到的那5万亿美元要深远得多。

合成数据AI代餐预制菜

互联网正在成为AI模型的“猎场枯竭区”。ChatGPT训练所用的45TB文本数据,对标的是近万亿词的语料库,这个规模已经是互联网历史上最大规模的数据采集。

真实数据的供给之所以捉襟见肘,不仅因为量少,还有质劣和限制多重叠加。现实数据天然充满噪声、错误和偏见,网络文本鱼龙混杂,有研究显示ChatGPT等大模型已经从训练语料中继承了胡编乱造和倾向性之类的问题。

同时,全球隐私法规日趋严格,大量涉及个人隐私的真实数据无法直接用于AI训练。

欧盟《通用数据保护条例》GDPR、中国《数据安全法》等一系列规定让用户的聊天记录、邮件内容、医疗档案等虽然对训练有价值,却受法律保护不可滥用。

在这样的夹缝中,“数据荒”成为横亘在AI继续进化道路上的巨大障碍。

在这种被逼无奈的背景下,合成数据应运而生。它宣称可以一举化解传统数据供给的多个难题。

理论上,只要算力充足,合成数据可以按需无限生产,不像真实数据受制于人类活动和采集周期。

人工标注一张图像约需6美元,而用生成算法合成仅需0.06美元,成本优势达到百倍。

合成数据的生产速度很快,利用云端集群几天即可产出数十万张图像,传统实地采集可能要数月甚至数年。

在隐私合规上,合成数据不直接引用具体个人信息,被视为一种隐私增强技术。使用合成患者病历训练AI诊断模型,可以避免触碰真实病人的隐私。用仿真交易数据训练金融风控模型,不会违反用户数据保护规定。

这些诱人的前景让合成数据正快速从实验室走向产业。咨询公司Gartner曾预测,到2030年合成数据将成为AI主要训练源。

市场研究机构预计全球合成数据市场规模将以每年50%以上的速度增长。科技巨头纷纷投入开发合成数据工具链。微软、亚马逊、谷歌等在云服务中都提供自动化合成数据平台。在自动驾驶、机器人等垂直领域,一批垂直领域的合成数据创业公司快速崛起,融资热度不减。


数据循环中的自我毒害

当AI开始大量以自食其力生成的数据为食时,一个致命的逻辑链条随之启动。这不是新颖的理论警告,而是已经被学术界用严谨实验验证的现实风险。

最近发表于《Nature》的研究给了这一现象一个明确的定义:模型崩溃是一个退化过程,模型生成的内容会污染下一代训练数据,新模型在被污染数据上训练后愈发误解现实。

这个过程类似于近亲繁殖或闭门造车,AI模型只和自己的“后代”对话,不再接触新鲜真实的信息,最终会遗忘原有的见识,变得愈发愚钝和偏狭。

实验数据足够骇人。研究人员用维基百科文章训练了初代模型,让其续写中世纪建筑的文本。前几代的输出看起来尚可接受,但随着合成数据迭代训练,模型的回答逐渐语无伦次。到第五代时,输出内容已经完全与输入无关,充斥无意义的字符。到第九代时,模型已经彻底迷失自我,开始罗列兔子名字,离题万里。

这不是孤立案例。剑桥大学和牛津大学的研究用125M参数的小模型验证了相同的规律:只需用几代模型生成的数据训练数轮,模型性能便急剧滑坡。更可怕的是,这种退化一旦开始,就会呈现指数级加速。

Meta的模拟实验揭示了更险恶的规律:仅1%的合成数据掺入都可能令大模型性能出现显著下降。而且这个规律有一个明确的倾向——模型规模越大,崩溃现象越严重。参数越多的模型,对合成数据的“毒性”越敏感。这意味着那些性能最强、最受关注的大模型,反而最容易在合成数据的侵蚀中走向崩溃。

这不仅仅是技术层面的问题,更是一场关乎整个产业生态的危机。如果最先进的模型率先陷入这个泥沼,后续的研发和应用势必受到致命打击。

从幻觉到长尾消失

随着合成数据的深度迭代使用,AI生成内容的质量开始出现多维度的恶化。

首先是幻觉加剧。模型输出看似合理,实则荒诞,这种胡编乱造在每一轮迭代中都被强化而非纠正。

如果初代模型的输出本身就含有错误,第二代模型学到的就是这种错误的模式,第三代则进一步强化了这种错误。错误像基因突变一样在传递中累积放大。

其次是多样性的衰减。模型往往高频复用前代数据中常见的模式和词句,输出内容日趋单一和刻板,语言的丰富性逐步被侵蚀。

在图像领域,实验发现多代合成训练后,生成的图像细节尽失,风格趋同。最初几代还像模像样,迭代数次后画出来的物体已经“面目全非”,失去真实世界的多样性。

最严重的是长尾知识的消失。因为AI生成的数据大多基于主流模式,很少涵盖极端或罕见情况,模型对长尾分布愈发陌生。用合成常见路况训练的无人车模型,可能完全没有见过真实世界中特殊天气或奇异交通行为的场景。

这对安全要求极高的应用领域,如医疗诊断、自动驾驶、金融风控,构成了致命威胁。一个从未见过罕见疾病的诊断模型,可能在面对真实患者时彻底失效。


危机的工程学答案

不过,模型崩溃并非完全不可避免,而是可以用适当的工程方案加以解决。Nature的实验确实显示了危险,但同时也揭示了临界点:当合成数据比例保持在30%~50%以下,并与高质量真实数据混合时,模型性能的退化曲线趋于平缓。

这意味着“崩溃”不是合成数据本身的原罪,而是比例失控的后果。

已有的缓解方案正在被实践验证——

真实数据的“硬杠杆”设置:强制保持训练集的50%~70%来自真实世界,可以有效阻止熵坍塌;

更精细的词元级编辑技术,即在真实句子上做细粒度改写而非完全生成,同等数据量下能将困惑度降低8%~12%;

分布校正则通过重采样和重要性加权保留低频样本,恢复长尾覆盖率20%以上;

在医疗影像等高风险领域,引入人机协同验证机制,由专家对关键样本进行审计反馈,误报率从9%降至3%;

物理仿真加真实闭环的方案:用仿真生成边缘场景,再用真实路测校准,让英伟达的自动驾驶路测事故率下降了18%。

这些都不是理论设想,而是已经写入TensorFlow、NVIDIA Omniverse和微软Azure中的开源工具。问题的关键不在于AI公司们能不能做到,而在于有没有意愿坚守。

危机解法需要新的激励

工程学的工具箱已经备好,但为什么企业仍在铤而走险?答案很简单:成本。把真实数据比例写进代码是容易的,困难的是在商业竞争中坚守这条底线。

监管框架本应阻止这种滑落,但现实的监管空窗让企业有了充足的腾挪空间。GDPR和《数据安全法》确实要求“可审计”,但在AI训练的源头,这一要求形同虚设。

要打破这个悖论,需要改变激励结构本身。监管部门必须让“保留真实”成为最便宜、最安全的选项,而非最昂贵的道德选择。

首先是建立真正有约束力的准入门槛。医疗、金融、自动驾驶等关键领域的训练集必须包含50%以上的真实数据,低于这个红线就无法获批上线;

其次是建立可追溯的质检机制。企业需要公开数据来源和检验报告,虚假标注将被视为“不合格产品”进行处罚;

第三是改变违规成本的天平。高额罚款加行业黑名单,让“偷工减料”比“老实采购”更贵。

同时,政府应该主动降低企业获取真实数据的成本,这是改变市场选择的另一把钥匙。

结语

在电影《黑客帝国》中,按照建筑师的说法,母体Matrix系统曾经连续6崩溃,而原因并不是因为它使用了虚拟数据——整个系统本身就是虚拟的。

真正的致命之处在于系统彻底断开了与真实世界的联系,走进了一个完全的自我循环。


但电影也留下了一条逃生之路:只要系统保留一条与真实世界对话的“后门”,崩溃就可以被识别、被重启、被修复。

今天,我们面对的AI危机其实也有同样的“逃生钥匙”。问题不在于能不能使用合成数据,而在于有没有意愿保留“真实的插头”。

当真实数据的比例被强制锁定在30%以上、当每条合成样本都标上溯源标签、当困惑度指标连续下降时系统自动告警,模型崩溃就从“宿命”变成了“可控的边界”。

这些都不是黑科技,而是工程学已经提供的、成熟的解决方案。

英伟达、微软、谷歌已经在云服务中提供了质检和溯源的功能,但没有强制性的要求,企业就会选择忽视。欧盟的《AI法案》、中国的《数据安全法》提出了可审计的要求,但如果只在部署阶段补救而不在训练源头把关,监管就形同虚设。

所以,沉重的现实摆在面前!要么现在就设定清晰的工程红线,让合成数据永远被真实世界的“抗体”锚定;要么继续在短期效益的诱惑中滑行,直到有一天发现AI系统已经彻底迷失在自己的幻觉里,如同Matrix那样无法逆转。

No.6617 原创首发文章|作者 朱兆一

开白名单 duanyu_H|投稿 tougao99999

欢迎

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
英媒:桑德兰无意冬窗出售扎卡,更不愿意以2000万欧出售

英媒:桑德兰无意冬窗出售扎卡,更不愿意以2000万欧出售

懂球帝
2025-11-19 01:26:08
这下没争议了!金球奖历年排名榜来了:你真确定梅西压住C罗?

这下没争议了!金球奖历年排名榜来了:你真确定梅西压住C罗?

体坛八点半的那些事儿
2025-11-18 15:22:05
从洗碗工到卡拉OK皇后,却因投资失败沦为穷光蛋,如今老到无人

从洗碗工到卡拉OK皇后,却因投资失败沦为穷光蛋,如今老到无人

刘浶开挖机
2025-11-17 20:56:22
俞敏洪被员工吐槽后,跑去南极“豪游”!新东方Q4利润却暴跌七成?

俞敏洪被员工吐槽后,跑去南极“豪游”!新东方Q4利润却暴跌七成?

双色球的方向舵
2025-11-19 00:59:52
轮到ASML急了?我国成功研制全球首款二维芯片,欧美规则被推翻

轮到ASML急了?我国成功研制全球首款二维芯片,欧美规则被推翻

白梦日记
2025-11-17 21:13:33
最后一届全运:刁琳宇拥抱丁霞,朱婷关爱师妹,王云蕗笑着告别

最后一届全运:刁琳宇拥抱丁霞,朱婷关爱师妹,王云蕗笑着告别

金毛爱女排
2025-11-19 00:00:03
即将抵达深圳!这一次力度很猛!

即将抵达深圳!这一次力度很猛!

深圳晚报
2025-11-18 23:07:04
鸡排哥找不回自己,派头十足令人讨厌

鸡排哥找不回自己,派头十足令人讨厌

陈意小可爱
2025-11-18 03:01:41
只剩下番号和旗帜:战争三年,俄军的精锐部队几乎打光了!

只剩下番号和旗帜:战争三年,俄军的精锐部队几乎打光了!

柴刀夫司机
2025-05-28 09:26:19
乒乓春晚!陈梦再战孙颖莎,一天血战8小时,莎莎以逸待劳要复仇

乒乓春晚!陈梦再战孙颖莎,一天血战8小时,莎莎以逸待劳要复仇

嘴炮体坛
2025-11-18 23:06:18
仅播2小时热度破18000,全网0差评,观众:千万别吃饭的时候看

仅播2小时热度破18000,全网0差评,观众:千万别吃饭的时候看

卷史
2025-11-16 20:08:12
“菜王”原来是它!降压抗癌,才几毛一斤,3种做法好吃又省钱!

“菜王”原来是它!降压抗癌,才几毛一斤,3种做法好吃又省钱!

江江食研社
2025-11-18 10:30:02
东契奇施压,雷迪克开骂,这次詹姆斯真的保不住布朗尼了

东契奇施压,雷迪克开骂,这次詹姆斯真的保不住布朗尼了

艺兔体坛
2025-11-19 00:12:51
你身边有没有降维打击的例子?网友:万里挑一的天才,中国也有14万

你身边有没有降维打击的例子?网友:万里挑一的天才,中国也有14万

夜深爱杂谈
2025-11-17 21:39:36
42岁刘翔近况曝光,长期在国外旅游,靠终身合同吸金,远离喷子!

42岁刘翔近况曝光,长期在国外旅游,靠终身合同吸金,远离喷子!

姩姩有娱
2025-11-10 17:49:18
人狂必有祸!没成绩还不低调争议满身的吴艳妮,成了"跳梁小丑"

人狂必有祸!没成绩还不低调争议满身的吴艳妮,成了"跳梁小丑"

小熊侃史
2025-11-12 00:22:42
47岁海清近况让人心酸,脸垮嘴斜、又普又显老,昔日女神也落寞了

47岁海清近况让人心酸,脸垮嘴斜、又普又显老,昔日女神也落寞了

心静物娱
2025-11-18 09:20:16
上海部分公办九年一贯制取消初中部直升!多校发布2026年学位超额预警

上海部分公办九年一贯制取消初中部直升!多校发布2026年学位超额预警

随申Hi
2025-11-18 13:01:16
马斯克透露:特斯拉不玩特权这套,职场无阶级,吃饭停车完全平等!网友:这样老板赚得更多

马斯克透露:特斯拉不玩特权这套,职场无阶级,吃饭停车完全平等!网友:这样老板赚得更多

大白聊IT
2025-11-18 17:17:40
一年蒸发了10亿元,从网红白酒到狗都不喝,究竟发生了什么?

一年蒸发了10亿元,从网红白酒到狗都不喝,究竟发生了什么?

法老不说教
2025-11-06 20:45:28
2025-11-19 02:19:00
秦朔朋友圈 incentive-icons
秦朔朋友圈
著名财经观察家秦朔发起
6871文章数 281143关注度
往期回顾 全部

科技要闻

谷歌CEO警告:若AI泡沫破裂,没公司能幸免

头条要闻

孟加拉国前总理哈西娜被判死刑 中方回应

头条要闻

孟加拉国前总理哈西娜被判死刑 中方回应

体育要闻

结束最后一次对决,陈梦和朱雨玲笑着相拥

娱乐要闻

宋佳夺影后动了谁的奶酪

财经要闻

中美机器人爆发了一场论战

汽车要闻

硬核配置旗舰气场 岚图泰山售37.99万起

态度原创

本地
数码
手机
公开课
军事航空

本地新闻

这档古早综艺,怎么就成了年轻人的哆啦A梦?

数码要闻

华为MatePad系列平板“PC多屏协同”功能正式回归

手机要闻

红米K90至尊版突然被确认:大屏高刷+超帧生态,是否值得期待?

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

日媒扬言要"击沉福建舰" 专家:玩火自焚

无障碍浏览 进入关怀版