网易首页 > 网易号 > 正文 申请入驻

AI都有“代餐”和“预制菜”了!后果严重!

0
分享至

本文经授权转载自秦朔朋友圈

作者|朱兆一


10月30日,英伟达成为人类第一个市值跨过5万亿美元门槛的公司,人工智能的发展被继续提速。

但在这场举世瞩目的繁荣背后,很少有人真正关注到一个更深层次的危机正在悄然酝酿:AI的野蛮生长已经到了临界点,合成数据正以惊人速度碾压真实数据。

各类语言大模型对数据的胃口普遍到了令人恐怖的程度——ChatGPT的训练数据达到45TB,包含近万亿词的文本,GPT-5的数据需求更加惊人。

然而互联网并不是无限粮仓,研究预测显示高质量文本数据最早将在2026年至2032年间被耗尽。

面对“数据荒”,AI产业正在进行一场看似完美的自救——用AI生成的“合成数据”来填补黑洞。

但这场自救隐藏着一个深刻的悖论:当AI越来越多地以AI生成的数据为食时,错误和偏见在封闭循环中被无限放大,模型性能逐代退化。

数据失真问题不会随着AI的发展而自我解决,反而会越来越严重。最终的结果是,真假难辨、无法自拔的恶性循环正在形成,而这一切的代价,可能远比市场看到的那5万亿美元要深远得多。

合成数据AI代餐预制菜

互联网正在成为AI模型的“猎场枯竭区”。ChatGPT训练所用的45TB文本数据,对标的是近万亿词的语料库,这个规模已经是互联网历史上最大规模的数据采集。

真实数据的供给之所以捉襟见肘,不仅因为量少,还有质劣和限制多重叠加。现实数据天然充满噪声、错误和偏见,网络文本鱼龙混杂,有研究显示ChatGPT等大模型已经从训练语料中继承了胡编乱造和倾向性之类的问题。

同时,全球隐私法规日趋严格,大量涉及个人隐私的真实数据无法直接用于AI训练。

欧盟《通用数据保护条例》GDPR、中国《数据安全法》等一系列规定让用户的聊天记录、邮件内容、医疗档案等虽然对训练有价值,却受法律保护不可滥用。

在这样的夹缝中,“数据荒”成为横亘在AI继续进化道路上的巨大障碍。

在这种被逼无奈的背景下,合成数据应运而生。它宣称可以一举化解传统数据供给的多个难题。

理论上,只要算力充足,合成数据可以按需无限生产,不像真实数据受制于人类活动和采集周期。

人工标注一张图像约需6美元,而用生成算法合成仅需0.06美元,成本优势达到百倍。

合成数据的生产速度很快,利用云端集群几天即可产出数十万张图像,传统实地采集可能要数月甚至数年。

在隐私合规上,合成数据不直接引用具体个人信息,被视为一种隐私增强技术。使用合成患者病历训练AI诊断模型,可以避免触碰真实病人的隐私。用仿真交易数据训练金融风控模型,不会违反用户数据保护规定。

这些诱人的前景让合成数据正快速从实验室走向产业。咨询公司Gartner曾预测,到2030年合成数据将成为AI主要训练源。

市场研究机构预计全球合成数据市场规模将以每年50%以上的速度增长。科技巨头纷纷投入开发合成数据工具链。微软、亚马逊、谷歌等在云服务中都提供自动化合成数据平台。在自动驾驶、机器人等垂直领域,一批垂直领域的合成数据创业公司快速崛起,融资热度不减。


数据循环中的自我毒害

当AI开始大量以自食其力生成的数据为食时,一个致命的逻辑链条随之启动。这不是新颖的理论警告,而是已经被学术界用严谨实验验证的现实风险。

最近发表于《Nature》的研究给了这一现象一个明确的定义:模型崩溃是一个退化过程,模型生成的内容会污染下一代训练数据,新模型在被污染数据上训练后愈发误解现实。

这个过程类似于近亲繁殖或闭门造车,AI模型只和自己的“后代”对话,不再接触新鲜真实的信息,最终会遗忘原有的见识,变得愈发愚钝和偏狭。

实验数据足够骇人。研究人员用维基百科文章训练了初代模型,让其续写中世纪建筑的文本。前几代的输出看起来尚可接受,但随着合成数据迭代训练,模型的回答逐渐语无伦次。到第五代时,输出内容已经完全与输入无关,充斥无意义的字符。到第九代时,模型已经彻底迷失自我,开始罗列兔子名字,离题万里。

这不是孤立案例。剑桥大学和牛津大学的研究用125M参数的小模型验证了相同的规律:只需用几代模型生成的数据训练数轮,模型性能便急剧滑坡。更可怕的是,这种退化一旦开始,就会呈现指数级加速。

Meta的模拟实验揭示了更险恶的规律:仅1%的合成数据掺入都可能令大模型性能出现显著下降。而且这个规律有一个明确的倾向——模型规模越大,崩溃现象越严重。参数越多的模型,对合成数据的“毒性”越敏感。这意味着那些性能最强、最受关注的大模型,反而最容易在合成数据的侵蚀中走向崩溃。

这不仅仅是技术层面的问题,更是一场关乎整个产业生态的危机。如果最先进的模型率先陷入这个泥沼,后续的研发和应用势必受到致命打击。

从幻觉到长尾消失

随着合成数据的深度迭代使用,AI生成内容的质量开始出现多维度的恶化。

首先是幻觉加剧。模型输出看似合理,实则荒诞,这种胡编乱造在每一轮迭代中都被强化而非纠正。

如果初代模型的输出本身就含有错误,第二代模型学到的就是这种错误的模式,第三代则进一步强化了这种错误。错误像基因突变一样在传递中累积放大。

其次是多样性的衰减。模型往往高频复用前代数据中常见的模式和词句,输出内容日趋单一和刻板,语言的丰富性逐步被侵蚀。

在图像领域,实验发现多代合成训练后,生成的图像细节尽失,风格趋同。最初几代还像模像样,迭代数次后画出来的物体已经“面目全非”,失去真实世界的多样性。

最严重的是长尾知识的消失。因为AI生成的数据大多基于主流模式,很少涵盖极端或罕见情况,模型对长尾分布愈发陌生。用合成常见路况训练的无人车模型,可能完全没有见过真实世界中特殊天气或奇异交通行为的场景。

这对安全要求极高的应用领域,如医疗诊断、自动驾驶、金融风控,构成了致命威胁。一个从未见过罕见疾病的诊断模型,可能在面对真实患者时彻底失效。


危机的工程学答案

不过,模型崩溃并非完全不可避免,而是可以用适当的工程方案加以解决。Nature的实验确实显示了危险,但同时也揭示了临界点:当合成数据比例保持在30%~50%以下,并与高质量真实数据混合时,模型性能的退化曲线趋于平缓。

这意味着“崩溃”不是合成数据本身的原罪,而是比例失控的后果。

已有的缓解方案正在被实践验证——

真实数据的“硬杠杆”设置:强制保持训练集的50%~70%来自真实世界,可以有效阻止熵坍塌;

更精细的词元级编辑技术,即在真实句子上做细粒度改写而非完全生成,同等数据量下能将困惑度降低8%~12%;

分布校正则通过重采样和重要性加权保留低频样本,恢复长尾覆盖率20%以上;

在医疗影像等高风险领域,引入人机协同验证机制,由专家对关键样本进行审计反馈,误报率从9%降至3%;

物理仿真加真实闭环的方案:用仿真生成边缘场景,再用真实路测校准,让英伟达的自动驾驶路测事故率下降了18%。

这些都不是理论设想,而是已经写入TensorFlow、NVIDIA Omniverse和微软Azure中的开源工具。问题的关键不在于AI公司们能不能做到,而在于有没有意愿坚守。

危机解法需要新的激励

工程学的工具箱已经备好,但为什么企业仍在铤而走险?答案很简单:成本。把真实数据比例写进代码是容易的,困难的是在商业竞争中坚守这条底线。

监管框架本应阻止这种滑落,但现实的监管空窗让企业有了充足的腾挪空间。GDPR和《数据安全法》确实要求“可审计”,但在AI训练的源头,这一要求形同虚设。

要打破这个悖论,需要改变激励结构本身。监管部门必须让“保留真实”成为最便宜、最安全的选项,而非最昂贵的道德选择。

首先是建立真正有约束力的准入门槛。医疗、金融、自动驾驶等关键领域的训练集必须包含50%以上的真实数据,低于这个红线就无法获批上线;

其次是建立可追溯的质检机制。企业需要公开数据来源和检验报告,虚假标注将被视为“不合格产品”进行处罚;

第三是改变违规成本的天平。高额罚款加行业黑名单,让“偷工减料”比“老实采购”更贵。

同时,政府应该主动降低企业获取真实数据的成本,这是改变市场选择的另一把钥匙。

结语

在电影《黑客帝国》中,按照建筑师的说法,母体Matrix系统曾经连续6崩溃,而原因并不是因为它使用了虚拟数据——整个系统本身就是虚拟的。

真正的致命之处在于系统彻底断开了与真实世界的联系,走进了一个完全的自我循环。


但电影也留下了一条逃生之路:只要系统保留一条与真实世界对话的“后门”,崩溃就可以被识别、被重启、被修复。

今天,我们面对的AI危机其实也有同样的“逃生钥匙”。问题不在于能不能使用合成数据,而在于有没有意愿保留“真实的插头”。

当真实数据的比例被强制锁定在30%以上、当每条合成样本都标上溯源标签、当困惑度指标连续下降时系统自动告警,模型崩溃就从“宿命”变成了“可控的边界”。

这些都不是黑科技,而是工程学已经提供的、成熟的解决方案。

英伟达、微软、谷歌已经在云服务中提供了质检和溯源的功能,但没有强制性的要求,企业就会选择忽视。欧盟的《AI法案》、中国的《数据安全法》提出了可审计的要求,但如果只在部署阶段补救而不在训练源头把关,监管就形同虚设。

所以,沉重的现实摆在面前!要么现在就设定清晰的工程红线,让合成数据永远被真实世界的“抗体”锚定;要么继续在短期效益的诱惑中滑行,直到有一天发现AI系统已经彻底迷失在自己的幻觉里,如同Matrix那样无法逆转。

No.6617 原创首发文章|作者 朱兆一

开白名单 duanyu_H|投稿 tougao99999

版权声明:【文艺所使用文章、图片及音乐属于相关权利人所有,因客观原因,如存在不当使用情况,敬请相关权利人随时与我们联系及时处理。】

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
燕梳楼:如果日本驱逐薛剑,就是向中国宣战!

燕梳楼:如果日本驱逐薛剑,就是向中国宣战!

燕梳楼频道
2025-11-13 12:44:36
震惊!北大研究发现,男性每增加一个亲生子女,死亡风险降低4%

震惊!北大研究发现,男性每增加一个亲生子女,死亡风险降低4%

火山诗话
2025-11-13 11:37:14
11月13日俄乌最新:壮士断腕

11月13日俄乌最新:壮士断腕

西楼饮月
2025-11-13 18:12:19
震惊硅谷!37岁华裔理工男靠“喂数据”身家1200亿,成最年轻富豪

震惊硅谷!37岁华裔理工男靠“喂数据”身家1200亿,成最年轻富豪

青眼财经
2025-11-12 14:42:01
全球都在看中国将如何救援航天员!俄罗斯和美国9个月,中国多久?

全球都在看中国将如何救援航天员!俄罗斯和美国9个月,中国多久?

泠泠说史
2025-11-11 18:10:39
湘潭一辅警被举报“私开警车回家砸毁他人财物” 当地公安局:已作出辞退处理

湘潭一辅警被举报“私开警车回家砸毁他人财物” 当地公安局:已作出辞退处理

红星新闻
2025-11-13 19:47:43
记者直击张家界七星山荒野求生选手“刀疤哥”制作钻木取火工具,他称每天吃30多个野生猕猴桃,将坚持到底

记者直击张家界七星山荒野求生选手“刀疤哥”制作钻木取火工具,他称每天吃30多个野生猕猴桃,将坚持到底

极目新闻
2025-11-13 18:05:15
歌手阿珍在工作过程中,因电动座椅架挤压身亡

歌手阿珍在工作过程中,因电动座椅架挤压身亡

鲁中晨报
2025-11-13 17:19:01
沈伯洋跑到德国,叫嚣“永不退缩”,话音刚落,大陆已经重拳出击

沈伯洋跑到德国,叫嚣“永不退缩”,话音刚落,大陆已经重拳出击

起喜电影
2025-11-13 14:28:39
佘智江被抓,牵出赵薇前夫黄有龙和妙瓦底诈骗的瓜,真相太炸裂

佘智江被抓,牵出赵薇前夫黄有龙和妙瓦底诈骗的瓜,真相太炸裂

吃瓜局
2025-11-13 20:50:11
24GB+2TB ,华为Mate80Pro+ 大升级,性能很炸裂啊

24GB+2TB ,华为Mate80Pro+ 大升级,性能很炸裂啊

科技堡垒
2025-11-13 12:13:45
广东省传记文学学会副秘书长林峰突发疾病逝世,年仅41岁

广东省传记文学学会副秘书长林峰突发疾病逝世,年仅41岁

澎湃新闻
2025-11-13 14:24:26
廊坊7397万体彩巨奖得主买彩票时衣着怪异戴墨镜口罩?疑当事人发声,河北体彩回应

廊坊7397万体彩巨奖得主买彩票时衣着怪异戴墨镜口罩?疑当事人发声,河北体彩回应

潇湘晨报
2025-11-13 13:59:58
疯传!大批媒体曝:吴亦凡监狱中绝食死亡?

疯传!大批媒体曝:吴亦凡监狱中绝食死亡?

澳洲红领巾
2025-11-11 11:25:36
两败俱伤!大陆市场700台光刻机全部回购?外媒:荷兰这次闹大了

两败俱伤!大陆市场700台光刻机全部回购?外媒:荷兰这次闹大了

闻识
2025-11-12 17:13:52
突发!美国,发动空袭!

突发!美国,发动空袭!

证券时报
2025-11-13 21:15:08
12条猎犬围捕400斤大野猪时4条不幸牺牲,损失3万余元,护农队:今年已有33条猎犬牺牲,总价值上百万元

12条猎犬围捕400斤大野猪时4条不幸牺牲,损失3万余元,护农队:今年已有33条猎犬牺牲,总价值上百万元

极目新闻
2025-11-13 19:51:51
特斯拉不能玩另类了!新国标出炉:单踏板、屏幕换挡将被禁用

特斯拉不能玩另类了!新国标出炉:单踏板、屏幕换挡将被禁用

鞭牛士
2025-11-13 18:33:04
日本民众82%支持涉台武力表态 中日军力对决风险下的亚太局势变局

日本民众82%支持涉台武力表态 中日军力对决风险下的亚太局势变局

行者聊官
2025-11-12 16:59:14
“玄龙”升空!中国空军“新家伙”亮相,攻击11或将重塑空战规则

“玄龙”升空!中国空军“新家伙”亮相,攻击11或将重塑空战规则

斗星知识
2025-11-12 21:35:41
2025-11-13 23:44:49
文艺
文艺
爱文艺 爱生活
9907文章数 107779关注度
往期回顾 全部

科技要闻

月产能突破百万片,中芯国际Q3净利增43.1%

头条要闻

美方回应高市早苗“台湾有事”言论 中方表态

头条要闻

美方回应高市早苗“台湾有事”言论 中方表态

体育要闻

跟豪门传了十年绯闻,他却偏要“择一队终老”

娱乐要闻

王鹤棣孟子义真要搭?

财经要闻

源峰25亿赌局!汉堡王中国"卖身"求生

汽车要闻

具备高阶辅助驾驶功能 欧拉5预售价10.98万起

态度原创

教育
亲子
家居
数码
公开课

教育要闻

首批泰国铁道工程学生来昆学习

亲子要闻

宝妈垃圾赛道大避雷!见到赶紧跑!真的!

家居要闻

莫奈时间 重构先锋概念

数码要闻

英特尔 XeSS SDK 升级至 2.1.1 版本,Meteor Lake 也能用帧生成

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版