网易首页 > 网易号 > 正文 申请入驻

数据枯竭倒计时:AI还能烧什么燃料?

0
分享至

想象这样一个场景:2026年,某家大模型公司的工程师盯着训练日志,发现新跑的一轮迭代,损失曲线不再下降——不是算法问题,是互联网上能抓的公开文本,已经喂完了。这不是科幻,是Epoch AI测算的时间窗口。当"低垂的果实"被摘尽,AI的下一波突破,还能从哪找燃料?

一、数据枯竭:两个维度的真实压力


现代AI的底层逻辑很直白:从数据里"学习"模式。没有数据,模型就是空壳。大模型时代,自监督学习降低了人工标注成本,让数据、参数、算力形成正向飞轮——这就是规模定律(Scaling Law)的通俗版本:堆得越多,能力越强。

但这个飞轮正在撞上天花板。Epoch AI的测算给出具体时间点:2026年到2032年间,人类公开的文本数据将被语言模型训练耗尽。这不是说人类不再生产信息,而是高质量数据的线性增长,追不上AI发展的超线性预期。

数据挑战其实分两层。一层是"有没有":数量和覆盖度够不够;另一层是"好不好":真实性、标注水平、结构化程度过不过关。这两层问题贯穿AI全链条——预训练缺干净语料,后训练缺高质量标注,行业微调缺专业数据,多模态缺图文对,具身智能缺真实场景数据。

应对路径大致三条:深挖人类存量数据、让机器自己生产数据、从算法层面减少对数据的依赖。前两条是当下最现实的突破口。

二、存量数据:孤岛里的高价值矿藏

"数据枯竭"的说法有点误导性。真正快用完的,是公开、无产权约束、容易获取的文本数据。人类社会和人脑中,还有大量未开发的认知资产。

先看行业数据孤岛。电商平台攥着交易记录、用户评价、用户画像;医疗机构锁着病历、影像、诊断轨迹;制造业沉淀着工艺参数、质检标准、故障日志;科研领域更有大量未发表的实验数据——包括失败的。

这里有个反直觉的点:科学界长期存在"发表偏差",成功的实验才见期刊,失败的直接进垃圾桶。但对AI来说,失败案例和成功案例一样有价值。那些没被共享的负面实验结果,构成了一座尚未开采的知识矿山。

这些数据的问题不是不存在,而是不能用。隐私、产权、商业机密、监管合规,一道道墙把它们隔成孤岛。RAG(检索增强生成)能在具体应用里调用局部价值,但很难汇聚成持续提升通用智能的大规模训练语料。

技术层面已经在试探解法。联邦学习允许数据不出本地,联合完成训练;差分隐私用数学方法保证个体信息不可还原,给跨机构协作划安全边界。这些手段解决的是"在不泄露隐私的前提下,如何让数据参与训练"。

但技术只是安全阀。要让数据真正流动起来,需要制度设计。两条路径正在并行:自下而上的市场化激励——数据交易市场、数据信托、数据要素入表,让拥有者在合规前提下有动力开放,分享增值收益;自上而下的公共安排——政府或行业监管者在国计民生、公共安全、基础科研领域统一标准、建设基础平台和公共数据集,加快数据从"碎片资源"变成"公共基础设施"。

技术和机制,缺一不可。

三、人脑中的认知资产:思维轨迹与隐性知识

比行业数据更难挖掘的,是人类大脑里还没被数据化的部分。其中两类对AI能力上限影响最深:复杂决策的思维轨迹,以及专家的隐性知识。

思维轨迹的缺失是个结构性问题。企业家做重大决策、医生诊断疑难杂症、工程师处理罕见故障——这些高价值任务,人类通常只记录"做了什么"和"结果如何",很少系统留存"为什么这么想、考虑过哪些备选、为什么排除其他方案"。

这就像数学题只存题目和答案,没有解题步骤。AI只能在输入输出对上做模式拟合,很难学到可迁移的推理能力。过去一年,加入"思维链"能力的模型性能跃升,恰恰验证了这条路径的价值。但可用的高质量思维轨迹数据,目前依然极度稀缺。

隐性知识更难处理。资深专家的直觉、情境化的感知、具身的"肌肉记忆"、团队协作的默契规则——这些认知难以清晰描述,也就难以完整标注、难以形成训练样本。AI够不着,就只能停留在表层模仿。

系统性数据化思维轨迹和隐性知识,成本高、难度大。但从信息密度和独特性来看,这是座挖掘难度大但价值极高的金矿,很可能是未来AI能力持续提升的关键来源之一。

四、知识治理:从"垃圾进垃圾出"到"面向AI的提纯"

就算挖到了数据,质量问题同样致命。AI训练领域有句老话:"垃圾进,垃圾出"。模型本身缺乏自动鉴别真伪和重要性的能力,很容易从低质量数据中学到错误模式。

互联网信息的质量参差不齐,错误、虚假、过时、片面、重复内容大量存在。直接用于训练,输出中就会放大幻觉与偏见。更麻烦的是AI时代的新变量——GEO(生成式引擎优化)。围绕"被模型引用和采样权",过度甚至恶意的优化正在制造新的知识污染入口。

提升数据质量需要一整套工作。底层是常规操作:清洗、去重、纠错、噪声过滤。再往上一层,为重要知识建立溯源和版本控制,明确来源、更新时间、责任主体,通过知识图谱统一概念、结构化关系。在高价值专业领域,需要精细标注工程和领域专家参与,构建"少而精"的高置信度数据集,作为模型校准与评估的基准。

只有当人类知识经历过这样一轮"面向AI的治理和提纯",后续的模型训练才能真正站在更干净、更坚实的地基上,而不是踩在一团混杂的信息泥沙里。

五、机器生产数据:合成数据与自我对弈

人类数据挖无可挖时,机器可以自己造数据。这个方向的核心逻辑是:用AI生成合成数据,再喂给AI训练。

文本领域,大模型可以生成海量语料,问题是如何保证质量。图像和视频领域,渲染引擎、物理模拟、生成模型结合,能低成本产出多样化场景。具身智能更需要这条路——真实机器人采集数据成本极高,仿真环境里的合成数据是规模化训练的前提。

但合成数据有天花板。模型生成的内容,本质上是训练分布的重构和插值,很难突破原有认知边界。用合成数据训练多代模型,可能出现"模型崩溃"——分布逐渐收窄,多样性丧失,最终性能退化。缓解方案包括:保留一定比例真实数据作为锚点、多模型协作生成以扩展多样性、引入外部验证机制过滤低质量样本。

另一个路径是自我对弈(Self-Play)。AlphaGo的围棋训练是经典案例:模型与自己对弈,从胜负反馈中学习。这种方法在规则明确、反馈清晰的场景有效,但推广到开放领域挑战很大——如何设计合理的"对手"、如何定义"胜负"、如何避免在封闭循环里自我强化错误,都是未解难题。

六、数据与模型的协同进化

数据瓶颈的破解,最终依赖数据和模型的协同进化。更好的模型能生成更高质量的合成数据、更高效地利用有限数据、更精准地筛选和治理知识;而这些改进又反过来释放新的数据供给。

这个飞轮的启动,需要同时在三个层面发力:技术层面,隐私计算、合成数据生成、质量评估工具持续迭代;机制层面,数据产权界定、交易规则、公共数据基础设施建设逐步完善;认知层面,社会对个人数据价值、AI训练数据需求的理解不断深入。

数据枯竭不是终点,而是转折点。它迫使行业从"大力出奇迹"的粗放模式,转向对数据价值的精细挖掘和系统治理。那些能在孤岛数据流通、人脑认知资产数据化、知识质量提纯、合成数据生态上建立优势的玩家,将在下一阶段竞争中占据主动。

AI的燃料不会耗尽,只是获取方式正在发生根本变化——从露天开采,转向深层钻探和人工合成。这个转变本身,就是行业成熟的标志。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一天30000辆,比亚迪彻底爆了!

一天30000辆,比亚迪彻底爆了!

蒋东文
2026-04-28 21:31:23
彻底看走眼!开拓者送走杨瀚森遭批,错失考沃德+首轮签缩水

彻底看走眼!开拓者送走杨瀚森遭批,错失考沃德+首轮签缩水

宝哥精彩赛事
2026-04-29 01:36:51
状态突然掉线!赵心童失误频频连丢5局,八强战首阶段3-5落后墨菲

状态突然掉线!赵心童失误频频连丢5局,八强战首阶段3-5落后墨菲

全景体育V
2026-04-28 20:37:43
深度|伊朗战事2个月:从 “狂飙” 到 “烂尾”,矛盾越打越多如何收场?

深度|伊朗战事2个月:从 “狂飙” 到 “烂尾”,矛盾越打越多如何收场?

上观新闻
2026-04-28 20:43:14
比亚迪:旗下部分车型选装天神之眼B辅助驾驶激光版的价格将从9900元上调为12000元

比亚迪:旗下部分车型选装天神之眼B辅助驾驶激光版的价格将从9900元上调为12000元

界面新闻
2026-04-28 15:38:04
西安7名残疾人轮椅进地铁遭查近一小时,内急哀求仍要“查完证”

西安7名残疾人轮椅进地铁遭查近一小时,内急哀求仍要“查完证”

听心堂
2026-04-28 21:45:16
辛柏青回应吴越撮合,没有翻脸没有接梗,把分寸和家人稳稳守住

辛柏青回应吴越撮合,没有翻脸没有接梗,把分寸和家人稳稳守住

一盅情怀
2026-04-28 17:18:29
炸裂!“最强降压药” 真的来了!30 年一遇,专门收拾顽固高血压

炸裂!“最强降压药” 真的来了!30 年一遇,专门收拾顽固高血压

孟大夫之家1
2026-04-28 19:07:08
米饭被点名!医生直言:米饭冷冻24小时,抗性淀粉翻倍控糖护肠

米饭被点名!医生直言:米饭冷冻24小时,抗性淀粉翻倍控糖护肠

路医生健康科普
2026-04-26 19:55:03
大爆冷!东部第一轰然倒下!黑八奇迹上演,7换1交易赚大了

大爆冷!东部第一轰然倒下!黑八奇迹上演,7换1交易赚大了

篮球扫地僧
2026-04-28 11:10:53
轰的一声!国防部长被炸身亡,俄外交雪上加霜,普京沉默了

轰的一声!国防部长被炸身亡,俄外交雪上加霜,普京沉默了

音乐时光的娱乐
2026-04-28 12:03:52
医生建议:超过60岁的老人,宁可在家躺着,也别在6个时候散步

医生建议:超过60岁的老人,宁可在家躺着,也别在6个时候散步

芹姐说生活
2026-04-28 15:53:22
2026最严禁赌来袭!棋牌室、家庭麻将全部核查,红线已划定

2026最严禁赌来袭!棋牌室、家庭麻将全部核查,红线已划定

何氽简史
2026-04-28 19:31:43
新华社消息|我国自2026年5月1日起对所有非洲建交国实施零关税

新华社消息|我国自2026年5月1日起对所有非洲建交国实施零关税

新华社
2026-04-28 19:01:45
山西大同“订婚强奸案”男子将于5月4日出狱,母亲:为儿子买了新衣,计划亲自去接,带他回归正常生活

山西大同“订婚强奸案”男子将于5月4日出狱,母亲:为儿子买了新衣,计划亲自去接,带他回归正常生活

大风新闻
2026-04-28 17:18:06
汪涵妻子被爆近况冲上热搜:什么样的“爱”会让人窒息?

汪涵妻子被爆近况冲上热搜:什么样的“爱”会让人窒息?

桌子的生活观
2026-04-28 12:19:53
中国遭警告:拒收将面临供应中断!

中国遭警告:拒收将面临供应中断!

共工之锚
2026-04-28 23:20:50
车市奇怪现象,整体销量下降,电车销量下降,但订单纷纷超2万辆

车市奇怪现象,整体销量下降,电车销量下降,但订单纷纷超2万辆

柏铭锐谈
2026-04-28 19:06:11
跌落神坛!40岁诺伊尔全场0扑救 让大巴黎5次射正进5球 仅获5.2分

跌落神坛!40岁诺伊尔全场0扑救 让大巴黎5次射正进5球 仅获5.2分

我爱英超
2026-04-29 05:22:10
12人落马5轮彻查!张军失联第18天,64岁蔡振华成体育界正面教材

12人落马5轮彻查!张军失联第18天,64岁蔡振华成体育界正面教材

不写散文诗
2026-04-28 14:19:14
2026-04-29 06:12:49
硅屿手记
硅屿手记
有态度网友ytd
3155文章数 15关注度
往期回顾 全部

科技要闻

10亿周活目标落空!传OpenAI爆发内部分歧

头条要闻

美国:对35个伊朗相关实体及个人实施制裁

头条要闻

美国:对35个伊朗相关实体及个人实施制裁

体育要闻

魔术黑八活塞,一步之遥?!

娱乐要闻

蔡卓妍官宣结婚,老公比她小10岁

财经要闻

中央政治局会议定调,八大看点速览!

汽车要闻

拒绝疯狂套娃!现代艾尼氪金星长在未来审美点上

态度原创

艺术
房产
本地
亲子
健康

艺术要闻

赵朴初:比风水厉害100倍的宇宙定律

房产要闻

红利爆发!海南,冲到全国人口增量第4省!

本地新闻

用青花瓷的方式,打开西溪湿地

亲子要闻

拍这期视频时眼泪止不住地流

干细胞治疗烧烫伤三大优势!

无障碍浏览 进入关怀版