网易首页 > 网易号 > 正文 申请入驻

大模型不是没算力了,是快没“好粮食”了

0
分享至

大模型这两年给人的感觉很奇怪。

钱越烧越多,GPU越堆越高,发布会一个比一个热闹,但普通人的直观感受却是:新模型好像没有当年ChatGPT横空出世那么吓人了。

很多人第一反应是:是不是算力不够?

我的判断是:算力当然还重要,但最短的那块板,正在从算力变成数据。更准确地说,是高质量、真实、可用的数据。


一棵庄稼能长多高,不看最多的养分

这里要请出一个农业里的老概念:李比希最小因子定律。

这个规律常被归到德国化学家李比希名下。它讲的不是玄学,而是种地。

一棵庄稼能长多高,不取决于哪种养分最多,而取决于哪种养分最缺。

后来大家用一个木桶来解释:一个桶能装多少水,不看最长的木板,只看最短的木板。水会从最短的地方漏出去。

这就是我们常说的木桶短板。



把这个木桶套到AI上,就很清楚了。

大模型这只桶,主要有三块板:算法、算力、数据。

前几年算法是短板,Transformer把这块板拔高了。后来算力是短板,全世界开始抢GPU、建数据中心。现在算力还贵,但继续只加算力,边际收益已经没那么猛了。

为什么?

因为数据这块板开始漏水了。

互联网不是没内容了,是“好内容”不够了

很多人会问:互联网这么大,怎么会没数据?

注意,不是没内容,是没足够多的好内容。

大模型要的不是随便一堆文字。它要的是干净的、去重的、知识密度高的、结构清楚的、最好还是真人生产的数据。

垃圾内容当然很多。营销号、搬运稿、重复网页、低质问答、机器改写文,堆得像山一样。但这些东西喂多了,模型不但不会变聪明,反而会越来越油、越来越空、越来越像套话机。

Epoch AI曾经估算,经过质量和重复因素调整后,可用于训练的公开人类文本库存大约是300万亿token。token可以理解成模型吃进去的“小字块”。按照趋势,语言模型可能在2026到2032年之间充分用掉这批公共文本库存。



这不是说2032年以后AI就完了,而是说靠“继续爬公开互联网”这条老路,越来越难了。

三条破墙路,没有一条轻松

数据墙不是不能破,但每条路都有代价。

第一条路,是去找私域数据。

比如医院病历、工业设备日志、企业客服记录、机器人真实操作数据。这些数据以前没有充分进入训练流程。谁能合法、安全、低成本地组织这些数据,谁就有新的护城河。

但问题也很现实:私域数据涉及隐私、合规、商业机密。不是你想拿就能拿。

第二条路,是用合成数据。

也就是让AI自己生成训练材料。听起来很美:缺数据,那就自己造。

但这里有个坑,叫模型崩溃。

简单说,如果AI一代一代吃自己吐出来的东西,罕见信息会先消失,长尾知识会被磨平,最后模型会越来越像“平均答案机器”。就像一个村子里的人只互相抄作业,抄到最后,错的地方会越来越像真理。

所以合成数据不是不能用,而是必须有筛选、有验证、有真实数据压舱。

第三条路,是数据工程。

这条最朴素,也最重要:把已有数据清洗干净,去重、标注、结构化、分层,用更少的数据榨出更多价值。

未来AI公司的差距,不只是谁买了多少GPU,还会是谁的数据管道更干净,谁能把一吨原矿炼出一克金子。

机器人更能说明:数据才是真贵

这件事在机器人上更明显。

聊天机器人缺的是高质量文本,具身智能缺的是高质量物理数据。

让机器人学会拿杯子、叠衣服、进电梯、避开小孩和宠物,不是看几篇网页就会的。它需要真实世界里的动作、碰撞、失败、反馈。

问题是,真机采集太贵了。

一个机器人摔一次,可能就是几万块维修费。一个动作采集一万次,背后是场地、设备、工程师、时间成本。用仿真数据可以降低成本,但仿真世界和真实世界之间又有差距。

所以你会看到,NVIDIA、Figure、宇树、特斯拉这些玩家,都绕不开同一个问题:怎么获得更多、更好、更接近真实世界的训练数据。

从语言模型到机器人,行业换了,短板没换。

还是数据。

真正的变化:数据正在变成新的护城河

过去两年,AI竞争看起来像算力军备赛。

谁买得起H100,谁能建万卡集群,谁就更强。

但下一阶段,比赛会变得更复杂。算力还是门票,但数据决定上限。

这也是为什么做数据标注、数据管理、模型评测的公司突然值钱。比如Scale AI,过去看起来只是“给AI打标签”的外包公司,但在大模型时代,它变成了数据基础设施公司。因为模型越强,越需要高质量反馈、高质量标注、高质量评测。

这也给内容创作者一个很现实的提醒。

当互联网上充满AI改写、AI搬运、AI洗稿的时候,真正稀缺的东西反而变了:真人经验、现场观察、专业判断、原创表达。

机器可以批量生产“像内容的内容”,但它很难凭空生产新的真实经验。

所以,大模型卡住这件事,表面看是科技公司的问题,背后其实是整个互联网的问题。

过去,平台奖励流量,于是大家生产套路内容。现在,AI吃完了这些套路内容,发现自己也被套路困住了。

我的判断是:未来几年,最值钱的不是“会用AI写得更快的人”,而是“能给AI和人类都提供新信息的人”。

AI缺的不是更多废话。

AI缺的,是世界里真正发生过、真正被理解过、真正有人负责的东西。

这就是数据墙背后的真问题。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
2017年,邓小平弟弟去世享年106岁,临终前立下与哥哥同样的遗嘱

2017年,邓小平弟弟去世享年106岁,临终前立下与哥哥同样的遗嘱

大运河时空
2026-06-02 10:15:03
1949年,渡江战役若晚20天开战,中国可能被推入分裂深渊

1949年,渡江战役若晚20天开战,中国可能被推入分裂深渊

鹤羽说个事
2026-05-29 22:59:33
乌克兰首都基辅遭空袭 强烈爆炸声持续响起

乌克兰首都基辅遭空袭 强烈爆炸声持续响起

新华社
2026-06-02 10:26:01
梁安琪妈妈罕现身,八十多岁依旧雍容华贵,和四太长得很像

梁安琪妈妈罕现身,八十多岁依旧雍容华贵,和四太长得很像

草莓解说体育
2026-06-02 05:34:14
上海瑞金研究:低密度胆固醇越低,癌症风险越高?控制到多少才好

上海瑞金研究:低密度胆固醇越低,癌症风险越高?控制到多少才好

健康科普365
2026-06-01 19:35:05
禁止所有中国外交官入境,不准两岸统一,这个国家比美国还嚣张?

禁止所有中国外交官入境,不准两岸统一,这个国家比美国还嚣张?

傲傲讲历史
2026-06-02 13:53:16
宋庆龄说,人民英雄永垂不朽!其实就是毛泽东主席自己的墓志铭。

宋庆龄说,人民英雄永垂不朽!其实就是毛泽东主席自己的墓志铭。

混沌录
2026-06-02 11:16:11
35岁厨师长相亲21岁女孩,对40岁丈母娘心动!网友:这眼光,绝了

35岁厨师长相亲21岁女孩,对40岁丈母娘心动!网友:这眼光,绝了

小邵说剧
2026-06-02 08:26:10
李云龙“独立团”最后下落,全军覆没于金门战役,不是李云龙指挥

李云龙“独立团”最后下落,全军覆没于金门战役,不是李云龙指挥

兴趣知识
2026-06-01 05:34:12
输U19国足,沙特主帅:就连中国队的进球也不是有威胁的射门

输U19国足,沙特主帅:就连中国队的进球也不是有威胁的射门

懂球帝
2026-06-02 10:00:36
35页PPT疯传:洛阳女子1女谈3男,每天卡时间,都已谈婚论嫁

35页PPT疯传:洛阳女子1女谈3男,每天卡时间,都已谈婚论嫁

烈史
2026-05-30 13:23:41
坑完独行侠,又想坑奇才!2年仅打71场比赛,成NBA第一“玻璃人”

坑完独行侠,又想坑奇才!2年仅打71场比赛,成NBA第一“玻璃人”

后仰跳投绝杀
2026-06-02 14:29:03
突发!匈牙利上演政变式摊牌:新总理放话,总统不辞职那就请出去

突发!匈牙利上演政变式摊牌:新总理放话,总统不辞职那就请出去

菁菁子衿
2026-06-02 10:25:12
美媒称美伊谈判重回正轨

美媒称美伊谈判重回正轨

界面新闻
2026-06-02 11:24:25
刚刚获批!越南南北高铁敲定2035年完工,17个独立项目同时推进,中国力量参与人才培训

刚刚获批!越南南北高铁敲定2035年完工,17个独立项目同时推进,中国力量参与人才培训

缅甸中文网
2026-06-01 13:40:05
终于,豆瓣还是朝着《给阿嬷的情书》打拳了,这拳打得对不对呢?

终于,豆瓣还是朝着《给阿嬷的情书》打拳了,这拳打得对不对呢?

蓬辉堂
2026-06-01 23:40:20
4名顾客吃火锅写5000字差评:称食材腥,不愿买单,现场画面扒出

4名顾客吃火锅写5000字差评:称食材腥,不愿买单,现场画面扒出

李晚书
2026-06-01 10:53:54
章泽天戴300万腕表看欧冠决赛,穿4万的香奈儿马甲,这是真老钱风

章泽天戴300万腕表看欧冠决赛,穿4万的香奈儿马甲,这是真老钱风

可乐谈情感
2026-06-01 18:49:37
乌克兰战场惊现“人形机器人”, 美企:本来就是为打仗而生

乌克兰战场惊现“人形机器人”, 美企:本来就是为打仗而生

上观新闻
2026-06-02 12:23:28
淮海战役惨败后,王凌云只身脱逃,隐姓埋名潜入深山娶了个村姑

淮海战役惨败后,王凌云只身脱逃,隐姓埋名潜入深山娶了个村姑

磊子讲史
2026-05-29 16:17:30
2026-06-02 15:03:00
侃故事的阿庆
侃故事的阿庆
几分钟看完一部影视剧,诙谐幽默的娓娓道来
955文章数 8607关注度
往期回顾 全部

科技要闻

烧掉千亿后,美团、阿里、京东谁先止血?

头条要闻

上海女童几乎没上过学 外公找来前女婿把女儿告上法庭

头条要闻

上海女童几乎没上过学 外公找来前女婿把女儿告上法庭

体育要闻

1米74的业余联赛替补,在英超踢中卫

娱乐要闻

奚梦瑶何猷君婚礼曝光 深情热吻甜蜜

财经要闻

锂电“资源墙”高筑 全球性长期博弈开始

汽车要闻

星途神秘新车轮廓曝光 又一款性能SUV要来了?

态度原创

健康
数码
家居
公开课
军事航空

干细胞临床研究向患者收费?别踩坑

数码要闻

华为nova 16系列发布:2999元起 全系配备后置红枫原色镜头

家居要闻

流线型轮廓 包容多元身形

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗媒体新发布最高领袖照片

无障碍浏览 进入关怀版