网易首页 > 网易号 > 正文 申请入驻

算力是伪命题,数据才是真瓶颈?

0
分享至



“给AI一本好书,胜过十本烂书。

2026年,一个令人不安的阴影笼罩着AI圈。

过去几个月,从硅谷到中关村,关于“Scaling Law是否已死”的讨论越来越多。曾经屡试不爽的“更大即更强”逻辑,似乎正在遭遇前所未有的挑战。人们开始质疑,大模型的“暴力美学”,是不是已经撞上了天花板?

与此同时,另一条暗线却在悄然生长:谷歌的Gemini Nano、苹果的设备端模型、以及国内面壁智能的MiniCPM系列——这些参数量只有1B到3B的“小参数模型”,正在以令人惊讶的表现,搅动着整个市场。

为什么连大模型都跑不动了,小参数模型反而在逆袭?

答案或许不在模型大小,而在一个被长期忽视的底层要素——数据。

就在这个节骨眼上,面壁智能做了一件让行业侧目的事:把自己的核心训练数据,开源了。

它可能是中国AI公司对“数据如何制造智能”这件事,最彻底的一次公开。

大模型正在被什么“卡脖子”?

要说清楚这次开源的意义,得先搞明白一个底层问题:大模型到底被什么卡住了?

过去两年,行业的共识是“算力决定一切”。谁买的GPU多,谁就能训出更强的模型。但现在,这个逻辑正在松动。

算力扩张的边际效益递减

一个残酷的事实正在浮出水面:参数翻倍,性能的提升幅度正在急剧收窄。

GPT-3到GPT-4的提升是惊人的,但从GPT-4到GPT-5,进步似乎不再那么“性感”了。这不是OpenAI一家的问题,而是整个大模型行业的“暴力美学”正在逼近它的物理和经济天花板。

你往炉子里加再多的柴,火焰也不会无限变高。这个道理,在大模型身上同样适用。

高质量数据加速枯竭

比算力更让人焦虑的,是数据。

研究机构预测:公开可用的高质量文本数据将在未来几年内基本耗尽。这不是危言耸听——互联网看似无穷无尽,但真正干净、准确、有逻辑、可训练的内容,远没有想象中那么多。

更糟糕的是,“垃圾进,垃圾出”,是大模型训练的残酷法则。喂给模型低质量的网络杂烩,它就会产出幻觉、偏见和毫无逻辑的胡言乱语。

在这个行业里,“量”不等于“质”,已经被越来越多的实践所验证。

端侧落地对“模型+高质量数据”提出苛刻要求。

还有一个被很多人忽略的现实,大模型根本跑不到终端设备上。

手机、PC、汽车——这些才是AI商业化的真正主战场。但它们的算力和功耗,注定了无法部署千亿、万亿参数的大模型。

于是出现了一个悖论:用户想要的是“足够聪明”的智能体验,但终端能承载的只有小参数模型。怎么办?

答案只有一个:给这些小参数模型喂“精粮”。用最高质量的数据,让1B参数的模型打出接近10B的效果。

这正是面壁智能一直在做的事。

面壁智能的“数据炼金术”
开源两大L3数据集意味着什么?

在AI行业,谈论“数据重要性”的公司很多,但真正把数据治理系统化、工程化、并且开源出来的,面壁智能是走在前面的那一个。

当大多数玩家还在比拼算力储备时,面壁智能已经意识到:模型架构趋同的时代,数据质量才是真正的分水岭。

为了解决数据的问题,面壁智能在今年2月,开源了一套叫做UltraData的数据分级治理体系。而本次发布并开源的两个L3数据集——Ultra‑FineWeb‑L3和UltraData‑SFT‑2605,正是在这套体系基础上产出的最新成果。

要理解这套体系为什么重要,得先理解一个被长期忽略的事实:不同训练阶段,对数据的需求是完全不同的。

预训练阶段,模型需要的是广泛的知识覆盖,这时候“量”很重要。但到了退火(即在预训练后期使用高质量数据对模型进行精细化调整,通常发生在学习率衰减阶段)和微调阶段,模型需要的是高密度的逻辑、推理和能力强化——这时候,“质”远比“量”重要。

传统的“一刀切”数据处理方式,满足不了这种差异化需求。

面壁智能的UltraData数据体系,正是为了解决这个问题而生。

核心理念:L0-L4,告别“大锅饭”式数据处理

他们把数据分成了五个等级,每一级对应不同的处理标准和应用场景:

·L0(原始数据):从互联网扒下来的“原矿”,含大量杂质,不直接用于训练

·L1(过滤数据):经过基础清洗、去重后的“粗矿”,格式规范但质量参差不齐

·L2(精筛数据):通过模型打分筛选出的“精矿”,信息密度高、领域明确

·L3(合成增强数据):经过改写、合成、人工标注的“高纯度燃料”——这是本次开源的核心

·L4(编排数据):可直接用于RAG等应用的成品数据



数据分级治理体系示意图

这套体系的核心理念其实很朴素——不是所有数据都配得上“训练”二字,更不是所有数据都该在同一口锅里乱炖。

但这套体系真正厉害的地方,除了分级本身,还有它背后的方法论。

面壁智能的L0-L4不是一套固定的“菜谱”,而是一套模型驱动的动态评估机制。什么意思?就是在模型训练过程中,根据模型反馈实时调整数据的质量标准和配比策略。模型会“告诉”你,什么样的数据对它更有价值。

这意味着,这套体系是活的、会进化的——它不是一个静态的数据集,而是一套可持续优化的数据工程流水线。

而且,面壁智能已经用实验证明了这套方法的有效性:模型性能随着数据质量从L1向L3的逐级提升而持续增强。他们在英文网页、中文网页、数学、代码四个领域上进行了系统性实验,结果一致指向同一个结论——数据质量,是模型能力的决定性变量。

理论说完了,那这套方法论在实际中能产出什么样的成果?面壁智能开源的两个L3数据集,足以说明问题

开源行动:两大L3数据集,把“秘方”公之于众

这次,面壁智能开源的两个高质量数据集,相当于给业界打了一个样。

第一个数据集:Ultra‑FineWeb‑L3

这是全球最大开源规模的中文预训练合成数据,总量达到600B Tokens——其中中文200B+,英文400B+。

600B Tokens是什么概念?相当于几十万本《红楼梦》的体量。

但规模并不是它最值得关注的地方,真正有价值的是这个数据集的生成方式。

传统的数据集构建,基本上是“爬虫扒下来→简单清洗→打包发布”的三部曲。这种方式得到的数据,仍有三个问题:信号单一(主要是陈述性叙述)、风格集中(缺少教材、百科等多样格式)、知识稀释(有价值的信息被冗余内容淹没)。

这种L2级别的网页数据,模型只能“读懂”,但不一定“好学”。就像给一个学生一堆杂乱的参考资料,他翻完了,但未必能真正掌握其中的知识脉络。

面壁智能的做法完全不同。

他们把L2级别的网页数据,也就是已经经过基础筛选、具备一定质量的网页文本,通过QA生成、多风格改写等技术手段,进一步加工成了L3级别的“高可学习性”数据。比如,通过QA生成把陈述性的网页文档,转化成“原文+多组问答对”的结构化样本;通过多风格改写把同一来源的网页内容,改写成多种表达风格——百科风格、教材风格、博客风格、摘要风格——同时总结和重组核心知识点。

这个过程,本质上是在做一件事:把“可读”的网页,变成模型“好学”的教材。

同样的文本内容,经过L3级别的重构,模型从中能学到的信息密度完全不是一个量级。实验数据印证了这一点:在100B Token的训练预算下,使用Ultra-FineWeb-L3的模型,训练后期平均得分持续领先其他数据集。这也正是MiniCPM5-1B把它用在退火阶段的原因。



第二个数据集:UltraData‑SFT‑2605

如果说预训练是让模型博览群书,那SFT(监督微调)就是给它一本附带详细解题步骤的习题集。

面壁智能这次开源的SFT数据集,有几个值得说道的地方:

·千万级别:最终产出的数据集,样本量超过1500万,规模超大多数开源SFT数据集,并且覆盖数学、代码、知识、中文通用、指令遵循、多语言数学、多语言知识等七大核心领域。

·含推理链:不只是问题和答案,还包括完整的“思考过程”。

·深思考/非思考全覆盖:这个数据集既有需要多步推理的复杂问题,也有快速应答的简单样本。这相当于同时训练模型的“深度思考”能力和“快速反应”能力。

这正是MiniCPM5-1B能够以1B参数逼近大模型推理能力的核心秘密——训练它的“习题集”质量足够高、思路足够清晰、覆盖足够全面。

面壁智能这次开源,还有一个值得特别强调的特点——全流程透明化。他们不仅公开了最终的数据集,还公开了从query筛选、answer质量校验,到单一数据验证的完整治理流程。

而且,这些数据与主流评测集做了严格去重——这意味着,任何使用这些数据训练的模型,其评测成绩都不会因为“数据污染”而虚高。

行业内关于“数据污染”、“评测刷榜”的争议从来就没停过,面壁智能的做法,这在行业内卷评测刷榜的当下,是一种难得的诚实和自信。

好了,数据集开源了,治理方法也公开了。那这套东西到底能给行业带来什么价值?



下一个十年的胜负手
谁更懂数据,谁就能赢得市场

开源模型权重在业界其实比较普遍了,但开源训练数据则并不多见。

这是一种更高维度的开放,而这种开放也将在行业当中泛起“涟漪”,它的影响,既包括端侧设备这种应用层,也包括整个AI开源生态的格局。

对端侧智能的“加速效应”

L3级数据的最大受益者,是端侧设备。

高质量、高密度的训练数据,可以直接转化为更低的算力需求和内存占用。

端侧厂商——无论是做手机的、做PC的、还是做汽车的——如果想要复现MiniCPM5-1B级别的能力,现在可以直接使用UltraData。他们不需要重复投入巨额成本做网页合成、数据清洗和SFT数据构建。

这相当于面壁智能替整个行业踩了一遍坑,然后把“通关攻略”免费发给了所有人。

高质量数据意味着更少的训练token即可达到同样效果,这对手机、PC、汽车这些算力受限的场景来说,意义重大,比如:

·手机本地就能处理百页文档、进行深度推理,无需联网上传

·PC端的代码补全和数据分析能力,可能达到接近云端大模型的水平

·车载助手真正能理解复杂的语音指令,而不是只会做关键词匹配

可以说,UltraData这类数据集的开放,可能是端侧智能从“能用”到“好用”的关键催化剂。



开源生态的“第二层”革命

过去两年,开源社区的主战场在“模型权重”。深度求索开源DeepSeek、Meta开源Llama,阿里开源Qwen——这些无疑推动了整个行业的民主化。

但面壁智能这次的开源,指向了另一个维度——数据层。

如果说开源模型是给社区“鱼”,那开源数据则是教社区“如何养鱼、如何钓鱼”。当一个高性能模型背后的训练数据被公开,整个社区的研究和复现能力将可能得到显著提升。

这可能会引领一种新的协作模式:不只是共享模型,更共享“制造模型的方法论”。

当你把一个高性能模型背后“数据是如何被治理、筛选、合成与验证的”全过程公开,社区就不再只是被动地使用模型,而是可以真正参与到“如何制造智能”的讨论和优化中来——这相当于公开了“可口可乐的配方”。

写在最后

每一次技术的重大更迭,本质上都是一场关于“稀缺资源”的重新定义。

算力时代,赢家是买得起最多GPU的人。但算力可以堆,芯片可以造,供应链可以重建——它是商品,不是壁垒。

但数据不同。

高质量、可训练、有逻辑的数据,是人类过去几十年在互联网上留下的有限痕迹,它是不可再生的。而AI用短短三四年,就把其中最精华的部分“榨”干了。

当表层富矿耗尽,剩下的只有深埋地下的贫矿。谁能在贫矿中提炼出更高的纯度,谁就能定义下一个时代。

面壁智能的UltraData体系,就是一套“精炼工艺”。L0到L4,从矿石到高纯度燃料——他们把数据当作需要深度加工的原材料,而不是可以直接扔进炉子的柴火。

更耐人寻味的是,他们把这套工艺开源了。

历史上,每一次关键技术的开源,都是一次权力的转移。Linux开源,微软的垄断被撬开;安卓开源,移动互联网的入口不再属于任何一家公司。

当一家公司选择开源自己的“数据秘方”,它在做的是同一件事:重新定义行业的起跑线。

而面壁智能之所以能做这件事,不是偶然。

脱胎于清华NLP实验室的这支团队,亲历了中国大模型从无到有的全过程。早在2020年12月,其团队就发布了国内首个中文大模型CPM-1,并成为后来中国奠基性大模型“悟道”系列的首发主力阵容。

面壁智能,与DeepSeek并称“国内最会做架构改进的两家公司”。但跟DeepSeek不同,面壁智能的战场在端侧:在功耗、散热、访存带宽的严苛约束下追求极致效率。从自研训练框架到量化技术,从端侧推理引擎到开源数据,面壁智能可能是国内少数具备端侧AI全栈能力的公司。其提出的密度定律登上了《 Nature 》子刊封面,端侧多模态成果登上了《 Nature 》子刊,成为国内大模型公司获得的顶级学术认可。而端侧智能,对数据质量有着更高的要求。

当高质量数据成为稀缺资源,数据治理能力则将成为另一个竞争壁垒。

谁能从有限的数据中榨取出更高的训练价值?谁能建立更高效的数据分级和合成流水线?谁能用更低成本让模型变得更聪明?

这些问题,将定义下一代AI公司的胜负。

数据科学,正在从AI产业的“辅助角色”走向“舞台中央”。那些愿意把“秘方”公之于众、带着整个行业一起向前的人,可能正站在下一个时代的起点。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
有一种后悔叫买了“高层的2楼”,不好住卖不掉,彻底成为不动产

有一种后悔叫买了“高层的2楼”,不好住卖不掉,彻底成为不动产

装修秀
2026-04-23 11:15:03
夏补钾,不疲惫,建议大家:夏天多吃这3种“补钾高手”,精神好

夏补钾,不疲惫,建议大家:夏天多吃这3种“补钾高手”,精神好

阿龙美食记
2026-05-31 20:23:07
全新一代问界 M9 上市:国产豪华车标杆的自我刷新

全新一代问界 M9 上市:国产豪华车标杆的自我刷新

晚点LatePost
2026-05-29 09:50:28
女员工嘲讽顾客“穷逛”后续:本人火到香港已社死,商场也被坑惨

女员工嘲讽顾客“穷逛”后续:本人火到香港已社死,商场也被坑惨

哄动一时啊
2026-06-01 19:30:38
在与俄领导人会面后,俄罗斯寡头们“自愿”为战争捐款2200亿卢布

在与俄领导人会面后,俄罗斯寡头们“自愿”为战争捐款2200亿卢布

山河路口
2026-06-02 14:04:22
全线失守!克里米亚制空权被乌军强势夺走了

全线失守!克里米亚制空权被乌军强势夺走了

知兵
2026-06-02 08:00:16
阿迪达斯发进城办事T恤,客服回应

阿迪达斯发进城办事T恤,客服回应

第一财经资讯
2026-06-02 15:07:57
伦敦世乒赛夺冠后,王皓宣布:王楚钦为国乒男队队长,梁靖崑为副队长

伦敦世乒赛夺冠后,王皓宣布:王楚钦为国乒男队队长,梁靖崑为副队长

环球网资讯
2026-06-02 14:32:33
稻城亚丁怎么就“跪”了?!

稻城亚丁怎么就“跪”了?!

行者殷涛
2026-06-01 18:00:30
蒋中正亲笔书写的任命状冲上热议!书法的好坏,永远意见不一?

蒋中正亲笔书写的任命状冲上热议!书法的好坏,永远意见不一?

书画相约
2026-06-01 07:23:51
师父来了!文班亚马的靠山,真TM硬啊!

师父来了!文班亚马的靠山,真TM硬啊!

左右为篮
2026-06-02 09:06:29
神级补强!魔笛挂靴赴皇马辅佐穆帅,专治银河战舰更衣室内乱!

神级补强!魔笛挂靴赴皇马辅佐穆帅,专治银河战舰更衣室内乱!

田先生篮球
2026-06-02 09:23:02
太讽刺了!国内的职场环境,不像公司,像朝廷,让人一言难尽…

太讽刺了!国内的职场环境,不像公司,像朝廷,让人一言难尽…

慧翔百科
2026-06-02 08:40:47
一男子中奖10万,请家人吃700块钱海鲜庆祝,结账时发现帐单高达280万,男子:差点倾家荡产

一男子中奖10万,请家人吃700块钱海鲜庆祝,结账时发现帐单高达280万,男子:差点倾家荡产

背包旅行
2026-06-02 15:18:47
好口感+高营养!九阳K7Pro破壁豆浆机复刻太空豆浆的安心密码

好口感+高营养!九阳K7Pro破壁豆浆机复刻太空豆浆的安心密码

中国家电网
2026-06-02 15:20:56
杭州限狗令正式落地,养狗人月花上千,凭什么让不养狗的人买单?

杭州限狗令正式落地,养狗人月花上千,凭什么让不养狗的人买单?

奇思妙想草叶君
2026-06-01 19:40:34
“崩老头”全链调查:1500元可购全套工具,视频、语音均能伪造身份

“崩老头”全链调查:1500元可购全套工具,视频、语音均能伪造身份

大象新闻
2026-06-01 16:54:53
一位母亲没能送出的儿童节礼物:离婚诉讼期间生父当街抢走两岁孩子,被拘留15日仍不送还

一位母亲没能送出的儿童节礼物:离婚诉讼期间生父当街抢走两岁孩子,被拘留15日仍不送还

红星新闻
2026-06-02 00:50:25
网曝一英国网红打赌,24小时拿下中国女生,结果让国人直呼丢人

网曝一英国网红打赌,24小时拿下中国女生,结果让国人直呼丢人

小徐讲八卦
2026-06-02 09:17:26
猛批华为“韬定律”是学术造假,杨学志到底什么来头?

猛批华为“韬定律”是学术造假,杨学志到底什么来头?

数字财经智库
2026-06-02 11:36:16
2026-06-02 17:07:00
数据猿DataYuan incentive-icons
数据猿DataYuan
数据智能产业创新服务媒体
2758文章数 610关注度
往期回顾 全部

科技要闻

烧掉千亿后,美团、阿里、京东谁先止血?

头条要闻

男子离婚当晚杀害前妻逃亡17年被判死缓 检方抗诉成功

头条要闻

男子离婚当晚杀害前妻逃亡17年被判死缓 检方抗诉成功

体育要闻

1米74的业余联赛替补,在英超踢中卫

娱乐要闻

奚梦瑶何猷君补办婚礼超幸福

财经要闻

锂电“资源墙”高筑 全球性长期博弈开始

汽车要闻

星途神秘新车轮廓曝光 又一款性能SUV要来了?

态度原创

旅游
游戏
数码
手机
艺术

旅游要闻

安徽六安:“非遗+”赋能全域旅游

刺客信条:侠隐独占手游无PC版!中国刺客不配3A画质?

数码要闻

华为nova 16系列发布:2999元起 全系配备后置红枫原色镜头

手机要闻

双版本齐发!vivo S60系列中端影像旗舰新标杆

艺术要闻

周杰伦花 1.36 亿拍下这幅画

无障碍浏览 进入关怀版