数据瓶颈：AI下一站的关键|算法|轨迹|实验|序列|预训练|底层逻辑

分享至

文 | 大湾区人工智能应用研究院

现代主流 AI 基本是基于机器学习和深度学习模型，其机制是从数据中“学习”模式和规律。没有数据，模型无法训练，这些 AI 的智能也就无从谈起，因此数据常被比喻为 AI 的燃料或血液。

进入大模型时代，基于自监督学习的预训练范式显著降低了数据利用中的人工标注依赖，使模型能够以低成本、高效率学习大规模数据，这促进了数据、模型参数与算力三者之间的协同快速发展，人们据此总结出著名的规模定律（Scaling Law）：大语言模型的性能与模型参数量、训练数据量、计算量之间存在平滑的幂律关系，通俗的说就是模型越大、数据越多、算力越强，模型的性能越好。

AI发展面临数据挑战

但下一步AI发展面临巨大的数据挑战，被讨论最多的是“数据枯竭”：原因不难理解，某种程度上AI训练利用的是人类积累的“库存”数据：预训练数据中占重要比例的互联网数据是过去数十年人类在网上生产、数字化并沉淀的信息，例如维基百科，虽然数据量占比不大，但在大模型训练中提供高质量数据，它是数千人20多年辛苦维护的信息成果；而训练语料中的一些图书和经典文献则代表了人类几千年的积累。虽然人类社会每年也会新增大量的数据：新闻、新书、新论文等，但相对线性增长的高质量数据很难匹配如今AI的超线性发展预期。根据独立研究机构Epoch AI的最新测算，语言模型的训练将在2026年到2032年间耗尽人类公开的文本数据。

AI的发展面临两个维度的数据挑战：一个维度是是否有足够多的数据：数据的数量与覆盖度；另一个维度是数据的质量问题：真实性、标注水平、结构化程度等。

AI开发和应用的各个环节、场景都面对这两个维度的数据挑战，预训练阶段面临前面谈到的数据枯竭和互联网数据质量问题；后训练和对齐面临高质量标注数据的短缺；基座模型的行业微调和应用面对专业数据的极端稀缺、噪声大的问题；多模态模型训练面临高质量配对（如图文对）数据不足；具身模型则更是面对真实数据成本极高的发展制约。

如何应对AI发展中的这些数据挑战？大体有三个方向：1）对人类社会积累的数据和人脑中的知识进行更深层的挖掘和治理， 2）依托机器智挖掘和新生数据，3）在算法与模型范式上进行创新以减少对数据的依赖。这里我们主要讨论前两个方向。

数据扩增方法一：收集和整理散落数据

对于人类社会积累的数据，所谓“数据枯竭”更多反映的是低垂的果实快被摘完了：公开的、未被产权保护的文本化数据确实在被大模型快速消耗，但人类社会和人脑中仍有大量尚未开发的数据与知识空间。

首先，各行各业有海量数据并不公开，很多高价值数据掌握在平台、企业、专业机构、设备端和工作流系统中。比如电商平台的交易、评价、用户画像等；医疗领域的病历、影像、诊断记录等；制造业的工艺参数、质检标准、故障记录等；科研领域的实验数据、过程数据、未发表的负面实验结果等。这些数据往往涉及隐私、产权、商业机密或监管合规，以私有、分散的“数据孤岛”形式存在。它们在具体应用中可以通过 RAG（检索增强生成）等方式发挥局部价值，但很难汇聚成可持续提升通用智能的大规模训练语料。以上大部分场景相对容易理解，补充一个容易被忽略的例子：科学界长期存在“发表偏差”——成功的实验才会发表，失败的实验被丢弃。但对 AI 而言，失败案例和成功案例都具有学习价值，大量未被共享的失败实验，构成了一座尚未开采的知识矿山。

AI 专家已经在探索一些技术手段来释放这些数据在训练上的潜力。典型做法包括：通过联邦学习在不移动原始数据的前提下进行联合训练；以及利用差分隐私等技术，在数学上保证个体信息不可被还原，为跨机构数据协作提供安全边界。这类手段解决的是“在不泄露隐私的前提下，如何让数据参与训练”的问题。

但要让这些数据在 AI 发展中发挥最大价值，技术之外还需要制度与机制的设计。有两条路径可以探索：一条是自下而上的、市场化与利益激励导向的，例如数据交易市场、数据信托、数据要素入表等，让数据拥有者在合规前提下有动力开放数据，分享增值收益；另一条是自上而下的，由政府或行业监管者在涉及国计民生、公共安全、基础科研等领域做统一安排，通过统一标准、基础平台和公共数据集建设，加快数据从“碎片资源”变成“公共基础设施”的进程。技术手段提供安全阀，机制设计提供流动性和可持续激励，两者缺一不可。

其次，人类大脑中还有不少尚未数据化的认知资产，其中有两类对 AI 的能力上限影响尤为关键：复杂决策背后的思维轨迹，以及专家的隐性知识。这些认知如果不被数据化，AI 就难以学习和复制，未来有很大的挖掘空间。

从思维轨迹看，很多高价值任务（企业家的重大决策、医生对疑难杂症的诊断、工程师处理罕见故障等），人类通常会记录“做了什么”和“结果如何”，而缺乏“这么做背后的思考、还考虑过哪些备选方案”这种详细的思维轨迹数据。这就像只存下数学题的题目和答案，却没有列出中间的解题步骤。对于 AI 来说，缺乏这些“思维链条”数据，就很难真正学到可迁移的推理能力，只能在大量输入输出对上做模式拟合，这也是为什么过去一年多加入“思维链”能力的模型往往性能跃升，但目前可用的高质量思维轨迹数据依然非常有限。

从隐性知识看，人类认知中有大量难以清晰描述的部分，例如资深专家的直觉、情境化的感知、具身的“肌肉记忆”、团队协作中的默契规则等。隐性知识放到AI语境下就是难以完整标注，难以形成训练样本的信息，AI就难以利用。思维轨迹和隐性知识的系统性数据化虽然成本高、难度大，但从信息密度和独特性来看，是一座挖掘难度大但价值极高的金矿，很可能成为未来 AI 能力持续提升的关键来源之一。

第三，对人类已经积累的知识进行治理、提高质量同样至关重要。AI 训练领域常说“垃圾进，垃圾出”，意思是数据质量在很大程度上决定了模型能力，因为模型本身缺乏自动鉴别真伪和重要性的能力，很容易从低质量数据中学到错误模式。互联网上的信息质量良莠不齐，充满错误、虚假、过时、片面和重复内容，直接用于训练就会在输出中放大幻觉与偏见。而在AI时代，围绕“被模型引用和采样权”展开的过度甚至恶意 GEO（生成式引擎优化），又给知识污染增加了新的入口。

因此，围绕提升数据和知识质量本身，可以展开一整套工作：底层是常规的数据清洗、去重、纠错和噪声过滤；再往上一层，是为重要知识建立溯源和版本控制机制，明确来源、更新时间和责任主体，并通过知识图谱等方式统一概念、结构化关系；在高价值专业领域，则需要通过精细标注工程和领域专家参与，构建“少而精”的高置信度数据集，作为模型校准与评估的基准。只有在人类知识本身经历了这样一轮“面向 AI 的治理和提纯”之后，后续的模型训练与推理才能真正站在一个更坚实、更干净的知识地基上，而不是踩在一团混杂的信息泥沙里。

数据扩增方法二：利用机器智能

在想尽办法把人类社会的数据积累、人脑的认知榨取之外，另一个思路是利用AI自身体系来挖掘和产生数据。

首先是合成数据，合成数据有多种生成方式，可以基于规则/模版、统计分布、机器学习模型和仿真环境等生成，我们重点讨论在现在AI训练中扮演更重要角色的后两种。从大模型生成的数据为什么可以训练新的大模型？比较好理解的是用教师模型的高质量输出训练学生模型，这就是所谓的“知识蒸馏”；即便对于前沿大模型的训练，基于上一代模型的合成数据在一些情况下依然可以发挥重要作用。

比如同一道数学题，让模型回答100次，我们只取回答正确的20次作为数据来训练新的模型，本质上就是在用模型自身的“高质量子集”来放大有效样本。一方面，通过自动化生成和筛选，我们可以从原本稀缺的高质量人类解题记录，扩展出数量更多、风格多样但逻辑正确的解题轨迹；另一方面，合成数据还可以刻意在难度更高、分布更稀疏的题型上“过采样”，补齐真实数据里的薄弱环节。

另一个例子是智能驾驶训练借助合成数据来生成极其罕见的事故，从现实路测中收集长尾事故的效率很低，但基于现实数据，我们可以提取驾驶中的要素：场景类型（十字路口、高速、城市街道、停车场）、天气（晴、雨、雾、雪、冰）、道路条件（干爽、湿滑、结冰、碎石）、时间（白天、夜晚、黄昏）等，用这些要素构成极端组合在仿真环境中训练。

但从这两个例子也能看出，在这类合成数据中AI并不能凭空创造出全新的知识。第一个例子依赖外部验证器（标准答案）从模型能力的上限而非均值中提取训练样本，优化的是数据分布；第二个例子则是对已知元素的重组与放大。严格来说，在这里AI没有真正拓展数据边界，而是把人类社会贡献的原始数据当作矿石，进行提纯、配比和加工，做成更适合训练的“数据合金”，在既有知识的边界之内榨出更多价值。

其次是让AI通过强化学习去拓展数据（也可以看作广义的合成数据）。与基于人类样本的合成不同，这里真正脱离了既有的人类社会数据，让模型在与环境的连续交互中主动产出新的轨迹数据、探索尚未有人涉足的策略空间。强化学习的核心在于：通过“状态‑动作‑反馈”的循环，让智能体在试错中逐步学到高回报的行为策略，而每一条行为序列本身就是在产生数据。

最经典的例子是 AlphaZero。在围棋、国际象棋等确定性棋类上，它几乎不需要人类棋谱，只依赖规则、随机起步和自对弈，通过数以亿计的自博弈局面和胜负反馈，不断更新策略网络和价值网络，超越了所有人类棋手和传统棋力引擎。这说明，在规则明确、反馈清晰的封闭环境中，AI 完全可以“从零开始”通过自生成的数据逼近甚至突破人类经验上限。

在开放任务上，一个重要进展是以 DeepSeek‑R1 为代表的“思维链强化学习”推理模型。其思路是：先让模型在数学、编程等可自动验证正确性的任务上自由生成思维链，然后根据最终答案是否正确、思维链是否合理给予奖励或惩罚，驱动模型不断调整自己的推理策略。与传统依赖人工标注的链式监督不同，这种做法不预先准备庞大的人类思维链数据集，而是让模型在训练过程中持续自生成、自筛选推理轨迹，相当于搭建了一个“自动产出高质量思维轨迹”的新数据工厂。

更具想象空间的是具身智能领域。自动驾驶和机器人训练中已经广泛使用仿真环境，通过大规模仿真驾驶、仿真抓取与装配等方式，用强化学习或相关方法生成远超真实道路和工厂场景数量的交互数据，覆盖各类长尾风险场景和罕见工况。在真实世界中，机器人通过长期具身训练，同样会不断产生传感器读数、动作序列和任务反馈，这些都是未来可用的高价值新生数据。

第三，还有一个探索方向是发展 AI 的主动学习。与被动等待人类喂数据不同，主动学习的核心思想是“模型自己决定学什么、向谁问什么”。在数据标注昂贵的场景下，模型可以根据当前的不确定度或潜在信息增益，挑选最有价值的样本向人类请求标注，或者在仿真环境中重点探索那些最能减少不确定性的状态和任务。这样一来，在同样的标注预算下，模型获得的是信息密度最高的一小撮样本，而不是平均分布在所有样本上的“薄薄一层监督”。从更长远的视角看，主动学习、强化学习和具身智能结合，有望让 AI 从“被动消费现成数据”的角色，转变为“主动规划学习路径、主动创造关键数据”的学习者（这其实也是挖掘人脑认知的做法）。

AI时代，数据领域有巨大的机会

AI 下一阶段的发展，很大程度上取决于谁能在数据上做出文章，这里至少有两个原因。第一，如前所述，无论规模还是质量，数据都已经遇到新的天花板。能缓解这些瓶颈、提升数据有效供给的方案，都直接对应着巨大的经济价值。特别是在前沿模型能力趋同的背景下，AI 竞争的焦点很可能转向“谁掌握了更干净、更稀缺、更难复制的数据”。

第二，在 AI 的三要素中，算力和基础模型的产业门槛都极高：提到算力我们会想到英伟达、AMD、寒武纪等芯片厂商，提到模型会想到 OpenAI、DeepSeek 等头部实验室和平台。相比之下，数据更像一个能容纳众多参与者的生态：它高度分散在各个垂直行业和场景中，这意味着深耕不同行业的龙头企业、手握独特数据切口的中小公司甚至初创团队，都有机会通过建设高质量数据资产、数据产品和数据服务，在 AI 时代形成自己的护城河，而不必正面卷算力和通用大模型。

除了企业可以在数据上发掘机会，政府也需要扮演关键角色。前文已经区分了自上而下和自下而上的两种数据治理思路：在适合自上而下的领域，政府应尽快搭建共享平台和制度框架，让这些数据更好地用于 AI 训练和公共服务；在适合市场机制的领域，则应尽量给创新留出空间，避免过度集中或一刀切管制。

从粗略逻辑看，涉及国家安全、公共利益和基础服务的数据，更适合由政府主导来保障秩序和可用性，例如气象数据、地理信息数据（如测绘成果）、人口基础信息、宏观经济统计、社会保障等基础公共数据。医疗健康、交通等“民生数据”，由于外部性强、单个主体难以内部化全部风险，同样需要较强的自上而下机制——包括统一标准、公共数据基础设施、跨部门数据共享规则以及严格的隐私和安全边界。相比之下，那些更加偏向商业竞争的领域（如电商行为数据、消费金融数据、企业内部运营数据等），则更应以市场化方式去发现数据价值、优化配置，政府只需做好监管，而不是直接替代市场。

就中国而言，大语言模型训练对互联网数据高度依赖，但受限于互联网发展起步较晚等因素，中文互联网数据的规模和质量整体上远逊于英文互联网世界（好在互联网数据大部分是公开数据，英文的我们也可以用）。不过，中国在其他类型数据上具有潜在结构性优势：庞大的人口与市场带来丰富的消费与场景数据，完整的工业体系和制造链条沉淀了大量工业与物联网数据，较为先进的智慧城市和政务数字化基础设施又形成了丰富的城市运行与政务数据。如果能通过完善数据法规、明晰产权和收益分配、建设高质量公共数据平台，同时鼓励行业主体围绕具体场景打造高质量数据产品，数据完全有可能成为推动本土AI发展和取得竞争优势的重要支点。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.