10K数据打败1M，北大开源LLM数据准备系统DataFlow|算子|代码|sql|dataflow

10K数据打败1M，北大开源LLM数据准备系统DataFlow

2026-01-09 08:26:02　来源: 将门创投

北京举报

分享至

“数据量越大，模型越好”这条铁律，正在悄悄失效。

当 GPT-4 把 1.2 T token 啃到吐、当 MoE 模型把 20 万亿参数卷到飞起，大家突然发现：真正卡脖子的不是算力，也不是参数，而是——高质量数据从哪儿来？

近期，北大联合多个团队给出一套新答案：DataFlow —— 一个把 LLM“数据准备”做成流水线的系统。

论文标题： DataFlow: An LLM-Driven Framework for Unified Data Preparation and Workflow Automation in the Era of Data-Centric AI 论文链接：（ of the Hugging Face daily paper） https://arxiv.org/abs/2512.16676 仓库链接：（2k star） https://github.com/OpenDCAI/DataFlow/

一、研究动机：数据准备的“三宗罪”

繁琐脚本：做预训练要写 20 个去重脚本，做 SFT 再写 15 个清洗脚本，每条管线都要“重造轮子”。
复现黑洞：论文里一句“我们采用公开数据”背后，可能是 100 行未公开预处理代码，别人永远跑不出那条曲线。
人力天花板：指令微调、思维链、工具调用……任务越精，越依赖昂贵的人类标注。一旦场景冷门（如罕见病问诊、多跳法律推理），直接“无标可用”。

行业急需一套“像 PyTorch 搭模型一样搭数据”的工业级框架——DataFlow 因此诞生。

二、方法：把“数据工程”拆成 200 块积木 2.1 核心抽象：存储 / 算子 / 模板 / 管线四层 API

层级

类比 PyTorch

DataFlow 对应

作用

存储

tensor

DataFlowStorage

统一表格视图，屏蔽 JSON/Parquet/SQL 差异

算子

nn.Module

BaseOperator

单步变换，支持 LLM 驱动或规则驱动

模板

nn.Parameter

PromptTemplate

把 prompt 做成可复用、可插拔的“零件”

管线

nn.Sequential

PipelineABC

用 PyTorch 风格 forward() 组装算子

任何数据准备流程，都能被拆成“读→transform→写”三段，然后像搭积木一样重新组合。

2.2 算子分类：近 200 个官方算子

功能

命名后缀

例子

典型用途

生成

Generator

MathProblemGenerator

从 0 到 1 合成新样本

评估

Evaluator

CodeExecutionEvaluator

给样本打质量分

过滤

Filter

ToxicityFilter

按分数/规则剪枝

精炼

Refiner

CoTRefiner

不改样本数，只改字段内容

所有算子共享同一套“键值契约”，无需改代码，就能把数学算子直接复用到代码领域，只需换 prompt 模板。

2.3 DataFlow-Agent

不想写代码？直接甩给 Agent 一句话：

“我有一份 CSV 包含股票新闻，帮我生成 5 K 条 Text-to-SQL 样本，要带 CoT 推理，难度分三级。”

Agent 内部基于 LangGraph 多智能体协作：

① 意图拆解 → ② 算子检索 → ③ 缺失算子合成 → ④ 拓扑排序 → ⑤ 沙箱验证 → ⑥ 输出可执行 Python 文件。

平均 80 s 产出一条可用管线，人类只需做最后 5% 的微调。

三、实验：10 K 如何打赢 1 M？

DataFlow 在文本、数学推理、代码、Text-to-SQL、Agentic RAG、知识抽取等关键场景中进行了系统实验，结果一致表明：用 DataFlow 生成的数据训练模型，性能全面超越现有主流基线，包括人工标注数据和大规模合成数据集。

3.1 数学推理：+3 分轻松拿捏

在 MATH、GSM8K、AIME 等高难度数学基准上，DataFlow 合成的 10K 数据，比 Open-R1、Synthetic-1 等 SOTA 合成数据高出 1–3 个百分点。
仅用 10K 样本 fine-tune Qwen2.5-32B，2 个 epoch 就达到 55.7 平均分，超越所有对比方法。

3.2 代码生成：平均提升 +7%

在 HumanEval、LiveCodeBench 等四大代码评测中，DataFlow 生成的指令数据带来 7% 以上的平均性能提升。
即使只用 1K 样本，也已优于 Code Alpaca 和带执行过滤的 Self-OSS 数据集。

3.3 Text-to-SQL：小数据，大胜出

用不到 9 万条 DataFlow 生成的 Text-to-SQL 数据训练 Qwen2.5-Coder-7B，在 EHRSQL 上执行准确率暴涨 31.8%（24.3 → 56.1）！
仅用 5 万条，就超越 SynSQL（50K）；9 万条性能媲美 SynSQL 的 250 万条，数据效率提升近 30 倍！

3.4 多跳问答（Agentic RAG）：合成数据干翻人工标注

在 HotpotQA、Musique 等多跳 QA 任务上，完全由 LLM 合成的 DataFlow-AgenticRAG-10K，在跨数据集泛化（OOD）上全面匹敌甚至超越人工构建的数据集。
在 2Wiki 和 Musique 排除本域测试后，分别高出 2.6 和 1.2 个百分点。

3.5 医疗知识抽取：SFT > RAG + CoT

在 PubMedQA、Covert 等医疗 QA 任务中，用 DataFlow 清洗+合成的医学 QA 对训练模型，比零样本 CoT 提升 15–20 个点，比 RAG 提升 10–50 个点。
证明：结构化高质量合成数据 > 复杂推理提示 + 外部检索。

四、结语：DataFlow 给社区留下了什么？ 4.1 三大贡献

系统层面——首个把“数据准备”抽象为可复用、可组合、可调试的通用框架，像搭模型一样搭管线。
算法层面——提出“生成-评估-过滤-精炼”四段式范式，让合成数据从‘能用’走向‘好用’。
社区层面——开源 200 算子 + 10 K 高质量多域数据集 + CLI 脚手架，把“数据黑箱”变成人人可 PR 的玩具积木。

4.2 未来展望

模态扩充：DataFlow-Agent、DataFlex、DataFlow-MM等系列工具已在路上，下一站把表格、图结构、图文混排一起“流水线”。
领域深耕：DataFlow-AI4S（科学计算）、DataFlow-Industry（工业制造）预研启动，让合成数据走进反应堆、走进晶圆厂。

如果说过去三年，大模型的“摩尔定律”发生在参数维度；那么接下来的三年，“数据摩尔定律”将由 DataFlow 这样的框架来书写—— 更少的数据、更高的质量、更快的迭代、人人可复现。

欢迎大家关注使用DCAI的开源项目并与我们进行技术交流，如果觉得好用也请帮GitHub仓库点一个star~ 论文链接： https://arxiv.org/abs/2512.16676 （ of the Hugging Face daily paper）仓库链接： https://github.com/OpenDCAI/DataFlow/ （2k star）

llustration From IconScout By IconScout Store

-The End-

本周上新！

扫码观看！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线700+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

michellechang@thejiangmen.com

或添加工作人员微信（michelle333_）投稿，沟通投稿详情

关于我“门”

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.