“数据量越大,模型越好”这条铁律,正在悄悄失效。
当 GPT-4 把 1.2 T token 啃到吐、当 MoE 模型把 20 万亿参数卷到飞起,大家突然发现:真正卡脖子的不是算力,也不是参数,而是——高质量数据从哪儿来?
近期,北大联合多个团队给出一套新答案:DataFlow —— 一个把 LLM“数据准备”做成流水线的系统。
![]()
![]()
论文标题: DataFlow: An LLM-Driven Framework for Unified Data Preparation and Workflow Automation in the Era of Data-Centric AI 论文链接:( of the Hugging Face daily paper) https://arxiv.org/abs/2512.16676 仓库链接:(2k star) https://github.com/OpenDCAI/DataFlow/一、研究动机:数据准备的“三宗罪”
繁琐脚本:做预训练要写 20 个去重脚本,做 SFT 再写 15 个清洗脚本,每条管线都要“重造轮子”。
复现黑洞:论文里一句“我们采用公开数据”背后,可能是 100 行未公开预处理代码,别人永远跑不出那条曲线。
人力天花板:指令微调、思维链、工具调用……任务越精,越依赖昂贵的人类标注。一旦场景冷门(如罕见病问诊、多跳法律推理),直接“无标可用”。
行业急需一套“像 PyTorch 搭模型一样搭数据”的工业级框架——DataFlow 因此诞生。
二、方法:把“数据工程”拆成 200 块积木 2.1 核心抽象:存储 / 算子 / 模板 / 管线 四层 API![]()
层级
类比 PyTorch
DataFlow 对应
作用
存储
tensor
DataFlowStorage
统一表格视图,屏蔽 JSON/Parquet/SQL 差异
算子
nn.Module
BaseOperator
单步变换,支持 LLM 驱动或规则驱动
模板
nn.Parameter
PromptTemplate
把 prompt 做成可复用、可插拔的“零件”
管线
nn.Sequential
PipelineABC
用 PyTorch 风格 forward() 组装算子
任何数据准备流程,都能被拆成“读→transform→写”三段,然后像搭积木一样重新组合。
2.2 算子分类:近 200 个官方算子
功能
命名后缀
例子
典型用途
生成
Generator
MathProblemGenerator
从 0 到 1 合成新样本
评估
Evaluator
CodeExecutionEvaluator
给样本打质量分
过滤
Filter
ToxicityFilter
按分数/规则剪枝
精炼
Refiner
CoTRefiner
不改样本数,只改字段内容
所有算子共享同一套“键值契约”,无需改代码,就能把数学算子直接复用到代码领域,只需换 prompt 模板。
2.3 DataFlow-Agent![]()
不想写代码?直接甩给 Agent 一句话:
“我有一份 CSV 包含股票新闻,帮我生成 5 K 条 Text-to-SQL 样本,要带 CoT 推理,难度分三级。”
Agent 内部基于 LangGraph 多智能体协作:
① 意图拆解 → ② 算子检索 → ③ 缺失算子合成 → ④ 拓扑排序 → ⑤ 沙箱验证 → ⑥ 输出可执行 Python 文件。
平均 80 s 产出一条可用管线,人类只需做最后 5% 的微调。
三、实验:10 K 如何打赢 1 M?
DataFlow 在 文本、数学推理、代码、Text-to-SQL、Agentic RAG、知识抽取 等关键场景中进行了系统实验,结果一致表明:用 DataFlow 生成的数据训练模型,性能全面超越现有主流基线,包括人工标注数据和大规模合成数据集。
3.1 数学推理:+3 分轻松拿捏
在 MATH、GSM8K、AIME 等高难度数学基准上,DataFlow 合成的 10K 数据,比 Open-R1、Synthetic-1 等 SOTA 合成数据高出 1–3 个百分点。
仅用 10K 样本 fine-tune Qwen2.5-32B,2 个 epoch 就达到 55.7 平均分,超越所有对比方法。
在 HumanEval、LiveCodeBench 等四大代码评测中,DataFlow 生成的指令数据带来 7% 以上的平均性能提升。
即使只用 1K 样本,也已优于 Code Alpaca 和带执行过滤的 Self-OSS 数据集。
用 不到 9 万条 DataFlow 生成的 Text-to-SQL 数据训练 Qwen2.5-Coder-7B,在 EHRSQL 上执行准确率暴涨 31.8%(24.3 → 56.1)!
仅用 5 万条,就超越 SynSQL(50K);9 万条性能媲美 SynSQL 的 250 万条,数据效率提升近 30 倍!
在 HotpotQA、Musique 等多跳 QA 任务上,完全由 LLM 合成的 DataFlow-AgenticRAG-10K,在跨数据集泛化(OOD)上 全面匹敌甚至超越人工构建的数据集。
在 2Wiki 和 Musique 排除本域测试后,分别高出 2.6 和 1.2 个百分点。
在 PubMedQA、Covert 等医疗 QA 任务中,用 DataFlow 清洗+合成的医学 QA 对训练模型,比零样本 CoT 提升 15–20 个点,比 RAG 提升 10–50 个点。
证明:结构化高质量合成数据 > 复杂推理提示 + 外部检索。
系统层面——首个把“数据准备”抽象为可复用、可组合、可调试的通用框架,像搭模型一样搭管线。
算法层面——提出“生成-评估-过滤-精炼”四段式范式,让合成数据从‘能用’走向‘好用’。
社区层面——开源 200 算子 + 10 K 高质量多域数据集 + CLI 脚手架,把“数据黑箱”变成人人可 PR 的玩具积木。
模态扩充:DataFlow-Agent、DataFlex、DataFlow-MM等系列工具已在路上,下一站把表格、图结构、图文混排一起“流水线”。
领域深耕:DataFlow-AI4S(科学计算)、DataFlow-Industry(工业制造)预研启动,让合成数据走进反应堆、走进晶圆厂。
如果说过去三年,大模型的“摩尔定律”发生在参数维度;那么接下来的三年,“数据摩尔定律”将由 DataFlow 这样的框架来书写—— 更少的数据、更高的质量、更快的迭代、人人可复现。
欢迎大家关注使用DCAI的开源项目并与我们进行技术交流,如果觉得好用也请帮GitHub仓库点一个star~ 论文链接: https://arxiv.org/abs/2512.16676 ( of the Hugging Face daily paper) 仓库链接: https://github.com/OpenDCAI/DataFlow/ (2k star)
llustration From IconScout By IconScout Store
-The End-
本周上新!
扫码观看!
“AI技术流”原创投稿计划
TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线700+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。
投稿内容
// 最新技术解读/系统性知识分享 //
// 前沿资讯解说/心得经历讲述 //
投稿须知
稿件需要为原创文章,并标明作者信息。
我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励
投稿方式
发送邮件到
michellechang@thejiangmen.com
或添加工作人员微信(michelle333_)投稿,沟通投稿详情
关于我“门”
将门是一家以专注于数智核心科技领域的新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。
将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。
如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:
bp@thejiangmen.com

点击右上角,把文章分享到朋友圈
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.