网易首页 > 网易号 > 正文 申请入驻

10K数据打败1M,北大开源LLM数据准备系统DataFlow

0
分享至

“数据量越大,模型越好”这条铁律,正在悄悄失效。

当 GPT-4 把 1.2 T token 啃到吐、当 MoE 模型把 20 万亿参数卷到飞起,大家突然发现:真正卡脖子的不是算力,也不是参数,而是——高质量数据从哪儿来

近期,北大联合多个团队给出一套新答案:DataFlow —— 一个把 LLM“数据准备”做成流水线的系统



论文标题: DataFlow: An LLM-Driven Framework for Unified Data Preparation and Workflow Automation in the Era of Data-Centric AI 论文链接:( of the Hugging Face daily paper) https://arxiv.org/abs/2512.16676 仓库链接:(2k star) https://github.com/OpenDCAI/DataFlow/
一、研究动机:数据准备的“三宗罪”
  1. 繁琐脚本:做预训练要写 20 个去重脚本,做 SFT 再写 15 个清洗脚本,每条管线都要“重造轮子”。

  2. 复现黑洞:论文里一句“我们采用公开数据”背后,可能是 100 行未公开预处理代码,别人永远跑不出那条曲线。

  3. 人力天花板:指令微调、思维链、工具调用……任务越精,越依赖昂贵的人类标注。一旦场景冷门(如罕见病问诊、多跳法律推理),直接“无标可用”。

行业急需一套“像 PyTorch 搭模型一样搭数据”的工业级框架——DataFlow 因此诞生。

二、方法:把“数据工程”拆成 200 块积木 2.1 核心抽象:存储 / 算子 / 模板 / 管线 四层 API

层级

类比 PyTorch

DataFlow 对应

作用

存储

tensor

DataFlowStorage

统一表格视图,屏蔽 JSON/Parquet/SQL 差异

算子

nn.Module

BaseOperator

单步变换,支持 LLM 驱动或规则驱动

模板

nn.Parameter

PromptTemplate

把 prompt 做成可复用、可插拔的“零件”

管线

nn.Sequential

PipelineABC

用 PyTorch 风格 forward() 组装算子

任何数据准备流程,都能被拆成“读→transform→写”三段,然后像搭积木一样重新组合。

2.2 算子分类:近 200 个官方算子

功能

命名后缀

例子

典型用途

生成

Generator

MathProblemGenerator

从 0 到 1 合成新样本

评估

Evaluator

CodeExecutionEvaluator

给样本打质量分

过滤

Filter

ToxicityFilter

按分数/规则剪枝

精炼

Refiner

CoTRefiner

不改样本数,只改字段内容

所有算子共享同一套“键值契约”,无需改代码,就能把数学算子直接复用到代码领域,只需换 prompt 模板。

2.3 DataFlow-Agent

不想写代码?直接甩给 Agent 一句话:

“我有一份 CSV 包含股票新闻,帮我生成 5 K 条 Text-to-SQL 样本,要带 CoT 推理,难度分三级。”

Agent 内部基于 LangGraph 多智能体协作:

① 意图拆解 → ② 算子检索 → ③ 缺失算子合成 → ④ 拓扑排序 → ⑤ 沙箱验证 → ⑥ 输出可执行 Python 文件。

平均 80 s 产出一条可用管线,人类只需做最后 5% 的微调

三、实验:10 K 如何打赢 1 M?

DataFlow 在 文本、数学推理、代码、Text-to-SQL、Agentic RAG、知识抽取 等关键场景中进行了系统实验,结果一致表明:用 DataFlow 生成的数据训练模型,性能全面超越现有主流基线,包括人工标注数据和大规模合成数据集。

3.1 数学推理:+3 分轻松拿捏

  • 在 MATH、GSM8K、AIME 等高难度数学基准上,DataFlow 合成的 10K 数据,比 Open-R1、Synthetic-1 等 SOTA 合成数据高出 1–3 个百分点。

  • 仅用 10K 样本 fine-tune Qwen2.5-32B,2 个 epoch 就达到 55.7 平均分,超越所有对比方法。

3.2 代码生成:平均提升 +7%
  • 在 HumanEval、LiveCodeBench 等四大代码评测中,DataFlow 生成的指令数据带来 7% 以上的平均性能提升。

  • 即使只用 1K 样本,也已优于 Code Alpaca 和带执行过滤的 Self-OSS 数据集。

3.3 Text-to-SQL:小数据,大胜出
  • 用 不到 9 万条 DataFlow 生成的 Text-to-SQL 数据训练 Qwen2.5-Coder-7B,在 EHRSQL 上执行准确率暴涨 31.8%(24.3 → 56.1)!

  • 仅用 5 万条,就超越 SynSQL(50K);9 万条性能媲美 SynSQL 的 250 万条,数据效率提升近 30 倍!

3.4 多跳问答(Agentic RAG):合成数据干翻人工标注
  • 在 HotpotQA、Musique 等多跳 QA 任务上,完全由 LLM 合成的 DataFlow-AgenticRAG-10K,在跨数据集泛化(OOD)上 全面匹敌甚至超越人工构建的数据集。

  • 在 2Wiki 和 Musique 排除本域测试后,分别高出 2.6 和 1.2 个百分点。

3.5 医疗知识抽取:SFT > RAG + CoT
  • 在 PubMedQA、Covert 等医疗 QA 任务中,用 DataFlow 清洗+合成的医学 QA 对训练模型,比零样本 CoT 提升 15–20 个点,比 RAG 提升 10–50 个点。

  • 证明:结构化高质量合成数据 > 复杂推理提示 + 外部检索。

四、结语:DataFlow 给社区留下了什么? 4.1 三大贡献
  • 系统层面——首个把“数据准备”抽象为可复用、可组合、可调试的通用框架,像搭模型一样搭管线

  • 算法层面——提出“生成-评估-过滤-精炼”四段式范式,让合成数据从‘能用’走向‘好用’

  • 社区层面——开源 200 算子 + 10 K 高质量多域数据集 + CLI 脚手架,把“数据黑箱”变成人人可 PR 的玩具积木

4.2 未来展望
  • 模态扩充:DataFlow-Agent、DataFlex、DataFlow-MM等系列工具已在路上,下一站把表格、图结构、图文混排一起“流水线”

  • 领域深耕:DataFlow-AI4S(科学计算)、DataFlow-Industry(工业制造)预研启动,让合成数据走进反应堆、走进晶圆厂

如果说过去三年,大模型的“摩尔定律”发生在参数维度;那么接下来的三年,“数据摩尔定律”将由 DataFlow 这样的框架来书写—— 更少的数据、更高的质量、更快的迭代、人人可复现。

欢迎大家关注使用DCAI的开源项目并与我们进行技术交流,如果觉得好用也请帮GitHub仓库点一个star~ 论文链接: https://arxiv.org/abs/2512.16676 ( of the Hugging Face daily paper) 仓库链接: https://github.com/OpenDCAI/DataFlow/ (2k star)

llustration From IconScout By IconScout Store

-The End-

本周上新!

扫码观看!

“AI技术流”原创投稿计划


TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线700+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。


投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

michellechang@thejiangmen.com

或添加工作人员微信(michelle333_投稿,沟通投稿详情

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com


点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
稳了!央视春晚首次联排收官,释放3大信号,赵本山含金量还在升

稳了!央视春晚首次联排收官,释放3大信号,赵本山含金量还在升

白面书誏
2026-01-19 17:21:40
沙特主帅:马内是塞内加尔的神;布拉欣的点球不尊重摩洛哥

沙特主帅:马内是塞内加尔的神;布拉欣的点球不尊重摩洛哥

顺静自然
2026-01-20 09:46:01
“自以为是开明的妈,其实是疯了的夜华!”母女逛超市看的人窒息

“自以为是开明的妈,其实是疯了的夜华!”母女逛超市看的人窒息

知晓科普
2026-01-19 10:28:54
谢浩男回家一家人吃饭,许建华收获好评,二妹被忽视!

谢浩男回家一家人吃饭,许建华收获好评,二妹被忽视!

报君知史
2026-01-20 07:50:25
吴磊大瓜女主角再发文!信息量大曝两人同居细节,海量生活照流出

吴磊大瓜女主角再发文!信息量大曝两人同居细节,海量生活照流出

娱乐圈圈圆
2026-01-19 14:54:02
贾玲巴黎周“一脸男相”!不爱笑也没梨涡眼神犀利,梳大背头好酷

贾玲巴黎周“一脸男相”!不爱笑也没梨涡眼神犀利,梳大背头好酷

轩逸阿II
2026-01-20 07:54:29
41岁男子河边钓鱼喊技师服务,全程一丝不苟,网友:一个字,雅!

41岁男子河边钓鱼喊技师服务,全程一丝不苟,网友:一个字,雅!

农村情感故事
2026-01-15 18:52:11
明确了!C1能增驾D驾照,交警:满足1个条件,就能成功升级C1D

明确了!C1能增驾D驾照,交警:满足1个条件,就能成功升级C1D

电动车小辣椒
2026-01-12 07:04:53
马斯克收心了?官宣了39岁印度裔伴侣:相貌普通为他生了4个孩子

马斯克收心了?官宣了39岁印度裔伴侣:相貌普通为他生了4个孩子

丰谭笔录
2025-12-12 11:16:23
二手交易平台现“呆呆家的土”,有商家标价一两888元且不支持退换,律师:若泥土含量或金额较大,则极有可能被认定为违法

二手交易平台现“呆呆家的土”,有商家标价一两888元且不支持退换,律师:若泥土含量或金额较大,则极有可能被认定为违法

极目新闻
2026-01-19 21:20:28
央视怒批,国务院点名封杀!这几位蒙骗老百姓的大网红,彻底凉凉

央视怒批,国务院点名封杀!这几位蒙骗老百姓的大网红,彻底凉凉

大鱼简科
2025-09-02 19:34:00
男性长期禁欲,性能力会更加强?医生提醒:可能要付出这几个代价

男性长期禁欲,性能力会更加强?医生提醒:可能要付出这几个代价

医者荣耀
2025-12-17 12:05:09
广东女子被家暴持剪刀捅丈夫手臂,却因丈夫走动不慎捅入其胸口,致其死亡……

广东女子被家暴持剪刀捅丈夫手臂,却因丈夫走动不慎捅入其胸口,致其死亡……

广东活动
2026-01-19 12:12:56
这次庾澄庆的爆料,没给王菲留一丝体面,难怪李亚鹏选择和她离婚

这次庾澄庆的爆料,没给王菲留一丝体面,难怪李亚鹏选择和她离婚

冷紫葉
2025-12-31 15:07:30
退休后为什么熟人疏远你孤立你,你可能说了四种话,占一种就得改

退休后为什么熟人疏远你孤立你,你可能说了四种话,占一种就得改

情感大使馆
2026-01-20 09:56:16
猛增2000%!美国“无法接受”,这家中国神秘企业实在太“狂”了

猛增2000%!美国“无法接受”,这家中国神秘企业实在太“狂”了

议纪史
2026-01-20 09:40:03
奔驰、宝马、奥迪在华销量集体下滑,开启自救

奔驰、宝马、奥迪在华销量集体下滑,开启自救

21世纪经济报道
2026-01-19 22:36:42
1983年,黄永胜弥留之际苦求一事,中央特批:满足他

1983年,黄永胜弥留之际苦求一事,中央特批:满足他

寄史言志
2026-01-14 16:36:19
只是吃顿午饭,却被当成ICE围堵辱骂:明州熟食店15分钟失控现场

只是吃顿午饭,却被当成ICE围堵辱骂:明州熟食店15分钟失控现场

华人生活网
2026-01-20 05:21:33
5+3!陈国豪暴揍老东家!CBA又一奇葩条款诞生

5+3!陈国豪暴揍老东家!CBA又一奇葩条款诞生

篮球实战宝典
2026-01-19 23:11:29
2026-01-20 10:32:49
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2302文章数 596关注度
往期回顾 全部

科技要闻

去年预亏60亿后再投百亿 两大车企紧抱华为

头条要闻

女子求职收到66元红包和感谢信 公司:希望表达尊重

头条要闻

女子求职收到66元红包和感谢信 公司:希望表达尊重

体育要闻

错失英超冠军奖牌,他却在德甲成为传奇

娱乐要闻

吴磊起诉白珊珊诽谤,白珊珊称被盗号

财经要闻

2026股市猜想

汽车要闻

徐军:冲击百万销量,零跑一直很清醒

态度原创

时尚
房产
数码
游戏
军事航空

码住抄作业!春节见人不翻车就靠这8样!

房产要闻

中旅・三亚蓝湾发布会揭秘自贸港好房子高阶形态

数码要闻

苹果M5 Max性能预测:Geekbench跑分或破25万大关

史低倒计时 ! 96%好评解压神器: 我在“故宫”做装修!

军事要闻

古美关系高度紧张 古巴启动"战争状态"

无障碍浏览 进入关怀版