网易首页 > 网易号 > 正文 申请入驻

港大提出TreeSynth方法,一句话生成百万规模数据集

0
分享至



本文第一作者王升,陈鹏安与周靖淇均来自香港大学。通讯作者为香港大学计算机科学系吴川教授与孔令鹏教授。其他作者还包括来自香港大学的李沁桐、董经纬、高佳慧,以及香港中文大学的薛博阳、江继越。

想象一下,你接手了一个新项目,需要在没有数据的情况下提升模型表现。“TreeSynth” 就这样起源于作者们最初的构想:“如何通过一句任务描述生成海量数据,完成模型训练?” 同时,大规模 scalibility 对合成数据的多样性提出了新的要求。 相比之下,传统的数据合成方法就像一个缺乏规划的农夫漫无目的地四处撒种,结果发现许多肥沃的土地被遗漏,而某些贫瘠的角落却种满了庄稼。

这正是当前数据合成领域面临的核心挑战:如何从 0 系统性地生成多样化、高质量的训练数据?现有方法往往受限于模型偏见、种子数据局限和低变种 prompt,导致合成数据缺乏多样性,分布不均匀。更为关键的是,随着数据规模的增加,这种问题会变得愈发严重。



基于这一挑战,香港大学和香港中文大学的研究团队提出了 TreeSynth—— 一种受决策树启发的树引导子空间数据合成方法。它从整个数据空间的根节点出发,通过层层分支将复杂的数据领域逐步细分,直到每个叶节点都代表一个独特且互不重叠的数据子空间,最终让整棵 "树" 枝繁叶茂,确保全面而均衡地覆盖整个知识领域。形象地讲,TreeSynth 通过空间划分将 “均匀地” 数据合成转化为了一个 “填色游戏”。



  • 论文标题: TreeSynth: Synthesizing Diverse Data from Scratch via Tree-Guided Subspace Partitioning
  • 论文链接: https://arxiv.org/abs/2503.17195
  • 项目主页: https://github.com/cpa2001/TreeSynth

从决策树到数据空间:TreeSynth 的核心洞察

TreeSynth 的核心创新源于一个巧妙的类比:将数据合成问题映射到决策树的空间分割机制上。

在传统的机器学习中,决策树具有两个关键特性:互斥性(每个样本只能属于一个叶节点)和穷尽性(所有样本都必须分配到某个叶节点)。TreeSynth 巧妙地将这一机制迁移到数据合成领域:如果我们将整个任务的数据空间视为决策树的根节点,那么通过层层分割,我们可以将其分解为多个互不重叠且完全覆盖原空间的子空间。

这种方法带来了两大显著优势:

1.多样性保证:不同叶节点的互斥性确保了跨子空间的变化,从而保证样本多样性

2.全面覆盖:叶节点的穷尽性确保对全面数据的采样,防止样本坍塌

两阶段工作流程:分而治之的智慧

TreeSynth 采用两阶段的工作流程:数据空间分割和子空间数据合成。



阶段一:数据空间分割

这个阶段类似于决策树的构建过程,包含两个关键步骤:

1.标准确定(Criterion Determination):对于任意数据空间,首先利用 LLM 生成多样化的 pivot samples

来近似整个空间。然后,另一个 LLM 分析这些样本,确定一个核心标准,将样本最优地划分为互斥的属性值。

2.子空间覆盖(Subspace Coverage):由于 pivot samples 数量有限,可能无法完全覆盖原始空间。因此,需要补充潜在的属性值,确保子空间能够穷尽覆盖整个数据空间。

通过递归应用这两个步骤,TreeSynth 构建出一个完整的空间分割树,将整个数据空间分解为众多互斥且互补的原子子空间。

阶段二:子空间数据合成

在每个叶节点(原子子空间)内,TreeSynth 收集从根节点到该叶节点的完整路径描述,然后指导 LLM 在该特定约束下生成样本。最终,通过汇集所有叶节点的数据,获得具有高多样性、均衡分布和全面覆盖的最终数据集。

超越合成:TreeSynth 引导的数据平衡

TreeSynth 的价值不仅在于从零开始的数据合成,还能优化现有数据集。通过为现有数据集构建空间分割树,每个样本都可以被系统性地路由到唯一的叶节点。这样就能清晰地看到数据集在整个空间中的分布模式。如此,对于样本过多的子空间进行随机下采样,而对于样本不足的子空间则利用 TreeSynth 进行数据增强,最终获得更加均衡和全面的数据分布。

案例分析:从抽象到具体



以 GSM8K 风格的数学问题生成为例,TreeSynth 的工作流程如下:

1.根节点定义:整个数据空间被定义为 "GSM8K 风格的数学问题"

2.首层分割:通过分析样本特征,确定 "数学运算类型" 作为第一层分割标准,将空间分为加减法、乘除法、开方、取模等子空间

3.递归深化:对每个子空间继续分割,比如加减法子空间可能进一步按 "问题复杂度" 分割

4.叶节点合成:在每个最终的原子子空间内生成具体的数学问题

这种系统性的分割确保了生成的数据集既具有全面的覆盖性,又保持了各个维度上的平衡分布。

实验验证:全方位性能提升

研究团队在数学推理(GSM8K、MATH)、代码生成(MBPP、HumanEval)和心理学(SimpleToM)等多个基准任务上进行了全面评估。

与基线方法的比较

实验对比了人工标注数据和三种代表性的 LLM 数据合成方法:

  • 温度采样(Temperature Sampling):通过调整采样温度增加多样性
  • 种子驱动方法(Evol-Instruct):基于现有数据进化生成新样本
  • 属性驱动方法(Persona Hub):利用不同属性组合生成数据

显著的性能提升

实验结果显示,TreeSynth 在所有基准测试中都取得了一致的性能提升:



  • 在数学推理任务上,LLaMA3.1-8B 模型在 GSM8K 上的准确率从基线的 45.2% 提升到 55.8%,在 MATH 上从 12.1% 提升到 18.7%
  • 在代码生成任务上,HumanEval 的通过率从 32.3% 提升到 41.9%,MBPP 从 39.1% 提升到 47.6%
  • 平均性能提升达到 10%,最高提升幅度超过 17%



更令人印象深刻的是,TreeSynth 展现出了优秀的可扩展性。随着数据规模的增加,模型性能呈现线性甚至更好的增长轨迹,这证明了该方法在大规模数据合成场景下的稳健性。

数据多样性的显著改善



除了下游任务性能,TreeSynth 在数据多样性指标上也显著超越基线方法,在某些测试中多样性提升高达 45%。同时,t-SNE 可视化也直观地展示了 TreeSynth 卓越的数据多样性,生成的数据在嵌入空间中分布更加均匀和分散。这直接验证了树引导分割机制在防止数据重复和空间坍塌方面的有效性。

结语与展望

TreeSynth 为数据合成领域带来了全新的视角。通过将决策树的空间分割智慧迁移到数据生成任务中,它成功地解决了现有方法在多样性和覆盖性方面的不足。实验结果不仅验证了其在多个领域的有效性,更重要的是展现了其在大规模场景下的可扩展性。

这项工作的意义不仅在于提出了一种新的数据合成方法,更在于提供了一个系统性思考数据生成问题的新框架。正如一位园丁需要整体规划种植布局一样,模型的训练也需要系统性地设计数据分布。

未来值得探索的方向:

  • 如何更好地 “通过一句任务描述生成海量数据,完成模型训练”?
  • 如何自适应地确定最优的树深度和分割标准?
  • TreeSynth 能够持续 scale 的最大规模?真实世界复杂场景还涉及 agent、多轮对话、知识库等复杂场景,如何更好地探索相关场景?

TreeSynth 开启了从 0 合成数据领域的新篇章,为构建更加多样化、全面覆盖的训练数据集提供了强有力的工具。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
16战全胜!狂轰56球!欧冠夺冠大热诞生,碾压卫冕冠军,太强横

16战全胜!狂轰56球!欧冠夺冠大热诞生,碾压卫冕冠军,太强横

阿泰希特
2025-11-05 11:05:33
不论男女,如果肛门经常出现5个问题,或许暗示体内有癌

不论男女,如果肛门经常出现5个问题,或许暗示体内有癌

风信子的花
2025-11-05 12:17:08
古二得了渐冻症,在语言功能退化且站立困难之际,他选择蚍蜉撼树

古二得了渐冻症,在语言功能退化且站立困难之际,他选择蚍蜉撼树

芊手若
2025-11-04 00:30:07
翁帆女士受聘顶尖985大学

翁帆女士受聘顶尖985大学

双一流高校
2025-11-05 18:22:29
出事了,停摆35天终酿成大祸,现场惨烈,特朗普:不妥协继续关门

出事了,停摆35天终酿成大祸,现场惨烈,特朗普:不妥协继续关门

振华观史
2025-11-05 14:12:37
胜利4-0果阿,菲利克斯倒钩破门,马内献助攻,加里卜双响

胜利4-0果阿,菲利克斯倒钩破门,马内献助攻,加里卜双响

懂球帝
2025-11-06 04:22:06
她是我见过且认为在整个东亚最漂亮的女人

她是我见过且认为在整个东亚最漂亮的女人

小椰的奶奶
2025-11-03 14:38:30
上官正义遭2000万买命+艾滋威胁!杭州警方立案,他动谁的蛋糕?

上官正义遭2000万买命+艾滋威胁!杭州警方立案,他动谁的蛋糕?

游者走天下
2025-11-05 11:48:13
因慎战言论引争议,国防大学马骏回应:军人的使命是和平不是战争

因慎战言论引争议,国防大学马骏回应:军人的使命是和平不是战争

麦大人
2025-08-22 14:33:36
特斯拉撞死突闯国道的野猪,修车费超2万元、车主全责 交警:野猪不属于交通参与者

特斯拉撞死突闯国道的野猪,修车费超2万元、车主全责 交警:野猪不属于交通参与者

红星新闻
2025-11-05 16:04:24
四十年前罕见老物件,见过五种以上算你厉害,全认识叫你一声爷爷

四十年前罕见老物件,见过五种以上算你厉害,全认识叫你一声爷爷

万物知识圈
2025-11-05 09:29:21
18岁高中生被骗至缅北失联一个多月后,自己走了回来!细节披露↘

18岁高中生被骗至缅北失联一个多月后,自己走了回来!细节披露↘

山东教育电视台
2025-11-05 16:56:15
酒店“开房”大数据曝光:已婚女性,都在偷偷开房……

酒店“开房”大数据曝光:已婚女性,都在偷偷开房……

热心市民小黄
2025-11-05 12:17:17
明日立冬,不管有钱没钱,记得要吃“补冬三宝”,立冬吃它特养人

明日立冬,不管有钱没钱,记得要吃“补冬三宝”,立冬吃它特养人

Lily美食谈
2025-11-06 00:28:27
别填海造岛了,用30万吨货轮搁浅南海,能让中国快速占领南海岛礁

别填海造岛了,用30万吨货轮搁浅南海,能让中国快速占领南海岛礁

Ck的蜜糖
2025-11-06 04:10:07
WTT德国冠军赛:26人已晋级16强!日本5胜1负,东道主6人过关

WTT德国冠军赛:26人已晋级16强!日本5胜1负,东道主6人过关

越岭寻踪
2025-11-06 04:49:55
已经批复!同意吉林大学中日联谊医院……

已经批复!同意吉林大学中日联谊医院……

城市速递
2025-11-04 21:17:42
全新梦幻四重奏!五星巴西现顶级攻击群,中场枢纽助力三叉戟

全新梦幻四重奏!五星巴西现顶级攻击群,中场枢纽助力三叉戟

番茄体坛
2025-11-05 16:23:12
章泽天瘦得惊人,烫了头发后更放飞自我,和杜海涛摆拍

章泽天瘦得惊人,烫了头发后更放飞自我,和杜海涛摆拍

乡野小珥
2025-10-26 06:59:35
海兰泡啊,海兰泡!

海兰泡啊,海兰泡!

玖奌杂货铺
2025-08-24 10:34:51
2025-11-06 05:35:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11656文章数 142499关注度
往期回顾 全部

科技要闻

大转弯!特朗普再提名马斯克盟友任NASA局长

头条要闻

俄士兵连遭乌军7架无人机袭击奇迹生还 视频披露

头条要闻

俄士兵连遭乌军7架无人机袭击奇迹生还 视频披露

体育要闻

赢下皇马,会是利物浦的转折点吗?

娱乐要闻

港星林尚武突发心脏病去世

财经要闻

事关加快建设金融强国 中央金融办发声

汽车要闻

智己LS9入局"9系"混战 全尺寸SUV市场迎来新变量

态度原创

时尚
房产
游戏
手机
数码

今年一定要拥有这件大衣,复古又时髦!

房产要闻

最新!海南楼市10月热销榜单出炉!

一份游戏双平台玩!PS5/PC跨平台购买标志新发现

手机要闻

苹果Shazam更新26.0版:液态玻璃界面焕新登场

数码要闻

小米POCO X1平板现身Geekbench 搭载骁龙7+ Gen 3

无障碍浏览 进入关怀版