网易首页 > 网易号 > 正文 申请入驻

港大提出TreeSynth方法,一句话生成百万规模数据集

0
分享至



本文第一作者王升,陈鹏安与周靖淇均来自香港大学。通讯作者为香港大学计算机科学系吴川教授与孔令鹏教授。其他作者还包括来自香港大学的李沁桐、董经纬、高佳慧,以及香港中文大学的薛博阳、江继越。

想象一下,你接手了一个新项目,需要在没有数据的情况下提升模型表现。“TreeSynth” 就这样起源于作者们最初的构想:“如何通过一句任务描述生成海量数据,完成模型训练?” 同时,大规模 scalibility 对合成数据的多样性提出了新的要求。 相比之下,传统的数据合成方法就像一个缺乏规划的农夫漫无目的地四处撒种,结果发现许多肥沃的土地被遗漏,而某些贫瘠的角落却种满了庄稼。

这正是当前数据合成领域面临的核心挑战:如何从 0 系统性地生成多样化、高质量的训练数据?现有方法往往受限于模型偏见、种子数据局限和低变种 prompt,导致合成数据缺乏多样性,分布不均匀。更为关键的是,随着数据规模的增加,这种问题会变得愈发严重。



基于这一挑战,香港大学和香港中文大学的研究团队提出了 TreeSynth—— 一种受决策树启发的树引导子空间数据合成方法。它从整个数据空间的根节点出发,通过层层分支将复杂的数据领域逐步细分,直到每个叶节点都代表一个独特且互不重叠的数据子空间,最终让整棵 "树" 枝繁叶茂,确保全面而均衡地覆盖整个知识领域。形象地讲,TreeSynth 通过空间划分将 “均匀地” 数据合成转化为了一个 “填色游戏”。



  • 论文标题: TreeSynth: Synthesizing Diverse Data from Scratch via Tree-Guided Subspace Partitioning
  • 论文链接: https://arxiv.org/abs/2503.17195
  • 项目主页: https://github.com/cpa2001/TreeSynth

从决策树到数据空间:TreeSynth 的核心洞察

TreeSynth 的核心创新源于一个巧妙的类比:将数据合成问题映射到决策树的空间分割机制上。

在传统的机器学习中,决策树具有两个关键特性:互斥性(每个样本只能属于一个叶节点)和穷尽性(所有样本都必须分配到某个叶节点)。TreeSynth 巧妙地将这一机制迁移到数据合成领域:如果我们将整个任务的数据空间视为决策树的根节点,那么通过层层分割,我们可以将其分解为多个互不重叠且完全覆盖原空间的子空间。

这种方法带来了两大显著优势:

1.多样性保证:不同叶节点的互斥性确保了跨子空间的变化,从而保证样本多样性

2.全面覆盖:叶节点的穷尽性确保对全面数据的采样,防止样本坍塌

两阶段工作流程:分而治之的智慧

TreeSynth 采用两阶段的工作流程:数据空间分割和子空间数据合成。



阶段一:数据空间分割

这个阶段类似于决策树的构建过程,包含两个关键步骤:

1.标准确定(Criterion Determination):对于任意数据空间,首先利用 LLM 生成多样化的 pivot samples

来近似整个空间。然后,另一个 LLM 分析这些样本,确定一个核心标准,将样本最优地划分为互斥的属性值。

2.子空间覆盖(Subspace Coverage):由于 pivot samples 数量有限,可能无法完全覆盖原始空间。因此,需要补充潜在的属性值,确保子空间能够穷尽覆盖整个数据空间。

通过递归应用这两个步骤,TreeSynth 构建出一个完整的空间分割树,将整个数据空间分解为众多互斥且互补的原子子空间。

阶段二:子空间数据合成

在每个叶节点(原子子空间)内,TreeSynth 收集从根节点到该叶节点的完整路径描述,然后指导 LLM 在该特定约束下生成样本。最终,通过汇集所有叶节点的数据,获得具有高多样性、均衡分布和全面覆盖的最终数据集。

超越合成:TreeSynth 引导的数据平衡

TreeSynth 的价值不仅在于从零开始的数据合成,还能优化现有数据集。通过为现有数据集构建空间分割树,每个样本都可以被系统性地路由到唯一的叶节点。这样就能清晰地看到数据集在整个空间中的分布模式。如此,对于样本过多的子空间进行随机下采样,而对于样本不足的子空间则利用 TreeSynth 进行数据增强,最终获得更加均衡和全面的数据分布。

案例分析:从抽象到具体



以 GSM8K 风格的数学问题生成为例,TreeSynth 的工作流程如下:

1.根节点定义:整个数据空间被定义为 "GSM8K 风格的数学问题"

2.首层分割:通过分析样本特征,确定 "数学运算类型" 作为第一层分割标准,将空间分为加减法、乘除法、开方、取模等子空间

3.递归深化:对每个子空间继续分割,比如加减法子空间可能进一步按 "问题复杂度" 分割

4.叶节点合成:在每个最终的原子子空间内生成具体的数学问题

这种系统性的分割确保了生成的数据集既具有全面的覆盖性,又保持了各个维度上的平衡分布。

实验验证:全方位性能提升

研究团队在数学推理(GSM8K、MATH)、代码生成(MBPP、HumanEval)和心理学(SimpleToM)等多个基准任务上进行了全面评估。

与基线方法的比较

实验对比了人工标注数据和三种代表性的 LLM 数据合成方法:

  • 温度采样(Temperature Sampling):通过调整采样温度增加多样性
  • 种子驱动方法(Evol-Instruct):基于现有数据进化生成新样本
  • 属性驱动方法(Persona Hub):利用不同属性组合生成数据

显著的性能提升

实验结果显示,TreeSynth 在所有基准测试中都取得了一致的性能提升:



  • 在数学推理任务上,LLaMA3.1-8B 模型在 GSM8K 上的准确率从基线的 45.2% 提升到 55.8%,在 MATH 上从 12.1% 提升到 18.7%
  • 在代码生成任务上,HumanEval 的通过率从 32.3% 提升到 41.9%,MBPP 从 39.1% 提升到 47.6%
  • 平均性能提升达到 10%,最高提升幅度超过 17%



更令人印象深刻的是,TreeSynth 展现出了优秀的可扩展性。随着数据规模的增加,模型性能呈现线性甚至更好的增长轨迹,这证明了该方法在大规模数据合成场景下的稳健性。

数据多样性的显著改善



除了下游任务性能,TreeSynth 在数据多样性指标上也显著超越基线方法,在某些测试中多样性提升高达 45%。同时,t-SNE 可视化也直观地展示了 TreeSynth 卓越的数据多样性,生成的数据在嵌入空间中分布更加均匀和分散。这直接验证了树引导分割机制在防止数据重复和空间坍塌方面的有效性。

结语与展望

TreeSynth 为数据合成领域带来了全新的视角。通过将决策树的空间分割智慧迁移到数据生成任务中,它成功地解决了现有方法在多样性和覆盖性方面的不足。实验结果不仅验证了其在多个领域的有效性,更重要的是展现了其在大规模场景下的可扩展性。

这项工作的意义不仅在于提出了一种新的数据合成方法,更在于提供了一个系统性思考数据生成问题的新框架。正如一位园丁需要整体规划种植布局一样,模型的训练也需要系统性地设计数据分布。

未来值得探索的方向:

  • 如何更好地 “通过一句任务描述生成海量数据,完成模型训练”?
  • 如何自适应地确定最优的树深度和分割标准?
  • TreeSynth 能够持续 scale 的最大规模?真实世界复杂场景还涉及 agent、多轮对话、知识库等复杂场景,如何更好地探索相关场景?

TreeSynth 开启了从 0 合成数据领域的新篇章,为构建更加多样化、全面覆盖的训练数据集提供了强有力的工具。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
新金碟豹女团爆火!承接各大宴会,一场不到2万,满满的青春洋溢

新金碟豹女团爆火!承接各大宴会,一场不到2万,满满的青春洋溢

TVB的四小花
2026-03-11 00:13:36
特朗普:伊朗一直“咄咄逼人”,不如现在就做个了断,帮助伊朗人民是有条件的

特朗普:伊朗一直“咄咄逼人”,不如现在就做个了断,帮助伊朗人民是有条件的

大风新闻
2026-03-10 19:23:11
加仓65%!北向资金重仓锁定机器人第一真龙,算力+芯片+先进封装

加仓65%!北向资金重仓锁定机器人第一真龙,算力+芯片+先进封装

财报翻译官
2026-03-10 19:56:39
恐怖的87-2!CCTV5直播,中国女足vs中国台北冲4强,赛程有变!

恐怖的87-2!CCTV5直播,中国女足vs中国台北冲4强,赛程有变!

大秦壁虎白话体育
2026-03-11 00:33:42
30艘船安全通过!“装”成中国的,“保命”

30艘船安全通过!“装”成中国的,“保命”

观察者网
2026-03-10 10:49:04
利物浦耻辱夜!天价巨星全场梦游,球迷怒喷:最烂引援没有之一

利物浦耻辱夜!天价巨星全场梦游,球迷怒喷:最烂引援没有之一

澜归序
2026-03-11 05:05:19
腾讯QClaw官网上线:可一键部署“龙虾”,兼容QQ、微信

腾讯QClaw官网上线:可一键部署“龙虾”,兼容QQ、微信

PChome电脑之家
2026-03-09 14:37:39
给厅长开车6年我从不提私事,父亲货车被扣,厅长递来一个眼神

给厅长开车6年我从不提私事,父亲货车被扣,厅长递来一个眼神

小月故事
2026-03-06 14:48:51
娶个外国媳妇是种什么样的体验?网友:谁不喜欢美好的东西

娶个外国媳妇是种什么样的体验?网友:谁不喜欢美好的东西

另子维爱读史
2026-03-07 19:15:01
中国女篮世资赛12人名单:韩旭李月汝张子宇三塔 王思雨+杨舒予

中国女篮世资赛12人名单:韩旭李月汝张子宇三塔 王思雨+杨舒予

醉卧浮生
2026-03-10 11:06:26
韩媒解读平壤马拉松取消原因:担心大量外国人入境,禁用GPS功能

韩媒解读平壤马拉松取消原因:担心大量外国人入境,禁用GPS功能

杨华评论
2026-03-10 16:45:29
麻烦了,狄龙:若与森林狼季后赛相遇,我们已经摸透了他们的套路

麻烦了,狄龙:若与森林狼季后赛相遇,我们已经摸透了他们的套路

好火子
2026-03-11 06:41:56
聚餐后疯狂砸家后续:原因曝光,想让儿子担保借钱,女儿再曝黑料

聚餐后疯狂砸家后续:原因曝光,想让儿子担保借钱,女儿再曝黑料

奇思妙想草叶君
2026-03-10 01:26:22
林徽因落选的国徽方案,网友看后感叹:审美确实一绝,但真不合适

林徽因落选的国徽方案,网友看后感叹:审美确实一绝,但真不合适

兴趣知识
2026-03-08 19:32:42
深圳一幼儿园学费217360元!网友:都说经济下滑,只是我穷而已

深圳一幼儿园学费217360元!网友:都说经济下滑,只是我穷而已

火山詩话
2026-03-10 13:22:20
不要乱吃维生素了!美国研究:长期吃复合维生素,或增加死亡风险

不要乱吃维生素了!美国研究:长期吃复合维生素,或增加死亡风险

医学原创故事会
2026-03-10 15:34:04
美媒评论东风5C导弹:恐怖!如果丢一枚到美国,会造成怎样的景象

美媒评论东风5C导弹:恐怖!如果丢一枚到美国,会造成怎样的景象

朝子亥
2026-03-10 19:15:03
景甜瑜伽写真引爆热搜!紧身衣难掩丰满身材,这腰臀比太绝了?

景甜瑜伽写真引爆热搜!紧身衣难掩丰满身材,这腰臀比太绝了?

娱乐领航家
2026-03-11 00:00:08
记者:又有3名伊朗女足球员脱离球队;伊朗足协主席敦促球员回国

记者:又有3名伊朗女足球员脱离球队;伊朗足协主席敦促球员回国

懂球帝
2026-03-10 12:47:21
是否刺杀伊朗新领袖?特朗普突然“共情”了:那样说不合适,我以前也曾是暗杀目标;想在伊朗复制“委内瑞拉模式”

是否刺杀伊朗新领袖?特朗普突然“共情”了:那样说不合适,我以前也曾是暗杀目标;想在伊朗复制“委内瑞拉模式”

极目新闻
2026-03-10 14:47:01
2026-03-11 07:48:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12467文章数 142581关注度
往期回顾 全部

科技要闻

蔚来今年要少亏150亿,冲击年度盈利

头条要闻

"一对老夫妻双双129岁相恋100年"视频引热议 当地回应

头条要闻

"一对老夫妻双双129岁相恋100年"视频引热议 当地回应

体育要闻

加兰没那么差,但鲈鱼会用吗?

娱乐要闻

《逐玉》注水风波升级!315评论区沦陷

财经要闻

“龙虾补贴”密集出炉 最高1000万!

汽车要闻

MG4有SUV衍生 上汽乘用车多款新车规划曝光

态度原创

本地
房产
旅游
数码
健康

本地新闻

云游中国|候鸟高颜值亮相!沉浸式打卡青海湿地

房产要闻

信号!千亿巨头入局,三亚开启新一轮大征拆!

旅游要闻

独好风景 向新而行从场景再造到品牌跃升的江西文旅实践

数码要闻

苹果MacBook Neo笔记本SSD速度约为MacBook Pro的1/8

转头就晕的耳石症,能开车上班吗?

无障碍浏览 进入关怀版