网易首页 > 网易号 > 正文 申请入驻

港大提出TreeSynth方法,一句话生成百万规模数据集

0
分享至



本文第一作者王升,陈鹏安与周靖淇均来自香港大学。通讯作者为香港大学计算机科学系吴川教授与孔令鹏教授。其他作者还包括来自香港大学的李沁桐、董经纬、高佳慧,以及香港中文大学的薛博阳、江继越。

想象一下,你接手了一个新项目,需要在没有数据的情况下提升模型表现。“TreeSynth” 就这样起源于作者们最初的构想:“如何通过一句任务描述生成海量数据,完成模型训练?” 同时,大规模 scalibility 对合成数据的多样性提出了新的要求。 相比之下,传统的数据合成方法就像一个缺乏规划的农夫漫无目的地四处撒种,结果发现许多肥沃的土地被遗漏,而某些贫瘠的角落却种满了庄稼。

这正是当前数据合成领域面临的核心挑战:如何从 0 系统性地生成多样化、高质量的训练数据?现有方法往往受限于模型偏见、种子数据局限和低变种 prompt,导致合成数据缺乏多样性,分布不均匀。更为关键的是,随着数据规模的增加,这种问题会变得愈发严重。



基于这一挑战,香港大学和香港中文大学的研究团队提出了 TreeSynth—— 一种受决策树启发的树引导子空间数据合成方法。它从整个数据空间的根节点出发,通过层层分支将复杂的数据领域逐步细分,直到每个叶节点都代表一个独特且互不重叠的数据子空间,最终让整棵 "树" 枝繁叶茂,确保全面而均衡地覆盖整个知识领域。形象地讲,TreeSynth 通过空间划分将 “均匀地” 数据合成转化为了一个 “填色游戏”。



  • 论文标题: TreeSynth: Synthesizing Diverse Data from Scratch via Tree-Guided Subspace Partitioning
  • 论文链接: https://arxiv.org/abs/2503.17195
  • 项目主页: https://github.com/cpa2001/TreeSynth

从决策树到数据空间:TreeSynth 的核心洞察

TreeSynth 的核心创新源于一个巧妙的类比:将数据合成问题映射到决策树的空间分割机制上。

在传统的机器学习中,决策树具有两个关键特性:互斥性(每个样本只能属于一个叶节点)和穷尽性(所有样本都必须分配到某个叶节点)。TreeSynth 巧妙地将这一机制迁移到数据合成领域:如果我们将整个任务的数据空间视为决策树的根节点,那么通过层层分割,我们可以将其分解为多个互不重叠且完全覆盖原空间的子空间。

这种方法带来了两大显著优势:

1.多样性保证:不同叶节点的互斥性确保了跨子空间的变化,从而保证样本多样性

2.全面覆盖:叶节点的穷尽性确保对全面数据的采样,防止样本坍塌

两阶段工作流程:分而治之的智慧

TreeSynth 采用两阶段的工作流程:数据空间分割和子空间数据合成。



阶段一:数据空间分割

这个阶段类似于决策树的构建过程,包含两个关键步骤:

1.标准确定(Criterion Determination):对于任意数据空间,首先利用 LLM 生成多样化的 pivot samples

来近似整个空间。然后,另一个 LLM 分析这些样本,确定一个核心标准,将样本最优地划分为互斥的属性值。

2.子空间覆盖(Subspace Coverage):由于 pivot samples 数量有限,可能无法完全覆盖原始空间。因此,需要补充潜在的属性值,确保子空间能够穷尽覆盖整个数据空间。

通过递归应用这两个步骤,TreeSynth 构建出一个完整的空间分割树,将整个数据空间分解为众多互斥且互补的原子子空间。

阶段二:子空间数据合成

在每个叶节点(原子子空间)内,TreeSynth 收集从根节点到该叶节点的完整路径描述,然后指导 LLM 在该特定约束下生成样本。最终,通过汇集所有叶节点的数据,获得具有高多样性、均衡分布和全面覆盖的最终数据集。

超越合成:TreeSynth 引导的数据平衡

TreeSynth 的价值不仅在于从零开始的数据合成,还能优化现有数据集。通过为现有数据集构建空间分割树,每个样本都可以被系统性地路由到唯一的叶节点。这样就能清晰地看到数据集在整个空间中的分布模式。如此,对于样本过多的子空间进行随机下采样,而对于样本不足的子空间则利用 TreeSynth 进行数据增强,最终获得更加均衡和全面的数据分布。

案例分析:从抽象到具体



以 GSM8K 风格的数学问题生成为例,TreeSynth 的工作流程如下:

1.根节点定义:整个数据空间被定义为 "GSM8K 风格的数学问题"

2.首层分割:通过分析样本特征,确定 "数学运算类型" 作为第一层分割标准,将空间分为加减法、乘除法、开方、取模等子空间

3.递归深化:对每个子空间继续分割,比如加减法子空间可能进一步按 "问题复杂度" 分割

4.叶节点合成:在每个最终的原子子空间内生成具体的数学问题

这种系统性的分割确保了生成的数据集既具有全面的覆盖性,又保持了各个维度上的平衡分布。

实验验证:全方位性能提升

研究团队在数学推理(GSM8K、MATH)、代码生成(MBPP、HumanEval)和心理学(SimpleToM)等多个基准任务上进行了全面评估。

与基线方法的比较

实验对比了人工标注数据和三种代表性的 LLM 数据合成方法:

  • 温度采样(Temperature Sampling):通过调整采样温度增加多样性
  • 种子驱动方法(Evol-Instruct):基于现有数据进化生成新样本
  • 属性驱动方法(Persona Hub):利用不同属性组合生成数据

显著的性能提升

实验结果显示,TreeSynth 在所有基准测试中都取得了一致的性能提升:



  • 在数学推理任务上,LLaMA3.1-8B 模型在 GSM8K 上的准确率从基线的 45.2% 提升到 55.8%,在 MATH 上从 12.1% 提升到 18.7%
  • 在代码生成任务上,HumanEval 的通过率从 32.3% 提升到 41.9%,MBPP 从 39.1% 提升到 47.6%
  • 平均性能提升达到 10%,最高提升幅度超过 17%



更令人印象深刻的是,TreeSynth 展现出了优秀的可扩展性。随着数据规模的增加,模型性能呈现线性甚至更好的增长轨迹,这证明了该方法在大规模数据合成场景下的稳健性。

数据多样性的显著改善



除了下游任务性能,TreeSynth 在数据多样性指标上也显著超越基线方法,在某些测试中多样性提升高达 45%。同时,t-SNE 可视化也直观地展示了 TreeSynth 卓越的数据多样性,生成的数据在嵌入空间中分布更加均匀和分散。这直接验证了树引导分割机制在防止数据重复和空间坍塌方面的有效性。

结语与展望

TreeSynth 为数据合成领域带来了全新的视角。通过将决策树的空间分割智慧迁移到数据生成任务中,它成功地解决了现有方法在多样性和覆盖性方面的不足。实验结果不仅验证了其在多个领域的有效性,更重要的是展现了其在大规模场景下的可扩展性。

这项工作的意义不仅在于提出了一种新的数据合成方法,更在于提供了一个系统性思考数据生成问题的新框架。正如一位园丁需要整体规划种植布局一样,模型的训练也需要系统性地设计数据分布。

未来值得探索的方向:

  • 如何更好地 “通过一句任务描述生成海量数据,完成模型训练”?
  • 如何自适应地确定最优的树深度和分割标准?
  • TreeSynth 能够持续 scale 的最大规模?真实世界复杂场景还涉及 agent、多轮对话、知识库等复杂场景,如何更好地探索相关场景?

TreeSynth 开启了从 0 合成数据领域的新篇章,为构建更加多样化、全面覆盖的训练数据集提供了强有力的工具。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗划定规则:俄罗斯、中国、印度5个朋友船只获准通过霍尔木兹

伊朗划定规则:俄罗斯、中国、印度5个朋友船只获准通过霍尔木兹

黄胜友
2026-03-26 17:58:23
我与63岁老同学搭伙,他退休金13000全给我,仅仅7天我就受不了了

我与63岁老同学搭伙,他退休金13000全给我,仅仅7天我就受不了了

蝉吟槐蕊
2026-03-26 13:19:09
北京被低估的3所大学,毕业就是“铁饭碗”!完全不用愁就业!

北京被低估的3所大学,毕业就是“铁饭碗”!完全不用愁就业!

高三倒计时
2026-03-25 18:09:46
沈万三临终告诫:寻财无需高深本领,牢记这三句话,轻松富甲一方

沈万三临终告诫:寻财无需高深本领,牢记这三句话,轻松富甲一方

千秋文化
2026-02-10 21:02:09
14.99万!“史上最便宜”特斯拉来了

14.99万!“史上最便宜”特斯拉来了

首席品牌观察
2026-03-24 16:18:39
回旋镖来了?大疆被曝“像素级”抄袭

回旋镖来了?大疆被曝“像素级”抄袭

蓝字计划
2026-03-26 09:38:42
伊朗导弹撑了近一个月,中国能撑多久?俄专家断言:半小时定胜负

伊朗导弹撑了近一个月,中国能撑多久?俄专家断言:半小时定胜负

混沌录
2026-03-26 18:16:05
我发现老天爷很公平:单位里那些不争不抢的老实人,真的吃亏是福

我发现老天爷很公平:单位里那些不争不抢的老实人,真的吃亏是福

风起见你
2026-02-23 19:09:41
胖东来再立功,自选眼镜超市火爆,7亿近视人配镜应花多少钱?

胖东来再立功,自选眼镜超市火爆,7亿近视人配镜应花多少钱?

匀枫财技大兜底
2026-03-25 10:26:15
恩德里克娇妻现场观战凯尔特人击败雷霆!场边大方晒美照气质出众

恩德里克娇妻现场观战凯尔特人击败雷霆!场边大方晒美照气质出众

Emily说个球
2026-03-26 15:11:29
巴拿马接到通知,赔款156亿还不够,中方扩大反制,港口管控升级

巴拿马接到通知,赔款156亿还不够,中方扩大反制,港口管控升级

小虎新车推荐员
2026-03-26 14:02:10
姆巴佩:无法想象没有内马尔的世界杯,但我也不能去反对安帅

姆巴佩:无法想象没有内马尔的世界杯,但我也不能去反对安帅

懂球帝
2026-03-26 07:00:47
张雪峰传奇人生揭秘:父母下岗,大学考上郑大,第一份工作开饭店

张雪峰传奇人生揭秘:父母下岗,大学考上郑大,第一份工作开饭店

谈史论天地
2026-03-25 07:26:54
岳母发声:去女儿家养老一个月补贴6千,女婿:我妈在养老院3年了

岳母发声:去女儿家养老一个月补贴6千,女婿:我妈在养老院3年了

拾代谈生活
2026-03-26 14:54:48
个人公众号“千问”停更近10年,近期接连遭阿里投诉均被驳回,号主:规避风险不发AI文章,如果我不发声,账号就不保了

个人公众号“千问”停更近10年,近期接连遭阿里投诉均被驳回,号主:规避风险不发AI文章,如果我不发声,账号就不保了

中国能源网
2026-03-25 13:53:05
曾经世界上最大的城市,差点取代北京成为中国首都,如今怎样?

曾经世界上最大的城市,差点取代北京成为中国首都,如今怎样?

抽象派大师
2026-03-14 14:00:04
国产螺丝刀在海外蹿红,在TikTok狂卖2800万

国产螺丝刀在海外蹿红,在TikTok狂卖2800万

跨境派Pro
2026-03-23 14:16:59
剖腹自尽?日本陆自军官持刀冲入中国大使馆,想杀中国外交员!

剖腹自尽?日本陆自军官持刀冲入中国大使馆,想杀中国外交员!

军武次位面
2026-03-26 14:26:42
人不会无缘无故患心源性猝死!研究发现:猝死的人,多半爱干3事

人不会无缘无故患心源性猝死!研究发现:猝死的人,多半爱干3事

垚垚分享健康
2026-03-25 13:25:46
为什么氰化物入口几秒,还没到胃呢,人立马就会死了?

为什么氰化物入口几秒,还没到胃呢,人立马就会死了?

心中的麦田
2026-03-24 19:53:20
2026-03-26 19:00:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12606文章数 142593关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

原正部级刘慧被开除党籍:结交政治骗子 匿名诬告他人

头条要闻

原正部级刘慧被开除党籍:结交政治骗子 匿名诬告他人

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

数码
时尚
本地
公开课
军事航空

数码要闻

苹果MacBook Neo将重塑整个笔电行业!分析师纷纷强调:打不过

皮衣+裙,高级到炸

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版