网易首页 > 网易号 > 正文 申请入驻

港大提出TreeSynth方法,一句话生成百万规模数据集

0
分享至



本文第一作者王升,陈鹏安与周靖淇均来自香港大学。通讯作者为香港大学计算机科学系吴川教授与孔令鹏教授。其他作者还包括来自香港大学的李沁桐、董经纬、高佳慧,以及香港中文大学的薛博阳、江继越。

想象一下,你接手了一个新项目,需要在没有数据的情况下提升模型表现。“TreeSynth” 就这样起源于作者们最初的构想:“如何通过一句任务描述生成海量数据,完成模型训练?” 同时,大规模 scalibility 对合成数据的多样性提出了新的要求。 相比之下,传统的数据合成方法就像一个缺乏规划的农夫漫无目的地四处撒种,结果发现许多肥沃的土地被遗漏,而某些贫瘠的角落却种满了庄稼。

这正是当前数据合成领域面临的核心挑战:如何从 0 系统性地生成多样化、高质量的训练数据?现有方法往往受限于模型偏见、种子数据局限和低变种 prompt,导致合成数据缺乏多样性,分布不均匀。更为关键的是,随着数据规模的增加,这种问题会变得愈发严重。



基于这一挑战,香港大学和香港中文大学的研究团队提出了 TreeSynth—— 一种受决策树启发的树引导子空间数据合成方法。它从整个数据空间的根节点出发,通过层层分支将复杂的数据领域逐步细分,直到每个叶节点都代表一个独特且互不重叠的数据子空间,最终让整棵 "树" 枝繁叶茂,确保全面而均衡地覆盖整个知识领域。形象地讲,TreeSynth 通过空间划分将 “均匀地” 数据合成转化为了一个 “填色游戏”。



  • 论文标题: TreeSynth: Synthesizing Diverse Data from Scratch via Tree-Guided Subspace Partitioning
  • 论文链接: https://arxiv.org/abs/2503.17195
  • 项目主页: https://github.com/cpa2001/TreeSynth

从决策树到数据空间:TreeSynth 的核心洞察

TreeSynth 的核心创新源于一个巧妙的类比:将数据合成问题映射到决策树的空间分割机制上。

在传统的机器学习中,决策树具有两个关键特性:互斥性(每个样本只能属于一个叶节点)和穷尽性(所有样本都必须分配到某个叶节点)。TreeSynth 巧妙地将这一机制迁移到数据合成领域:如果我们将整个任务的数据空间视为决策树的根节点,那么通过层层分割,我们可以将其分解为多个互不重叠且完全覆盖原空间的子空间。

这种方法带来了两大显著优势:

1.多样性保证:不同叶节点的互斥性确保了跨子空间的变化,从而保证样本多样性

2.全面覆盖:叶节点的穷尽性确保对全面数据的采样,防止样本坍塌

两阶段工作流程:分而治之的智慧

TreeSynth 采用两阶段的工作流程:数据空间分割和子空间数据合成。



阶段一:数据空间分割

这个阶段类似于决策树的构建过程,包含两个关键步骤:

1.标准确定(Criterion Determination):对于任意数据空间,首先利用 LLM 生成多样化的 pivot samples

来近似整个空间。然后,另一个 LLM 分析这些样本,确定一个核心标准,将样本最优地划分为互斥的属性值。

2.子空间覆盖(Subspace Coverage):由于 pivot samples 数量有限,可能无法完全覆盖原始空间。因此,需要补充潜在的属性值,确保子空间能够穷尽覆盖整个数据空间。

通过递归应用这两个步骤,TreeSynth 构建出一个完整的空间分割树,将整个数据空间分解为众多互斥且互补的原子子空间。

阶段二:子空间数据合成

在每个叶节点(原子子空间)内,TreeSynth 收集从根节点到该叶节点的完整路径描述,然后指导 LLM 在该特定约束下生成样本。最终,通过汇集所有叶节点的数据,获得具有高多样性、均衡分布和全面覆盖的最终数据集。

超越合成:TreeSynth 引导的数据平衡

TreeSynth 的价值不仅在于从零开始的数据合成,还能优化现有数据集。通过为现有数据集构建空间分割树,每个样本都可以被系统性地路由到唯一的叶节点。这样就能清晰地看到数据集在整个空间中的分布模式。如此,对于样本过多的子空间进行随机下采样,而对于样本不足的子空间则利用 TreeSynth 进行数据增强,最终获得更加均衡和全面的数据分布。

案例分析:从抽象到具体



以 GSM8K 风格的数学问题生成为例,TreeSynth 的工作流程如下:

1.根节点定义:整个数据空间被定义为 "GSM8K 风格的数学问题"

2.首层分割:通过分析样本特征,确定 "数学运算类型" 作为第一层分割标准,将空间分为加减法、乘除法、开方、取模等子空间

3.递归深化:对每个子空间继续分割,比如加减法子空间可能进一步按 "问题复杂度" 分割

4.叶节点合成:在每个最终的原子子空间内生成具体的数学问题

这种系统性的分割确保了生成的数据集既具有全面的覆盖性,又保持了各个维度上的平衡分布。

实验验证:全方位性能提升

研究团队在数学推理(GSM8K、MATH)、代码生成(MBPP、HumanEval)和心理学(SimpleToM)等多个基准任务上进行了全面评估。

与基线方法的比较

实验对比了人工标注数据和三种代表性的 LLM 数据合成方法:

  • 温度采样(Temperature Sampling):通过调整采样温度增加多样性
  • 种子驱动方法(Evol-Instruct):基于现有数据进化生成新样本
  • 属性驱动方法(Persona Hub):利用不同属性组合生成数据

显著的性能提升

实验结果显示,TreeSynth 在所有基准测试中都取得了一致的性能提升:



  • 在数学推理任务上,LLaMA3.1-8B 模型在 GSM8K 上的准确率从基线的 45.2% 提升到 55.8%,在 MATH 上从 12.1% 提升到 18.7%
  • 在代码生成任务上,HumanEval 的通过率从 32.3% 提升到 41.9%,MBPP 从 39.1% 提升到 47.6%
  • 平均性能提升达到 10%,最高提升幅度超过 17%



更令人印象深刻的是,TreeSynth 展现出了优秀的可扩展性。随着数据规模的增加,模型性能呈现线性甚至更好的增长轨迹,这证明了该方法在大规模数据合成场景下的稳健性。

数据多样性的显著改善



除了下游任务性能,TreeSynth 在数据多样性指标上也显著超越基线方法,在某些测试中多样性提升高达 45%。同时,t-SNE 可视化也直观地展示了 TreeSynth 卓越的数据多样性,生成的数据在嵌入空间中分布更加均匀和分散。这直接验证了树引导分割机制在防止数据重复和空间坍塌方面的有效性。

结语与展望

TreeSynth 为数据合成领域带来了全新的视角。通过将决策树的空间分割智慧迁移到数据生成任务中,它成功地解决了现有方法在多样性和覆盖性方面的不足。实验结果不仅验证了其在多个领域的有效性,更重要的是展现了其在大规模场景下的可扩展性。

这项工作的意义不仅在于提出了一种新的数据合成方法,更在于提供了一个系统性思考数据生成问题的新框架。正如一位园丁需要整体规划种植布局一样,模型的训练也需要系统性地设计数据分布。

未来值得探索的方向:

  • 如何更好地 “通过一句任务描述生成海量数据,完成模型训练”?
  • 如何自适应地确定最优的树深度和分割标准?
  • TreeSynth 能够持续 scale 的最大规模?真实世界复杂场景还涉及 agent、多轮对话、知识库等复杂场景,如何更好地探索相关场景?

TreeSynth 开启了从 0 合成数据领域的新篇章,为构建更加多样化、全面覆盖的训练数据集提供了强有力的工具。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
坏消息,勇士队库里在战胜太阳队后立即被宣布缺席打国王队的比赛

坏消息,勇士队库里在战胜太阳队后立即被宣布缺席打国王队的比赛

好火子
2025-11-05 23:52:39
古二成功毁掉王家卫,《繁花》电影版流产,导演生涯基本结束

古二成功毁掉王家卫,《繁花》电影版流产,导演生涯基本结束

光影新天地
2025-11-04 14:48:35
完了完了!突然一级拉伤!这可是NBA大年状元郎

完了完了!突然一级拉伤!这可是NBA大年状元郎

篮球实战宝典
2025-11-05 20:24:28
年轻人不买账,中年人喝不起!茅台跌破1600,终于承认只是瓶酒?

年轻人不买账,中年人喝不起!茅台跌破1600,终于承认只是瓶酒?

金融八卦女
2025-11-05 13:57:48
安世半导体风波仍在持续,闻泰科技重要股东突然宣布减持:最高价值超16亿元!公司第三季度净利大增279%

安世半导体风波仍在持续,闻泰科技重要股东突然宣布减持:最高价值超16亿元!公司第三季度净利大增279%

每日经济新闻
2025-11-05 22:59:09
10年湖北打工妹嫁英国高管,结婚8 年持刀捅死丈夫,如今下场唏嘘

10年湖北打工妹嫁英国高管,结婚8 年持刀捅死丈夫,如今下场唏嘘

银河史记
2025-11-04 20:17:37
佟丽娅在深圳扫购黄金!头发稀少假发突出,满胳膊黄金手串太显眼

佟丽娅在深圳扫购黄金!头发稀少假发突出,满胳膊黄金手串太显眼

鑫鑫说说
2025-11-04 09:18:31
郭可盈在香港买37万国产电车,与丈夫现身提车,林文龙打扮好时尚

郭可盈在香港买37万国产电车,与丈夫现身提车,林文龙打扮好时尚

黔乡小姊妹
2025-11-06 11:23:26
恩爱了17年,75岁的郭台铭开始衰老萎缩,51岁的曾馨莹仍娇艳如花

恩爱了17年,75岁的郭台铭开始衰老萎缩,51岁的曾馨莹仍娇艳如花

不似少年游
2025-09-12 07:34:15
澳门知名娱乐场英皇宫殿宣布停运,老板为英皇集团掌门人杨受成;曾以大堂铺满78公斤千足黄金闻名,开业时成龙、刘德华等艺人捧场

澳门知名娱乐场英皇宫殿宣布停运,老板为英皇集团掌门人杨受成;曾以大堂铺满78公斤千足黄金闻名,开业时成龙、刘德华等艺人捧场

极目新闻
2025-11-05 16:19:29
祝贺!邵佳一当选国足主帅,2新星锁定国脚资格,年轻化全面提速

祝贺!邵佳一当选国足主帅,2新星锁定国脚资格,年轻化全面提速

国足风云
2025-11-05 18:48:00
先发五战全胜!308万奥科吉成火箭胜负手 美媒:这个合同是打劫

先发五战全胜!308万奥科吉成火箭胜负手 美媒:这个合同是打劫

颜小白的篮球梦
2025-11-06 11:28:08
喝酒四巨头:不到两年全没,有的去世当天喝4瓶白酒,最小的才26

喝酒四巨头:不到两年全没,有的去世当天喝4瓶白酒,最小的才26

墨印斋
2025-09-22 10:00:58
62岁穆里尼奥麻了:上任48天 欧冠3败0分0球!沦为送分童子

62岁穆里尼奥麻了:上任48天 欧冠3败0分0球!沦为送分童子

叶青足球世界
2025-11-06 07:38:57
从落后3分到17分!哈登25+6+6遭冷藏,卢指导制造快船负雷霆惨案

从落后3分到17分!哈登25+6+6遭冷藏,卢指导制造快船负雷霆惨案

奕辰说球
2025-11-06 11:28:31
baby新男友已获小海绵认可?街头带娃遛大型犬,像幸福的一家三口

baby新男友已获小海绵认可?街头带娃遛大型犬,像幸福的一家三口

八星人
2025-11-05 15:55:40
韩国人又破防了!废除中国汉字多年后,韩语咋成了“中国拼音”了

韩国人又破防了!废除中国汉字多年后,韩语咋成了“中国拼音”了

青途历史
2025-10-03 13:19:06
火箭真疯!5连胜倒数杀回西部第四 7人上双已完成合体

火箭真疯!5连胜倒数杀回西部第四 7人上双已完成合体

枪炮篮球 PiU
2025-11-06 11:38:26
吴京《镖人》是奔着票房冠军去的,陈丽君或成票房最高武侠女演员

吴京《镖人》是奔着票房冠军去的,陈丽君或成票房最高武侠女演员

八卦南风
2025-11-05 15:16:34
人民日报专访,揭开32岁周深的真实处境,那英确实一个字都没说错

人民日报专访,揭开32岁周深的真实处境,那英确实一个字都没说错

八斗小先生
2025-11-01 08:46:54
2025-11-06 13:23:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11657文章数 142499关注度
往期回顾 全部

科技要闻

苹果“认输”!曝每年10亿美元租用谷歌AI

头条要闻

副院长被指出轨女主任医师 在值班室发生关系视频流出

头条要闻

副院长被指出轨女主任医师 在值班室发生关系视频流出

体育要闻

送走两位全明星,公牛成了东部第一

娱乐要闻

白百何好友揭露争奖细节

财经要闻

特朗普关税遭美国高院大法官轮番质疑

汽车要闻

方向盘?不存在的 特斯拉 Cybercab亚太首秀

态度原创

房产
艺术
数码
健康
游戏

房产要闻

中旅·三亚蓝湾,以一座城市会客厅回应世界的滨海想象

艺术要闻

“塑料凳”大厦?西安新地标213米造型引热议!

数码要闻

6 热管直触,瓦尔基里推出单塔单风扇、双塔双风扇风冷散热器

超声探头会加重受伤情况吗?

Xbox Insider问卷提及《羊蹄山之魂》 引发平台移植猜测

无障碍浏览 进入关怀版