网易首页 > 网易号 > 正文 申请入驻

统计可控数据合成!新框架突破大模型数据生成局限

0
分享至

麦吉尔大学团队 投稿
量子位 | 公众号 QbitAI

现有的数据合成方法在合理性和分布一致性方面存在不足,且缺乏自动适配不同数据的能力,扩展性较差。

大语言模型受限于采样效率和上下文窗口大小,难以直接合成大规模数据集。

如何用大模型生成结构对齐、统计可信、语义合理的数据,成为了亟待解决的问题。

为此,麦吉尔大学团队提出了新方法LLMSynthor

通过这个方法,可以让大模型变成结构感知的数据模拟器,为隐私敏感、数据稀缺场景生成不泄密的高质量替代数据。

LLMSynthor:让LLM变成“结构感知的生成器”

在人口、电商、出行等场景,数据敏感难共享,不同数据格式还需单独设计模型,成本高、迁移差。

传统方法如贝叶斯网络、GAN等,要么难以建模高维依赖,要么泛化差且不稳定,还常生成“9岁博士”这类统计合理但语义荒谬的样本。

同样,近期大模型也被用于数据生成,但存在采样慢分布不可控上下文受限等问题,难以高效生成结构完整的大规模数据集。

而LLMSynthor的解法是:让LLM不直接生成数据,而是变成“结构感知的生成器”,通过统计对齐反馈不断迭代优化。

整体框架如下:

Step 1:结构推理

生成可信数据,关键是理解变量之间的依赖结构。

传统Copula模型虽能拆分变量分布与关系建模,但在高维、多语义场景下难以扩展。

LLMSynthor的关键创新是:用大语言模型模拟Copula

LLM本身可视为一种现实世界联合分布的高维先验,其预训练过程中已经内化了人类行为、社会结构的变量共现规律。

结合对统计摘要(如频率、分布等)的理解,它能推断变量间的高阶关系,并利用语义信息挖掘隐藏依赖。

Step 2:统计对齐

LLMSynthor不直接比对原始数据,而是通过统计摘要(如变量分布、联合频率)来衡量真实数据与合成数据的差距。

这样,就既保留了结构信息,又避免泄露个体数据。

(因为只依赖统计特征,即便输入的是聚合的指标,也能生成结构合理、语义一致的合成数据,特别适合人口普查、问卷调查等隐私敏感场景。)

此外,LLMSynthor的对齐机制是可归因的:不仅衡量“整体偏离”,还能定位具体偏差来自哪个变量或变量组合。

这种细粒度反馈能直接用于下一轮生成的结构调整,实现逐步对齐。

Step 3:生成分布而不是样本

传统方法逐条生成样本,效率低且难控分布。

LLMSynthor改为生成可采样的分布规则(proposals),比如:“25岁女性、在一线城市、购买美妆产品”,然后批量采样,甚至可调用图像等外部生成器扩展至多模态任务。

proposal同时受统计反馈和LLM常识引导,可自然避免如“10岁博士”一类的荒谬变量组合。

这种方式不仅高效、结构可信,还能通过“分布描述语言”来协调其他模型协同生成,实现跨模态、多源、多任务的数据合成与模拟

Step 4:迭代对齐

通过“结构推理-统计比较-规则生成-新数据采样”不断循环,模型最终会生成一组结构上、统计上都高度接近真实数据,且符合常理的合成数据集。

理论保障

除了经验效果,LLMSynthor还具备理论收敛保障。

LLMSynthor团队提出局部结构一致性定理(Local Structural Consistency):在合理的假设下,如果某个变量或变量组分布初始存在偏差,经过有限次迭代可将误差收敛至任意可控范围。

这说明LLMSynthor不是“凭感觉靠近”,而是有数学保障地逐步收敛到真实数据结构。

多场景实测

为了验证LLMSynthor的实用性和稳定性,作者在三个具代表性的真实场景中进行了实验,包括电商交易、人口统计和城市出行。

电商交易生成

这是一个包含连续与离散变量的混合场景,变量关系复杂。

作者基于贝叶斯网络构建可控数据集,设定明确结构,用于评估建模能力。

结果显示,LLMSynthor在边缘与联合分布误差上均表现最优,准确还原变量依赖。

进一步的预测实验也显示,其合成数据训练出的模型在真实数据上效果最佳,体现出强实际价值。

人口微观合成

在人口数据包含家庭-个人嵌套结构,天然非结构化。这类数据广泛应用于城市规划、政策评估、资源配置等关键任务。LMSynthor可处理此类复杂结构,并在6类共16项政策指标上(如老年贫困率),显著优于已有方法。

城市出行模拟

出行数据包含时序、地理、行为等多种复杂类型,是交通仿真和应急管理的基础。

LLMSynthor基于多源数据,成功生成符合城市节奏的模拟轨迹。更关键的是,它能响应prompt控制生成。

比如输入“晚上8点东京巨蛋有演唱会”,合成数据便展现出对应时段的潮汐客流变化,展现出现实还原力和场景操控能力,适用于政策仿真与事件预演。

大模型兼容情况

LLMSynthor生成效率高、无需训练,同时兼容多种大模型,换用如Qwen-2.5-7B等开源模型也能稳定运行,具备良好扩展性与落地适配能力。

论文链接:https://arxiv.org/pdf/2505.14752
项目地址:https://yihongt.github.io/llmsynthor_web/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
清明将至,俗话说:“坟头三不动,一动穷三代”今年应如何祭祖?

清明将至,俗话说:“坟头三不动,一动穷三代”今年应如何祭祖?

磊子讲史
2026-03-20 16:07:07
燃气调价通知

燃气调价通知

孝感汇
2026-03-25 16:38:10
小毛打酱油 浙江双煞快废了!于金永该让位姚浩洋 依木兰眼神太狠

小毛打酱油 浙江双煞快废了!于金永该让位姚浩洋 依木兰眼神太狠

刀锋体育
2026-03-26 10:43:52
态度180度大转变!外媒集体改口:中国已在三大关键领域强势崛起

态度180度大转变!外媒集体改口:中国已在三大关键领域强势崛起

大卫聊科技
2026-03-26 13:11:34
昨天杭州有医院门诊突然多了不少“跑友”,主动要求检查心脏功能!医生:长期跑步不等于心肺功能没问题

昨天杭州有医院门诊突然多了不少“跑友”,主动要求检查心脏功能!医生:长期跑步不等于心肺功能没问题

都市快报橙柿互动
2026-03-26 08:00:05
江西女硕士失踪,被发现时已在教授实验室待6年,魔鬼真的存在

江西女硕士失踪,被发现时已在教授实验室待6年,魔鬼真的存在

灿烂夏天
2025-02-10 20:20:13
巴拿马接手港口仅一个月,中远海运集运宣布恢复中东六国新订舱业务!

巴拿马接手港口仅一个月,中远海运集运宣布恢复中东六国新订舱业务!

趣味萌宠的日常
2026-03-26 14:04:01
美军全球调兵、要打地面战争?伊朗:要给特朗普一个“巨大惊喜”

美军全球调兵、要打地面战争?伊朗:要给特朗普一个“巨大惊喜”

野史日记
2026-03-25 10:00:12
四川高县村支书暴打残疾村妇致轻伤 法院判决免于刑事处罚引争议

四川高县村支书暴打残疾村妇致轻伤 法院判决免于刑事处罚引争议

律法刑道
2026-03-26 10:55:03
女娲的传说藏了一个远古秘密,虽然后人不愿承认,但的确真实存在

女娲的传说藏了一个远古秘密,虽然后人不愿承认,但的确真实存在

铭记历史呀
2026-03-25 13:00:36
英国上将揭露:1997年香港回归真相,谁敢抗衡中国解放军?

英国上将揭露:1997年香港回归真相,谁敢抗衡中国解放军?

老范谈史
2026-03-18 23:51:08
稳居西部第二!马刺三大年轻核心,已成联盟无解难题!

稳居西部第二!马刺三大年轻核心,已成联盟无解难题!

田先生篮球
2026-03-26 14:23:29
逃亡沙特不久,马步芳强取亲侄女为妻,蒋介石:他让我颜面尽失

逃亡沙特不久,马步芳强取亲侄女为妻,蒋介石:他让我颜面尽失

史笔似尘钩
2026-03-17 20:35:07
世预赛欧洲区开打!明晨将有8队出局 8队进决赛 意大利生死战

世预赛欧洲区开打!明晨将有8队出局 8队进决赛 意大利生死战

叶青足球世界
2026-03-26 08:47:10
“我的部长同学进去了”

“我的部长同学进去了”

霹雳炮
2026-03-21 16:58:17
1955年蒋介石想吃奉化老家的黄花泥螺,保密局知道后如何搞到的?

1955年蒋介石想吃奉化老家的黄花泥螺,保密局知道后如何搞到的?

铜臭的历史味
2026-03-16 13:05:54
广东男篮最新动态!杜峰回怼记者发言引不满,胡明轩被批不配顶薪,徐杰状态回归

广东男篮最新动态!杜峰回怼记者发言引不满,胡明轩被批不配顶薪,徐杰状态回归

凯丰侃球
2026-03-26 11:20:03
最早发现伟人才华的3人是谁?其中一人:想救国,必重用毛泽东

最早发现伟人才华的3人是谁?其中一人:想救国,必重用毛泽东

那年的春夏
2024-11-15 22:43:54
特朗普:对伊朗打击未获国会授权,仅为军事行动,不是战争

特朗普:对伊朗打击未获国会授权,仅为军事行动,不是战争

观世环球
2026-03-26 12:50:25
先被里瓦尔多全面逆袭,后遭齐达内强势碾压,全能战士时运不济

先被里瓦尔多全面逆袭,后遭齐达内强势碾压,全能战士时运不济

足篮大世界
2026-03-26 10:52:09
2026-03-26 15:20:49
量子位 incentive-icons
量子位
追踪人工智能动态
12346文章数 176424关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

头条要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

健康
手机
旅游
艺术
公开课

转头就晕的耳石症,能开车上班吗?

手机要闻

存储涨价苦了国产品牌、普通消费者,苹果却不受影响

旅游要闻

淡季旺销!南明住宿业今年前两月营收斩获1.18亿元

艺术要闻

哪一座桥不是风景?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版