网易首页 > 网易号 > 正文 申请入驻

为现实世界设计合成数据集:机制设计与第一性原理推理

0
分享至


当前,专用AI所需的数据严重匮乏,为解决这一问题,谷歌研究团队推出了Simula框架。该框架将合成数据生成重新定义为数据集层面的机制设计问题,通过基于推理的第一性原理方法构建数据集,实现了对覆盖范围、复杂度与数据质量的精细化控制,为隐私敏感或数据稀缺领域提供了可扩展的数据生成方案。

通用AI模型的快速发展,离不开海量互联网数据的支撑。然而,随着AI在各垂直领域的深度渗透,模型必须针对全新的、非常规的以及隐私敏感型应用进行专业化训练,而这些场景中的数据天然稀缺或难以获取。

为了弥补这一缺口,单纯依赖真实世界数据面临诸多制约:数据采集成本高昂、隐私合规风险突出、标注工作繁重,这些问题在医疗、法律、网络安全等专业领域尤为突出。

合成数据是一种颇具潜力的替代方案,但现有的生成方法往往缺乏生产级部署所需的严谨性。许多现有方法依赖人工提示词、进化算法或来自目标分布的大量种子数据,这导致了可扩展性受限(依赖种子数据或人工投入)、可解释性不足(黑盒式进化步骤)以及控制粒度粗糙(生成参数相互耦合)等问题。最关键的是,这些方法通常以单个样本为优化单位,而非从整体上设计数据集。

为此,必须将合成数据生成重新定义为机制设计问题。生产级应用不仅追求"更多数据",更需要精细化的资源分配,使覆盖范围、复杂度和质量成为可独立调控的变量。

Simula框架的核心方法

在发表于《机器学习研究汇刊》的论文《基于推理的合成数据生成与评估》中,研究团队正式介绍了Simula框架。与依赖不透明流程的方法不同,Simula采用"推理优先"方法论,从第一性原理出发构建完整数据集。该方法无需种子数据且具备智能体特性,使生成能力能够随底层模型推理能力的提升而自然增强。

Simula将数据生成过程分解为四个相互独立、可精细控制的步骤:

全局多样化

为了在不依赖人工种子数据的前提下完整映射目标领域的概念空间,Simula采用了一种基于推理的递归扩展机制。在每一深度层级,系统会生成多个候选子类别(提案),随后由评判模型对这些提案进行评估、合并与过滤。这种迭代式"提案-精炼"循环能够动态构建出密集的层次化分类体系,例如网络威胁情报知识树,作为保障全局数据集多样性的基础框架。

局部多样化

在具体概念内部确保变异性,Simula引入了局部多样化机制。系统先从分类体系节点生成"元提示词"(即场景描述),再针对同一场景生成多个不同实例化版本,从而防止模式坍塌,确保"SQL注入"等概念以多种视角呈现,而非重复输出相同内容。

复杂度控制

复杂度被视为正交于语义覆盖的独立轴。通过"复杂化"步骤,系统对可配置比例的元提示词进行精炼,使其更加复杂或更具挑战性。这使研究人员能够在不改变语义覆盖范围的前提下,调整数据集的难度分布。

质量验证

为了在无需人工干预的情况下确保数据正确性,Simula采用"双评判"循环机制,由两个独立模型分别对答案的正确性进行评估。这种双重验证有助于缓解模型奉承倾向(即模型倾向于认可听起来合理的输出),从而保障标注质量。

评估方法的创新

合成数据的评估本身极具挑战性,因为其核心目标存在模糊性,且标准指标与实际效用之间往往存在脱节。基于嵌入的余弦距离等常规指标只能提供粗粒度信号,难以提供有价值的可操作信息。

为此,Simula同样引入了推理优先的评估方法,具体包括:分类覆盖率指标和校准复杂度评分。后者利用大语言模型驱动的批量比较,为每个数据点分配类似国际象棋等级分制的"Elo评分",以更精准地衡量数据多样性与难度分布。

实验验证

研究团队以Gemini 2.5 Flash作为教师模型、Gemma-3 4B作为学生模型,在五个不同领域对Simula进行了评估:网络安全(CTIBench中的CTI-MCQ、CTI-RCM)、法律推理(LEXam)、小学数学(GSM8k)以及多语言学术知识(Global MMLU)。每个领域的数据集规模最大可达51.2万条。

实验结果揭示了一个关键现实:不存在单一"最优"的数据生成方式,"优质数据"与下游任务性能之间的关系高度依赖具体场景。尽管此次采用的是知识蒸馏评估框架(以保证评估的可复现性和系统性),但所获得的核心规律同样适用于更广泛的应用场景。

在谷歌内部的实际部署

Simula不仅仅是一个用于优化基准分数的工具,它是谷歌内部诸多业务关键型应用的基础数据引擎。

在前沿AI领域,Simula是Gemma生态系统的重要支撑,包括ShieldGemma、FunctionGemma和MedGemma等专用模型,同时为端侧和服务器端Gemini安全分类器提供了核心合成数据支撑。

在用户保护领域,Simula助力了多项实用功能的落地,包括Android通话AI诈骗检测和Google Messages垃圾信息过滤。

在应用研究层面,Simula正在推动企业安全领域的ML民主化(通过合成真实攻击场景),以及AI地图识别等创新能力的突破。

结语

AI发展正站在新的十字路口。推动下一波突破——涵盖科学、安全和法律等领域——所需的专业化数据,不太可能由人类在必要的规模上完成生产。合成数据将在这些飞跃中扮演核心角色,但前提是以严谨的方式加以运用。

Simula的核心价值在于证明:机制设计能够将数据生成转变为一门可控的科学。这一方案为构建下一个AI时代所需的高保真数据集提供了清晰路径——无论是向边缘设备进行知识蒸馏、通过强化学习训练智能体,还是系统化地探索复杂边界情况。

本研究由Tim R. Davidson、Benoit Seguin、Enrico Bacis、Cesar Ilharco和Hamza Harkous共同撰写。Simula框架由Hamza和Benoit创立并主导,Tim在学生研究员任期内作出了重要贡献。研究团队还感谢Jan Keller的项目管理支持、Coran Corbett与Ninny Wan的技术与产品合作,以及Nina Taft、Amanda Walker和Pankaj Rohatgi的资助与支持。

Q&A

Q1:Simula框架和传统合成数据生成方法有什么区别?

A:传统方法通常依赖人工提示词、进化算法或种子数据,每次只优化单个数据样本,存在可扩展性差、可解释性不足、参数控制粒度粗糙等问题。Simula则从第一性原理出发,将数据集整体作为设计对象,通过全局多样化、局部多样化、复杂度控制、质量验证四个独立可控步骤生成数据,无需种子数据,且生成能力能随底层模型推理能力的提升而自然增强。

Q2:Simula框架的"双评判"循环机制是如何保证数据质量的?

A:Simula的"双评判"循环由两个独立模型分别对生成数据的答案正确性进行评估,两者独立作出判断后再进行比对。这种双重验证机制的核心目的是缓解单一模型的"奉承倾向"——即模型容易认可听起来合理但实际错误的输出。通过引入独立的第二视角,可以有效过滤掉低质量或错误标注的数据,从而在无需人工干预的情况下保障大规模合成数据集的整体质量。

Q3:Simula框架目前在谷歌哪些实际产品中得到了应用?

A:Simula已在谷歌多个业务场景中落地。在AI模型层面,它为Gemma生态中的ShieldGemma(安全模型)、FunctionGemma(函数调用模型)和MedGemma(医疗模型)提供训练数据,同时也是端侧和服务器端Gemini安全分类器的核心数据来源。在用户保护层面,它支撑了Android通话AI诈骗检测和Google Messages垃圾信息过滤功能。此外,Simula还应用于企业安全研究和AI地图识别等前沿探索方向。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中甲|李玮锋首次替补席指挥宁波队比赛被罚出场

中甲|李玮锋首次替补席指挥宁波队比赛被罚出场

北青网-北京青年报
2026-04-18 18:58:10
担心的事还是发生,跑丢编制的女护士张水华,又回到了她的怪圈

担心的事还是发生,跑丢编制的女护士张水华,又回到了她的怪圈

金风说
2026-04-15 14:42:59
涉嫌严重违纪违法,鲜海春被查

涉嫌严重违纪违法,鲜海春被查

吉刻新闻
2026-04-18 10:57:05
浙江男篮力克辽宁!赛后数据一清二楚,法莱卡斯教练或感谢一人

浙江男篮力克辽宁!赛后数据一清二楚,法莱卡斯教练或感谢一人

大汉体育解说
2026-04-19 06:12:29
联想ThinkPlus 190W移动电源开售,售价349元

联想ThinkPlus 190W移动电源开售,售价349元

IT之家
2026-04-18 23:08:11
三个月内再翻脸!斯塔默撕约坚决叫停中企项目,中方不会再惯着

三个月内再翻脸!斯塔默撕约坚决叫停中企项目,中方不会再惯着

原谅你
2026-04-19 05:52:00
黄渤和邓超为什么无戏可拍了?

黄渤和邓超为什么无戏可拍了?

闲人电影
2026-04-16 18:55:11
伊朗或再次上当?局势180度反转,美突然变脸,特朗普:谢谢伊朗

伊朗或再次上当?局势180度反转,美突然变脸,特朗普:谢谢伊朗

军机Talk
2026-04-18 11:48:59
2020年粟戎生写信询问:孟良崮上为何只见敌酋招魂,不见我军神勇

2020年粟戎生写信询问:孟良崮上为何只见敌酋招魂,不见我军神勇

历史龙元阁
2026-04-18 08:50:13
我妈93岁,独居自理,她的长寿秘诀就六个字:别老想着走动!

我妈93岁,独居自理,她的长寿秘诀就六个字:别老想着走动!

蝉吟槐蕊
2026-04-19 06:23:45
德泽尔比:对2-2的结果感到很遗憾,我们今天理应赢下比赛

德泽尔比:对2-2的结果感到很遗憾,我们今天理应赢下比赛

懂球帝
2026-04-19 03:33:29
1987年邓力群坚持左倾,落选中央委员,邓小平:承认选举,不变动

1987年邓力群坚持左倾,落选中央委员,邓小平:承认选举,不变动

帝哥说史
2026-04-13 06:30:03
那年我去邻村要账,不料被他家姑娘相中,钱没要到人反而搭了进去

那年我去邻村要账,不料被他家姑娘相中,钱没要到人反而搭了进去

白云故事
2025-05-18 17:10:08
曝锡安社媒搭讪悉尼妹遭强烈拒绝!多位NBA球星曾示爱美国甜心

曝锡安社媒搭讪悉尼妹遭强烈拒绝!多位NBA球星曾示爱美国甜心

Emily说个球
2026-04-18 13:49:43
全程眼突鼓腮,看了观众对孙俪的评价,才知张艺谋这句话的含金量

全程眼突鼓腮,看了观众对孙俪的评价,才知张艺谋这句话的含金量

陈述影视
2026-04-04 17:53:34
丈夫骑车载妻子,为躲避狗摔倒后妻子身亡,丈夫起诉4辆违停车辆索赔124万,法院:遮挡了视线,承担20%次要责任

丈夫骑车载妻子,为躲避狗摔倒后妻子身亡,丈夫起诉4辆违停车辆索赔124万,法院:遮挡了视线,承担20%次要责任

大象新闻
2026-04-18 12:47:03
女子利用天气预报频繁购买飞机延误险,5年买中900多次,获赔近300万,被抓时:我符合保险理赔要求

女子利用天气预报频繁购买飞机延误险,5年买中900多次,获赔近300万,被抓时:我符合保险理赔要求

谭老师地理大课堂
2026-04-15 20:11:42
再年轻也没用!31岁美女空姐李旭怡去世,死因曝光,3年前才怀2胎

再年轻也没用!31岁美女空姐李旭怡去世,死因曝光,3年前才怀2胎

哄动一时啊
2026-04-18 14:35:19
存储芯片封测:长电科技、太极实业、通富微电、华天科技潜力谁大

存储芯片封测:长电科技、太极实业、通富微电、华天科技潜力谁大

长风价值掘金
2026-04-18 22:10:57
2025年外卖骑手破1300万,大专生占近四分之一,曾经的退路也卷了

2025年外卖骑手破1300万,大专生占近四分之一,曾经的退路也卷了

老特有话说
2026-04-16 16:16:26
2026-04-19 07:20:49
至顶头条 incentive-icons
至顶头条
记录和推动数字化创新
17789文章数 49699关注度
往期回顾 全部

科技要闻

传Meta下月拟裁8000 大举清退人力为AI腾位

头条要闻

伊朗革命卫队向油轮开火 伊朗最高领袖发声

头条要闻

伊朗革命卫队向油轮开火 伊朗最高领袖发声

体育要闻

时隔25年重返英超!没有人再嘲笑他了

娱乐要闻

刘德华回应潘宏彬去世,拒谈丧礼细节

财经要闻

"影子万科"2.0:管理层如何吸血万物云?

汽车要闻

奇瑞威麟R08 PRO正式上市 售价14.48万元起

态度原创

游戏
亲子
教育
旅游
艺术

让老粥批直呼“计划有变”的岁兽代理人,到底是什么东西?

亲子要闻

老公终于梦想成真了!帮忙给宝宝起小名呗

教育要闻

北京:长幼随学!继续积极为多孩子女同校就读创造条件

旅游要闻

申城周末开启“繁花”模式:前滩800米欧式花街变身庄园 全城百个橱窗联动“拥抱”春天

艺术要闻

夜色下的欧洲

无障碍浏览 进入关怀版