网易首页 > 网易号 > 正文 申请入驻

谷歌DeepMind「粪坑淘金」全新方法,暗网毒数据也能训出善良模型

0
分享至

新智元报道

编辑:艾伦

【新智元导读】谷歌DeepMind研究团队一年前的研究成果直到昨晚才姗姗揭秘,提出了一种叫做GDR的新方法,颠覆了传统训练中设法剔除脏数据的思路,将饱含恶意内容的数据「变废为宝」,处理后的数据集用于训练,甚至比直接剔除脏数据训练出的模型效果还好,「出淤泥而不染」,「择善而从」。

数据是AI的粮食,「一顿不吃饿得慌」,数据供给充足,模型才能全力以赴。

我们如今用着的强大模型,背后使用了互联网上的海量数据用于训练。

随着硬件与成本的限制,研究者逐渐意识到:光靠堆数据已经难以为继,能否更好地利用数据,才是决定未来性能的关键

然而,有三个棘手的问题一直难以解决:

第一,公网上可供使用的数据正在逐渐枯竭,预计十年内就会用完。

第二,大量用户生成的内容虽然存在,但含有隐私信息、攻击性语言或版权内容,无法直接使用。

第三,合成数据生成虽是出路,但往往存在多样性不足、与真实数据差距大等问题。

为了解决这些问题,谷歌DeepMind研究团队于昨日公开发表了一篇研究论文:《Generative Data Refinement: Just Ask for Better Data》。

论文地址:https://arxiv.org/pdf/2509.08653

这篇论文的第一作者是华人Minqi Jiang,今年也从DeepMind跳槽去了最近处于风口浪尖的Meta Superintelligence Labs。

回到论文。这篇论文提出了一种新方法:生成式数据精炼(Generative Data Refinement, GDR)

它的核心思路是——不直接生成全新的数据,而是利用大模型把原始数据「净化」、改写的同时保留有用信息,去掉隐私或有害部分

换句话说,GDR就像一个「数据清洗器」,既能让脏数据变干净,又能保持原本的知识价值。

GDR的基本思路

传统的合成数据生成依赖大模型反复采样,但容易产生同质化输出,多样性不足。

而GDR采取了颠覆传统思路的方法:

输入部分使用真实世界数据(例如代码、对话、网页内容),处理部分使用大模型作为生成器,按预设规则改写(比如去掉隐私、降低毒性),最终输出一个精炼数据集,既安全又保持原始多样性。

论文中较为详细地介绍了GDR的具体工作流程

第一步,输入数据:

包括原始文本、代码、对话或网页数据。

数据中可能含有PII、毒性语言、或其他不可用于训练的内容。

第二步,Prompt构造:

给大模型设计一个Prompt,告诉它要做什么:

如果是匿名化任务:提示要求「识别并替换掉敏感信息,用安全占位符替代」;

如果是去毒化任务:提示要求「删除冒犯性表达,但保留事实性内容」。

提示可以是零样本,也可以加入示例,甚至通过微调来增强模型能力。

第三步,生成改写:

模型根据提示,对每个输入样本生成一个新的版本。输出的目标是安全、合理、保留上下文信息。

第四步,验证与筛选:

对生成结果运行验证(例如再跑一次PII检测、或用毒性分类器评估),过滤掉不合格的结果,确保数据集安全。

最后一步,得到精炼数据集D′,可作为训练数据反复使用。

数据多样性依然保持住了,甚至优于直接合成数据。

这种方法有三大优势:

  • 继承真实数据的多样性,因为每条合成数据都「锚定」在一个真实样本上。

  • 避免模式坍缩,不像单纯的合成数据那样,容易收敛到几种套路化表达。

  • 适配不同任务,只需换提示词或微调,就能针对匿名化、去毒化等不同场景。

当然,GDR的代价是需要额外的计算。最坏情况下,相当于再训练1/3次模型。

但一旦得到干净数据,它可以反复使用,长期来看非常划算。

为了验证GDR的效果,文章进行了三个不同角度的实验。

实验一:代码匿名化

代码库中常常藏着敏感信息,例如邮箱、密码、API Token、私有URL。

这些信息如果进入训练数据,不仅存在泄露风险,还可能导致模型在输出时「背诵」隐私。

传统做法是DIRS服务:只要检测到可能的PII,就直接丢弃整个文件。但这种「宁可错杀」的方式,可能导致数百万行有价值的代码被浪费。

研究者在120万行、479个开源库上对比了GDR与DIRS:

  • 行级别标注结果表明:GDR能更精准地找到PII,并用占位符替换;

  • DIRS误判率高,大量无害数据被误删;

  • GDR虽然有少量误报(比如把安全的变量名也替换掉),但这些大多可以通过静态分析检测并修复。

实验结果表明,GDR在保持数据可用性方面,远优于DIRS服务这类传统方法,是大规模代码匿名化的可行方案。

实验二:对话去毒化

如仇恨言论、性别歧视和恶俗等有害内容,在网络上比比皆是。

直接训练这样的数据可能让模型学会错误的价值观,甚至输出危险内容。

研究团队选择了臭名昭著的4chan /pol/讨论区(某种程度上类似国内孙笑川吧的一个充满恶意内容的互联网社区)数据集,抽取了10万个对话对(pol100k),然后用Gemini Pro 1.5零样本提示进行GDR去毒化。

  • PerspectiveAPI毒性评分:pol100k为0.19,GDR精炼后降到0.13,甚至低于同模型生成的SyntheticChat(0.14)。

  • UMAP可视化显示,精炼数据的分布依旧接近真实数据,而纯合成数据出现了明显的模式坍缩。

  • 研究者让模型在去毒化数据上微调后,发现它仍然能保留世界知识,并且生成风格更接近人类。检测系统甚至有31%的概率分不清它和人类对话。

实验结果表明,GDR清洗有害数据的同时,也保留了其中包含的知识,「出淤泥而不染」,「择善而从」。

实验三:多样性对比

研究者使用了ROUGE-2和嵌入余弦距离指标比较pol100k、精炼版和SyntheticChat。

GDR精炼后的数据,多样性不仅比SyntheticChat高,还略微超过了原始数据。

实验结果表明,GDR不仅起到了安全过滤的作用,还顺带增强了数据的多样性,一举多得。

GDR:变废为宝的「点金术」

GDR就像数据世界的「净水器」,把杂质过滤掉,却让养分完整保留。

它把原本的脏数据变成「可用燃料」,为大模型的发展输送源源不断的清洁能量。

它是AI时代能变废为宝的「点金手」。

迈达斯之手

在数据枯竭与隐私风险的双重挑战下,GDR提供了一条出路。

未来的大模型的持续进化,离不开这些人类的巧思与苦功。

参考资料:

https://arxiv.org/abs/2509.08653

https://x.com/MinqiJiang/status/1967685550422598067

https://www.linkedin.com/in/minqi-jiang-585a6536

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
山东高密化工厂爆炸案调查结果公布:10人被追究刑责,49人被建议处分处理

山东高密化工厂爆炸案调查结果公布:10人被追究刑责,49人被建议处分处理

封面新闻
2026-03-30 20:21:04
王诗龄母女韶山献花!李湘大变样瘦了20斤 和女儿关系变冷没互动

王诗龄母女韶山献花!李湘大变样瘦了20斤 和女儿关系变冷没互动

谈史论天地
2026-03-30 14:26:08
张雪峰大学时期青涩照片曝光!阳光痞帅似青松,进娱乐圈没问题

张雪峰大学时期青涩照片曝光!阳光痞帅似青松,进娱乐圈没问题

谈史论天地
2026-03-31 09:45:54
北京男子靠龙虾OpenClaw实现36小时买房:龙虾迅速筛出周边房源,2小时内独自对比大量中介并选定,精准摸清历史最低成交价

北京男子靠龙虾OpenClaw实现36小时买房:龙虾迅速筛出周边房源,2小时内独自对比大量中介并选定,精准摸清历史最低成交价

扬子晚报
2026-03-29 19:35:46
男子吃饭拒付款后续:当众顶撞民警,耍赖不给钱,被拘留后秒认怂

男子吃饭拒付款后续:当众顶撞民警,耍赖不给钱,被拘留后秒认怂

潮鹿逐梦
2026-03-30 11:44:35
痛心!失联20天广东男子确认遇难!姐姐凌晨上山辨认:是我弟弟…

痛心!失联20天广东男子确认遇难!姐姐凌晨上山辨认:是我弟弟…

广东吃喝玩乐
2026-03-31 12:03:48
不可错过!3月31日下午17:00比赛!中央5套CCTV5、CCTV5+直播表

不可错过!3月31日下午17:00比赛!中央5套CCTV5、CCTV5+直播表

皮皮观天下
2026-03-31 09:18:57
韩国团队花3年追踪200只猫:7个数据让铲屎官集体破防

韩国团队花3年追踪200只猫:7个数据让铲屎官集体破防

赛博兰博
2026-03-29 08:23:50
伊朗指责乌克兰参与对伊朗军事行动

伊朗指责乌克兰参与对伊朗军事行动

财联社
2026-03-30 23:10:06
伊朗女足球员:澳方承诺给我们房子、车子和永居权,来说服我们留下

伊朗女足球员:澳方承诺给我们房子、车子和永居权,来说服我们留下

懂球帝
2026-03-30 13:45:07
冷知识:千万不要买太大的蓝莓!!!

冷知识:千万不要买太大的蓝莓!!!

果壳
2026-03-30 16:12:50
被指瞒报比率近88%!鞠婧祎被曝半年收入不少于5000万

被指瞒报比率近88%!鞠婧祎被曝半年收入不少于5000万

极目新闻
2026-03-31 10:14:25
190亿,498.8米!中国未来第八高楼,南京起飞!

190亿,498.8米!中国未来第八高楼,南京起飞!

GA环球建筑
2026-03-30 20:55:17
真不打球了!生涯狂赚2亿,如今疯狂钓鱼,妥妥的人生大赢家啊

真不打球了!生涯狂赚2亿,如今疯狂钓鱼,妥妥的人生大赢家啊

球童无忌
2026-03-30 14:39:34
婆家12口人聚餐,丈夫叮嘱我吃完饭赶紧跑,看了眼餐桌的人我懂了

婆家12口人聚餐,丈夫叮嘱我吃完饭赶紧跑,看了眼餐桌的人我懂了

奶茶麦子
2026-03-30 21:41:15
李嘉诚和巴菲特同步清仓,背后的信号不简单

李嘉诚和巴菲特同步清仓,背后的信号不简单

深度报
2026-03-30 22:23:58
张雪机车夺冠刷屏,演员尹正发文恭喜,创始人张雪回应:没钱邀请您做代言人,我们把这台820赠送给您

张雪机车夺冠刷屏,演员尹正发文恭喜,创始人张雪回应:没钱邀请您做代言人,我们把这台820赠送给您

极目新闻
2026-03-30 16:57:31
茅台宣布提价后,白酒股今日集体上涨

茅台宣布提价后,白酒股今日集体上涨

第一财经资讯
2026-03-31 10:30:47
詹皇21+10+12连创里程碑!湖人3连胜,小里19+11,布朗尼10投8铁

詹皇21+10+12连创里程碑!湖人3连胜,小里19+11,布朗尼10投8铁

你的篮球频道
2026-03-31 12:25:38
一周图片|美国50个州爆发“不要国王”大规模抗议活动

一周图片|美国50个州爆发“不要国王”大规模抗议活动

澎湃新闻
2026-03-30 12:04:27
2026-03-31 13:44:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14857文章数 66728关注度
往期回顾 全部

科技要闻

尚未正式宣发,国行苹果AI半夜"意外闪现"

头条要闻

从俄乌冲突到伊朗战争:4年间AI从"打辅助"到"做决策"

头条要闻

从俄乌冲突到伊朗战争:4年间AI从"打辅助"到"做决策"

体育要闻

县城修车工,用20年成为世界冠军

娱乐要闻

丝芭传媒举报鞠婧祎:瞒报收入竟达85%

财经要闻

高薪内推藏陷阱!"招转培"骗局盯上求职者

汽车要闻

16万级最强2.0T 全新一代瑞虎9来了

态度原创

健康
亲子
游戏
艺术
手机

干细胞抗衰4大误区,90%的人都中招

亲子要闻

胡图图早上发现自己有一只乌龟不见了,所以不太开心 杨雪呀

PS5多款即将上线重点游戏!含科乐美IGN高分新作

艺术要闻

石涛『野色册』

手机要闻

消息称苹果iPhone 20边框1.1毫米,极致圆润设计

无障碍浏览 进入关怀版