网易首页 > 网易号 > 正文 申请入驻

利好AI大模型!MIT团队推出数据集审查工具DPExplorer,对“不合适”训练数据说no

0
分享至

前言

训练数据的质量优劣,直接影响人工智能(AI)大模型的能力水平

当前,尽管大模型在文本/图像/视频等内容生成和理解等领域不断取得新突破,但由于数据来源的透明性不足,虚假信息泛滥和幻觉问题依然存在。

这可能会导致大模型性能下降,出现数据偏差、隐含偏差或行为失真等现象,还可能引发版权纠纷等法律问题。

近日,来自麻省理工学院(MIT)研究团队及其合作者在提高大模型准确性、减少偏差方面取得了新进展——

他们开发了一种名为 “Data Provenance Explorer” 的结构化审查工具,其通过自动生成详细的数据来源卡片,帮助 AI 从业者选择更适合其大模型的训练数据。

他们对 1800 多个文本数据集进行了系统审查,发现约 70% 的数据集缺乏必要的许可信息,50% 的数据集包含错误信息。

通过使用这一工具,他们将无法验证的信息从 72% 降至 30%,明显降低了数据的偏差,有效提高了数据的可追溯性和透明度。

相关研究论文以 “A large-scale audit of dataset licensing and attribution in AI” 为题,已发表在科学期刊 Nature Machine Intelligence 上。

该研究为大模型的训练提供了更可靠的数据基础,在推动 AI 领域的法律和伦理研究方面迈出了关键一步。

从72%降至30%,解决未指定许可问题

大模型的训练高度依赖于多样化的数据集,这些数据集通常来源不同,在组合使用的过程中有关其来源和使用限制的重要信息往往会丢失或被混淆。

例如,在创建 ImageNet 数据集时,就通过 Mechanical Turk 雇用了工人,并要求他们在将图像与概念进行匹配时使用维基百科页面作为参考,而从各种网络资源中抓取的数据集,很难追溯其组成部分的来源。

该论文的通讯作者 Robert Mahari 表示,“要了解 AI 模型的能力和局限性,最好的方法之一就是了解它是基于什么数据训练的。如果数据来源出现错误归属和混淆,就会产生严重的透明度问题。”

为此,研究人员将数据来源定义为数据集的来源、创建和许可遗产( licensing heritage)以及其特征的组合,并开发了 Data Provenance Explorer,其工作原理是利用算法自动生成详细的数据来源卡片,涵盖来源、许可信息以及潜在的偏差风险,从而帮助 AI 从业者在训练模型时做出更为明智的决策。核心功能包括:

  • 信息审查:涵盖标识符信息,连接多个聚合器(如 Hugging Face、GitHub、Papers with Code等)的元数据,并提供详细的数据集特征和来源信息。

  • 扩展来源元数据:包括许可证、数据源、创作者身份等,考虑了法律和伦理风险参数,如许可证的沿袭、数据源、创作者身份和其他开发者采用的优先级。

  • 工具发布:提供了数据探索界面和数据存储库,支持用户下载按许可证条件过滤后的数据,并生成人类可读的数据来源卡片。

他们对 1800 多个文本数据集进行了系统审查,发现大多数数据集在许可信息方面存在严重不足。具体表现为:

  • 许可信息缺失:在 GitHub、Hugging Face 和 Papers with Code 等平台上,分别有 72%、69% 和 70% 的数据集没有指定明确的许可证,导致开发者在使用时面临法律风险。

  • 许可证标注不一致:很多数据集的许可证标注存在问题,平台标注和作者标注往往不一致,增加了使用者的困惑。

  • 许可证种类繁多:不同数据集使用了各类许可证,如 CC-BY-SA 4.0、OpenAI Terms of Use 等,还有大量自定义许可证,这为小型企业和资源有限的组织带来了挑战。

为解决大量信息的“未指定”许可的问题,研究人员使用 Data Provenance Explorer 将未指定许可证的数据比例从 72% 降低至 30%,显著提高了数据的可追溯性和透明度。

另外,他们还观察到,大部分数据集都集中在北半球,而不同地区受文化等因素影响,产生的数据集应用在不同地方可能会限制其性能。

总之,通过减少训练数据透明性不足导致的模型偏差,Data Provenance Explorer 有助于提高 AI 模型在实际应用中的准确性和公正性,增强模型在多样化任务中的适应性。

然而,这一研究也存在一定的局限性。例如,该工具目前主要适用于文本数据集,而对多模态数据(如视频、语音等)的支持仍有待加强。未来,研究人员希望扩大他们的分析,调查多模态数据的数据来源,并研究作为数据源的网站的服务条款如何在数据集中产生影响。

提高合规性与安全性

随着 AI 技术的突破性发展,确保数据集的透明性与合规性尤为重要。

例如,在医疗 AI 领域,一些医疗影像诊断 AI 系统在训练过程中使用了大量的患者影像数据,为确保数据的合法使用和患者隐私保护,必须对数据采取明确数据来源、获得患者知情同意、对数据进行匿名化处理等措施。

‍在 AI 伦理和法规领域,一些大语言模型在训练过程中可能会接触到大量的个人文本数据,如电子邮件、社交媒体帖子等。为了保护用户隐私,必须采用区块链、差分隐私等技术来增强数据安全性。

近年来,各国政府也在加强对 AI 数据使用的监管,出台了一系列法规和政策,要求企业在收集、使用和存储数据时必须遵守严格的隐私保护原则。

Gartner 预测,到 2026 年,采用 AI TRiSM(AI 信任、风险、安全管理)控制措施的企业将通过筛除多达 80% 的错误和非法信息来提高决策的准确性。

在这项工作中,研究团队也与监管机构接触,讨论他们的发现以及微调数据对版权的独特影响,从而全面提高 AI 大模型的合规性与安全性。

|点击关注我 记得标星|

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国游客贝加尔湖溺亡7人,1人来自深圳,目击者称2、3分钟就沉了

中国游客贝加尔湖溺亡7人,1人来自深圳,目击者称2、3分钟就沉了

九方鱼论
2026-02-21 01:34:21
川越仁子:从厨房到镜头!150cm核弹曲线,演绎娇小身形极致反差

川越仁子:从厨房到镜头!150cm核弹曲线,演绎娇小身形极致反差

碧波万览
2026-02-15 00:24:41
堂哥给我儿子50压岁钱,我给他女儿1000,刚回家接到堂嫂电话

堂哥给我儿子50压岁钱,我给他女儿1000,刚回家接到堂嫂电话

船长与船1
2026-02-22 10:29:54
终于,伦纳德顶不住了

终于,伦纳德顶不住了

只关于篮球
2026-02-21 15:15:22
唐山“钓帝”安国勇去世,享年75岁,死因曝光,因晒成老抽色走红

唐山“钓帝”安国勇去世,享年75岁,死因曝光,因晒成老抽色走红

解说阿洎
2026-02-22 00:22:54
机器人集体亮相春晚后:“假蔡明”被送给了真蔡明,“春晚版熊猫”拍出近6万元高价

机器人集体亮相春晚后:“假蔡明”被送给了真蔡明,“春晚版熊猫”拍出近6万元高价

红星新闻
2026-02-21 20:39:13
乌度卡申京范佛里特只剩下半个赛季!再无进步恐被火箭全部送走

乌度卡申京范佛里特只剩下半个赛季!再无进步恐被火箭全部送走

小犙拍客在北漂
2026-02-22 16:05:31
真的“蛋疼”!正月初三,武汉一男生疼得呕吐症状,幸亏抢救及时

真的“蛋疼”!正月初三,武汉一男生疼得呕吐症状,幸亏抢救及时

火山詩话
2026-02-22 15:19:02
风水有言:水即是财,欲求富贵,屋中这3处放水,财如泉涌,福运自聚

风水有言:水即是财,欲求富贵,屋中这3处放水,财如泉涌,福运自聚

烟火人间故事汇
2025-09-16 13:00:15
单打完整签表出炉!2月22日国乒8人登场,王曼昱王楚钦迎马年首秀

单打完整签表出炉!2月22日国乒8人登场,王曼昱王楚钦迎马年首秀

莼侃体育
2026-02-21 22:37:59
喜马拉雅山的神秘部落:喜欢吃素,无婚姻制度,其繁衍方式特殊

喜马拉雅山的神秘部落:喜欢吃素,无婚姻制度,其繁衍方式特殊

老谢谈史
2025-12-30 17:23:53
南京Lily姐火了。
​38岁陪读妈妈,牵着70岁德国工程师的手

南京Lily姐火了。 ​38岁陪读妈妈,牵着70岁德国工程师的手

岁月有情1314
2026-02-05 11:13:16
周总理逝世21年后,中国银行核查账目时发现他名下存有巨额存款,一番调查后揭开了背后的真相

周总理逝世21年后,中国银行核查账目时发现他名下存有巨额存款,一番调查后揭开了背后的真相

寄史言志
2026-01-17 16:37:15
金银价再度大涨,国内金饰价格逼近1600元/克,专家提醒:勿盲目追高,不加杠杆

金银价再度大涨,国内金饰价格逼近1600元/克,专家提醒:勿盲目追高,不加杠杆

极目新闻
2026-02-21 15:57:38
特斯拉入门级新车正式发售!这内饰绝了

特斯拉入门级新车正式发售!这内饰绝了

XCiOS俱乐部
2026-02-22 10:36:12
越南副主席黄文欢,因不满反华被判死刑,投奔中国后,结局如何?

越南副主席黄文欢,因不满反华被判死刑,投奔中国后,结局如何?

近史谈
2026-02-15 07:41:48
21岁的老苹果笔记本开机连上Wi-Fi 竟然还能收到系统更新!网友:画面美到想舔

21岁的老苹果笔记本开机连上Wi-Fi 竟然还能收到系统更新!网友:画面美到想舔

快科技
2026-02-22 13:57:15
大年初六凌晨!冬奥奖牌榜乱了,中美均创记录,日本锁定亚洲第1

大年初六凌晨!冬奥奖牌榜乱了,中美均创记录,日本锁定亚洲第1

格斗社
2026-02-22 08:30:12
日本公开一幅祝允明真迹!这才是真草书,字字都是“金字塔尖”!

日本公开一幅祝允明真迹!这才是真草书,字字都是“金字塔尖”!

书画博学
2026-01-15 09:27:02
1963年,毛主席接见对印反击战战斗英雄,问道:听说你口出狂言?

1963年,毛主席接见对印反击战战斗英雄,问道:听说你口出狂言?

历史甄有趣
2026-02-22 16:10:05
2026-02-22 17:08:49
学术头条
学术头条
致力于学术传播和科学普及,重点关注AI4Science、大模型等前沿科学进展。
1430文章数 5081关注度
往期回顾 全部

科技要闻

马斯克:星舰每年将发射超过10000颗卫星

头条要闻

8岁男童大年初五在虎跳峡坠崖遇难 游客目击事发全程

头条要闻

8岁男童大年初五在虎跳峡坠崖遇难 游客目击事发全程

体育要闻

75673人见证!迈阿密0-3:梅西孙兴慜过招

娱乐要闻

裴世矩养侄为刃 看懂两次放行裴行俨!

财经要闻

特朗普新加征关税税率从10%提升至15%

汽车要闻

续航1810km!smart精灵#6 EHD超级电混2026年上市

态度原创

亲子
房产
手机
艺术
军事航空

亲子要闻

兰姐坐飞机报喜!将带小马宝和仨娃回北京

房产要闻

窗前即地标!独占三亚湾C位 自贸港总裁行宫亮相

手机要闻

荣耀新折叠屏官宣:满血骁龙8至尊版,7K电池?

艺术要闻

这本书法,80%的人无法读懂!网友直言:看到第二字就傻眼!

军事要闻

约旦基地美军战机骤增 包括F-35隐形战斗机

无障碍浏览 进入关怀版