网易首页 > 网易号 > 正文 申请入驻

规避“垃圾”数据,MIT开发新工具帮助甄选合适的训练数据集

0
分享至

(来源:MIT News)

为了训练更强大的大型语言模型(LLM),研究者们使用了来自数千个网络来源的海量数据集。

但随着这些数据集被不断组合和重新组合,关于它们来源的重要信息以及使用的限制往往在过程中丢失或混淆。

这除了会引发法律和伦理问题外,还可能影响模型的性能。具体来说,如果一个数据集被错误分类,训练机器学习模型的人可能会在不知情的情况下使用不适合该任务的数据。

此外,来源不明的数据可能包含偏见,导致模型在实际应用中做出不公平的预测。

为提高数据透明度,MIT 及其他机构的一个跨学科研究团队对 1800 多个常见数据集进行了系统审计,发现超过 70% 的数据集缺少某些许可信息,约 50% 的数据集包含错误信息。

基于这些发现,研究团队开发了一款名为“数据来源探索器”的用户友好的工具,该工具能够自动生成数据集的创建者、来源、许可和允许使用方式的易于阅读的总结。

MIT 媒体实验室人类动力学小组负责人、该项目研究报告的合著者 Alex“Sandy”Pentland 教授表示:“这些工具可以帮助监管者和从业者在部署 AI 时做出明智决策,并推动 AI 的负责任发展。”

“数据来源探索器”可以帮助 AI 从业者选择适合模型目标的数据集,从而构建更有效的模型。长期来看,这有助于提升 AI 模型在实际应用中的准确性,例如在评估贷款申请或回应客户查询时。

MIT 人类动力学小组的研究生、该论文的共同第一作者 Robert Mahari 指出:“了解 AI 模型的能力和局限性,最好的方式之一就是理解它所训练的数据;当数据来源不清或混淆时,透明性就成了一个严重的问题。”

(来源:Nature Machine Intelligence)

Mahari 和 Pentland 的共同作者包括媒体实验室的研究生Shayne Longpre,领导Cohere for AI 研究实验室的 Sara Hooker,以及来自 MIT、加州大学欧文分校、法国里尔大学、科罗拉多大学博尔德分校、奥林学院、卡内基梅隆大学、Contextual AI、ML Commons 和 Tidelift 的其他研究人员。目前这项研究已经发表在 Nature Machine Intelligence 杂志上。

注重微调

研究者常用一种称为“微调”的技术来提高大型语言模型在特定任务上的性能,如问答系统。为此,他们精心构建了提升模型针对单一任务表现的精细化数据集。

MIT 的研究者们特别关注这些微调数据集,它们通常由研究人员、学术机构或公司开发,并带有特定的使用许可。

当众包平台将这些数据集聚合到更大的集合中供从业者微调使用时,原始的许可信息往往会被忽略或丢失。

Mahari 说:“这些许可应该是重要的,并且应该是可执行的。”

例如,如果数据集的许可条款有误或缺失,有开发者可能会花费大量时间和金钱开发一个模型,但最终因为某些训练数据包含私人信息而不得不将其下架。

Longpre 补充说:“人们可能最终会训练出一些模型,而对这些模型的能力、问题或风险根本不了解,然而这些问题最终都源自数据。”

在这项研究的开端,研究人员正式定义了数据来源,包括数据集的来源、创建和许可历史,以及其特征。基于这些特性,他们开发了一种结构化的审计程序,对来自热门在线存储库的 1800 多个文本数据集进行了审查。

在发现超过 70% 的数据集含有“未指明”的许可信息后,研究人员通过反向追溯填补了这些空白。通过他们的努力,这些“未指明”许可的数据集比例降至约 30%。

他们的工作还揭示出,正确的许可往往比存储库分配的许可更具限制性。

此外,他们发现几乎所有的数据集创作者都集中在全球北部,这可能会限制模型在其他地区的应用能力。Mahari 解释道,由美国和中国研究人员创建的土耳其语数据集可能不包含任何文化上重要的内容。

他说:“我们几乎在自欺欺人,认为这些数据集比实际情况更加多样化。”

有趣的是,研究人员还观察到,2023 年和 2024 年创建的数据集限制显著增加,这可能是由于学术界担心其数据集被用于未经授权的商业目的。

用户友好型工具

为了让他人无需手动审计就能获得这些信息,研究团队构建了“数据来源探索器”工具。该工具除了可以根据特定标准对数据集进行排序和筛选外,还允许用户下载一个数据来源卡,提供数据集特征的简明、结构化概述。

Mahari 说:“我们希望这是向前迈出的一步,不仅是为了了解现状,还能帮助人们在未来就所使用的训练数据做出更明智的选择。”

未来,研究人员希望将他们的分析扩展到多模态数据,如视频和语音,并研究数据来源网站的服务条款如何在数据集中得到反映。

随着研究范围的扩展,他们还在与监管者接触,讨论其发现以及微调数据所带来的独特版权问题。

Longpre 说:“我们需要从一开始就关注数据的来源和透明性,在数据集创建和发布时,这样才能让他人更容易获取这些见解。”

EleutherAI 的执行董事 Stella Biderman 曼表示:“许多政策干预措施假设我们可以正确分配和识别与数据相关的许可,而这项工作首先表明情况并非如此,并显著改善了可用的数据来源信息。此外,第三部分包含相关的法律讨论。这对那些没有专门法律团队的公司外的机器学习从业者非常有价值。许多希望构建公共利益 AI 系统的人目前都在默默挣扎,试图弄清楚如何处理数据许可问题,因为互联网的设计让搞清楚数据来源变得很麻烦。”

https://news.mit.edu/2024/study-large-language-models-datasets-lack-transparency-0830

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
哈登18分骑士战胜活塞,被以下克上是活塞必然的结局

哈登18分骑士战胜活塞,被以下克上是活塞必然的结局

李广专业体育评论
2026-03-04 10:40:23
特朗普:将切断美国和西班牙之间的贸易往来

特朗普:将切断美国和西班牙之间的贸易往来

环球网资讯
2026-03-04 01:44:09
男子江苏下高速显示费用83990元,震惊收费员!被询问是否绕路,驾驶员幽默回应“绕到美国去?”

男子江苏下高速显示费用83990元,震惊收费员!被询问是否绕路,驾驶员幽默回应“绕到美国去?”

台州交通广播
2026-03-03 18:13:40
“合法继承母亲遗产发现只剩空壳”,当地回应

“合法继承母亲遗产发现只剩空壳”,当地回应

观察者网
2026-03-03 08:31:22
尘埃落定!伊朗正式退出2026世界杯,亚洲足坛格局生变

尘埃落定!伊朗正式退出2026世界杯,亚洲足坛格局生变

体育见习官
2026-03-03 20:04:09
炸锅!4大头部椰子水全翻车,100%纯椰水竟是加水加糖加科技?

炸锅!4大头部椰子水全翻车,100%纯椰水竟是加水加糖加科技?

乌娱子酱
2026-03-03 16:53:36
丢联盟第一!哈登18+6+7活塞惜败骑士 阿伦伤退坎宁安16中4

丢联盟第一!哈登18+6+7活塞惜败骑士 阿伦伤退坎宁安16中4

醉卧浮生
2026-03-04 10:32:08
员工过年值班8天索要3倍工资 法院:每天打完卡玩手机 不支持 律师:其不符合“加班”的法定特征

员工过年值班8天索要3倍工资 法院:每天打完卡玩手机 不支持 律师:其不符合“加班”的法定特征

闪电新闻
2026-03-03 17:36:04
美伊战争第四天:伊朗提出三点强硬措施

美伊战争第四天:伊朗提出三点强硬措施

今日段评
2026-03-03 21:46:50
拉菲尼亚点射小将双响,巴萨3-0复仇马竞,创国王杯纪录无缘逆转

拉菲尼亚点射小将双响,巴萨3-0复仇马竞,创国王杯纪录无缘逆转

钉钉陌上花开
2026-03-04 06:03:58
问题很严重!男子把奥迪A6开进池塘,保险公司认定“故意”拒赔…

问题很严重!男子把奥迪A6开进池塘,保险公司认定“故意”拒赔…

火山詩话
2026-03-03 10:33:23
美媒体人:对伊联合袭击并非为了美国国家安全目标,不会让美国变得更安全富有,不要伤人伤己

美媒体人:对伊联合袭击并非为了美国国家安全目标,不会让美国变得更安全富有,不要伤人伤己

环球网资讯
2026-03-04 08:17:05
在伊朗大使馆的评论下面见识到啥叫全民皆兵 全民好战全民皆贾诩

在伊朗大使馆的评论下面见识到啥叫全民皆兵 全民好战全民皆贾诩

侃神评故事
2026-03-03 11:51:28
特朗普:愿和伊朗对话!伊朗反击奏效,以军总部被炸,美伤亡惨重

特朗普:愿和伊朗对话!伊朗反击奏效,以军总部被炸,美伤亡惨重

书纪文谭
2026-03-03 14:52:26
母亲“去世后再婚”?当地通报:已成立联合调查组,律师:亲属或涉嫌诈骗

母亲“去世后再婚”?当地通报:已成立联合调查组,律师:亲属或涉嫌诈骗

新民周刊
2026-03-03 19:26:52
"他们逼我说台湾是中国的,不然不救我!"台湾网红一石激起千层浪

"他们逼我说台湾是中国的,不然不救我!"台湾网红一石激起千层浪

壹知眠羊
2026-03-04 07:05:55
最新消息,航母被炸

最新消息,航母被炸

武器纵论
2026-03-03 18:50:55
特朗普称将切断贸易往来 西班牙回应:美国须尊重双边协定

特朗普称将切断贸易往来 西班牙回应:美国须尊重双边协定

财联社
2026-03-04 03:27:05
伊媒称哈梅内伊之子被选为新任最高领袖,但未获官方证实;此前伊朗称新任最高领袖选举进入最后阶段,或将很快公布其人选

伊媒称哈梅内伊之子被选为新任最高领袖,但未获官方证实;此前伊朗称新任最高领袖选举进入最后阶段,或将很快公布其人选

大风新闻
2026-03-04 10:45:04
“后天回家”成最后留言!重庆男子春节前独自赴迪拜旅游后失联已超10天

“后天回家”成最后留言!重庆男子春节前独自赴迪拜旅游后失联已超10天

封面新闻
2026-03-04 00:37:10
2026-03-04 11:23:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16354文章数 514703关注度
往期回顾 全部

科技要闻

新MacBook Pro首发M5 Pro/Max芯片 17999起

头条要闻

牛弹琴:伊朗选出新的最高领袖 一个更不可能妥协的人

头条要闻

牛弹琴:伊朗选出新的最高领袖 一个更不可能妥协的人

体育要闻

“头铁”拼图在NBA也有生存环境

娱乐要闻

迪丽热巴转机滞留迪拜 错过巴黎时装周

财经要闻

伊朗,正在打破特朗普的幻想

汽车要闻

比亚迪元PLUS遭导弹袭击 车辆未起火/乘员均生还

态度原创

游戏
本地
数码
公开课
军事航空

《异形工厂2》4月23日正式推出 好评工厂建设规划

本地新闻

食味印象|一口入魂!康乐烤肉串起千年丝路香

数码要闻

红魔游戏平板5 Pro亮相预告,新机官宣“马上登场”

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗为遭到美以空袭小学遇难者举行葬礼

无障碍浏览 进入关怀版