网易首页 > 网易号 > 正文 申请入驻

斯坦福大学分析3.2万篇大模型HuggingFace文档后指出:现状堪忧!

0
分享至

随着人工智能(AI)模型在各个领域的广泛应用,模型文档化的重要性日益凸显。文档化不仅帮助用户理解、信任并有效地使用这些模型,还揭示了模型潜在的偏见、错误和局限性,这对于那些模型输出具有深远影响的领域尤为关键,如医疗保健、金融和执法等。然而,尽管模型卡片已成为记录AI模型的标准方法,但目前对于模型卡片的质量和信息量尚未进行系统分析。这一空白可能导致文档化实践的不足,从而妨碍了确保AI技术的公平性、问责性和公正使用的努力。

本研究对Hugging Face平台上的32,111份AI模型文档进行了全面的大规模分析,以了解AI社区如何采纳和适应模型卡片,以及当前文档化工作的优势和不足。研究发现,尽管模型卡片的采用在AI社区中已经相当普遍,但在不同部分的文档化工作中存在显著差异。例如,训练部分的填写率最高,而环境影响、局限性和评估部分的填写率最低,这表明需要更加重视这些方面的模型文档化。

此外,研究还通过对模型卡片的四个关键部分——局限性、用途、评估和训练——进行内容分析,发现数据的讨论在模型文档中占据了重要位置,有时甚至比模型本身更受关注。我们还进行了一项干预研究,通过为之前没有或仅有简单模型卡片的42个流行模型添加详细的模型卡片,评估模型卡片对模型使用的影响。研究结果表明,添加模型卡片与模型每周下载率的中等程度增加相关。

论文标题:What’s documented in AI? Systematic Analysis of 32K AI Model Cards

研究背景:Hugging Face平台上AI模型文档的现状

Hugging Face作为一个领先的AI模型分发和部署平台,承载了大量的AI模型。截至2022年10月1日,Hugging Face上共有74,970个AI模型库,由20,455个不同的用户账户上传。这些模型库的数量呈现出指数级增长,每周增长率为3.16%,翻倍时间为22周。

尽管只有44.2%的模型库(32,111个)包含模型卡片,但这些模型占了总下载流量的90.5%,这突显了模型卡片在促进模型采用和使用方面的重要性。然而,这些模型卡片在不同部分的完整性上存在显著差异,例如环境影响、局限性和评估部分的填写率最低,而训练部分的填写率最高。

模型卡片的兴起与作用

1. 模型卡片的定义与目的

模型卡片是一种标准化的文档形式,旨在提供关于AI模型的基本信息,其灵感来源于食品营养标签和电子行业的数据表。模型卡片的核心部分包括详细描述模型训练和验证程序、预期用途、潜在局限性(如偏差和公平性分析)以及使用指南。与学术论文或技术报告等其他文档格式相比,模型卡片因其简洁、相关性强且易于理解的特点,越来越受到AI社区实践者的青睐。

2. 模型卡片与其他文档形式的比较

模型卡片相较于学术论文或技术报告,提供了更为简洁、相关且易于理解的关于AI模型的信息,使其更易于被接受。模型卡片的更新性也是其一个重要方面,因为它们可以频繁更新以反映AI模型的任何变化、改进或新发现。相比之下,一旦发表的学术论文可能不会定期更新,可能导致信息过时。此外,许多流行的模型库,特别是那些来自工业界或开源爱好者的,可能没有伴随的学术论文或技术报告,这进一步凸显了模型卡片作为不可或缺的角色。

模型卡片的普及与不足

1. 模型卡片普及程度的统计分析

模型卡片作为AI模型的标准化文档形式,其普及程度在Hugging Face平台上的统计分析显示,截至2022年10月1日,共有74,970个AI模型库,其中32,111个(占比44.2%)包含模型卡片。这些带有模型卡片的模型占总下载流量的90.5%,表明模型卡片在促进模型采用和使用方面的重要性。

然而,尽管模型卡片的采用在AI社区中相当普及,但在文档的完整性和质量方面仍存在显著差距,超过一半的模型缺乏模型卡片。而且在模型卡片的不同部分之间,社区的关注度也存在不平衡,这表明需要在模型文档化的这些方面上加大重视。

2. 模型卡片各部分填写率的差异

模型卡片的不同部分填写率存在显著差异。环境影响(2.0%)、限制(17.4%)和评估(15.4%)部分的填写率最低,而训练部分(74.3%)的填写率最高。这种差异表明AI社区对模型卡片不同部分的关注程度不一,尤其是在环境影响和模型限制方面的关注不足,可能会阻碍用户做出明智的模型选择和使用决策,同时也削弱了对这些AI模型的信任。

模型卡片内容分析

1. 关键部分内容分析:限制、用途、评估和训练

模型卡片的限制部分揭示了AI模型面临的多种挑战和限制,包括免责声明、数据限制和模型限制。

  • 用途部分则明确了模型的特定功能、操作指南和不当使用的警告。

  • 评估部分强调了评估数据和评估结果,但往往忽略了特定子群体中的系统性错误。

  • 训练部分则涵盖了超参数配置、训练数据和训练协议,这些信息对于透明度和可重现性至关重要。(图为模型卡中章节字数的深入分析。a图指以字数计算的平均部分长度;b-c图指不同模型卡的不同社区关注模式)

2. 数据在模型卡片中的重要性

模型卡片内容分析揭示了数据在AI模型文档中的重要性。

  • 在限制部分,数据限制和模型限制几乎同样受到关注。

  • 在训练和评估部分,数据成为核心主题。

这种对数据的强调反映了现有文献中对数据在AI模型开发中重要性的认识。实践中,机器学习开发人员在数据上花费的时间是在模型上的两倍。数据的质量直接影响AI系统的性能、公平性、鲁棒性、安全性和可扩展性。因此,模型卡片中对数据的详细描述和讨论对于提高模型的质量和可靠性,以及促进负责任的AI研究具有重要意义。(a图为模型卡部分的低填写率)(b图为下载量高的型号和型号卡的正比关系;c图为模型卡部分的不同社区关注模式)

模型卡片干预研究

1. 研究设计与实施

为了评估模型卡片对AI模型使用的影响,研究者们设计并实施了一项干预研究。在这项研究中,选取了42个在Hugging Face平台上下载量较高但没有或仅有简略模型卡片的模型。这些模型卡片由具有AI研究背景的Hugging Face员工编写,平均每张模型卡片包含596.5个单词,平均编写时间为40分钟。将这些模型分为两批进行干预,第一批26个模型卡片在2022年11月7日的一周内上传,第二批16个模型卡片在2022年11月14日的一周内上传。

2. 干预结果与分析

干预研究的结果显示,详细的模型卡片对模型的周下载量有中等程度的正相关影响

  • 特别是在第二批实验中,与控制组相比,实验组模型的平均每周下载量显著增加了29.0%(95% CI [10.6%, 47.5%]),而控制组的下载量变化不显著(p值:0.30)。

  • 第一批实验的结果不太明确,实验组和控制组的平均下载量变化分别为2.4%(95% CI [0.5%, 4.4%])和2.2%(95% CI [-1.5%, 5.9%])。

这些结果可能受到外部因素的限制,例如第一批实验的干预后期与2022年感恩节假期重合,可能导致估计的效果大小偏向于空值。此外,研究中使用的样本量相对较小,可能导致两批实验结果之间的差异。未来的研究可以通过更大的样本量和控制外部因素来提供更明确的见解。

讨论:模型卡片的影响与未来方向

1. 模型卡片对模型使用的影响

模型卡片作为AI模型的标准化文档,对于模型的理解、信任和有效利用至关重要。研究表明,详细的模型卡片可以适度提高模型的下载率,这暗示了模型卡片在促进模型透明度、可用性和负责任的AI实践方面的潜在价值。然而,尽管模型卡片的采用在AI社区中已经相当普遍,但在不同部分的关注度上存在显著差异。例如,训练部分的填写率最高,而环境影响、局限性和评估部分的填写率最低,这表明社区在这些方面的关注不足。

2. 模型卡片的改进与标准化

研究者的主题建模分析揭示了数据在模型卡片中的重要性,这与AI模型开发中数据的重要性相呼应。未来的工作应该集中在制定策略和标准,以促进模型卡片文档的透明度和完整性。这对于建立信任、推动负责任的AI使用以及为用户提供选择和应用模型所需的关键信息至关重要。

此外,研究表明模型卡片的质量对模型的实际使用有影响,这为未来更广泛、更大规模的随机模型卡片研究提供了基础,这些研究不仅可以揭示模型卡片如何影响模型下载,还可以揭示模型使用的更广泛方面及其下游影响

结论:模型卡片在AI文档化中的角色与挑战

1. 模型卡片的重要性与普及情况

模型卡片作为AI模型的标准化文档形式,已在AI社区中得到广泛采用。在Hugging Face平台上,有44.2%的模型附带模型卡片,而这些模型占总下载流量的90.5%,凸显了模型卡片在促进模型理解和应用中的重要性。模型卡片的核心部分包括模型训练和验证过程、预期用途、潜在限制(如偏见和公平性分析)以及使用指南,它们提供了关于AI模型的简洁、相关且易于理解的信息。

2. 文档化实践中的差异与挑战

尽管模型卡片被广泛采用,但社区在不同模型卡片部分的关注度上存在显著差异。正如上文所述,关注度的不平衡,以及对模型限制的讨论的逐渐减少,不仅阻碍了用户做出明智的模型选择和使用决策,也削弱了对AI模型的信任。

3. 数据在模型卡片中的中心地位

研究者的主题建模分析揭示了数据在AI管道中的核心作用。在限制部分,数据限制和模型限制几乎同样受到关注。在训练和评估部分,数据同样是一个核心主题。这强调了数据在AI模型开发中的重要性,以及在当前AI研究中对数据工作的低估。

4. 模型卡片对模型使用的影响

通过对42个流行模型进行的模型卡片干预研究,我们发现详细的模型卡片与模型下载量的适度增加有关。这表明模型卡片的完善对模型使用有积极影响,但也需要考虑到实验设计的时间因素和样本大小的限制。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一波未平一波又起,徐巧芯向王光慈开火,王光慈曝光重大医嘱

一波未平一波又起,徐巧芯向王光慈开火,王光慈曝光重大医嘱

DS北风
2026-05-26 09:06:05
职业生涯法网首胜!吴易昺三盘横扫过关,下轮将战10号种子

职业生涯法网首胜!吴易昺三盘横扫过关,下轮将战10号种子

全景体育V
2026-05-26 05:16:53
窦骁做梦都没想到,演一个小配角,就让他彻底摆脱了豪门赘婿标签

窦骁做梦都没想到,演一个小配角,就让他彻底摆脱了豪门赘婿标签

芬霏剧时光
2026-05-25 10:29:50
窦骁声称演完《主角》刘红兵,出门都不敢跟朋友吃火锅,原因竟然是这样!

窦骁声称演完《主角》刘红兵,出门都不敢跟朋友吃火锅,原因竟然是这样!

动物奇奇怪怪
2026-05-26 01:47:59
神舟二十三成功发射不到24小时,又传3大"好消息",个个振奋人心

神舟二十三成功发射不到24小时,又传3大"好消息",个个振奋人心

阿凫爱吐槽
2026-05-25 13:49:49
原来她是黎家盈的姐姐,祖籍广东移居香港,主动替妹妹扛起上一代

原来她是黎家盈的姐姐,祖籍广东移居香港,主动替妹妹扛起上一代

阿凫爱吐槽
2026-05-25 10:54:40
李秋平豪言 洛夫顿对于北京是无解的!那广厦能解决吗?

李秋平豪言 洛夫顿对于北京是无解的!那广厦能解决吗?

你看球呢
2026-05-26 10:34:50
伊朗使用新武器

伊朗使用新武器

鲁中晨报
2026-05-26 09:06:47
相亲角来了个印度小伙,全程拽得不行,张嘴就吹自己是印度高种姓

相亲角来了个印度小伙,全程拽得不行,张嘴就吹自己是印度高种姓

西楼知趣杂谈
2026-05-25 11:51:00
隐瞒了40年!抗美援朝时苏联派7万大军参战,全世界被骗了半世纪

隐瞒了40年!抗美援朝时苏联派7万大军参战,全世界被骗了半世纪

浪子说
2026-05-26 00:40:03
匪夷所思!53岁袁立手术后,居然发文将康复归功于“天父庇佑”

匪夷所思!53岁袁立手术后,居然发文将康复归功于“天父庇佑”

火山詩话
2026-05-25 08:02:19
江湖再见!头部男主播合同到期官宣退鱼!欲转往某音重新开始:很多人说我凉了,但我会重新发光发热的!

江湖再见!头部男主播合同到期官宣退鱼!欲转往某音重新开始:很多人说我凉了,但我会重新发光发热的!

新浪财经
2026-05-26 08:09:46
杨澜对费翔说:有人说我俩谈恋爱,费翔回应,真有也是你甩我

杨澜对费翔说:有人说我俩谈恋爱,费翔回应,真有也是你甩我

大江
2026-05-25 11:24:03
国务院2026年5月22日将推行户口解绑政策

国务院2026年5月22日将推行户口解绑政策

激情与荣耀并存
2026-05-25 19:43:08
外交部:你提到的内容与中方掌握情况不符

外交部:你提到的内容与中方掌握情况不符

澎湃新闻
2026-05-25 15:58:02
萧旭岑被指控收受捐款未入账后,李德维发声,厦门台商会长发声

萧旭岑被指控收受捐款未入账后,李德维发声,厦门台商会长发声

DS北风
2026-05-25 17:42:07
尖上的月光

尖上的月光

有一点可爱
2026-05-26 05:20:03
福建“四大名产”专坑自己人,毒杨梅事件只是冰山一角

福建“四大名产”专坑自己人,毒杨梅事件只是冰山一角

我是盲流
2026-05-26 04:40:49
从素人到10亿票房女主,《给阿嬷的情书》李思潼被曝签约虎鲸文娱

从素人到10亿票房女主,《给阿嬷的情书》李思潼被曝签约虎鲸文娱

韩小娱
2026-05-25 20:59:04
明年燃油车大升级!油耗大幅下降 每公里低至2毛多,别盲目选电车

明年燃油车大升级!油耗大幅下降 每公里低至2毛多,别盲目选电车

西莫的艺术宫殿
2026-05-25 17:30:05
2026-05-26 11:08:49
人工智能学家 incentive-icons
人工智能学家
人工智能领域权威媒体
4766文章数 37466关注度
往期回顾 全部

科技要闻

今年秋季,麒麟芯片将首次落地"逻辑折叠"

头条要闻

多所高校学者被举报涉嫌学术不端:论文数据荒诞粗糙

头条要闻

多所高校学者被举报涉嫌学术不端:论文数据荒诞粗糙

体育要闻

如果不好好守门,他可能早就继承家业了

娱乐要闻

景甜被曝停工失联 富商索要2亿和解费

财经要闻

走近何庭波

汽车要闻

启境GT7定档5月29日预售 提供三电机版本

态度原创

手机
教育
亲子
旅游
公开课

手机要闻

手握幸运星,随手4K大片:荣耀600系列,年轻人的“好运机”

教育要闻

热力值拉满!这所人附系学校的操作亮了

亲子要闻

你俩故意的是不

旅游要闻

江西南昌:湿地公园 绿景怡人

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版