网易首页 > 网易号 > 正文 申请入驻

PapersWithCode和arXiv再次合作!可一键显示论文使用的数据集

0
分享至

作者 | 陈大鑫

Papers with Code果真是AI领域的学术神器,继去年10月在arXiv上引入代码之后,PaperswithCode和arXiv合作又出新功能啦!

这一次毫无疑问就是引入数据集!

当地时间5月13日,PaperswithCode官方推特宣布他们再次和arXiv合作,现在打开arXiv论文,点击其页面的“Code & Data”导航标签,就可以看到论文所用到的数据集了,加上之前的推出的能显示代码功能,这也就意味着arXiv上代码和数据集都可以很方便地一键查看啦!

这使得跟踪整个机器学习社区中的数据集使用情况并使用相同的数据集快速查找其他论文变得更加容易。

如下图所示,打开EfficientNet论文的arXiv--Code & Data页面,可以清楚的一眼就看到该论文使用到了CIFAR-10、ImageNet、CIFAR-100等数据集。

另外这些显示出来的数据集也是加了超链接可以跳转的,如点击上图的ImageNet之后就会跳转到以下页面(paperswithcode):

这个页面有所有使用到ImageNet数据集的56个任务上的当前Benchmarks模型,如图像分类的最佳模型是Meta Pseudo Labels 、自监督图像分类的最佳模型是MoCo v3、半监督图像分类的最佳模型是 SimCLRv2 self-distilled......

paperswithcode的这个页面还显示了当前所有用到ImageNet数据集的5619篇论文(可真多啊,ImageNet 牛!):

下图则是显示了谷歌大脑团队去年很火的一篇论文

《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》所用到的数据集:

如上图,谷歌竟然用到了自家不开源的JFT-300M数据集;

啊这?快逃快逃......

另外如下图所示,作者是可以自己手动添加数据集的,在arxiv.org/user页面点击“Link to code & data” 的Papers with Code 图标就可以添加指定的数据集了,添加后,数据集将自动显示在arXiv论文页面上。

2

合作基础

Papers With Code今天这一次和arXiv合作的基础和底气正是来源于今年2月份Papers With Code 新增了数据集索引功能:覆盖数据集3000+,数百任务、多种语言一网打尽!

能够索引的数据集规模达到了3000+,而且提供按任务和模式查找的功能,能够比较数据集的使用情况,浏览基准......

如上,数据集索引共支持的模式包括图像(1066个),文本(830个),视频(342个),音频(173个)、3D(93)、图形(70)等等共38种模式。

至于任务分类,也支持问答(224)、语义分割(159)、目标检测(119)、图像分类(90)等等近百种机器学习任务。

数据集涵盖的语言,除了英文、中文、德语、法语等主流语言之外,还支持包括祖鲁语、西兰语、土库曼语等比较小众的语言。值得一提的是,中国的一些方言,例如壮族语言、粤语等等也包括在内。

而且Papers with Code还支持所有注册用户上传数据集,只需简单描述数据集,并按下上传,就能贡献机器学习社区!

所以,这次arXiv的新功能无非是把Papers with Code的部分原有功能植入了arXiv。

PaperswithCode官网表示他们的目的是通过使研究更易于发现、复制和扩展从而来加速科学进步,而数据集是机器学习模型的至关重要的组成部分。

索引化的数据集地图通过为论文结果和方法带来透明度来加快进度。这决定了未来数据集的发展:何时需要更具挑战性的数据集来评估模型,或者何时现有数据集的使用量变得饱和。

3

数据的重要性

数据是构建人工智能系统必需的关键基础设施。数据在很大程度上决定了AI系统的性能、公平性、稳健性、安全性和可扩展性。

矛盾的是,对于AI研究人员和开发人员而言,数据通常是最不被重视的方面。但相对于构建新颖的模型和算法等大规模工作而言,数据又被认为是有“可操作性”的 。

凭直觉来看,AI开发人员认为了解数据质量很重要,所以他们通常会在数据任务上花费过多的时间。实际上,与模型开发相比,数据工作一向被忽视,大多数组织并没有在数据标准等工作上花费足够的功夫。

谷歌的一项研究发现,对数据工作的低估是具有普遍性的更多内容请查看:“谷歌AI研究院:被低估的数据,被高估的模型”一文。

总之一句话,数据的能量超乎你想象,某种程度上,数据集的质量决定了AI模型的上限......

https://medium.com/paperswithcode/datasets-on-arxiv-1a5a8f7bd104

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
郭宋玉已任莆田市委副书记

郭宋玉已任莆田市委副书记

大闽门户
2026-03-18 08:48:11
特斯拉降价,扯下电动汽车成本的遮羞布——电动车的成本有多低?

特斯拉降价,扯下电动汽车成本的遮羞布——电动车的成本有多低?

让生活充满温暖
2026-03-18 02:39:29
“内鬼”疑团再现  最高军事指挥官拉里贾尼身亡

“内鬼”疑团再现  最高军事指挥官拉里贾尼身亡

邓如山
2026-03-18 11:34:01
叶剑英坦言:毛主席用三次“神操作”,折服了所有战将

叶剑英坦言:毛主席用三次“神操作”,折服了所有战将

鹤羽说个事
2026-03-11 20:06:21
马克龙:法国将在霍尔木兹海峡“局势更平静”后参与护航行动 

马克龙:法国将在霍尔木兹海峡“局势更平静”后参与护航行动 

新华社
2026-03-17 22:53:04
手表风波九个月后,曾毅杭州演唱会大批观众离场,终为过往买了单

手表风波九个月后,曾毅杭州演唱会大批观众离场,终为过往买了单

傲傲讲历史
2026-03-17 08:40:01
美国已输掉战争!两个超级大国都深陷泥潭!给中方提供了一个机会

美国已输掉战争!两个超级大国都深陷泥潭!给中方提供了一个机会

碧珠映红香
2026-03-18 10:23:22
让人破防了!妈妈去世后由姨姨带大,亲爸接走17天就变样

让人破防了!妈妈去世后由姨姨带大,亲爸接走17天就变样

离离言几许
2026-03-15 23:07:15
谈判结束,美国非要接管古巴,95岁卡斯特罗出山,中方已挂断电话

谈判结束,美国非要接管古巴,95岁卡斯特罗出山,中方已挂断电话

深析古今
2026-03-17 01:59:39
3月18日以军高层全阵容露面,向伊朗人民发表节日致辞

3月18日以军高层全阵容露面,向伊朗人民发表节日致辞

Nee看
2026-03-18 11:15:13
伊朗高层一杀一个准,不是美以太狠,是他们自己烂透了!

伊朗高层一杀一个准,不是美以太狠,是他们自己烂透了!

老马拉车莫少装
2026-03-18 09:07:46
美对台交底,赖清德语出惊人,郑丽文断言:若事成,两岸不再纠结

美对台交底,赖清德语出惊人,郑丽文断言:若事成,两岸不再纠结

娱乐的宅急便
2026-03-17 09:47:45
4月1日起医保卡新规正式执行!这6种行为别再碰,官方已明确严查

4月1日起医保卡新规正式执行!这6种行为别再碰,官方已明确严查

复转这些年
2026-03-17 22:54:07
被骂上热搜后,山姆终于低头了!这6款下架神物悄悄回来了

被骂上热搜后,山姆终于低头了!这6款下架神物悄悄回来了

侃故事的阿庆
2026-03-16 11:30:38
一夜输1亿,一瓶酒50万,2亿豪车买来当玩具,父子败光百亿家产!

一夜输1亿,一瓶酒50万,2亿豪车买来当玩具,父子败光百亿家产!

历史伟人录
2026-03-13 18:28:07
金价要变天?2026年4月,黄金可能重演2015年暴跌剧本!

金价要变天?2026年4月,黄金可能重演2015年暴跌剧本!

时尚的弄潮
2026-03-18 03:03:59
5天扣留28艘,巴拿马有火发不出来,中方不抓人不扣货,只查船只

5天扣留28艘,巴拿马有火发不出来,中方不抓人不扣货,只查船只

起喜电影
2026-03-17 18:48:04
状态不佳,杨瀚森投篮4中3得8分3板3助,出现6次失误

状态不佳,杨瀚森投篮4中3得8分3板3助,出现6次失误

懂球帝
2026-03-18 11:52:09
你做过最丢脸的事是什么?网友:清一色的大型社死名场面啊

你做过最丢脸的事是什么?网友:清一色的大型社死名场面啊

解读热点事件
2026-03-15 18:11:30
非洲杯逆天剧情 塞内加尔加冕58天后被剥夺冠军 球员挑衅:看谁敢

非洲杯逆天剧情 塞内加尔加冕58天后被剥夺冠军 球员挑衅:看谁敢

风过乡
2026-03-18 06:23:29
2026-03-18 12:23:00
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7123文章数 20741关注度
往期回顾 全部

科技要闻

直连微信!腾讯QClaw宣布大规模放量

头条要闻

中东战火波及中国商家生意:除了直面风暴 别无选择

头条要闻

中东战火波及中国商家生意:除了直面风暴 别无选择

体育要闻

晋级2026世界杯,这届中国女篮啥水平?

娱乐要闻

郑恺苗苗晒全家福 首次公开三胎小女儿

财经要闻

“永不爆雷的宇宙大所”掌门人,自首了

汽车要闻

价格10万级 四驱中级电混轿车银河星耀7来了

态度原创

教育
亲子
房产
旅游
时尚

教育要闻

多地宣布:生物地理不再计入中考总分,以等级的形式呈现

亲子要闻

我不信我女儿一点都不像我,大家帮我看看我小时候的照片

房产要闻

13万㎡的楼盘,违建7.5万㎡!海南这个开发商胆真大啊!

旅游要闻

枣庄峄城杏花峪杏花盛放 如云似雪美不胜收

每年只等这一个月穿风衣

无障碍浏览 进入关怀版