网易首页 > 网易号 > 正文 申请入驻

告别“炼丹玄学”:上海AILab推出首个大模型数据竞技场

0
分享至

OpenDataLab团队 投稿
量子位 | 公众号 QbitAI

数据在AI时代的重要性已经不言而喻,但悬而未决的是——

如何精确量化这些数据的价值、辨别其优劣?

为此,上海人工智能实验室OpenDataLab团队在数据领域持续深耕,正式推出了开放数据竞技场OpenDataArena

展开来说,在海量的SFT(监督式微调)后训练数据面前,研究者们常常陷入“黑盒式”的困境:不清楚哪些数据真正有用,也难以系统性地评估和比较不同的数据集。

而OpenDataArena,正是一个为数据价值而生的“竞技场”,致力于将数据质量的评估从“玄学”变为“科学”。

团队希望通过一个公平、公开、透明的平台,首次正式尝试回答“如何验证数据价值”这一核心问题。

它不仅提供了一个直观的数据评测榜单,更构建了一套完整可复现的数据价值验证体系——

通过一套训评一体化的开源工具,让不同数据集在同等条件下公平“竞技”,用模型效果作为衡量数据价值的最终标准。

同时,通过开发多维度评分工具,对数据进行精细化“体检”,让数据价值不再是模糊的“黑盒”。

下面详细来看。

OpenDataArena:数据价值的首次全面验证

OpenDataArena首次系统性地探究“如何评价数据质量”这个难题。

为此,该项目构建了“开放数据竞技场”,并配套开发了一整套数据价值验证工具。

该平台的核心成果包括:

  • OpenDataArena平台:一个公平、公开、透明的SFT后训练数据价值评测平台,涵盖一个多领域、可视化的数据竞技榜单。
  • 多维度数据打分:平台从几十种维度对已有数据进行精细化打分,并已开源了部分评分数据,便于研究员们后续直接下载使用,避免重复API调用。
  • 训评一体化工具:团队开源了整套数据训练、评估以及数据打分工具,让价值验证过程可复现、可扩展。

OpenDataArena为以下几类核心需求提供了实际的解决方案:

1、对数据质量的评估与筛选:帮助模型训练者数据研究者快速识别并筛选出高质量数据集,摆脱盲目试错,高效赋能模型训练与应用。

2、对数据生成的指导与优化:数据合成的研究者提供多维度的评分数据和工具,助力他们寻找高价值的“种子数据”,为生成更优质的合成数据提供指导。

3、对数据价值的深入洞察:赋能学术研究人员探索数据特征与模型效果的内在关联,为数据选择、数据生成等前沿研究提供坚实的数据支持和客观的评估依据。

平台目前已覆盖4+领域、20+基准测试、20+数据评分维度,处理了100+数据集,超过20M+数据样本,并完成了600+次模型训练、10K+次模型评估,这些指标都在不断增长。

数据竞技场:让数据在实战中一较高下

OpenDataArena的核心理念,就是让数据价值在实战中得到验证。

该平台通过一套公平、公开、可复现的大模型训练与评测机制,来比较不同训练数据集的优劣。

那么,OpenDataArena具体是如何运作的呢?

1、数据集选择

平台覆盖了来自通用、数学、代码、科学等多个领域的后训练数据集。这些数据来自于HuggingFace并且有一定的下载和关注度,不仅具有代表性,而且具备时效性,确保了评测的现实意义。

2、模型选择

平台采用了社区中最常用、最具代表性的Llama3.1Qwen 2.57B版本作为基准模型,它们代表了真实的学术和工业应用场景,同时尽可能反映了最多场景中实际使用的模型大小的数据性能。

3、训练与评估

平台采用标准化训练配置,训练环节采用广受认可的LLaMA-Factory框架,并且严格采用最常见的训练参数。

测试环节使用OpenCompass进行全面评估,在测试环节的参数设置上,团队进行了大量预实验,确保推理模板和评估器等细节都经过了精心的优化,排除外部干扰,让测试结果能更公平、公正地反映训练数据集的真实质量。

4、评测集全面覆盖

平台选择了通用、数学、代码、长链推理等多维度基准测试集,力求全面、客观地反映单领域数据质量,以及混合领域的数据综合质量。

最终,OpenDataArena数据竞技场诞生,通过数据评测榜单直观的给出数据“优秀”程度。

平台希望能够帮助模型训练者和数据研究者快速识别并挑选高质量数据集,降低试错成本,赋能模型训练与应用。

数据多维度评价:打开数据质量的“黑匣子”

除了通过训练模型得到下游任务的表现来直接反应数据的质量之外,OpenDataArena还通过多维度的客观评分工具,来对数据本身进行细致的“体检”,这些客观评分指标得到了学界和业界的广泛认可。

1、20+维度,精准画像

平台对代表性的数据集整体,以及数据集中的每一条数据,都进行了细致的多维度打分。

不论是直接选用整个数据集,还是用于挑选优质子数据,都方便操作。同时,无论是指令数据,还是指令-响应对数据,平台都从不同方面提供了相应的评分。

2、多源评分,深度剖析

平台的评分工具整合了多种维度评估方法,包括基于模型的评估(Model-based Evaluation,如IFD)、大模型作为评委(LLM-as-a-Judge,如准确性、复杂度)和启发式方法(Heuristic,如回复响应长度)。

这些维度涵盖了数据的常见评价指标,为数据的价值提供了丰富的量化视角。

3、开源评分数据

团队已完成对超过15M+数据的多维度评分,并已开源这些数据评分结果。

对于需要依赖常见评价指标开展数据筛选、种子数据生成等任务的科研用户而言,这不仅极大降低了打分成本,还有效避免了重复的API调用,从而节省了实际开销,可谓一项极其宝贵的资源。

通过上述努力,平台为数据合成、数据筛选的研究者提供了多维度的评分数据和工具,助力他们寻找高价值的“种子数据”,最终为生成更优质、更高价值的数据提供了直接的帮助。

开源工具:让数据价值验证触手可及

为了“公平、公正、公开”的OpenDataArena平台的设计原则,同时也为了让更多人能参与到数据价值验证中来,真实地评价数据的质量,OpenDataArena团队将整个平台的核心工具都进行了开源。

包括基于模型的训练评测工具,以及客观的多维度数据评价打分工具,所有的细节能在完整的OpenDataArena-Tool中找到说明。

  • 训评一体化工具

平台基于主流的LLaMA-Factory训练框架,以及评测端知名的OpenCompass框架,打造了一套端到端的训练与评测工具,给出了所有的配置和流程复现脚本,确保了评估实验的结果可复现性与公平性。

相关的设置都尽可能与当前的主流研究工作、以及其余开源工具进行了对齐,保证了结果的公平公正可比。

具体的说明可以在配置详情和工具说明中,找到所有细节。

  • 多维度数据打分工具

平台对于数据评价的打分工具也在持续完善中。

目前已实现的大部分评估维度打分工具均已开源,并提供了详细的使用教程。不管是单个维度的数据评估,还是所有已支持的数据评估维度,用户都可以在官方wiki文档中了解到如何使用这些工具,并为自己的数据进行“体检”。

同时,团队还在持续优化支持更多的数据打分维度,为用户提供更多维度的数据打分选择。

通过上述的工具开源,OpenDataArena团队希望提供一个开放共享的数据价值评估平台,让所有用户都能参与到数据评估中来,并为产生真正的高价值数据共同努力。

未来展望:数据价值的星辰大海

据团队介绍,目前OpenDataArena已经完成的仅仅只是冰山一角,也只是对数据价值验证的开始。

项目未来也有更多的计划,例如下面这些:

  • 扩展验证范围: 逐步支持多模态等更复杂的数据类型;
  • 深化应用场景: 扩展至医疗、金融、科学等更多专业领域;
  • 保持新鲜度: 每月更新数据竞技场,确保数据排行榜的及时性。

团队认为,数据价值的验证需要社区的共同努力,上述计划也非常需要科研社区的力量来共同参与。

感兴趣可以进一步关注。

地址:https://opendataarena.github.io/index.html
工具:https://github.com/OpenDataArena/OpenDataArena-Tool
数据:https://huggingface.co/OpenDataArena

— 完 —

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊能静儿子迷惑行为引争议,她无脑护子口碑翻车,黑历史又被翻出

伊能静儿子迷惑行为引争议,她无脑护子口碑翻车,黑历史又被翻出

花哥扒娱乐
2026-05-01 20:22:50
5月1日上海最新购房政策来了:限购+贷款+赠予+继承+新房积分+摇号+税费+置换补贴!(最新版)

5月1日上海最新购房政策来了:限购+贷款+赠予+继承+新房积分+摇号+税费+置换补贴!(最新版)

新浪财经
2026-05-01 00:10:56
新华时评丨劳动光荣的价值底色永远闪亮

新华时评丨劳动光荣的价值底色永远闪亮

新华社
2026-04-30 20:54:03
劳尔“粪坑”金句再应验,皇马忙选帅,球员掀桌无忌

劳尔“粪坑”金句再应验,皇马忙选帅,球员掀桌无忌

体坛周报
2026-05-01 19:55:20
4月30日译名发布:谭德塞

4月30日译名发布:谭德塞

参考消息
2026-04-30 11:04:42
又一个姆贝莫?曼联锁定 6000 万锋霸,英超王牌有望空降梦剧场

又一个姆贝莫?曼联锁定 6000 万锋霸,英超王牌有望空降梦剧场

澜归序
2026-05-01 06:20:01
云南元阳车祸后续:一车村民近乎团灭,背后原因越扒越气愤

云南元阳车祸后续:一车村民近乎团灭,背后原因越扒越气愤

千言娱乐记
2026-05-01 15:35:48
杨子离婚 3个月就和新欢产子,黄圣依17年青春喂了狗,体面尽失

杨子离婚 3个月就和新欢产子,黄圣依17年青春喂了狗,体面尽失

橙星文娱
2026-04-29 10:30:58
华宇晨抚仙湖演唱会被取消真实原因!

华宇晨抚仙湖演唱会被取消真实原因!

谣谈乡村振兴
2026-05-01 10:06:01
伦敦世乒赛冷门不断!多支球队提前出局,5月1日赛程出炉 神秘之师迎生死战

伦敦世乒赛冷门不断!多支球队提前出局,5月1日赛程出炉 神秘之师迎生死战

好乒乓
2026-05-01 11:21:16
以色列海军拦截“全球坚韧船队”,扣押约175名活动人士

以色列海军拦截“全球坚韧船队”,扣押约175名活动人士

界面新闻
2026-04-30 16:02:32
展现性感身材,劳塔罗妻子晒比基尼照

展现性感身材,劳塔罗妻子晒比基尼照

懂球帝
2026-04-30 14:45:11
20年前的2006德国世界杯,才是真正的诸神黄昏!

20年前的2006德国世界杯,才是真正的诸神黄昏!

球叮足球
2026-05-01 09:56:08
得知伊朗将参加世界杯特朗普:让他们踢吧 但伊足协官员却难进美加

得知伊朗将参加世界杯特朗普:让他们踢吧 但伊足协官员却难进美加

劲爆体坛
2026-05-01 07:44:05
美通知联合国,想要钱先对付中国,话音刚落,中方一句话灭美威风

美通知联合国,想要钱先对付中国,话音刚落,中方一句话灭美威风

阿伧说事
2026-04-30 12:50:43
小米汽车公布最新成绩单:4月交付量突破30000台!

小米汽车公布最新成绩单:4月交付量突破30000台!

快科技
2026-05-01 11:47:22
网友妹子因为家里的猫老是破坏多肉决定弃养了,网友刚想开骂,看完送养信息后直接笑出了声哈哈哈!

网友妹子因为家里的猫老是破坏多肉决定弃养了,网友刚想开骂,看完送养信息后直接笑出了声哈哈哈!

拜见喵主子
2026-05-01 19:39:30
1910年,孙中山原配和三个孩子合影,容貌憔悴,命运坎坷!

1910年,孙中山原配和三个孩子合影,容貌憔悴,命运坎坷!

史之铭
2026-04-19 17:44:23
笑靥如花的女神,侧颜杀也太绝了!

笑靥如花的女神,侧颜杀也太绝了!

陈意小可爱
2026-04-29 00:41:58
詹姆斯:我认为大概再没人能连续八年进总决赛!

詹姆斯:我认为大概再没人能连续八年进总决赛!

历史第一人梅西
2026-05-01 15:01:34
2026-05-01 21:08:49
量子位 incentive-icons
量子位
追踪人工智能动态
12565文章数 176458关注度
往期回顾 全部

科技要闻

苹果上季在华收入继续大增 iPhone收入新高

头条要闻

70岁法国老人骑浙江品牌摩托车 穿越多国抵达杭州

头条要闻

70岁法国老人骑浙江品牌摩托车 穿越多国抵达杭州

体育要闻

无奈!约基奇:这要在塞尔维亚 全队早被炒了

娱乐要闻

马筱梅产后身材恢复超好 现身户外直播

财经要闻

GPU神话松动,AI真正的战场变了

汽车要闻

限时9.67万起 吉利星越L/星瑞i-HEV智擎混动上市

态度原创

教育
家居
数码
时尚
旅游

教育要闻

告别“纸上谈兵”!这个地方打破劳动教育围墙,给孩子留下值得回忆的汗水!

家居要闻

灵动实用 生活艺术场

数码要闻

三星T7存储卡发售:提供128GB至1TB可选,329元起

她们看起来气血好足,每套搭配我都想抄

旅游要闻

五一“微度假”受热捧|惠民县田园景区日迎万人 无动力设施成亲子游新宠

无障碍浏览 进入关怀版