网易首页 > 网易号 > 正文 申请入驻

构建更优AI评测基准:评价者数量多少算够?

0
分享至


我们推出了一个基于"金标准"评分数据的机器学习模型评估框架,该框架优化了评测项目数量与每项评价者数量之间的权衡,为构建能够捕捉人类分歧细微差别的高度可重现AI基准提供了路线图。

机器学习中的可重现性

在机器学习领域,可重现性衡量的是使用相同代码、数据/分布和设置重复相同实验并获得相同结果的难易程度。高水平的可重现性能够在团队之间建立信任,并允许他们在彼此的进展基础上继续发展。

可重现性面临的挑战在于,基准真实数据通常依赖于人类;而人类与机器不同,他们从各种不同角度处理问题,往往在结果上存在分歧。令人惊讶的是,很少有研究关注有效忽略人类分歧的影响,这在AI基准测试中是一个常见的疏漏。缺乏相关研究的一个原因是,收集人工支持的评估数据预算有限,而为每个示例获取多个评价者的更多样本会大大增加单项标注成本。

使用多数票来表示多重评分会忽略变异性。上述两个例子都有相同的多数票,但后者更明显地倾向于"有毒"。

在"森林与树木:可重现机器学习评估中的(N,K)权衡"研究中,我们调查了被评价项目比例与每项人类评价者数量之间的可重现性权衡。是对许多项目使用较少评价者更好,还是对较少项目使用更多评价者更好?可以将此视为广度与深度之间的问题。广度(即森林)方法要求1000个不同的人每人在餐厅尝试一道菜来获得整体质量感受。深度(树木)方法要求20个人尝试相同的50道菜,揭示更多关于特定菜品的信息,这可能会影响整体评分。

从历史上看,AI评估倾向于森林方法。大多数研究者满足于每项1到5个评价者,假设这足以找到单一"正确"真相。我们的研究表明,这一标准往往不足以捕捉自然分歧,我们为构建更可靠和成本效益更高的AI基准提供了路线图。

主观性破坏实证基准测试

主观性破坏实证基准测试是可重现性的主要挑战。如果两个不同的研究者运行相同评估并获得不同结果,研究就不可重现。为了找到被评价项目数量与每项评价者数量之间的最佳平衡,我们基于涉及主观任务(如毒性和仇恨言论检测)的真实世界数据集开发了一个模拟器。

我们本质上进行了大规模"压力测试",以找到花费给定研究预算(例如,以成本、时间等衡量)的最有效方式。我们改变了两个主要杠杆,看哪个产生最可靠的结果:

为支持更广泛的社区,我们已在GitHub上开源了这个模拟器。

我们使用多个数据集,每个都包含各种类别,每项有多个响应:

使用这些数据集,我们还测试了数据"混乱"时会发生什么。例如,如果99%的邮件是垃圾邮件,只有1%是重要的(表明高数据倾斜),这是否会改变最佳评价者分布(广度vs深度)?此外,我们还探索了拥有更多数据类别的效果,例如毒性标签,如有毒、轻微冒犯、中性等。

关键发现

我们的研究揭示了三个挑战机器学习评估现状的重大洞察:

我们的结果显示,每项使用1、3或5个评价者的常见做法往往不足。这种"低评价者"方法既没有提供足够的广度来看到大局,也没有提供足够的深度来理解人类意见的细微差别。为了获得真正反映人类细微差别的可靠结果,实践者往往需要每项超过10个评价者。

每项拥有更多评价者会增加统计显著性,因为p值接近零。这意味着我们可以丢弃模型A和B表现同样好的零假设,模拟器确保情况并非如此。

没有"完美"比例。相反,最佳权衡完全取决于所测量的内容:

最令人鼓舞的发现是,一个人不需要无限预算。我们发现,通过基于选择的指标正确优化每项评分比例,可以用大约1000个总标注的适度预算实现高度可重现的结果。然而,选择错误的平衡可能导致不可靠的结论,即使增加研究预算也是如此。

对AI未来的影响

这项研究对可靠AI的未来至关重要。多年来,该领域一直在"单一真相"范式下运作——即对于每个输入,都有一个"正确"标签的想法。但即使存在单一基准真相,也可能无法测量它。当AI进入更主观的领域,如伦理学,识别有害意图或社交互动特征等主观概念时,这种范式就崩溃了。

通过远离"森林"并拥抱"树木",我们可以构建真正反映复杂性和不同观点的基准,这些观点导致人类世界中发现的自然分歧。这个路线图允许实践者在不超支的情况下设计更好、更可重现的测试。最终,理解人类为什么分歧与知道他们在哪里达成一致同样重要,我们的研究提供了捕捉两者的数学工具。

这项工作很大程度上归功于我们的合作者——罗切斯特理工学院博士生Deepak Pandita和Christopher Homan教授。

Q&A

Q1:机器学习评估中为什么需要多个评价者?

A:因为基准真实数据通常依赖于人类,而人类与机器不同,他们从各种不同角度处理问题,往往在结果上存在分歧。使用单一评价者或很少评价者无法捕捉这种自然的人类分歧,影响评估结果的可重现性。

Q2:广度和深度方法在AI评估中有什么区别?

A:广度(森林)方法是对许多项目使用较少评价者,就像让1000个不同的人每人在餐厅尝试一道菜。深度(树木)方法是对较少项目使用更多评价者,就像让20个人尝试相同的50道菜,能揭示更多细节信息。

Q3:构建可重现AI基准需要多少预算?

A:研究发现,通过基于选择指标正确优化每项评分比例,可以用大约1000个总标注的适度预算实现高度可重现的结果。关键是找到项目数量与每项评价者数量之间的最佳平衡,而不是无限增加预算。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
色情片并不可怕,但它会偷走你的“劲”,让你做什么都索然无味

色情片并不可怕,但它会偷走你的“劲”,让你做什么都索然无味

知识圈
2026-04-26 09:35:01
世锦赛战报:吴宜泽4-4,连爆大冷,3位80后大满贯得主都被逼平了

世锦赛战报:吴宜泽4-4,连爆大冷,3位80后大满贯得主都被逼平了

求球不落谛
2026-04-26 20:17:11
不想访华了?美国联合10国,对中国发起一轮猛攻,中方反制不隔夜

不想访华了?美国联合10国,对中国发起一轮猛攻,中方反制不隔夜

军机Talk
2026-04-25 17:10:51
血亏8亿!华晨宇直播崩溃大哭,云南拿地建乐园,临门一脚被强拆

血亏8亿!华晨宇直播崩溃大哭,云南拿地建乐园,临门一脚被强拆

奇怪的鲨鱼们
2026-04-26 16:32:25
一语成谶!白宫发言人晚宴前玩谐音梗,称“今晚会有‘枪声响起’”

一语成谶!白宫发言人晚宴前玩谐音梗,称“今晚会有‘枪声响起’”

上观新闻
2026-04-26 19:59:04
蔡少芬山姆购物,打扮超酷又瘦又高,买满三购物车太壕了

蔡少芬山姆购物,打扮超酷又瘦又高,买满三购物车太壕了

小武侃风云
2026-04-26 18:52:45
广告使用“清朝长辫”被指辱华,法国品牌Lemaire致歉

广告使用“清朝长辫”被指辱华,法国品牌Lemaire致歉

南方都市报
2026-04-26 20:40:18
泡泡玛特推出Labubu冰箱,售价5999元,上千人预约

泡泡玛特推出Labubu冰箱,售价5999元,上千人预约

大象新闻
2026-04-26 13:01:02
社保挂靠迎来全面严查,过往缴费全部清算,3类人下场早已注定

社保挂靠迎来全面严查,过往缴费全部清算,3类人下场早已注定

复转这些年
2026-04-26 18:03:47
日本政府图谋出口二手武器,不断突破“红线”引担忧

日本政府图谋出口二手武器,不断突破“红线”引担忧

参考消息
2026-04-26 20:00:08
为什么先救万斯?枪击发生后,万斯比特朗普先撤离引质疑

为什么先救万斯?枪击发生后,万斯比特朗普先撤离引质疑

新京报
2026-04-26 15:41:36
马拉松迎来历史性突破,肯尼亚选手萨维实现“破2”

马拉松迎来历史性突破,肯尼亚选手萨维实现“破2”

澎湃新闻
2026-04-26 18:46:26
天助川普,伊朗要遭殃了

天助川普,伊朗要遭殃了

西楼饮月
2026-04-26 23:14:22
伊朗外长向巴基斯坦递交停战条件

伊朗外长向巴基斯坦递交停战条件

新华社
2026-04-26 23:15:28
两男子应聘浦发银行销售代表,通过3轮面试,做了497元体检,工资卡都办好了,银行却以学历不符为由拒绝入职

两男子应聘浦发银行销售代表,通过3轮面试,做了497元体检,工资卡都办好了,银行却以学历不符为由拒绝入职

大象新闻
2026-04-24 16:49:09
华为余承东“自我检讨”,称以前做车注重安全品质但轻视了外观

华为余承东“自我检讨”,称以前做车注重安全品质但轻视了外观

IT之家
2026-04-26 19:47:12
网友调侃陈都灵是搓衣板身材,胸前没有二两肉,瘦的离谱

网友调侃陈都灵是搓衣板身材,胸前没有二两肉,瘦的离谱

TVB的四小花
2026-04-25 18:47:36
5月1日起严查!吸烟、买烟、卖烟都有新规矩,速看

5月1日起严查!吸烟、买烟、卖烟都有新规矩,速看

李博世财经
2026-04-26 09:23:34
成龙和克里斯·塔克因不满片酬,已拒绝《尖峰时刻4》的初步邀约;特朗普曾催拍《尖峰时刻4》,渴望让传统男子气概在好莱坞文化中重现光彩

成龙和克里斯·塔克因不满片酬,已拒绝《尖峰时刻4》的初步邀约;特朗普曾催拍《尖峰时刻4》,渴望让传统男子气概在好莱坞文化中重现光彩

鲁中晨报
2026-04-25 15:48:13
特朗普内阁又一个女部长落马,各种丑闻之丑令人作呕……

特朗普内阁又一个女部长落马,各种丑闻之丑令人作呕……

新民周刊
2026-04-26 15:07:25
2026-04-27 01:27:00
至顶AI实验室 incentive-icons
至顶AI实验室
一个专注于探索生成式AI前沿技术及其应用的实验室。
3466文章数 171关注度
往期回顾 全部

科技要闻

涨价浪潮下,DeepSeek推动AI“价格战”

头条要闻

特朗普内阁又一女部长落马:强迫男下属为其提供性服务

头条要闻

特朗普内阁又一女部长落马:强迫男下属为其提供性服务

体育要闻

森林狼3比1掘金:逆境中杀出了多孙穆?!

娱乐要闻

仅次《指环王》的美剧,有第二季

财经要闻

事关新就业群体,中办、国办发文

汽车要闻

预售19.38万元起 哈弗猛龙PLUS七座版亮相

态度原创

本地
教育
健康
旅游
公开课

本地新闻

云游中国|逛世界风筝都 留学生探秘中国传统文化

教育要闻

超燃暴击!孩子们为啥都乐翻天了?!这所人附系学校揭秘

干细胞如何让烧烫伤皮肤"再生"?

旅游要闻

2000余场特色活动邀市民欢度五一

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版