网易首页 > 网易号 > 正文 申请入驻

阿里巴巴团队大扫除:把AI界最难考试题的错误全找出来了!

0
分享至


这项由阿里巴巴集团和阿里巴巴Qwen团队联合开展的研究发表于2026年的arXiv预印本平台,论文编号为arXiv:2602.13964v2。研究团队针对当前AI界最权威的评测基准"人类最后的考试"(Humanity's Last Exam,简称HLE)进行了全面的错误检查和修正工作,最终发布了经过验证的HLE-Verified版本。

**一个让AI专家头疼的问题**

你可能不知道,现在评判AI有多聪明,主要靠的是让它们做题——就像我们上学时的考试一样。其中有一套叫做"人类最后的考试"的题目,被认为是目前最难、最权威的AI能力测试。这套题目涵盖数学、物理、化学、生物医学、计算机科学等多个领域,每道题都非常有挑战性。

但是问题来了。就像我们小时候发现教科书上偶尔也有印刷错误一样,这套被奉为圭臬的AI考试题目也出现了不少问题。一些研究人员开始怀疑:AI答错题目,到底是因为它们真的不够聪明,还是因为题目本身就有毛病?

这就好比你在餐厅点了一道菜,发现味道很奇怪。你可能会想:"是我的口味有问题,还是厨师做错了?"如果连菜谱都写错了,那么即使是最好的厨师也做不出正宗的味道。

**阿里团队的"大扫除"行动**

面对这个问题,阿里巴巴的研究团队决定来一次彻底的"大扫除"。他们要把原版考试的2500道题目逐一检查,找出所有可能存在的错误,然后进行修正。这就像是对一本厚厚的百科全书进行全面的校对工作。

整个检查过程分为两个阶段,就像医院的体检流程一样。第一阶段是"初步筛查",目的是找出那些完全没有问题的"健康"题目,这些题目可以直接保留。第二阶段是"深度治疗",针对那些有问题但还能抢救的题目进行修复。

研究团队把每道考试题分解成三个部分来检查:题目描述(相当于考试的问题部分)、标准答案(相当于参考答案)、解题过程(相当于详细的解答步骤)。这样做的好处是可以精确定位问题出在哪个环节。

**第一阶段:找出完全健康的题目**

在第一阶段,研究团队采用了三种不同的检查方法。首先是邀请各个领域的专家来审查题目,就像邀请不同科目的老师来检查试卷一样。这些专家会仔细查看每道题的题目描述、答案和解题过程,判断是否存在问题。

第二种方法是让多个先进的AI模型来解题。研究团队让8个不同的AI模型尝试回答同一道题目,然后看看它们的答案是否与标准答案一致。如果大部分AI都给出了与标准答案不同的结果,那这道题目就值得怀疑了。这就像是让多个学霸同时做一道题,如果他们的答案都和参考答案不一样,那很可能是参考答案有问题。

第三种方法是内部专家的最终判定。研究团队的专家会综合前两种检查的结果,做出保守的决定。只有当题目描述清晰、答案正确、且没有发现明显问题时,题目才能进入"黄金标准"的队伍。

经过第一阶段的严格筛选,2500道题目中有641道被认定为完全没有问题,可以直接使用。这些题目就像是经过严格质检的优质产品,可以放心使用。

**第二阶段:抢救有问题的题目**

对于那些在第一阶段被发现有问题但还有挽救价值的题目,研究团队启动了第二阶段的"抢救"工作。这个阶段的核心原则是:只修正错误,不改变题目要考查的核心能力。就像修理一台坏了的钟表,只修复损坏的部件,不改变它的基本功能。

修复工作采用了"双重保险"的方法。两个独立的专家团队分别对同一道题目提出修复方案,然后再让内部专家从中选择最好的方案,或者将两个方案结合起来。这就像是两个维修师傅独立检查同一台坏掉的机器,然后选择最佳的修复方案。

为了确保修复的质量,研究团队还让AI模型参与到修复过程中。这些AI模型会尝试用不同的方法解决修复后的题目,验证修复是否真的解决了原来的问题。

经过第二阶段的努力,又有1170道题目获得了"重获新生"。加上第一阶段的641道健康题目,总共有1811道题目可以放心使用。

**那些"疑难杂症"**

然而,还有689道题目让研究团队犯了难。这些题目的问题比较复杂,要么涉及有争议的学术观点,要么需要超出当前验证范围的专业知识,要么存在多种合理的解释。研究团队没有简单地丢弃这些题目,而是把它们标记为"不确定"状态,并详细记录了每道题目存在的具体问题和需要的专业知识类型。

这就像是医生遇到了罕见病例,虽然暂时无法确诊,但会详细记录症状和可能的病因,为将来的研究留下宝贵资料。

**错误类型大盘点**

在整个检查过程中,研究团队发现的错误类型可以分为三大类。题目描述方面的错误主要包括语义模糊(题目表达不清楚)、知识错误(题目中的事实性内容有误)、信息缺失(解题所需的条件不完整)、理论错误(违反了该领域的基本原理)和格式错误(数学符号或专业术语使用不当)。

解题过程方面的错误则更加丰富,包括推理步骤冗余、循环论证、违反事实、逻辑不一致、方法使用错误、过度自信、缺少前提条件、推理陷阱、多解法不一致,以及格式问题等十种类型。

答案方面的错误相对简单,主要是答案不正确、答案不完整、答案表述模糊和格式错误四种类型。

有趣的是,研究团队发现不同学科领域的错误模式存在明显差异。数学和生物医学题目中,答案错误是最主要的问题,占到了错误的绝大部分。而在物理、人文社科等领域,更多的问题是题目表述不够清晰,存在多种理解方式。计算机科学领域的题目则经常出现格式和符号使用错误。

**修复效果验证**

为了验证修复工作的效果,研究团队让七个目前最先进的AI模型分别在原版题目和修复版题目上进行测试。结果令人惊喜:所有AI模型在修复版题目上的表现都有了显著提升。

具体来说,在完整的题目集上,AI模型的准确率平均提高了7到10个百分点。而在那些原本存在题目描述错误或答案错误的题目上,AI模型的准确率提升更是达到了30到40个百分点。这就像是给学生提供了正确的教科书后,他们的考试成绩大幅提高了。

更有意思的是,研究团队还发现AI模型的"自信心"与题目质量之间存在密切关系。当遇到有问题的题目时,AI模型往往表现得不够自信,给出答案时显得犹豫不决。而在修复后的题目上,AI模型的自信心明显增强,这说明清晰准确的题目确实能帮助AI更好地发挥能力。

**不同学科的改进情况**

从学科角度来看,物理和生物医学领域的题目在修复后改进最为明显。这两个领域原本的AI准确率相对较低,但在修复后出现了大幅提升。相比之下,化学和计算机科学领域的改进幅度较小,但同样是积极的。

这种差异反映了不同学科在题目质量方面的特点。有些学科的题目更容易出现事实性错误,有些学科则更容易出现表述不清的问题。通过针对性的修复,每个学科的评测质量都得到了相应的改善。

**AI自信心的启示**

研究中一个特别有趣的发现是AI模型的自信心可以作为识别问题题目的指标。当题目存在问题时,AI模型在回答时往往不够自信,这反映了题目本身的不确定性。在修复后的题目上,AI模型的自信心普遍增强,说明清晰准确的题目确实能让AI更好地发挥实力。

这个发现有重要的实际意义。在未来的AI评测中,研究人员可以关注AI模型的自信心表现,以此来识别可能存在问题的题目。当多个AI模型都对某道题目表现出低自信心时,这道题目就值得重新审视了。

**对AI评测的深远影响**

这项研究的意义远远超出了对一套考试题目的修正。它揭示了一个重要问题:当我们用有缺陷的标准来评判AI时,得出的结论可能是不准确的。就像用一把刻度不准的尺子来测量物体,得到的数据自然也不可靠。

研究结果显示,AI在某些题目上的"错误"实际上可能反映的是题目本身的问题,而不是AI能力的不足。这提醒我们,在评判AI能力时,需要确保评测标准本身是可靠和准确的。

此外,这项研究还为如何维护和改进AI评测基准提供了宝贵经验。研究团队建立的两阶段验证和修复流程、详细的错误分类体系,以及保守的质量控制原则,都可以为其他类似的评测基准改进工作提供参考。

**未来展望**

研究团队将修复后的HLE-Verified数据集完全开源,供全球研究人员使用。他们还提供了详细的修复记录和错误分类信息,让其他研究者能够了解每道题目的具体修改情况。

对于那689道"不确定"状态的题目,研究团队也没有放弃。他们为每道题目提供了详细的问题描述和所需的专业知识标签,希望相关领域的专家能够在未来继续完善这些题目。这就像是为后续的研究者留下了详细的"诊断报告"。

说到底,这项研究告诉我们一个简单而重要的道理:好的评测需要好的题目。就像厨师需要新鲜的食材一样,准确评判AI能力也需要高质量的测试题目。通过系统性的验证和修复工作,我们可以让AI评测变得更加公平、准确和可靠。

这不仅有助于更好地了解当前AI的真实能力水平,也为AI技术的进一步发展指明了方向。当评测标准变得更加准确时,AI的发展也能更好地朝着正确的方向前进。

研究团队的这次"大扫除"行动,实际上是为整个AI研究社区做了一件非常有意义的基础工作。虽然这种工作可能不像开发新算法那样引人注目,但它的价值是长远而深刻的。就像维护道路和桥梁一样,维护评测基准也是保障AI研究健康发展的重要基础设施工作。

对于普通人来说,这项研究的意义在于让我们对AI能力的判断更加准确。当我们听到"某个AI在权威测试中表现如何"的消息时,可以更加相信这些评价的可靠性。而对于AI开发者来说,更准确的评测意味着他们可以更好地了解自己开发的AI系统的真实水平,从而制定更合适的改进策略。

有兴趣深入了解技术细节的读者可以通过论文编号arXiv:2602.13964v2在arXiv平台查询完整的研究论文,其中包含了更详细的方法描述、实验数据和分析结果。

Q&A

Q1:HLE-Verified是什么?

A:HLE-Verified是阿里巴巴团队对AI界权威测试"人类最后的考试"进行全面错误检查和修正后的版本。原版2500道题目经过验证后,有641道完全正确的题目,1170道修复后的题目,以及689道标记为不确定状态的题目。

Q2:为什么要对人类最后的考试进行修正?

A:因为研究人员发现原版考试中存在不少错误,包括题目描述不清、答案错误、解题过程有问题等。这些错误会影响对AI能力的准确评判,就像用有刻度错误的尺子测量物体一样不可靠。

Q3:修正后AI模型的表现有什么变化?

A:所有测试的AI模型在修正版题目上表现都显著提升,整体准确率平均提高7-10个百分点,在那些原本有错误的题目上准确率更是提高了30-40个百分点,同时AI模型的自信心也明显增强。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
那个…把男小三活活锤死的事情大家都知道了吗?

那个…把男小三活活锤死的事情大家都知道了吗?

魔都囡
2026-02-26 10:43:25
父亲是中国人,母亲是短跑强国的黑人,球员朱正加入男篮成功落户

父亲是中国人,母亲是短跑强国的黑人,球员朱正加入男篮成功落户

以茶带书
2026-02-25 19:48:32
女子在胖东来1小时消费近15万,称相信品质,排队也要来买黄金,1分钟试戴加付款,极速购买

女子在胖东来1小时消费近15万,称相信品质,排队也要来买黄金,1分钟试戴加付款,极速购买

观威海
2026-02-26 10:54:09
35岁中国音乐家在美身亡:路边换轮胎不幸被卡车撞倒,曾是中美音乐交流中坚力量

35岁中国音乐家在美身亡:路边换轮胎不幸被卡车撞倒,曾是中美音乐交流中坚力量

红星新闻
2026-02-26 12:36:32
向华强回应遗产问题:和向太达成一致都交给郭碧婷来管,一分钱不留给儿子,并称向太已将向佑拉黑

向华强回应遗产问题:和向太达成一致都交给郭碧婷来管,一分钱不留给儿子,并称向太已将向佑拉黑

19楼
2026-02-26 08:12:00
中国音乐家纽约路边换胎被撞身亡,年仅35岁

中国音乐家纽约路边换胎被撞身亡,年仅35岁

扬子晚报
2026-02-26 10:51:43
成本2亿,日票房仅1100万,71岁成龙懵了:内地观众凭啥不买账?

成本2亿,日票房仅1100万,71岁成龙懵了:内地观众凭啥不买账?

糊咖娱乐
2026-02-25 18:38:49
为什么中国人不能住上美国那样的千平独栋大别墅

为什么中国人不能住上美国那样的千平独栋大别墅

狐狸先森讲升学规划
2026-02-25 13:22:35
FIBA3x3女子系列赛首批办赛城市出炉,总决赛落户上海

FIBA3x3女子系列赛首批办赛城市出炉,总决赛落户上海

澎湃新闻
2026-02-26 11:42:28
一对夫妻自驾从新疆喀什到重庆,因晚5秒错过免费高速时间付1700余元,“当时又好笑又好气,当长教训了”

一对夫妻自驾从新疆喀什到重庆,因晚5秒错过免费高速时间付1700余元,“当时又好笑又好气,当长教训了”

大象新闻
2026-02-25 23:41:07
“36斤活羊烤完剩6.9斤”,网友质疑店家约剔除5斤,有博主现场做实验测重

“36斤活羊烤完剩6.9斤”,网友质疑店家约剔除5斤,有博主现场做实验测重

大风新闻
2026-02-25 23:10:03
大反转!三只羊“上市”成功

大反转!三只羊“上市”成功

首席品牌评论
2026-02-25 23:00:11
“别吱声,我跟赵车长打好招呼了”,K692次列车被指安排“人情座”,女子在拥挤车厢内打电话请人安排座位,铁路部门:目前正在调查

“别吱声,我跟赵车长打好招呼了”,K692次列车被指安排“人情座”,女子在拥挤车厢内打电话请人安排座位,铁路部门:目前正在调查

扬子晚报
2026-02-26 11:28:40
大年初三失联的四川26岁男子已离世,被发现地方距家并不远

大年初三失联的四川26岁男子已离世,被发现地方距家并不远

大象新闻
2026-02-25 16:21:04
比烟草电网还低调的5个央国企:几乎不社招,但一进就是人生赢家

比烟草电网还低调的5个央国企:几乎不社招,但一进就是人生赢家

生活新鲜市
2026-02-26 05:03:46
平顶山“夫妻打人事件”,最狠毒者是老太

平顶山“夫妻打人事件”,最狠毒者是老太

方清云
2026-02-25 17:44:53
男子网恋被骗9.5万余元!松江警方破获一起婚恋诈骗案

男子网恋被骗9.5万余元!松江警方破获一起婚恋诈骗案

上观新闻
2026-02-24 12:19:12
开炮真管用!中国海警船果断开炮,菲律宾50多艘舰船夺命而逃!

开炮真管用!中国海警船果断开炮,菲律宾50多艘舰船夺命而逃!

头条爆料007
2026-02-26 08:30:30
平顶山打人事件的二次通报,看完让人后背发凉

平顶山打人事件的二次通报,看完让人后背发凉

清书先生
2026-02-25 17:01:07
马刺逆转双杀猛龙豪取10连胜 文班12+8+5帽莺歌20+11丢绝平球

马刺逆转双杀猛龙豪取10连胜 文班12+8+5帽莺歌20+11丢绝平球

醉卧浮生
2026-02-26 11:12:28
2026-02-26 13:39:03
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7329文章数 553关注度
往期回顾 全部

科技要闻

单季营收681亿净利429亿!英伟达再次炸裂

头条要闻

赖清德改口称“大陆”被指释出善意 国民党发言人表态

头条要闻

赖清德改口称“大陆”被指释出善意 国民党发言人表态

体育要闻

从排球少女到冰壶女神,她在米兰冬奥练出6块腹肌

娱乐要闻

尼格买提撒贝宁滑雪被偶遇 17年老友情

财经要闻

短剧市场风云突变!有人投百万赔得精光

汽车要闻

第五代宏光MINIEV焕新 四门玩趣代步车来袭

态度原创

健康
时尚
亲子
公开课
军事航空

转头就晕的耳石症,能开车上班吗?

伦敦时装周|2026秋冬流行趋势早知道

亲子要闻

孩子两岁学骑平衡车,奶奶却说“没用”,一年后孩子变化让人惊喜

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美政府给新伊核协议设限内容遭披露

无障碍浏览 进入关怀版