网易首页 > 网易号 > 正文 申请入驻

香港浸会大学团队首创"AI评委"

0
分享至


这项由香港浸会大学马静教授团队领导的突破性研究发表于2025年11月,论文编号为arXiv:2511.09067v1。有兴趣深入了解的读者可以通过该编号查询完整论文。该研究团队汇集了来自香港浸会大学、北京师范大学-香港浸会大学联合国际学院、新加坡国立大学、北京师范大学以及上海交通大学的顶尖研究人员。

随着人工智能模型变得越来越强大,一个关键问题浮出水面:如何让这些AI系统学会准确评价自己和他人的表现?就像老师需要给学生作业打分一样,AI模型也需要具备"评判能力"来实现自我改进。然而,现有的评估方法就像只能回答"好"或"不好"的简单判断题,缺乏深度分析能力。

香港浸会大学的研究团队就像教育界的创新者一样,开发出了一套名为MM-CRITIC的全新评估体系。这套系统不仅能让AI模型判断答案的对错,还能像经验丰富的老师一样提供详细的批评建议,甚至能比较不同答案的优劣。更重要的是,这个系统专门针对那些既能看图又能理解文字的多模态AI模型,填补了这一领域评估工具的空白。

研究团队构建了一个包含4471个样本的庞大测试集,涵盖了感知、规划、知识理解、信息提取、数学、编程、科学和度量等八个主要任务类型。这就像为AI模型设计了一场全方位的"综合考试",不仅测试它们的知识掌握程度,更重要的是测试它们是否具备"当评委"的能力。

一、AI评判能力的三个层次:从简单判断到深度分析

传统的AI评估就像学校里的选择题考试,只能给出"对"或"错"的简单判断。研究团队发现这种方式太过粗糙,无法真正帮助AI系统提升自己的能力。他们设计的MM-CRITIC评估体系包含三个递进的评判层次,就像从小学生的是非判断逐步升级到大学教授的深度评析。

第一个层次是基础评判能力,这就像让AI当一个初级评委。系统需要判断一个回答是否正确,并且能够给出文字形式的评价意见。比如面对一道数学题的解答,AI不仅要能说出答案对不对,还要能解释为什么对或为什么错,就像一个负责任的老师会在作业本上写评语一样。

第二个层次是纠错能力,这相当于让AI成为一个能够提供改进建议的高级导师。当AI发现一个回答有问题时,它不仅要指出错误在哪里,还要提供正确的解决方案。这就像一个经验丰富的教练,不仅告诉运动员动作不对,还会示范正确的动作要领。

第三个层次是比较分析能力,这是最高级的评判技能。AI需要像专业评委一样,在两个或多个答案中选出最好的那一个,并且要能说明理由。这种能力就像奥运会的裁判,不仅要分出金银铜牌,还要给出令人信服的评分依据。

研究团队通过大量实验发现,目前的AI模型在这三个层次上的表现差异很大。有趣的是,最困难的并不是比较两个明显不同质量的答案,而是在那些质量相近的中等水平答案之间做出准确判断,就像在两个都不错但各有特色的学生作品中选出更优秀的那一个。

二、构建可靠的"AI评委培训系统"

为了让AI模型学会当一个合格的评委,研究团队面临的最大挑战是如何确保评判标准的可靠性。这就像培训人类裁判一样,需要建立统一、公正的评分标准。

研究团队采用了一个巧妙的解决方案:他们让GPT-4o充当"金牌教练"的角色,为每个测试任务制定详细的评分准则。这些准则就像烹饪比赛中的详细评分表,不仅包含通用标准(比如回答是否准确、表达是否清楚),还针对不同类型的任务制定了专门的评判要点。

比如对于数学任务,评分标准会特别关注推理过程是否正确、计算是否准确;对于编程任务,则会重点检查代码语法是否正确、逻辑是否合理。对于图像理解任务,评分标准会考虑模型是否准确识别了图像中的关键信息,描述是否详细恰当。

更重要的是,研究团队还引入了"参考答案"机制。就像标准答案能帮助老师更准确地评分一样,这些参考答案由GPT-4o基于专家级知识生成,为每个评判提供了可靠的对照标准。这种做法大大提高了评判的一致性和准确性,避免了不同AI评委因为"个人偏好"而产生的评分差异。

研究过程中,团队发现了一个有趣现象:AI评委往往偏爱那些内容更丰富、解释更详细的答案,即使这些答案可能包含一些冗余信息。这就像人类评委容易被"华丽辞藻"所影响一样,AI评委也有自己的"审美偏好"。认识到这一点后,研究团队通过引入参考答案的方式,有效校正了这种偏见。

三、全方位测试:从看图说话到复杂推理

MM-CRITIC评估体系的测试范围异常广泛,就像为AI模型设计了一场包含文理科所有科目的综合性考试。这个测试体系基于MEGA-BENCH数据集构建,涵盖了500多个具体任务,确保能够全面检验AI模型的多模态评判能力。

在感知类任务中,AI需要像一个细心的观察者一样,准确识别图像中的各种元素,并对其他模型的识别结果进行评价。比如在一个要求排序圆形区域亮度的任务中,AI不仅要能正确识别出亮度顺序,还要能判断其他模型的答案是否准确,并指出错误所在。

规划类任务则考验AI的逻辑思维能力。就像一个项目经理需要评估团队成员的工作计划一样,AI需要判断一个规划方案是否可行、是否完整、是否符合实际情况。这类任务特别考验AI的实用性思维,因为好的规划不仅要在理论上正确,还要在实践中可操作。

知识理解任务涉及面最广,从历史地理到科学技术,从文学艺术到社会常识。AI评委需要像一个博学的教授一样,不仅自己掌握这些知识,还要能判断其他模型的回答是否准确、是否完整、是否存在事实错误。

数学和编程任务则更加注重逻辑性和准确性。在数学题评判中,AI不仅要验证最终答案是否正确,还要检查解题步骤是否合理、是否有逻辑漏洞。在编程任务中,AI需要像经验丰富的程序员一样,检查代码的语法、逻辑和实用性。

科学类任务要求AI具备跨学科的知识背景,能够判断科学解释是否符合事实、是否逻辑自洽。而度量类任务则考验AI对各种测量和计算的理解能力。

四、令人意外的实验发现:中等质量答案最难评判

研究团队通过对18个不同规模和能力的AI模型进行测试,获得了许多令人惊讶的发现。这些发现就像考试后的成绩分析一样,揭示了AI评判能力的一些有趣规律。

首先,研究证实了AI领域的一个重要规律:模型规模越大,评判能力通常越强。就像经验更丰富的老师往往能给出更准确的评价一样,参数量更大的AI模型在评判任务上表现更出色。特别是那些参数量超过300亿的模型,在评判能力上有明显的质的提升。

然而,最有趣的发现是关于不同质量答案的评判难度。研究团队将测试答案按质量分为高、中、低三个等级,原本预期低质量答案最容易评判(因为错误明显),高质量答案其次(因为优点突出),中等质量答案最难。但实验结果却显示,中等质量的答案确实是最难准确评判的。

这个现象可以用日常生活中的例子来理解:当你面对一道明显很差的菜(低质量)或者一道明显很棒的菜(高质量)时,很容易做出评判。但面对两道都还不错、各有特色的菜时(中等质量),要准确分出高下就困难得多。AI模型在面对这种"模糊地带"的答案时,也会表现出同样的困难。

另一个重要发现是关于不同评判任务的难度差异。基础评判任务(判断对错)相对容易,比较评判任务(选择更好的答案)中等难度,而纠错任务(提供改进建议)最为困难。这就像当老师容易发现学生的错误,但要给出具体的改进建议则需要更高的专业水平。

研究还揭示了AI评委的一个"偏好":它们往往给那些文字更多、解释更详细的答案打更高的分数,即使这些答案可能包含一些冗余信息。这种现象类似于人类评委有时会被"华丽的包装"所影响,提醒我们在设计AI评估系统时需要注意这种潜在偏见。

五、不同任务类型的评判表现差异

通过对八个主要任务类型的深入分析,研究团队发现AI模型的评判能力在不同领域存在显著差异,就像一个人可能擅长文科但不擅长理科一样。

在编程任务的评判中,Claude-3.7-sonnet模型表现特别突出。这并不令人意外,因为Claude系列模型在代码理解和生成方面一直有不错的表现。当面对编程题的各种回答时,它能够像经验丰富的程序员一样,快速识别出代码中的语法错误、逻辑问题,并给出合理的评价。

数学任务的评判则显示出另一种模式。由于数学问题往往有标准答案,评判相对客观,因此大部分模型在这类任务上的表现都比较一致。但在涉及复杂推理过程的数学题时,不同模型的表现开始出现分化,那些逻辑推理能力更强的模型能够更准确地判断解题过程的正确性。

感知类任务的评判最考验模型的视觉理解能力。在这类任务中,模型不仅要准确理解图像内容,还要评判其他模型对同一图像的解读是否正确。研究发现,一些专门针对视觉任务优化的模型在这方面表现更好,它们能够像专业的图像分析师一样,注意到细节差异并做出准确判断。

科学类任务的评判则需要广泛的知识背景。模型需要像一个跨学科的专家一样,不仅掌握各个科学领域的基础知识,还要能判断科学解释的准确性和完整性。在这类任务中,那些训练数据更丰富、知识覆盖面更广的模型往往表现更好。

规划类任务考验的是实用性思维。在评判一个计划或方案时,模型需要考虑可行性、完整性、逻辑性等多个方面。这类任务的评判往往没有标准答案,需要模型具备较强的综合分析能力。

六、评判偏见的发现与纠正

研究过程中,团队发现AI评委存在一些有趣的评判偏见,就像人类评委也会有主观倾向一样。这些发现对于改进AI评估系统具有重要意义。

最明显的偏见是"长度偏好"。AI评委倾向于给那些内容更丰富、解释更详细的答案打更高的分数。在一个数学推理任务的案例中,研究团队观察到,即使两个答案的核心内容质量相当,但包含更多解释步骤和详细推理过程的答案往往获得更高评分。这就像学生写作文时,老师有时会被那些字数多、看起来"内容丰富"的文章所影响。

这种偏见有其合理性,因为详细的解释通常确实表明了更深入的思考过程。但问题在于,有时候简洁明了的答案可能更有价值,特别是在需要直接、高效回应的场景中。过度偏好冗长的回答可能会误导模型的发展方向。

为了验证这种偏见的普遍性,研究团队进行了一个有趣的实验。他们让不同的AI模型担任评委,并且使用不同的参考标准。结果发现,这种"长度偏好"在各个模型中都不同程度地存在,说明这可能是当前AI评估系统的一个普遍问题。

另一个发现是"风格偏见"。研究团队测试了当使用不同模型生成参考答案时,评判结果是否会发生变化。结果表明,当参考答案由不同模型生成时,评判的相对排序基本保持稳定,但具体分数会有所波动。这说明虽然存在某种程度的风格偏见,但整体评判框架还是相对可靠的。

为了纠正这些偏见,研究团队采用了多重策略。首先是建立详细的评分标准,明确规定什么样的回答应该得到高分,什么样的回答存在问题。其次是引入多样化的参考答案,避免单一风格的影响。最后是通过大量测试和调整,不断完善评判机制。

七、现实应用的巨大潜力

MM-CRITIC评估体系的价值远远超出了学术研究范围,它为AI技术的实际应用开辟了广阔前景。就像一个好的考试制度能促进教育质量提升一样,这套评估体系能够推动AI技术的实际应用发展。

在教育领域,这项技术可以充当智能助教的角色。当学生提交作业或回答问题时,AI系统不仅能判断答案是否正确,还能像经验丰富的老师一样提供详细的反馈意见。比如在数学学习中,AI能够分析学生的解题过程,指出推理错误的具体环节,并提供改进建议。这种个性化的反馈能够大大提高学习效率。

在内容创作和审核领域,这套系统能够充当质量控制员的角色。无论是文章写作、图片描述还是视频内容,AI评委都能提供专业的质量评估。这对于那些需要处理大量内容的平台来说特别有价值,能够帮助它们更有效地筛选和优化内容质量。

在AI模型开发过程中,这套评估体系就像一个严格的质检部门。开发团队可以用它来测试新模型的表现,识别模型的强项和弱点,从而有针对性地进行改进。这种系统性的评估方法能够加速AI技术的迭代和优化。

对于企业应用来说,这项技术能够帮助评估不同AI服务提供商的产品质量。企业在选择AI解决方案时,不再需要依赖简单的演示或宣传材料,而可以通过标准化的评估来做出更明智的决策。

在科研领域,这套系统能够协助研究人员评估实验结果和理论解释的合理性。虽然不能替代人类专家的判断,但可以作为初步筛选和分析的有力工具,提高研究效率。

研究团队已经将相关代码和数据集公开发布,这意味着其他研究者和开发者可以在此基础上继续改进和扩展。这种开放式的研究方式有助于整个AI社区的共同进步。

说到底,这项研究解决的是AI时代的一个根本问题:如何让机器学会准确判断和评价?就像人类社会需要公正的法官和老师一样,AI世界也需要可靠的评判标准和评估工具。MM-CRITIC的出现,为构建更加智能、更加可靠的AI评估体系奠定了重要基础。

虽然目前的系统还主要局限于文本和图像的处理,未来还需要扩展到视频、音频等更多模态。而且,如何在保持评判准确性的同时减少各种偏见,也是需要持续研究的课题。但不管怎样,这项研究已经为AI评判能力的发展指明了方向,相信未来会有更多基于这一框架的创新应用出现。

对于普通人来说,这意味着我们将能够享受到更加智能、更加个性化的AI服务。无论是学习、工作还是娱乐,AI助手都将能够提供更加精准、更加有用的反馈和建议。这不仅会改变我们与AI交互的方式,也会深刻影响我们的学习和工作模式。

Q&A

Q1:MM-CRITIC评估体系是什么?

A:MM-CRITIC是香港浸会大学团队开发的AI评判能力测试系统,专门用来检验多模态AI模型是否具备准确评价自己和他人答案的能力。它就像为AI设计的"评委考试",包含基础评判、纠错能力和比较分析三个层次,能全面测试AI的评判水平。

Q2:为什么中等质量的答案最难评判?

A:研究发现中等质量答案最难评判,就像在两道都还不错但各有特色的菜中选出更好的那道一样困难。明显很差或很好的答案容易判断,但质量相近的答案要准确分出高下就需要更高的专业水平,这对AI模型来说是最大的挑战。

Q3:这项技术能在教育领域如何应用?

A:这项技术可以充当智能助教,不仅能判断学生答案正确与否,还能像经验丰富的老师一样提供详细的反馈意见。比如分析数学解题过程,指出推理错误的具体环节并提供改进建议,实现个性化的学习指导,大大提高学习效率。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
兰州铁路局职工称休年假被扣薪,相关负责人:扣的是绩效;被扣部分能追回吗?律师说法

兰州铁路局职工称休年假被扣薪,相关负责人:扣的是绩效;被扣部分能追回吗?律师说法

大风新闻
2026-01-23 12:30:03
美媒:美国看待中国的心态变了

美媒:美国看待中国的心态变了

环球时报国际
2026-01-23 00:09:22
韩国最大在野党党首张东赫绝食8天,朴槿惠到场看望

韩国最大在野党党首张东赫绝食8天,朴槿惠到场看望

潇湘晨报
2026-01-22 16:33:38
越南:坦言要是中国晚撤五日,谅山守军或将被全歼,最终结果如何

越南:坦言要是中国晚撤五日,谅山守军或将被全歼,最终结果如何

磊子讲史
2026-01-21 12:01:14
知道不好骗了,索性开始硬抢了!

知道不好骗了,索性开始硬抢了!

胖胖说他不胖
2026-01-22 16:47:14
老詹回应ESPN报道:那些东西根本影响不到我 和珍妮一直互相尊重

老詹回应ESPN报道:那些东西根本影响不到我 和珍妮一直互相尊重

罗说NBA
2026-01-23 14:41:51
U23亚洲杯23日赛程:诞生季军!中国队赛前获喜讯,1-0日本=夺冠

U23亚洲杯23日赛程:诞生季军!中国队赛前获喜讯,1-0日本=夺冠

侃球熊弟
2026-01-23 00:18:00
没有阳刚之气就别演“大侠”,《镖人》中谢霆锋,给内娱上了一课

没有阳刚之气就别演“大侠”,《镖人》中谢霆锋,给内娱上了一课

糊咖娱乐
2026-01-22 11:48:48
特朗普:已撤回对加拿大总理卡尼加入“和平委员会”的邀请;卡尼公开强调加拿大“并非因美国才存在”

特朗普:已撤回对加拿大总理卡尼加入“和平委员会”的邀请;卡尼公开强调加拿大“并非因美国才存在”

鲁中晨报
2026-01-23 11:03:11
广东周日气温回升,有小雨!下周一夜间将迎新一股弱冷空气

广东周日气温回升,有小雨!下周一夜间将迎新一股弱冷空气

南方都市报
2026-01-23 13:58:09
刘强东、章泽天手牵手出席达沃斯年会

刘强东、章泽天手牵手出席达沃斯年会

扬子晚报
2026-01-23 12:00:55
马斯克首次亮相达沃斯!玩谐音梗嘲讽特朗普“和平委员会”:到底是要和平还是要地?自己都没绷住笑个不停

马斯克首次亮相达沃斯!玩谐音梗嘲讽特朗普“和平委员会”:到底是要和平还是要地?自己都没绷住笑个不停

鲁中晨报
2026-01-23 14:35:19
U23亚洲杯决赛赔率:中国不被看好,日本赢球赔率均1.5左右

U23亚洲杯决赛赔率:中国不被看好,日本赢球赔率均1.5左右

懂球帝
2026-01-23 14:02:18
1-0爆冷?亚洲球迷挺中国队:34%夺冠!日本球迷:我们先丢球难了

1-0爆冷?亚洲球迷挺中国队:34%夺冠!日本球迷:我们先丢球难了

侃球熊弟
2026-01-23 00:10:03
李亚鹏难掩激动:找到新地址还带公园,网友申请报名帮忙搬家

李亚鹏难掩激动:找到新地址还带公园,网友申请报名帮忙搬家

素素娱乐
2026-01-23 12:00:43
演员王雷方向嫣然天使基金捐款500元/月,发文称:李亚鹏太感人了,自己钱不多、富裕了再多捐

演员王雷方向嫣然天使基金捐款500元/月,发文称:李亚鹏太感人了,自己钱不多、富裕了再多捐

台州交通广播
2026-01-22 22:01:38
特朗普:美国正调集重兵前往伊朗

特朗普:美国正调集重兵前往伊朗

界面新闻
2026-01-23 13:11:44
男子用SIM卡炼出191克黄金上热搜!二手平台闻风而动整箱售卖……

男子用SIM卡炼出191克黄金上热搜!二手平台闻风而动整箱售卖……

柴狗夫斯基
2026-01-23 08:40:22
央视四个字力挺,吴京《镖人》仍被抵制,网友给出的理由出奇一致

央视四个字力挺,吴京《镖人》仍被抵制,网友给出的理由出奇一致

阿纂看事
2026-01-21 19:10:57
万万没想到,全球局势中“最乱”的竟是中国

万万没想到,全球局势中“最乱”的竟是中国

安安说
2026-01-23 09:12:29
2026-01-23 15:24:49
至顶AI实验室 incentive-icons
至顶AI实验室
一个专注于探索生成式AI前沿技术及其应用的实验室。
1294文章数 156关注度
往期回顾 全部

科技要闻

TikTok守住了算法"灵魂" 更握紧了"钱袋子"

头条要闻

32岁猝死程序员一人干六七人的工作 上月到手薪资披露

头条要闻

32岁猝死程序员一人干六七人的工作 上月到手薪资披露

体育要闻

跑个步而已,他们在燃什么?

娱乐要闻

刘大锤曝料 将王星越的“体面”撕粉碎

财经要闻

茂名首富,这次糟了

汽车要闻

“四十不惑”的吉利 信力不信命

态度原创

亲子
游戏
手机
艺术
公开课

亲子要闻

上海黄浦为每所幼儿园增配儿科家庭医生和专科医生,就诊有绿色通道

这就是邪典!外媒盘点9款烂的恰到好处的奇葩游戏

手机要闻

W3周排名:vivo、OPPO位置互换,小米、荣耀没变化

艺术要闻

现在的春联太俗了,还是过去的“老对联”高雅!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版