网易首页 > 网易号 > 正文 申请入驻

新加坡国立大学团队发布深度研究AI评测新标准

0
分享至


深度研究人工智能系统已经成为科技界的热门话题,但如何评判这些AI系统的研究能力一直是个难题。想象一下,如果我们要评估一位研究员的能力,仅仅看他最终写出的报告是远远不够的——我们更需要了解他是如何搜集信息、分析证据、处理冲突观点,以及整个思考过程的逻辑性。然而,目前大多数AI评测方法就像只看考试成绩而不关心答题过程的老师,这显然无法全面衡量AI的研究能力。

这项由新加坡国立大学MiroMind团队主导的研究发表于2026年3月,论文编号为arXiv:2603.28407v1。研究团队不仅来自新加坡国立大学,还包括南洋理工大学的学者,他们共同开发了一套名为MiroEval的全新评测框架,这套系统就像为AI研究员设计了一场全方位的"能力测试"。

传统的AI评测方法存在四个主要问题,就像用错误的尺子量身高一样不准确。首先,现有评测只关注最终报告的质量,完全忽略了研究过程——这就好比只看菜品摆盘而不管厨师的烹饪技艺。其次,多模态评测能力严重不足,大多数评测都局限于文字内容,而现实中的研究往往需要处理图表、PDF文档、电子表格等各种格式的材料。第三,评测任务过于人工化,缺乏真实用户需求的复杂性。最后,这些评测标准一旦制定就固定不变,无法跟上知识更新的步伐。

MiroEval的创新之处在于它不再是简单的"阅卷机器",而更像一个全方位的研究能力诊断专家。这套系统包含100个精心设计的研究任务,其中70个是纯文本任务,30个是多模态任务。所有任务都源自真实用户需求,通过两条并行的流水线生成:一条专门收集和改写真实用户的研究需求,另一条则根据网络热点趋势自动生成任务。这种设计就像为AI准备了一套既有经典题目又有最新热点的综合性考试。

更重要的是,MiroEval不只是看AI写出了什么报告,而是像一个经验丰富的导师一样,从三个维度全面审视AI的研究能力。第一个维度是"综合报告质量评估",这就像评判一篇论文的写作水平和内容组织能力。第二个维度是"智能事实核查",系统会像一个严格的事实检查员一样,逐条验证AI报告中的每个声明是否有可靠证据支持。第三个维度是"研究过程评估",这是最具创新性的部分,系统会深入分析AI是如何搜索信息、如何推理分析、如何处理矛盾证据的整个思考轨迹。

研究团队测试了13个主流的深度研究AI系统,结果揭示了许多有趣的发现。不同AI系统在三个评估维度上的表现差异巨大,就像不同专业的研究员各有所长一样。有些AI擅长写出优美的报告,但在事实准确性上存在明显缺陷;有些AI搜集信息很全面,但分析深度不够;还有些AI虽然最终报告看起来不错,但研究过程混乱无序,缺乏逻辑性。

特别值得关注的是,研究过程的质量竟然可以很好地预测最终结果的质量。这就像通过观察厨师的烹饪过程就能预判菜品的好坏一样。那些在搜索、分析、推理过程中表现出色的AI系统,往往也能产出更高质量的研究报告。这个发现颠覆了传统的评测思路,证明了过程评估的重要价值。

另一个令人惊讶的发现是,多模态任务对所有AI系统都构成了巨大挑战。当需要处理图片、表格、PDF文档等多种格式的材料时,大部分系统的表现都明显下降,分数普遍下滑3到10分。这反映出当前AI在多媒体信息整合方面还存在显著不足,就像一个只会看文字材料的研究员突然被要求分析复杂图表时的手足无措。

在所有被测试的系统中,MiroThinker系列表现最为均衡,其中MiroThinker-H1在综合评估中名列前茅。这个系列的突出特点是在三个评估维度上都表现出色,没有明显的短板,就像一个全能型的研究专家。相比之下,其他系统往往在某一方面表现突出,但在其他方面存在明显弱点。

研究团队还进行了大量的稳定性测试,邀请专家对评测结果进行人工验证。结果显示,这套评测系统的准确率达到92%,专家评估与自动评测的一致性高达91%,证明了这套评测框架的可靠性和实用性。

这项研究的意义远不止于提出了一个新的评测标准。它为深度研究AI的发展指明了方向,让我们认识到仅仅关注最终输出是不够的,研究过程的质量同样重要。就像培养学生不能只看考试成绩,还要关注学习方法和思维过程一样,评估AI研究能力也需要更全面、更深入的视角。

随着AI技术在金融分析、医学研究、法律调查等高风险领域的应用越来越广泛,用户不仅需要AI提供准确的结论,更需要了解这些结论是如何得出的。MiroEval提供的过程透明度评估,为解决AI可信度问题提供了新的思路。当我们能够清楚地看到AI的"思考过程"时,就能更好地判断其结论的可靠性。

这套评测框架还有一个重要特点就是能够持续更新。由于采用了双路径的任务生成机制,既可以根据用户需求变化调整测试内容,也可以根据网络热点更新知识背景,确保评测始终跟上时代发展的步伐。这就像一个会自我升级的考试系统,始终保持对AI能力的准确评估。

说到底,MiroEval的出现标志着AI评测进入了一个新时代。它不再满足于表面的文字游戏,而是深入到AI的"思维内核",全方位审视AI的研究能力。这种评测理念的转变,必将推动深度研究AI向更加可靠、更加智能的方向发展。对于普通用户而言,这意味着未来我们将拥有更加值得信赖的AI研究助手,它们不仅能给出正确答案,还能清晰地展示推理过程,让我们真正放心地把复杂的研究任务交给AI来完成。

当前这套评测系统还有一些限制,比如需要AI系统公开其推理过程,这对于完全封闭的商业系统来说可能存在困难。此外,在处理相互冲突的信息源时,系统目前只能识别冲突而无法判断哪个信息源更可信。不过研究团队表示,他们计划利用可更新的任务生成机制,定期发布新版本的评测集,确保这套标准始终与时俱进,为AI研究能力的准确评估提供持续的支持。

Q&A

Q1:MiroEval与传统AI评测方法有什么不同?

A:MiroEval不只看AI写出的最终报告,还会深入分析AI的整个研究过程,包括如何搜索信息、如何分析证据、如何处理矛盾观点等。传统方法就像只看菜品摆盘不管烹饪技艺,而MiroEval更像全方位的研究能力诊断专家,从报告质量、事实准确性和研究过程三个维度全面评估。

Q2:为什么多模态任务对AI系统挑战这么大?

A:多模态任务要求AI同时处理文字、图片、表格、PDF等多种格式的材料,就像让只会看文字的研究员突然分析复杂图表一样困难。测试显示,大部分AI系统在处理多模态任务时分数都下降3到10分,反映出当前AI在多媒体信息整合方面存在显著不足。

Q3:MiroEval评测结果的可靠性如何?

A:研究团队邀请专家进行了大量验证工作,结果显示系统准确率达到92%,专家评估与自动评测的一致性高达91%。同时还进行了多轮稳定性测试和不同评估模型的对比验证,确保评测结果的可靠性和一致性。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
57岁周立波拄拐杖对空座位演出!从年入6000万到无人问津

57岁周立波拄拐杖对空座位演出!从年入6000万到无人问津

子芫伴你成长
2026-04-12 23:42:24
篮协核查U18核心李沂泽年龄 超龄3岁玩起降维打击

篮协核查U18核心李沂泽年龄 超龄3岁玩起降维打击

体坛周报
2026-04-12 11:54:23
美军的小宝贝丢在了伊朗,中国若得到,可以少奋斗几年?

美军的小宝贝丢在了伊朗,中国若得到,可以少奋斗几年?

梦醉为红颜一笑
2026-04-12 16:33:18
赖清德急了!回台湾就被抓?郑丽文和大陆谈完,临走前达成了共识

赖清德急了!回台湾就被抓?郑丽文和大陆谈完,临走前达成了共识

轩逸阿II
2026-04-12 18:34:08
蒋介石曾孙蒋友青:出生在加拿大,如今却重回大陆,扎根母亲故乡

蒋介石曾孙蒋友青:出生在加拿大,如今却重回大陆,扎根母亲故乡

壹知眠羊
2026-04-13 07:13:54
军事 | 巴基斯坦空军经略中东?印度怎么看?

军事 | 巴基斯坦空军经略中东?印度怎么看?

新民周刊
2026-04-13 09:06:40
他竟然转型成了个“正能量偶像”?

他竟然转型成了个“正能量偶像”?

BenSir本色说
2026-04-10 22:07:04
万茜蹲火了

万茜蹲火了

动物奇奇怪怪
2026-04-11 17:32:32
亚锦赛2场决赛被取消!安洗莹社媒发文,石宇奇定下奥运金牌目标

亚锦赛2场决赛被取消!安洗莹社媒发文,石宇奇定下奥运金牌目标

排球黄金眼
2026-04-12 23:55:21
感觉有大事要发生…

感觉有大事要发生…

慧翔百科
2026-04-12 17:00:52
昆凌素颜化妆画面曝光!五官变化大到离谱,周杰伦见了都得愣三秒

昆凌素颜化妆画面曝光!五官变化大到离谱,周杰伦见了都得愣三秒

观鱼听雨
2026-04-12 20:28:25
特朗普:将调集更多扫雷艇前往霍尔木兹海峡

特朗普:将调集更多扫雷艇前往霍尔木兹海峡

界面新闻
2026-04-13 07:26:35
想拿中国尿素救春耕?先把欠中企的百亿欠款还了!否则一粒不售

想拿中国尿素救春耕?先把欠中企的百亿欠款还了!否则一粒不售

哄动一时啊
2026-03-26 17:34:56
4月26日起,北京又一大型商场暂停营业!

4月26日起,北京又一大型商场暂停营业!

美丽大北京
2026-04-12 21:54:29
协议即将达成,28国联手对付中国,名单公开,没一个善茬

协议即将达成,28国联手对付中国,名单公开,没一个善茬

娱乐的宅急便
2026-04-12 18:09:49
贾平凹之女贾浅浅被调查,连米芾的芾字都不认识,引起书法界震怒

贾平凹之女贾浅浅被调查,连米芾的芾字都不认识,引起书法界震怒

潮鹿逐梦
2026-04-10 12:43:59
东部最终排名出炉!骑士遭遇苦主,尼克斯福利局,76人反超魔术

东部最终排名出炉!骑士遭遇苦主,尼克斯福利局,76人反超魔术

你的篮球频道
2026-04-13 08:49:01
我国肝癌高发,茶叶是背后的祸因?医生劝告:3种茶才是帮凶

我国肝癌高发,茶叶是背后的祸因?医生劝告:3种茶才是帮凶

岐黄传人孙大夫
2026-04-12 06:30:03
解放战争时期,为何国民党的军队兵败如山倒,看看老照片就知道了

解放战争时期,为何国民党的军队兵败如山倒,看看老照片就知道了

抽象派大师
2026-04-12 16:47:50
61岁何智丽现状:精气足变化大,在日本银行干职员,今想回国养老

61岁何智丽现状:精气足变化大,在日本银行干职员,今想回国养老

白面书誏
2026-04-12 16:58:07
2026-04-13 10:36:49
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7949文章数 560关注度
往期回顾 全部

科技要闻

李想向黑水军开炮!连发5条朋友圈

头条要闻

伊朗公布美方三大"无理要求":要均分霍尔木兹海峡收益

头条要闻

伊朗公布美方三大"无理要求":要均分霍尔木兹海峡收益

体育要闻

创造历史!五大联赛首位女性主教练诞生

娱乐要闻

赌王女儿何超蕸病逝,常年和乳癌斗争

财经要闻

封锁,还是收费站?

汽车要闻

焕新极氪007/007GT上市 限时19.39万起

态度原创

艺术
数码
旅游
公开课
军事航空

艺术要闻

毛主席致杨老太太罕见书信曝光,书法之美引发热议!

数码要闻

联芸将开发PCIe Gen6消费级SSD主控MAP2001,瞄准28GB/s

旅游要闻

提质焕新 文旅融合 | 趵突泉酒业·泉香酒庄获3A级景区授牌

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美国副总统万斯:美伊谈判未能达成协议

无障碍浏览 进入关怀版