网易首页 > 网易号 > 正文 申请入驻

OpenAI团队发现现有AI在学术推理上远不如我们想象的聪明

0
分享至


OpenAI的研究团队在2025年10月发表了一项重要研究,该研究发表在计算机科学顶级期刊arXiv上,论文编号为arXiv:2510.11652v1。这项由OPPO AI Agent团队主导的研究揭示了一个令人深思的发现:即使是最先进的人工智能模型,在面对真正的学术级推理问题时,表现远比我们想象的要差。

当我们谈论人工智能的能力时,总是会被各种炫目的演示所震撼。AI能写诗、能编程、能回答复杂问题,似乎无所不能。然而,这项研究就像是给AI世界泼了一盆冷水,告诉我们一个残酷的现实:现在的AI在面对真正需要深度推理的学术问题时,其实还远远不够聪明。

研究团队构建了一个名为ACADREASON的基准测试系统,这就像是为AI设计的"学术能力高考"。这个测试系统包含50个精心挑选的学术问题,涵盖计算机科学、经济学、法学、数学和哲学五个高难度领域。所有问题都来自近三年内发表在顶级期刊上的最新研究成果,确保了问题的权威性和前沿性。

为了构建这个测试系统,研究团队首先从430篇高质量学术论文中筛选出50篇最具理论深度的论文。这个筛选过程极其严格,就像在茫茫文献海洋中寻找最闪亮的明珠。每篇被选中的论文都必须满足三个条件:发表在各领域的顶级期刊或会议上,发表时间在2023年至2025年之间,以及内容必须是纯理论性的,排除了实证研究和综述性文章。

接下来的问题提取过程更像是一场精密的手术。10位领域专家从每篇论文中提取出一个核心研究问题,然后为这个问题构建完整的"金标准答案"。这个答案不仅要涵盖问题的背景知识、关键定义、推理过程和最终结论,还要确保答案的独立性和完整性,让评估者能够在不查阅原始论文的情况下进行准确判断。

研究团队还为每个问题设计了详细的评分清单,就像是阅卷老师手中的评分标准。这些清单不是固定不变的模板,而是针对每个问题量身定制的动态评估工具。清单中的每一项都对应推理过程中的关键节点,比如是否正确识别了法律谬误,是否准确分析了根本原因,是否恰当地识别了司法影响等。

为了更全面地测试AI的能力,研究团队还设计了三种类型的提示信息。背景提示提供了理解问题所需的基础知识和相关工作,定义提示包含了论文中的核心概念和术语解释,方法提示则涵盖了推理和证明所需的理论工具。这种设计让研究者能够分析不同类型的知识对AI推理能力的影响程度。

测试结果令人震惊。即使是目前最先进的GPT-5模型,在这个基准测试中也只获得了16分的通过率和40.6分的清单得分,满分是100分。这意味着即使是人工智能领域的"尖子生",在面对真正的学术推理挑战时,也只能勉强算是"及格边缘"的水平。

更令人意外的是,大多数通用AI模型的得分都在20分以下。一些原本被认为性能强劲的模型,如GPT-4.1和Claude-4-sonnet,在某些测试中甚至得到了0分的尴尬成绩。这就像是让一群平时成绩不错的学生去参加博士生入学考试,结果发现他们连基本的题目都无法理解。

不过,研究也发现了一些有趣的现象。专门针对推理能力优化的AI模型表现确实比通用模型要好一些。比如DeepSeek-R1在清单得分上达到了23.8分,虽然仍然不算高,但比其对应的通用版本DeepSeek-V3的15.9分有了明显提升。这说明专门的推理训练确实能够带来一定程度的改进。

在智能体框架的测试中,结果稍微令人欣慰一些。这些能够主动搜索信息、使用工具的AI系统表现明显好于单纯的语言模型。其中表现最好的OAgents达到了34分的通过率和65.1分的清单得分。这就像是给考生提供了查资料的权限,他们的表现自然会有所提升。

研究团队进行的详细分析揭示了一个重要发现:不同类型的提示信息对AI的帮助程度差异很大。方法提示带来的改进最为显著,这表明ACADREASON基准测试更注重考查AI对深层推理方法的掌握,而不是简单的背景知识记忆。这就像是在数学考试中,掌握解题方法比记住公式更加重要。

有趣的是,不同学科领域的难度也存在明显差异。计算机科学和经济学问题的得分普遍较低,而法学和哲学问题的得分相对较高。这可能反映了不同学科在推理模式和知识结构上的差异,也提示了AI在某些特定领域可能面临更大的挑战。

为了深入理解AI的推理过程,研究团队进行了详细的失败案例分析。他们发现,顶级AI模型在处理复杂推理任务时存在明显的深度不足问题。以一个设计专利法的案例为例,GPT-5虽然能够识别直接的法律谬误和司法影响,但无法进行更深层的推理,比如明确反驳错误的安全主张,或者综合政治和经济背景来识别特定的协调游说策略。相比之下,OAgents智能体框架能够提供完整的分析,涵盖了所有必需的维度。

这种差异揭示了当前AI技术的一个关键限制:虽然顶级模型能够处理直接的分析任务,但在需要高阶批判性综合的复杂问题面前,仍然显得力不从心。这就像是一个学生能够回答教科书上的标准问题,但在面对需要创新思维和深度分析的开放性问题时就束手无策了。

研究还发现,提供不同类型的提示信息能够显著改善AI的表现。当提供所有类型的提示信息时,GPT-5的得分能够从16.0分提升到40.0分,甚至超过了当前最先进的智能体框架。这说明信息的完整性对AI推理能力有着决定性的影响。

更深层的分析显示,不同学科对不同类型提示信息的依赖程度也不相同。人文学科(经济学、法学、哲学)从外部知识获取中获得的改进更大,而STEM学科(计算机科学、数学)获得的改进相对较小。这反映了不同学科的独特特征:人文学科更依赖于广泛的背景知识和多元观点的整合,而STEM学科更需要深度的逻辑推理和精确的数学计算。

这项研究的意义远远超出了简单的性能评估。它为我们理解现有AI技术的局限性提供了一个全新的视角。当前的AI系统虽然在许多任务上表现出色,但在面对需要深度理解、复杂推理和创新思维的学术级问题时,仍然存在显著的能力缺陷。

研究团队的工作还为未来AI系统的改进指明了方向。通过分析不同类型知识对推理能力的影响,他们发现方法论知识的重要性远超背景信息。这提示我们,在训练更强大的AI系统时,应该更多关注推理方法和思维过程的学习,而不仅仅是知识的积累。

值得注意的是,即使是表现最好的智能体系统,距离真正的学术研究能力仍有很大差距。34分的最高通过率意味着,现有的AI系统在处理前沿学术问题时,成功率还不到三分之一。这提醒我们,在AI辅助学术研究的应用中,仍需要人类专家的深度参与和监督。

ACADREASON基准测试的推出,为AI研究社区提供了一个宝贵的评估工具。通过50个精心设计的跨学科问题,研究者可以更准确地评估和比较不同AI系统在学术推理方面的能力。这种标准化的评估方法有助于推动整个领域向着更高的目标迈进。

说到底,这项研究揭示了一个重要事实:现在的AI虽然在许多方面表现惊人,但在真正的学术推理能力上仍有很长的路要走。就像一个学习成绩优异的中学生,虽然能够解决许多复杂问题,但要成为真正的学者或研究者,还需要在推理深度、批判思维和创新能力方面有质的飞跃。

这项研究不仅为我们提供了评估AI学术能力的新标准,也为未来AI系统的发展指明了改进方向。随着技术的不断进步,相信未来的AI系统能够在这个基准测试中取得更好的成绩,最终实现真正意义上的智能化学术推理能力。对于有兴趣深入了解这项研究的读者,可以通过论文编号arXiv:2510.11652v1查询完整的研究报告。

Q&A

Q1:ACADREASON基准测试是什么?它如何评估AI的学术推理能力?

A:ACADREASON是专门评估AI学术推理能力的基准测试系统,包含50个来自顶级期刊的跨学科学术问题,涵盖计算机科学、经济学、法学、数学和哲学。它通过两个指标评估AI:通过率(完全匹配标准答案)和清单得分(满足推理过程中关键节点的比例),能够全面测试AI在处理复杂学术问题时的推理深度和准确性。

Q2:目前最先进的AI模型在ACADREASON测试中表现如何?

A:表现令人意外地差。最先进的GPT-5只获得16分通过率和40.6分清单得分(满分100分),大多数通用AI模型得分都在20分以下,GPT-4.1和Claude-4-sonnet甚至在某些测试中得到0分。智能体框架表现稍好,最好的OAgents达到34分通过率,但距离真正的学术推理能力仍有很大差距。

Q3:为什么现有AI在学术推理上表现这么差?主要问题出在哪里?

A:主要问题在于推理深度不足。AI能处理直接分析任务,但在需要高阶批判性思维、复杂综合推理的问题上力不从心。研究发现AI缺乏深度推理方法的掌握,更多依赖表面知识而非深层理解。不同学科也存在差异,计算机科学和经济学问题得分更低,说明某些领域的推理模式对现有AI更具挑战性。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
停止对宁波妇儿医院医生网曝!恐会引发医学生不再当儿科医生念头

停止对宁波妇儿医院医生网曝!恐会引发医学生不再当儿科医生念头

阿燕姐说育儿
2025-11-19 12:38:09
汕头潮阳区人大常委会党组书记、主任马文玲涉嫌严重违纪违法

汕头潮阳区人大常委会党组书记、主任马文玲涉嫌严重违纪违法

南方都市报
2025-11-19 11:13:15
邱泽、许玮甯宣布11月28日举办婚礼,二人4年前结婚,许玮甯8月顺利生产

邱泽、许玮甯宣布11月28日举办婚礼,二人4年前结婚,许玮甯8月顺利生产

极目新闻
2025-11-19 15:04:29
俄乌和平28点路线图曝光,乌方称已知情,俄方认为“俄罗斯的立场真的被听到了”

俄乌和平28点路线图曝光,乌方称已知情,俄方认为“俄罗斯的立场真的被听到了”

红星新闻
2025-11-19 12:35:14
李圣律师辩词披露:郭、申两人的伤情对比,指导意见中写得很清楚

李圣律师辩词披露:郭、申两人的伤情对比,指导意见中写得很清楚

阿纂看事
2025-11-19 17:14:53
得了便宜还卖乖?退出春晚、被综艺"开除",贾玲的下场怪不了别人

得了便宜还卖乖?退出春晚、被综艺"开除",贾玲的下场怪不了别人

凡知
2025-11-19 21:51:36
都别争了,放着我来:Gemini 3生成一切

都别争了,放着我来:Gemini 3生成一切

果壳
2025-11-19 07:13:54
河南女教师被奸杀,法医保留精斑25年,凶手身份令人难以置信

河南女教师被奸杀,法医保留精斑25年,凶手身份令人难以置信

飞云如水
2024-06-04 20:56:33
一场140-125让火箭坐立难安!西部前3难保,悍将赛季报销太遗憾

一场140-125让火箭坐立难安!西部前3难保,悍将赛季报销太遗憾

杨仔述
2025-11-19 15:13:06
48岁曾黎回老家种地!满脸褶头发花白断崖衰老,徒手摘黄瓜像农妇

48岁曾黎回老家种地!满脸褶头发花白断崖衰老,徒手摘黄瓜像农妇

金风说
2025-11-01 15:41:57
多地医院新规:男50岁女44岁不再续聘,这类医务人员退出管理岗

多地医院新规:男50岁女44岁不再续聘,这类医务人员退出管理岗

医客
2025-11-16 12:08:46
王欣瑜双线失金 布云朝克特无缘男双金牌!全运会网球突然有点冷

王欣瑜双线失金 布云朝克特无缘男双金牌!全运会网球突然有点冷

体谈
2025-11-19 23:25:49
退休人员有福了!工龄超过30年以上,还有这些福利可以享受!

退休人员有福了!工龄超过30年以上,还有这些福利可以享受!

振华观史
2025-11-19 14:54:54
人大代表一席话问住养犬人:你的宠物狗,凭什么让他人付出代价?

人大代表一席话问住养犬人:你的宠物狗,凭什么让他人付出代价?

知鉴明史
2025-11-19 18:41:03
还好没选国足!25岁华裔球员转换会籍仅3月,如今要去踢世界杯了

还好没选国足!25岁华裔球员转换会籍仅3月,如今要去踢世界杯了

绿茵舞着
2025-11-20 00:03:16
绝不向中国低头!宁愿裁员9000人公司破产,也不接受中国的帮助?

绝不向中国低头!宁愿裁员9000人公司破产,也不接受中国的帮助?

蜉蝣说
2025-10-22 11:38:49
徐璐的也这么大了吗

徐璐的也这么大了吗

陈意小可爱
2025-11-19 10:46:23
沈伯洋选台北市长?谢寒冰喊话赖清德:如果提名他,我就跪着直播

沈伯洋选台北市长?谢寒冰喊话赖清德:如果提名他,我就跪着直播

乐天闲聊
2025-11-18 13:54:11
新一代卡罗拉正式发布 轴距加长50毫米/12月上市

新一代卡罗拉正式发布 轴距加长50毫米/12月上市

太平洋汽车
2025-11-19 22:09:10
刘景扬突破自己夺冠!吴艳妮十五运百米栏再摘银

刘景扬突破自己夺冠!吴艳妮十五运百米栏再摘银

封面新闻
2025-11-19 22:47:12
2025-11-20 01:08:49
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
6279文章数 542关注度
往期回顾 全部

科技要闻

一夜封神,Gemini 3让谷歌找回“碾压感”

头条要闻

日方要求解释为何未告知磋商后会有媒体拍摄 中方回应

头条要闻

日方要求解释为何未告知磋商后会有媒体拍摄 中方回应

体育要闻

世界杯最小参赛国诞生!15万人岛国的奇迹

娱乐要闻

史林子出轨对方前妻放锤!

财经要闻

重磅!中金公司拟收购东兴与信达证券

汽车要闻

此刻价格不重要 第5代帝豪本身就是价值

态度原创

家居
本地
旅游
手机
公开课

家居要闻

水岸美学 书香人文生活

本地新闻

第十二届影展携手重庆来福士丨两江交汇,光影共生

旅游要闻

上关镇位于洱海的一侧,没什么网红景点,堪称大理最安逸的角落

手机要闻

荣耀GT2 Pro再次被确认:8500mAh电池+骁龙8E5,12月发布引期待!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版