美团与中科院GENERAL365：常识推理测试揭示顶尖AI模型仅获62分|数学|逻辑推理|知名企业

分享至

这项由美团与中国科学院大学联合开展的研究，以预印本形式发布于2026年4月13日，论文编号为arXiv:2604.11778，完整标题为《GENERAL365: Benchmarking General Reasoning in Large Language Models Across Diverse and Challenging Tasks》，有兴趣深入了解的读者可通过上述编号查询原文。

如果你关注过近几年人工智能的发展，大概听说过"大语言模型"这个词——它们就是ChatGPT、DeepSeek、Gemini这类能跟你对话、帮你写文章、解数学题的AI系统。这些模型在高考数学、物理竞赛甚至国际奥林匹克数学联赛上的表现已经接近甚至超越顶级人类选手，看起来聪明得令人咋舌。然而，美团与中科院的研究团队提出了一个令人深思的问题：这些AI真的"聪明"吗，还是只是在某些特定科目上"刷题"刷得特别好？

为了回答这个问题，研究团队打造了一套名为GENERAL365的测试题库，专门测试AI在"常识推理"场景下的能力——也就是那些不需要专业知识、普通人靠逻辑思考就应该能解决的问题。结果出人意料：即便是当前全球最强的AI模型，最高也只答对了62.8%的题目，大多数模型甚至连60分都没过。这个成绩对于那些在数学竞赛上几乎满分的AI来说，无疑是一记响亮的警钟。

一、AI在数学竞赛上满分，为什么在"常识题"上却翻车了？

要理解这件事，可以用一个生活中的例子来类比。你的邻居小明在学校的物理和数学成绩永远是满分，但每次你让他帮你分析"明天应该带伞还是不带伞"，或者"怎么安排三个朋友的座位才能让大家都满意"，他却总是支支吾吾说不清楚。这并不是说他不聪明，而是他的"聪明"是一种高度专业化的、针对特定题型训练出来的能力，而不是真正灵活的逻辑思维。

当前的顶级AI模型正面临类似的困境。现有的主流测试方法，比如数学竞赛题库AIME、物理竞赛题库IPhO，或者代码编写测试SWE-bench，都高度依赖特定领域的专业知识。AI模型在这些测试上的出色表现，部分原因是它们在训练过程中"见过"大量同类题目，本质上更像是一种极度精准的"认题能力"，而非真正的推理能力。

研究团队发现，现有的通用推理测试（即不依赖专业知识的逻辑推理测试）存在两个明显缺陷。第一个问题是"题目太单调"：很多测试题目虽然数量多，但背后的解题套路大同小异，就像一道题换了不同的名字反复出现，AI只要掌握了一个模板就能应付绝大多数变体，这会让测试成绩虚高，看起来AI很厉害，实际上只是摸到了规律。第二个问题是"题目太简单"：随着AI能力的快速提升，很多原本被认为有挑战性的测试题库，现在AI几乎可以全部答对，这使得这些测试已经失去了区分"优秀AI"与"超级优秀AI"的能力，就像一场每个学生都能考100分的考试，根本看不出谁更厉害。

正是在这样的背景下，GENERAL365应运而生。

二、GENERAL365是什么，它有哪些与众不同的地方？

GENERAL365的名字来源于它包含的365道种子题目——刚好对应一年365天，寓意涵盖日常生活中可能遇到的各类推理挑战。这个题库的核心设计理念可以用一句话概括：**只考逻辑，不考知识**。所有题目所需的背景知识都严格限定在中学（K-12）水平以内，确保任何受过基础教育的成年人在理论上都具备解题所需的知识储备，真正的挑战完全来自推理本身。

这个题库有几个让它与众不同的特质。首先是题目的多样性。研究团队将题目分为八大类别，覆盖了从空间推理到概率判断、从逻辑谜题到策略优化的广泛范围。而且，题目是人工精心设计的，而非通过模板批量生成，每道题在解题思路和逻辑结构上都有其独特之处。为了验证这一点，研究团队专门用AI技术对题目的"相似度"进行了量化评估，发现GENERAL365中两道最相似题目之间的相似分只有2.16分（满分5分），而竞争对手BBH和BBEH的得分高达4.71和4.80——几乎意味着那些题库里的题目大多数是同一道题的换皮版本。

其次是题目的难度。研究团队在题目发布前，专门筛除了那些顶尖AI模型能够轻松解决的题目，确保留下来的都是真正有挑战性的内容。事实证明，这个筛选非常奏效——最强的AI模型在这套题上也只能答对62.8%。

再者是质量的严格把控。每一道题都经过人工审核，确保题目表述清晰、答案唯一正确、解题过程可验证。为了方便评分，研究团队还开发了一套"混合评分系统"，对于数字类答案用程序自动核对，对于需要文字描述的答案则用GPT-4.1模型来判断，经过人工抽查验证，评分准确率高达99.6%。

在题目规模上，365道种子题目经过扩展后形成了1095道变体题目，总计1460道评测题目。每道种子题目都对应3道变体，这些变体保持了核心推理逻辑不变，但在表面描述或具体数值上进行了改变，用于测试AI是否真的理解了推理方法，还是只是记住了原题的答案。

三、这八类推理挑战究竟是什么？

GENERAL365涵盖的八大类推理挑战，每一类都针对人类（和AI）思维中不同的薄弱环节。理解这八类挑战，有助于我们明白为什么AI在这套题目上会遇到如此大的困难。

第一类叫"复杂约束"。这类题目就像是一道有着十几个条件同时成立的谜题，解题者必须在脑子里同时跟踪所有条件，确保每一步推理都不与任何一个条件相矛盾。本文开头给出的那道关于摩洛哥人A和B、C、D、E五人排队的题目就是典型例子——15个已知条件同时生效，要求算出C所有可能年龄的乘积，答案是420。光是把所有条件捋清楚不出错，就已经是相当高的认知负担了。

第二类叫"分支与枚举"。这类题目要求解题者系统地考虑所有可能的情况，不能遗漏任何一个边界条件。题库中有一道关于8个箱子分配8盒牛奶的题目，需要在多个约束条件下统计出所有符合条件的方案数——这种"穷举加约束"的组合，对AI来说既容易遗漏某些情况，也容易在某些步骤出现计算错误。

第三类叫"空间与时间推理"。这类题目考查对空间位置或时间顺序的动态理解能力。题库中有一道关于小康在烟雾弥漫的迷宫中按方向移动的题目，需要根据一系列转向和位移指令追踪最终位置。这种题目对很多人来说就像在脑子里画地图，稍不注意就会走错方向。

第四类叫"递归与回溯"。这类题目需要解题者像下棋一样进行"假设-验证-推翻假设-重新假设"的循环。题库中那道关于9条隧道和1名敌方伤员的题目就是经典案例：伤员每次检查后会移动到相邻隧道，最少需要检查多少次才能保证一定能找到他？答案是14次，推导过程需要系统性地枚举和回溯。

第五类叫"语义干扰"。这类题目是最考验AI的类别之一，因为它们专门设置认知陷阱——要么让规则违反常识，要么在题目中埋入迷惑性信息。题库中那道关于"平行宇宙日历"的题目就是典型：在那个宇宙里，平年和闰年的定义是反的，月份天数也跟我们的相反，还叠加了两个特殊政策的影响。AI必须完全抛弃关于"正常日历"的先验知识，严格按照题目重新定义的规则运算，而这恰恰是AI特别容易犯错的地方——它们很难真正"忘掉"训练数据中习得的常识偏见。

第六类叫"隐性信息推理"。这类题目不会把所有前提明明白白地告诉你，需要从一些看似不相关的线索中自己推导出隐藏的规律。题库中那道关于澳大利亚、印度、中国等国的题目就是这样：给出了几个奇怪的等式，要求算出阿根廷乘以哈萨克斯坦等于多少。解题关键在于发现这些等式背后隐藏的编码规律（答案是根据人口和面积排名来赋值，然后进行运算），这需要相当的"侦探式"思维。

第七类叫"最优策略"。这类题目不只要求给出"正确"答案，而是要求给出"最优"答案——在各种约束条件下找到效率最高的行动方案。题库中那道消防车赶赴火场的题目就是典型：路程固定、速度有限制、路上有红绿灯，还保证至少会碰到一次完整的红灯，要求算出最短可能时间。这类题目要求解题者在多个变量之间做出权衡和优化，而不是简单地计算一个确定性结果。

第八类叫"概率与不确定性"。这类题目在不完整信息下进行概率推断。题库中那道关于"谁是最可疑嫌疑人"的推理故事就是一个例子：所有朋友都在场，只有两人不在，其中一人被枪击，侦探直接指认了不在场的人为凶手……等等，侦探怎么知道凶手是谁？他说"我已经知道了"——那他本人才是最可疑的那个。答案选D（侦探）。这类题目需要AI在不完整信息下做出概率性推断，而不是简单地进行确定性逻辑演算。

值得一提的是，这八类挑战并非相互独立，题库中近70%的题目被标注了两个或两个以上的类别标签，意味着大多数题目同时考查多种推理能力，真正体现了现实生活中复杂问题的多维度性质。从数量分布来看，"复杂约束"类题目最多，占了整体的约65%；"概率与不确定性"最少，但也保证了超过20道，确保这一类别的覆盖不会太稀疏。

四、题目是怎么制作出来的？

GENERAL365的制作过程分为四个阶段，整个流程可以理解为"人工出题→机器扩展→人工把关→最终定稿"。

第一阶段是种子题目的人工设计。研究团队从真实世界的各类场景中广泛收集灵感，确保每道种子题目都能对应八大类别中的至少一种。更重要的是，每道题必须是原创的，不能在网上搜索到答案，也不能是已有题库的变体。每道种子题目都以"三元组"的形式存在：题目描述、完整的解题推理过程，以及最终答案。这三个部分都经过人工交叉核验，确保逻辑自洽、答案唯一正确。

第二阶段是难度筛选和多样性增强。完成初步收集后，研究团队对题目进行了严格筛选，淘汰那些顶尖AI模型能够轻松解决的题目，以及与现有题库高度相似的题目。同时，对于某些类别中题目数量偏少的情况，研究人员手动补充了更多样化的题目，确保每个类别都有足够的覆盖度。

第三阶段是数据后处理。为了让AI能够准确理解题目要求并输出标准化答案，研究团队对每道题目进行了语言优化。首先，通过让AI模型尝试回答题目，发现题目描述中可能存在的歧义并加以修正。其次，为每道题添加了输出格式指引，比如"请从以下选项中选择一个或多个答案"，确保AI给出的答案是可以被程序自动评分的。最后，尽可能将答案转换为数字或标准化格式，便于精确核对。

第四阶段是大规模扩展和人工质量审核。在种子题目确定后，研究团队让AI模型为每道种子题目生成10个候选变体，然后由人工专家对这些变体进行严格审核，剔除逻辑错误或质量不达标的版本。对于某些难以通过AI自动生成高质量变体的题目，研究人员直接手动编写变体。最终，每道种子题目保留了3道高质量变体，从而将题库规模从365道扩展到1460道。

五、26个顶尖AI，谁的表现最好，谁又最差？

研究团队对26个来自全球各大顶尖AI公司的模型进行了全面测试，覆盖了OpenAI（GPT系列）、谷歌DeepMind（Gemini系列）、Anthropic（Claude系列）、DeepSeek、阿里Qwen系列、智谱GLM系列、月之暗面Kimi系列，以及美团自研的LongCat系列。这些模型既包括了专门为复杂推理设计的"思考型"模型，也包括了通用对话类模型。

测试结果的整体面貌有些让人哭笑不得。谷歌的Gemini-3-Pro以62.8%的准确率位列第一，但这意味着它每做10道题就会答错将近4道。紧随其后的是谷歌的Gemini-3-Flash（60.8%）和智谱的GLM-5-Thinking（59.9%，同时也是开源模型中的最高分）。大多数模型甚至没能达到60%这个"及格线"，而对于一个知识储备限定在中学水平的考试来说，这样的成绩着实令人深思。

从开源与闭源的对比来看，开源模型与闭源模型之间的差距已经相当小——最强开源模型GLM-5-Thinking（59.9%）与最强闭源模型Gemini-3-Pro（62.8%）之间只有不到3个百分点的差距，说明开源AI社区的进步速度相当迅猛。

另一个有趣的现象是，一些不具备"深度思考"功能的普通对话模型，表现反而超过了部分专门为推理设计的"思考型"模型。例如，阿里的Qwen3-Max-Instruct（48.5%）和美团的LongCat-Flash（41.7%）都击败了谷歌的Gemini-2.5-Flash（39.6%），尽管后者是一个专门优化过推理能力的模型。这说明原始的基础模型能力对于这类通用推理任务依然非常关键，单纯的"推理优化"并不能弥补基础能力的不足。

值得特别关注的是各个AI模型的"思考效率"。研究团队统计了每个模型在回答每道题时平均使用的输出文字量（以token计算），发现了一个有趣的规律：总体上，输出越多的模型成绩越好，说明顶尖模型确实需要"多想一会儿"才能解决这些复杂问题。不少顶级推理模型平均需要输出25000到30000个token（相当于一篇中等长度的学术论文）才能完成每道题的作答。然而，Gemini-3-Pro却是一个显著的例外——它以平均约14000个token的输出量（只有其他顶级模型的一半左右）取得了最高的62.8%准确率。这意味着Gemini-3-Pro的每一个"思考步骤"都比其他模型更有效率，它不是靠"想得更多"赢的，而是靠"想得更准"赢的，这被研究团队称为"更高的推理密度"。

六、哪类题目最难？AI在哪里最容易翻车？

通过对八大类别分别统计各模型的准确率，研究团队发现了两个明显的"难关"：语义干扰类和最优策略类。在几乎所有被测试的模型中，这两个类别的得分都比该模型的总体平均分低大约10个百分点。

对于语义干扰类题目，AI的困难来自一个根本性的弱点：它们很难真正"遗忘"或"暂时搁置"从海量训练数据中学到的常识。当一道题告诉AI"在这个平行宇宙里，平年有366天而闰年有365天"，AI虽然在理论上知道要按照题目的新定义来解题，但在实际推理过程中，它们常常会不自觉地被真实世界的知识"带偏"，最终得出基于现实日历的错误答案。这就像让一个从小学数学的人突然改用"1+1=3"的新规则来做题，知道规则是一回事，真正不出错地用新规则思考是另一回事。

对于最优策略类题目，AI的困难在于它们不擅长"权衡全局"。这类题目要求在多个约束条件和多个可能的行动序列中找到全局最优解，需要预见行动的长期后果并进行综合比较。目前的AI模型在这方面表现出明显的局限性，它们更擅长解决"有唯一正确答案"的确定性问题，而对于需要比较"哪种方案更好"的优化问题则显得力不从心。

相比之下，AI在"递归与回溯"类和"隐性信息推理"类题目上的表现相对较好——当然也只是"相对"而言，准确率依然远谈不上优秀。有趣的是，在"隐性信息推理"这个类别中，顶尖的思考型模型（如Gemini-3-Pro达到了68.8%）与普通对话类模型（如DeepSeek-V3.2-Chat只有29.6%）之间的差距是所有类别中最大的，超过了39个百分点。这说明"推理能力"和"对话能力"是两种截然不同的能力，而"从零散线索中推导隐藏规律"这件事特别需要真正的推理能力，而不是简单的语言理解能力。

七、GENERAL365比其他测试"难"在哪里？数据说话

研究团队将GENERAL365与两个广泛使用的通用推理测试题库——BBH和BBEH——进行了直接比较，结果非常直观地展示了GENERAL365的高难度。

以GPT-4.1为例，这个模型在BBH上的准确率高达89.4%，在BBEH上达到36.1%，而在GENERAL365上只有26.7%。换到更强的o3-mini模型，BBH上89.6%、BBEH上50.4%，GENERAL365上44.4%。最顶尖的Gemini-3-Pro在BBH上能达到94.4%，BBEH上77.0%，但GENERAL365上只有62.8%。从这组数据可以清晰地看到，随着模型能力的提升，BBH已经基本失去了区分能力（几乎所有强模型都能答对90%以上），BBEH次之，而GENERAL365在所有能力层级上都保持了显著的区分度。

更有意思的证据来自AI模型的"写作长度"。研究团队观察到，同一个模型在回答不同题库的题目时，写得越长往往意味着题目越难。以GPT-5-Thinking为例，它在BBH上平均只需要约2000个token就能完成作答，在BBEH上约5000个token，而在GENERAL365上则需要超过13000个token。Gemini-3-Pro的模式类似，BBH上不到2000个token，BBEH上约5000个token，GENERAL365上超过10000个token。这种"越难写得越多"的现象，从另一个角度证明了GENERAL365对AI造成的认知负担远超其他题库，不是因为题目措辞复杂，而是因为真正需要更多步骤的深度推理。

在多样性验证方面，研究团队使用了一种叫做"t-SNE降维可视化"的技术——可以把它理解为把一大堆题目"投影"到一张平面地图上，语义相似的题目会落在地图上的同一区域，而语义差异大的题目则会散落在地图的不同角落。结果显示，GENERAL365的题目在地图上均匀散布，几乎覆盖了整个平面；而BBH和BBEH则表现出明显的"结块"现象，多个高密度的题目簇聚集在地图的特定区域，说明这些题库中大量题目在语义上高度相似，本质上是同一类问题的反复变体。

八、研究的意义：这对AI的未来发展意味着什么？

归根结底，这项研究揭示的核心问题是：**当前AI的"智能"高度依赖于特定领域的训练经验，而不是真正通用的逻辑推理能力**。一个在奥数竞赛上能拿金牌的AI，在面对一道只需要初中知识但逻辑结构复杂的谜题时，可能表现得还不如一个认真思考的中学生。

这个发现对AI的实际应用有着直接的含义。当我们把AI应用于真实世界的场景时——比如帮助做商业决策、辅助医疗诊断、参与复杂的谈判策略分析——这些场景往往不是"用公式套答案"的问题，而是充满了"语义干扰"、"约束条件"、"隐性信息"和"策略权衡"的复杂局面。GENERAL365的测试结果警示我们，目前的AI在这类真实世界的推理任务上还远未成熟。

研究团队将GENERAL365的题目、代码和排行榜全部公开发布，希望借助整个AI研究社区的力量共同推动通用推理能力的进步。这个排行榜会随着新模型的发布持续更新，任何人都可以提交自己的模型参与测评，形成一个开放的竞赛平台。

说到底，这项研究做的事情，就是给当下最聪明的AI们出了一张"真正考察思维能力"的试卷。结果发现，最强的AI考了62.8分，勉强算是及格，而大多数还在"不及格"线上挣扎。这并不是说AI没有未来，恰恰相反，这说明AI推理能力的提升空间依然巨大，而GENERAL365这把"尺子"可以帮助研究者们更准确地量出这个空间的边界，从而更有针对性地填补它。

下次当你看到某个AI在数学竞赛上拿满分的新闻时，不妨多问一句：它在面对一道充满干扰信息的生活逻辑题时，会不会也翻车？答案是：很可能会。但也许再过几年，这个答案会变得不一样。有兴趣深入了解这项研究的读者，可以通过arXiv编号2604.11778查阅完整原文。

Q&A

Q1：GENERAL365基准测试和普通AI数学测试有什么区别？

A：GENERAL365专门测试AI的通用推理能力，所有题目的背景知识只需要中学水平，但逻辑结构非常复杂，包含语义干扰、隐性信息、策略优化等真实推理场景。而数学测试更依赖专业知识和公式套用，两者考察的是不同维度的能力。

Q2：为什么顶尖AI在GENERAL365上只能考60多分？

A：因为GENERAL365的题目会刻意设置认知陷阱、复杂约束和迷惑性信息，要求AI完全依靠逻辑推理而非记忆知识。现有AI的推理能力高度依赖训练数据中的特定模式，面对需要抛弃"常识偏见"的全新规则时，往往会不自觉地被训练数据"带偏"，导致错误答案。

Q3：GENERAL365题库里的题目普通人能做出来吗？

A：理论上可以，因为所有题目的知识要求不超过中学水平。但这些题目在逻辑结构上相当复杂，需要同时追踪多个约束条件、系统枚举所有情况或进行多步骤的反向推理，对普通人来说依然很有挑战性，需要耐心和细致的逻辑分析才能解答。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.