复旦大学：如何提升AI通识能力？|数学|科学|推理

分享至

这项由复旦大学计算机科学学院奚志恒团队领导的重要研究成果，于2025年7月4日发表在计算机科学期刊《arXiv》上（论文编号：2507.03483v1）。该研究汇集了来自复旦大学、上海人工智能实验室、哈尔滨工业大学、华东师范大学、牛津大学、悉尼大学等多所知名院校的研究力量。有兴趣深入了解的读者可以通过项目官网https://bmmr.pages.dev/或GitHub代码库https://github.com/WooooDyy/BMMR/获取完整论文和相关资源。

要理解这项研究的重要性，我们不妨从一个简单的例子开始。当你问一个擅长数学的AI"2+3等于几"时，它能立刻给出正确答案。但如果你拿出一张古代建筑的照片，询问"这种建筑风格体现了什么文化特征"，或者展示一个生物实验图，问"这个实验说明了什么生物学原理"，很多AI就开始"抓瞎"了。这就像一个偏科严重的学生，数学满分，但其他科目却表现平平。

当前的大型多模态模型虽然在数学推理方面表现出色，但在面对跨学科的复杂问题时却经常"力不从心"。正如我们在日常生活中会遇到需要同时运用物理、化学、历史、地理等多学科知识的问题一样，AI也需要具备这样的"通识教育"能力。然而，现有的训练数据和评估标准主要集中在单一学科，特别是数学领域，这就像让学生只做数学题而不接触其他学科一样。

复旦大学研究团队正是看到了这个问题，他们决定为AI打造一个"全科教育"的训练营。这个训练营就是BMMR数据集，它包含了11万个涵盖300个不同学科领域的大学水平问题。这些问题不是简单的选择题，而是需要深度思考、跨模态理解和专业知识的复合型挑战。

研究团队的创新不仅仅在于数据规模的庞大，更在于他们构建的评估体系。他们开发了一个名为"BMMR-Verifier"的评估工具，这个工具就像一位严格的老师，不仅会检查AI给出的最终答案是否正确，还会逐步检验AI的思考过程是否合理。这样的评估方式能够有效避免AI"蒙对答案"的情况，确保它真正掌握了解题的逻辑和方法。

让这项研究更具实用价值的是，BMMR数据集支持中英双语，涵盖了从健康医学、商业法律、信息技术、艺术人文、农业科学、社会科学、自然科学到工程建造等八大学科门类。每个问题都配有详细的推理过程说明，就像给学生提供了完整的解题思路。

在对24个不同AI模型的测试中，研究结果令人深思。即使是目前最先进的AI模型，在这个全学科挑战中的表现也远不如它们在单一学科中的表现出色。这个发现就像让我们意识到，即使是最聪明的"偏科生"，在面对全面发展的要求时也需要更多的努力和训练。

一、构建AI的"全科教育"体系

传统的AI训练就像让学生专攻一门课程，虽然能在该领域达到很高水平，但缺乏跨学科的综合能力。BMMR数据集的诞生就是为了改变这种现状，为AI提供一个全面的"通识教育"环境。

这个数据集的构建过程相当严谨，研究团队采用了联合国教科文组织（UNESCO）制定的学科分类标准作为蓝图。这个标准就像教育界的"世界地图"，将人类知识按照层次分为四个级别：最顶层包含8个主要学科门类，第二层细分为16个子学科，第三层扩展到40个分支，最底层则涵盖了超过300个具体的专业领域。

数据收集的过程就像组建一个庞大的图书馆。研究团队从各种来源搜集材料，包括纸质教材、在线课程、考试题库等。最初收集的数据超过200万条，涉及29种不同类型的图像内容。但研究团队并没有简单地将这些材料堆砌在一起，而是设计了一套精密的筛选和处理流程。

这套流程的第一步是确保问题和答案的完整性。就像检查拼图是否缺少重要碎片一样，系统会自动识别那些信息不完整或者答案模糊的问题，并将它们剔除。接下来是学科分类和标记阶段，系统会像图书管理员一样，将每个问题准确地归类到相应的学科分支中。

安全性和客观性检查是另一个重要环节。系统会识别并排除那些可能涉及个人偏见或敏感话题的内容，确保最终的数据集能够客观公正地评估AI的能力。同时，为了确保问题具有足够的挑战性，系统还会通过多轮验证来筛选那些需要多步推理和专业知识的复杂问题。

在数据转换和增强阶段，研究团队做了一个重要决定：不简单地将所有问题都转换为选择题。选择题虽然便于评分，但可能降低问题的难度，让AI通过猜测获得正确答案。因此，他们保留了多种题型，包括填空题和开放性问答，同时还创建了"事实验证"任务，要求AI对相关陈述的正确性进行判断并给出理由。

最后的质量控制阶段采用了"级联验证"策略。系统会让不同能力水平的AI模型对同一问题进行多次尝试，通过分析它们的一致性来判断问题的质量。那些过于简单（所有模型都答对）或过于困难（所有模型都答错）的问题会被进一步审查。对于仍然存在争议的问题，研究团队还邀请了40位来自不同学科背景的专家进行人工验证。

经过这一系列严格的处理，最终的BMMR数据集被分为两个部分：包含约2万个问题的评估集（BMMR-Eval）和包含约8.9万个问题的训练集（BMMR-Train）。评估集主要用于测试AI的综合能力，而训练集则为AI的"全科教育"提供丰富的学习材料。

二、打造AI的"严格考官"

单纯检查AI给出的最终答案是否正确，就像只看学生的考试成绩而不关心他们的解题过程一样，往往无法真正反映其能力水平。一个学生可能通过死记硬背或运气得到正确答案，但这并不意味着他真正理解了相关知识。同样，AI也可能通过某种"技巧"得出正确结果，而非真正掌握推理逻辑。

为了解决这个问题，研究团队开发了BMMR-Verifier，这是一个专门用于评估AI推理过程的工具。这个工具就像一位经验丰富的老师，不仅会看学生的答案是否正确，还会仔细检查每一个推理步骤是否合理、逻辑是否清晰。

BMMR-Verifier的工作原理相当精巧。当AI面对一个问题时，它需要展示完整的思考过程，就像学生解数学题时需要写出详细的解题步骤一样。Verifier会逐步分析这些推理过程，对每个步骤给出"正确"、"错误"或"无法验证"的评价。

这个评估工具的训练过程也很有趣。研究团队首先收集了14万个问题的回答样本，这些样本来自不同能力水平的AI模型。对于每个问题，系统会生成32个不同的回答版本，然后通过规则检查来判断这些回答的正确性。这个过程就像让很多学生做同一道题，然后分析哪些解法是正确的，哪些是错误的。

接下来，系统会对每个推理步骤进行标记。正确的步骤会被标记为"+"，错误的步骤会被标记为"-"。通过这种方式，Verifier学会了如何识别推理过程中的问题所在。这就像训练一位老师学会发现学生在解题过程中的常见错误。

在实际应用中，BMMR-Verifier可以给出非常细致的反馈。它不仅能指出AI的答案是否正确，还能告诉我们AI在推理过程的哪个环节出现了问题。这种详细的分析对于改进AI的推理能力具有重要价值。

为了验证这个评估工具的可靠性，研究团队进行了一系列对比实验。他们让GPT-4o和人类专家对同一批推理过程进行评估，然后将结果与BMMR-Verifier的评估进行对比。结果显示，BMMR-Verifier与GPT-4o的一致性达到了91.67%，与人类专家的一致性更是高达95%。这说明这个工具确实能够准确评估AI的推理质量。

三、揭示AI的"成绩单"

当研究团队用BMMR数据集对24个不同的AI模型进行测试时，结果既在意料之中，又让人深思。就像让一群专攻不同学科的学生参加综合性考试一样，这些AI模型在面对跨学科挑战时表现出了明显的"偏科"现象。

最引人注目的发现是，即使是目前最先进的AI模型，在这个全学科挑战中的表现也远不如人们期待的那样。以OpenAI的o3模型为例，这个被誉为推理能力极强的模型在BMMR测试中只取得了38.06分的成绩。Google的Gemini-2.5-Pro表现稍好一些，获得了50.15分，但距离人类专家的水平仍有很大差距。

这些结果就像给AI界敲响了警钟。在数学等单一学科中表现出色的模型，在面对需要综合运用多学科知识的问题时，往往显得力不从心。这种现象反映了当前AI发展中的一个重要问题：过度专业化可能会限制AI的通用性。

更有趣的是不同模型在各学科间的表现差异。一些被称为"推理模型"的AI在某些技术性学科（如信息技术、工程学）中确实表现优异，但在人文社科领域却表现平平。例如，o3模型在信息通信技术领域能达到63.89分，但在健康医学领域却只有27.78分。这种巨大的差异说明，不同类型的推理任务对AI来说难度是不同的。

开源模型与商业模型之间的差距也很明显。最好的开源模型Qwen2.5-VL-72B的总分为38.22分，而最好的商业模型Gemini-2.5-Pro则达到了50.15分。不过，这个差距并非不可逾越。当研究团队使用BMMR训练集对开源模型进行训练后，它们的表现有了显著提升。

语言能力方面，大多数模型在中文和英文任务上的表现相对均衡，这说明当前的多语言训练技术已经相当成熟。但仍有少数模型存在明显的语言偏好，比如Phi-4-multimodal在英文任务上得18.84分，但中文任务只有8.78分。

思维链推理（让AI展示完整思考过程）对提升表现起到了重要作用。当AI被要求展示详细的推理步骤时，它们的表现普遍有所改善，特别是那些专门为推理优化的模型。这个发现强调了透明化思维过程的重要性。

通过BMMR-Verifier的详细分析，研究团队还发现了AI推理中的一些有趣模式。表现更好的模型往往在推理步骤的质量分布上更加均衡，而表现较差的模型则容易在某些推理环节出现系统性错误。

四、AI学习的"提升之路"

为了验证BMMR数据集的训练价值，研究团队选择了5个不同规模的开源AI模型，使用BMMR-Train进行了专门的训练。这个过程就像让原本偏科的学生接受全面的补习教育，结果令人鼓舞。

训练后的效果可以说是"立竿见影"。以Qwen2.5-VL-3B模型为例，经过BMMR-Train训练后，它在信息通信技术领域的表现提升了72.28%，这种提升幅度在AI训练中是相当罕见的。更令人惊喜的是，经过训练的BMMR-InternVL2.5-38B模型竟然在8个主要学科中的4个超越了未经训练的更大规模模型InternVL2.5-78B。这就像一个经过全面训练的中等生在综合考试中超越了只擅长单科的优等生。

不同学科的提升效果也很有意思。健康医学领域是改进最明显的领域之一，BMMR-InternVL2.5-78B在这个领域的表现提升了43.34%。这可能是因为医学问题往往需要综合运用多种知识，而多学科训练正好弥补了原有模型在这方面的不足。

训练过程中，研究团队也发现了一些有价值的经验。较小的模型（如3B参数规模）在某些学科中的提升幅度甚至超过了大型模型，这说明专门的多学科训练数据可能比单纯增加模型规模更加有效。这个发现对于资源有限的研究团队来说具有重要意义，它表明通过精心设计的训练数据，较小的模型也能获得优异的跨学科表现。

另一个重要发现是训练的"迁移效应"。在某个学科中训练得到的能力往往能够帮助模型在相关学科中也取得进步。例如，在自然科学领域的训练不仅提升了模型在物理、化学方面的表现，也间接改善了它在工程学领域的能力。

五、深入AI的"思维世界"

通过BMMR-Verifier对AI推理过程的深入分析，研究团队揭示了AI思维中一些有趣而又令人担忧的模式。这些发现就像心理学家分析人类思维模式一样，为我们理解AI的"内心世界"提供了珍贵的窗口。

在对19000个AI回答样本的错误分析中，研究团队发现了几个主要的问题类型。最常见的错误是"知识盲区"，占总错误的31.9%。这类错误反映了AI在某些专业领域知识储备的不足，就像一个学生遇到了从未学过的知识点。第二常见的是"计算推导错误"，占28.7%，这说明AI在进行复杂的数学运算或逻辑推导时仍然容易出错。

更有趣的是"推理错误"类别，占26.4%。这类错误往往不是因为AI不知道相关知识，而是在将知识串联起来解决问题时出现了逻辑漏洞。这就像学生明明知道所有必要的公式和概念，却在解题时走错了方向。

视觉理解错误虽然只占9.4%，但却特别值得关注。在一些需要结合图像信息的问题中，AI有时会完全忽视图像内容，转而基于自己"想象"的情况进行推理。研究团队展示了一个典型案例：在一道需要分析函数图像的数学题中，AI没有分析给定的图像，而是自己虚构了一个完全不同的函数，然后基于这个虚构的函数进行计算。这种"幻觉"现象在AI研究中被称为"hallucination"。

另一个发现是"过度思考"现象。有些AI模型在面对问题时会陷入无休止的思考循环，就像一个学生反复验证自己的答案，最终反而把正确的答案改错了。在一个案例中，AI最初正确地分析了所有选项，但随后开始反复质疑自己的判断，最终得出了错误的结论。

通过分析不同模型的推理质量分布，研究团队还发现了一个有趣的模式：表现优秀的模型往往在推理步骤的质量上更加稳定，很少出现明显的错误步骤。而表现较差的模型则容易在推理过程中出现"跳跃"，即跳过重要的中间步骤直接得出结论。

在不同学科的推理质量分析中，研究团队发现自然科学和工程学领域的问题往往需要更多步骤的严密推理，因此AI在这些领域的推理质量分数普遍较低。相比之下，社会科学和健康医学领域的问题虽然也需要专业知识，但推理步骤相对简单，AI在这些领域的推理质量较高。

六、模型能力的"体检报告"

为了更深入地理解影响AI多学科推理能力的因素，研究团队对23个不同的AI模型进行了全面的"体检"。他们从模型规模、输出长度和视觉编码器三个维度分析了这些因素与性能之间的关系，结果呈现出了一些清晰而有趣的模式。

模型规模与性能之间的关系最为明显。以Qwen2.5-VL系列为例，从3B参数的小模型到72B参数的大模型，性能分数从13.57分稳步提升到38.22分。这种提升趋势在多个模型系列中都能观察到，说明增加模型规模确实是提升AI能力的有效途径。然而，这种提升并非线性的，随着模型规模的增大，边际收益有递减的趋势。

输出长度（即AI生成回答的详细程度）与性能的关系更加复杂。一般来说，输出更详细推理过程的模型表现更好，但也有例外。某些模型虽然生成了很长的回答，但性能提升并不明显，甚至出现了下降。研究团队将这种现象归因于"过度思考"问题，即模型在某些简单问题上进行了不必要的复杂推理，反而增加了出错的概率。

视觉编码器的参数量对模型的多模态理解能力有重要影响。拥有更强视觉编码能力的模型在需要分析图像的问题上表现更好。但有趣的是，在同一个模型系列中，不同规模的模型有时使用相同的视觉编码器，这时性能差异主要来自于语言理解和推理能力的不同。

除了这些定量分析，研究团队还深入研究了一些典型的失败案例，试图理解AI在跨学科推理中面临的具体挑战。通过案例分析，他们发现了两种主要的错误模式：过度思考和幻觉现象。

过度思考的案例通常发生在AI对自己的判断过分质疑的时候。在一个关于地理和环境科学的综合题目中，AI最初正确地分析了所有选项，但随后开始反复验证某个选项的正确性，最终迷失在过度复杂的推理中，忽略了对其他选项的检查。这就像一个考生在考试中花费过多时间纠结于某道题，最终影响了整体表现。

幻觉现象则更加令人担忧。在一个需要分析函数图像求拐点的数学问题中，AI完全忽略了题目提供的函数图像，转而基于自己虚构的分段函数进行计算。这种错误不仅反映了AI在视觉理解方面的不足，更说明了它在整合多模态信息时存在严重缺陷。

这些深入分析为改进AI模型提供了宝贵的方向。研究结果表明，未来的AI发展不应该仅仅关注单一能力的提升，而需要在视觉理解、知识整合、推理稳定性等多个方面协调发展。

说到底，这项研究最重要的贡献可能不在于创造了一个新的数据集，而在于它提醒我们：真正智能的AI需要具备跨学科的综合能力。当前的AI虽然在某些专门领域已经达到甚至超越了人类专家的水平，但在面对需要综合运用多种知识的复杂问题时，仍然有很长的路要走。

BMMR数据集的发布为AI研究社区提供了一个重要的工具和标准。它不仅能够帮助研究者更好地评估AI的综合能力，也为训练更加全面的AI模型提供了丰富的资源。更重要的是，它揭示了AI发展中的一些根本性问题，为未来的研究方向提供了清晰的指引。

对于普通人来说，这项研究的意义在于它让我们对AI的能力有了更加客观的认识。虽然AI在某些方面已经非常强大，但它距离真正的通用人工智能还有相当的距离。在可预见的未来，AI更可能在特定领域发挥辅助作用，而不是完全替代人类的综合判断能力。

这项研究也为教育领域提供了有价值的启示。正如AI需要全面的多学科训练一样，人类教育也应该注重培养跨学科的综合能力。在一个知识高度分化又高度关联的时代，能够整合不同领域知识解决复杂问题的能力变得越来越重要。

随着BMMR数据集和相关工具的公开发布，我们有理由期待看到更多针对AI综合能力的研究和改进。这个数据集可能会成为AI研究中的一个重要里程碑，推动整个领域向着更加均衡和全面的方向发展。未来的AI或许能够真正成为我们在各个知识领域的可靠伙伴，而不仅仅是某个特定领域的专家助手。

Q&A

Q1：BMMR数据集与现有的AI评估标准有什么不同？ A：BMMR最大的不同在于它覆盖了300个不同学科领域，而不是专注于单一学科如数学。它包含11万个大学水平的问题，需要AI同时具备视觉理解、专业知识和跨学科推理能力。更重要的是，它不仅评估最终答案，还通过BMMR-Verifier工具检查AI的整个思考过程。

Q2：普通人能用BMMR数据集测试AI吗？ A：是的，研究团队已经将BMMR数据集公开发布。普通用户可以通过项目官网https://bmmr.pages.dev/获取相关资源，不过使用这个数据集需要一定的技术背景。对于想要了解AI能力的普通用户，可以关注使用该数据集的评测结果和分析报告。

Q3：这项研究会不会影响AI的实际应用？ A：会有积极影响。这项研究揭示了当前AI在跨学科应用中的局限性，有助于开发更全面的AI系统。通过BMMR训练集的训练，开源AI模型的跨学科表现已经获得了显著提升。这意味着未来的AI助手可能会在处理复杂的现实问题时表现得更加可靠和全面。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.