![]()
这项由牛津大学、Benchmark、哈佛大学、普林斯顿大学以及埃利森技术研究所共同开展的研究发表于2026年3月,论文编号为arXiv:2603.15617v1。感兴趣的读者可以通过该编号查询完整论文内容。
想象一下,如果有一天人工智能能够独立解决数学家们花费数百年都无法攻克的难题,那会是什么样的场景?这不再是科幻小说中的情节。牛津大学的研究团队刚刚发布了一个名为"HorizonMath"的测试平台,专门用来检验人工智能是否真的具备了数学发现的能力。
这个研究解决了一个非常现实的问题:我们如何知道AI真的在做数学发现,而不是简单地重复它在训练时学到的答案?就像考试时,如果学生只是背诵标准答案,我们无法判断他们是否真的理解了数学概念。同样,当前最强大的AI系统在现有数学测试中表现出色,但这些测试都有已知的答案,AI可能只是在重现训练数据中见过的解法。
研究团队的创新在于,他们精心挑选了一百多个至今仍未解决的数学问题,构建了一个全新的测试平台。这些问题就像是数学界的未解之谜,没有人知道正确答案是什么。更巧妙的是,虽然找到答案很困难,但验证一个给出的答案是否正确却相对简单。这就像解密游戏一样:破解密码需要天才的洞察力,但验证密码是否正确只需要按步骤检查。
一、搭建数学界的"无人区"测试场
传统的数学测试就像是在已经修建好的道路上行驶,AI系统可以依靠"GPS导航"(训练数据中的已知路线)到达目的地。但HorizonMath测试平台更像是让AI进入完全未开发的荒野,没有地图,没有路标,需要完全凭借自身能力开辟新路径。
研究团队花费了大量时间从数学文献中筛选问题。他们的标准非常严格:首先,问题必须有明确的答案形式,比如一个具体的数字、公式或几何构造,而不是需要冗长证明的抽象命题。其次,这个答案必须能够通过计算机程序自动验证,就像数学版的"即时评分系统"。第三,问题不能用现有的计算工具直接解决,必须需要真正的数学洞察力。最后,问题必须来源于真实的数学研究,而不是人为构造的智力游戏。
这个筛选过程就像是在数学的海洋中淘沙寻金。研究团队最终收集了101个问题,涵盖了八个数学分支:数论、格子模型、离散几何、连续物理、组合学、积分学、数学常数和编码理论。每个问题都像一颗未被发现的宝石,等待着AI系统去挖掘。
为了确保测试的公平性,研究团队将问题按难度分为四个等级。最简单的是"校准级",包含一些已知答案的问题,用来检验AI系统的基本数学能力。接下来是"可能求解级",这些问题很可能在不久的将来被解决。然后是"挑战级",需要重大方法突破才能解决。最难的是"可能无解级",这些问题可能根本没有有限形式的答案,或者需要全新的数学理论才能处理。
二、三类"可验证但难发现"的数学谜题
HorizonMath平台聚焦于三类特殊的数学问题,它们都具有一个共同特点:找到答案如登天之难,但验证答案却相对简单。这种不对称性为自动化测试提供了完美的条件。
第一类问题是寻找"封闭形式表达式"。这就像是给你一个无理数的小数近似值,要求你找出它的精确数学表达式。比如,你看到小数0.318309886..., 需要发现它实际上等于1/π。目前的数学文献中存在大量这样的"孤儿数字"——我们知道它们的数值,但不知道它们的精确表达式。AI需要像数学侦探一样,从数值线索中推断出背后的数学规律。
第二类是优化和构造问题。这类问题要求找到比目前已知结果更好的数学对象。就像工程师在设计新产品时,总是希望比现有产品更高效、更经济。在数学中,研究者也在寻找更紧密的界限、更高效的构造或更优雅的配置。这些问题的答案是开放式的:任何改进现有最佳结果的方案都是正确答案。
第三类是存在性问题,需要构造满足特定性质的数学对象。这就像是根据描述寻找隐藏的宝藏:你知道宝藏具有某些特征,但不知道它在哪里,甚至不确定它是否真的存在。一旦找到了这样的对象,验证它是否满足所有要求的性质是相对直接的。
这种设计的巧妙之处在于完全避免了"数据污染"问题。由于这些问题的答案至今未知,它们不可能出现在任何AI训练数据中。因此,如果AI系统给出正确答案,那一定是通过某种形式的推理得出的,而不是简单的记忆再现。
三、自动验证系统:数学界的"即时裁判"
传统的数学研究成果验证是一个漫长而昂贵的过程。一篇数学论文需要经过同行评议,专家们仔细检查每个推理步骤,这个过程可能需要几个月甚至几年时间。但HorizonMath平台开创性地实现了自动化验证。
这个验证系统就像是一位永不疲倦的数学裁判。当AI系统提交一个解答时,验证程序会立即开始工作。对于封闭形式表达式问题,系统使用高精度数值计算来检验提交的表达式是否与目标值匹配,精确度达到小数点后20位。这种精度水平足以排除偶然的数值巧合。
对于优化问题,验证更加直接。系统运行特定的评估程序来计算提交方案的性能指标。如果这个指标严格优于当前已知的最佳结果,答案就被接受。这就像体育比赛中的自动计时器:只要跑出了更快的时间,记录就会被承认,不需要人工判断。
对于存在性问题,验证系统会系统性地检查提交的数学对象是否满足问题描述中的每一个条件。这个过程完全是确定性的:要么所有条件都满足,要么至少有一个条件不满足。
整个验证过程都在安全的沙盒环境中运行,确保AI系统无法通过技术手段"作弊"。同时,系统还包含一个"合规检查器",确保提交的解答符合问题的格式要求和数学约束。
四、三大数学巨头的实战表现
研究团队选择了当前最强大的三个AI系统进行测试:GPT-5.4 Pro、Gemini 3.1 Pro和Claude Opus 4.6。这就像是邀请世界上最聪明的学生参加一场史无前例的数学竞赛。
测试结果可以说是既在意料之中,又令人惊喜。在整个测试集上,三个AI系统的表现都不够理想。Claude Opus 4.6和Gemini 3.1 Pro的正确率仅为3%,而GPT-5.4 Pro稍好一些,达到了7%。这个结果清楚地表明,即使是目前最先进的AI系统,在面对真正未知的数学问题时,仍然存在巨大挑战。
但在"校准级"问题上,情况有所不同。这些是已知答案的问题,用来测试AI系统的基础数学能力。Gemini 3.1 Pro和Claude Opus 4.6正确解决了30%的此类问题,而GPT-5.4 Pro的表现更好,达到了50%。这说明AI系统在处理已知类型的数学问题时具备相当的能力,但在面对完全陌生的问题时就显得力不从心。
最令人兴奋的是,GPT-5.4 Pro在测试中展现了潜在的数学发现能力。在面对完全未知的问题时,它成功解决了两个困难的优化问题,提出的解答确实优于已知的最佳结果。这就像是一位学生在完全没有参考答案的情况下,独立发现了新的解题方法。
这两个问题分别是"薄三角形卡克亚问题"和"对角拉姆齐数的渐近上界常数问题"。对于第一个问题,GPT-5.4 Pro提出的解法将已知的最佳结果改进了约8.44%。对于第二个问题,它找到了一个新的多项式修正函数,使得重要数学常数从约3.7992降低到了约3.6961,这是一个约2.71%的改进。
五、两个突破性发现的深度解析
第一个突破性发现涉及所谓的"薄三角形卡克亚问题"。这个问题源于一个经典的几何难题:在二维平面上,包含一条单位长度线段所有可能方向的最小区域面积是多少?研究者通过研究128个等间距斜率的薄三角形的并集来近似这个问题。
GPT-5.4 Pro的解法展现了令人印象深刻的数学洞察力。它没有简单地尝试随机配置,而是采用了一种"结构化重叠策略"。具体来说,它首先建立了一种类似哈尔基函数的重叠模式,让相似斜率的三角形在截面上尽可能重叠,特别是在x=0附近,那里三角形的宽度最大。然后,它对这个基础配置进行了局部优化搜索,通过调整分组系数来最大化三角形之间的重叠,从而最小化并集的总面积。
这种方法的巧妙之处在于它结合了全局结构设计和局部精细调优。就像建筑师在设计大楼时,既要考虑整体的结构布局,又要优化每个细节的空间利用率。最终,这种方法将验证区域面积从约0.1148降低到了约0.1091,实现了显著的改进。
第二个发现涉及"对角拉姆齐数的渐近上界常数"。拉姆齐理论是组合数学中的一个重要分支,研究在足够大的结构中必然出现的有序模式。对角拉姆齐数R(n,n)表示这样一个最小的数:在这个数量的顶点的完全图中,无论如何用红蓝两色给边染色,都必然存在n个顶点构成的红色团或蓝色团。
长期以来,数学家知道R(n,n)的增长率在2^(n/2)和4^n之间,但精确的常数一直是个谜。最近的研究建立了更精确的上界c^n,其中c约为3.7992。GPT-5.4 Pro通过对已有理论框架的巧妙改进,成功将这个常数降低到约3.6961。
它的方法涉及对修正多项式的精心设计。原有方法使用三次多项式修正,而GPT-5.4 Pro发现了一个更有效的五次多项式修正,系数为(-0.25, 0.033, 0.08, 0.0, -0.0778)。这个新的修正函数在λ=1附近更加集中,能够更有效地平衡理论框架中的三个关键条件,从而获得更紧的界限。
六、数学发现的新范式
这些发现的意义远超出了两个具体问题的解决。它们代表了数学发现模式的一个重要转变。传统上,重大数学发现往往依赖于人类数学家的天才洞察,需要多年甚至几十年的深度思考。而AI系统展现出了一种不同的发现模式:通过大规模的结构化搜索和优化,在相对较短的时间内找到有效解法。
GPT-5.4 Pro在解决这些问题时展现的策略颇为有趣。它没有试图证明某个深层的数学定理,而是采用了更加实用的"工程方法":建立有效的搜索框架,系统性地探索可能的解空间,然后通过局部优化来改进候选解答。这种方法虽然缺乏传统数学证明的优雅性,但在解决实际问题方面非常有效。
然而,研究团队也强调了这些发现的初步性质。AI提出的解答虽然通过了自动验证,但严格来说仍然需要数学专家的进一步检验才能被完全接受。数值匹配到20位小数虽然提供了强有力的证据,但不等同于严格的数学证明。构造性的改进虽然可以被确定性地验证,但其背后的数学原理仍需要更深入的理解。
更重要的是,这些发现揭示了AI系统在数学推理方面的潜力和局限性。一方面,AI展现了在复杂优化问题上的强大能力,能够处理人类难以手工完成的大规模计算。另一方面,它在需要深层概念理解和抽象推理的问题上仍然显得不足。
七、未来数学研究的新工具
HorizonMath平台的创建本身就是一个重要贡献。它为评估AI在数学发现方面的进展提供了标准化的工具,这在以前是不存在的。就像物理学家需要粒子加速器来探索物质的基本结构一样,AI研究者现在有了专门的"数学加速器"来测试机器的推理极限。
这个平台的设计体现了几个重要的创新原则。首先是"污染免疫性":由于所有问题都是未解决的,训练数据中不可能包含答案,从而确保测试的公平性。其次是"自动化验证":整个评估过程无需人工介入,大大提高了测试效率。第三是"开放性":平台向全球研究社区开放,任何人都可以贡献新问题或改进现有问题。
研究团队还建立了一个分层的问题分类系统,从简单的校准问题到极其困难的挑战问题,为不同能力水平的AI系统提供了合适的测试环境。这种分层设计使得研究者可以精确地追踪AI能力的发展轨迹,就像教育系统中的年级划分一样。
平台的另一个重要特点是其动态性。随着某些问题被解决,新的未知问题会被添加进来,确保测试始终处于数学研究的前沿。这种"活态"特性使得HorizonMath不仅是一个测试工具,更是数学研究本身的一个组成部分。
八、对数学教育和研究的深远影响
HorizonMath的出现可能会对数学教育和研究产生深远影响。在教育方面,它提供了一种全新的能力评估方式。传统的数学教育往往侧重于解决已知类型的问题,而这个平台鼓励的是真正的探索性思维。学生可以尝试解决尚无答案的问题,培养面对未知挑战的勇气和技能。
对于数学研究而言,这个平台可能会催生新的研究模式。研究者可以将AI作为强有力的合作伙伴,让机器处理大规模的计算和搜索工作,而人类专注于提供洞察和验证结果。这种人机协作模式已经在围棋、蛋白质折叠等领域取得了突破性成果,现在正在向数学研究扩展。
平台也为数学界提供了一个新的交流渠道。通过共同关注这些未解决的问题,来自不同背景的研究者可以更容易地找到合作机会。同时,AI在某些问题上的成功可能会启发人类数学家采用新的方法或视角。
然而,这种变化也带来了一些值得思考的问题。如果AI在解决数学问题方面变得越来越强大,人类数学家的角色会如何演变?数学发现的价值标准是否需要重新定义?这些都是数学界需要认真考虑的问题。
九、技术挑战与突破
构建HorizonMath平台面临着诸多技术挑战。首先是问题筛选的挑战:从浩如烟海的数学文献中找出既有意义又适合自动验证的未解决问题,这本身就是一个复杂的任务。研究团队需要深入理解每个候选问题的数学背景,评估其难度和重要性,同时确保验证过程的可行性。
验证系统的设计是另一个技术难点。对于不同类型的问题,需要开发相应的验证算法。数值验证需要处理精度问题,构造验证需要确保逻辑完整性,优化验证需要公平的性能比较。每种验证类型都有其独特的技术要求和潜在陷阱。
安全性是系统设计的重要考虑因素。验证过程必须在隔离的环境中运行,防止恶意代码或试图游戏系统的行为。同时,系统需要处理各种边缘情况,如格式错误的提交、异常的计算要求或试图利用系统漏洞的攻击。
可扩展性也是一个关键挑战。随着参与者数量的增长和问题复杂性的提升,系统需要能够处理大量的并发提交和复杂的验证任务。这要求在系统架构、算法优化和资源管理方面的精心设计。
十、未来发展方向与展望
研究团队为HorizonMath平台规划了多个发展方向。短期内,他们计划扩展问题类型的覆盖范围,包括更多的数学分支和更丰富的问题形式。他们也在探索如何处理那些需要更复杂验证的问题,比如那些涉及近似解或启发式方法的问题。
中期目标包括将形式化证明验证集成到平台中。这将允许平台处理那些答案是证明而非具体数学对象的问题,大大扩展其适用范围。研究团队正在探索与现有证明助手(如Lean、Coq等)的集成可能性。
长期而言,HorizonMath有潜力发展成为数学研究的重要基础设施。它可能会成为数学界的"GitHub",研究者可以在这里共享未解决的问题,协作寻找解答,并追踪研究进展。这种开放式的合作模式可能会加速整个数学领域的发展。
平台的影响可能会超越纯数学研究。许多应用领域,如物理学、工程学、计算机科学等,都有自己的优化和计算挑战。HorizonMath的方法论可能会被适配到这些领域,创造更广泛的影响。
研究团队也认识到了当前方法的局限性。数值验证虽然实用,但不如严格证明那样令人信服。未来的发展方向之一是提高验证的严格性,可能通过符号计算或形式化方法来实现。
说到底,HorizonMath代表了人工智能与数学研究结合的一个重要里程碑。虽然当前的AI系统在面对未知数学问题时仍然表现有限,但GPT-5.4 Pro的突破性发现证明了机器数学发现的可能性。这个平台不仅为评估AI能力提供了新工具,更为数学研究开辟了新的可能性。
这项研究让我们看到了一个令人兴奋的未来:人类数学家与AI系统协作,共同推进数学知识的边界。虽然我们还远未到达AI完全自主进行数学发现的阶段,但这个方向的每一个进展都在重塑我们对机器智能潜力的理解。对于普通人来说,这意味着我们正在见证一个新时代的开始,在这个时代里,最抽象的人类智力活动也开始与人工智能产生深度交融。
无论你是数学爱好者还是对AI发展感兴趣的普通人,HorizonMath的故事都值得关注。它不仅展示了技术进步的可能性,更重要的是,它提醒我们在这个快速变化的世界中,保持对未知的好奇心和探索精神的重要性。感兴趣的读者可以通过arXiv:2603.15617v1查询完整论文,了解更多技术细节和研究成果。
Q&A
Q1:HorizonMath是什么?
A:HorizonMath是由牛津大学等机构开发的AI数学能力测试平台,包含101个尚未解决的数学问题。这些问题都没有已知答案,因此不可能出现在AI训练数据中,能够真正测试AI的数学发现能力而非记忆能力。
Q2:为什么现有AI在HorizonMath上表现不佳?
A:即使是最先进的AI系统在面对真正未知的数学问题时成功率也很低,大多只有3-7%。这说明AI虽然在解决已知类型问题方面能力强,但在需要真正推理和创新的数学发现方面仍有很大局限性。
Q3:GPT-5.4 Pro的数学发现有什么意义?
A:GPT-5.4 Pro成功解决了两个优化问题,分别将已知最佳结果改进了8.44%和2.71%。这是AI首次在完全未知的数学问题上取得突破,证明了机器进行数学发现的可能性,为人机协作数学研究开辟了新方向。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.