网易首页 > 网易号 > 正文 申请入驻

轻松拿捏高等数学,LLM平均得分90+!GPT-4o、Mistral几乎没错

0
分享至

新智元报道

编辑:KingHZ

【新智元导读】在32道高等数学测试中,LLM表现出色,平均能得分90.4(按百分制计算)。GPT-4o和Mistral AI更是几乎没错!向量计算、几何分析、积分计算、优化问题等,高等AI模型轻松拿捏。研究发现,再提示(Re-Prompting)对提升准确率至关重要。

朋友会离开你,兄弟会背叛你。

数学不会,数学不会就是不会

相信学不好高等数学的人,对上面这个梗深有感悟。

数学不会好像是真不会:出口成章也好,身体素质惊人也好,面对微积分,能有什么招?

那大语言模型(LLMs)是不是也是一个偏科生呢?

最新研究用32道测试题,总计320分,涵盖4大主题:向量计算、几何分析、积分计算、优化问题,评估了AI模型在高等数学的表现。

总体而言,结果表明LLM高等数学不错,平均得分为90.4(按百分制计算):

-ChatGPT 4o和Mistral AI在不同类型的数学问题上表现稳定,准确率较高,展现出较强的数学推理能力和可靠性。

-Gemini Advanced(1.5 Pro)和Meta AI在某些积分和优化问题上表现较弱,显示出需要针对性优化的领域。

其中, ChatGPT 4o和Mistral AI表现优异,并列第一:

有7款AI模型参与了测试 : ChatGPT 4o、Gemini Advanced(1.5 Pro)、Copilot Pro、Claude 3.5 Sonnet、Meta AI、Mistral AI、Perplexity。

此外,研究发现再提示(Re-Prompting)对提升准确率至关重要。

某些情况下,模型首次回答错误,但在重新提示后能够修正答案,这表明改进交互方式可提升模型解题效果。

新研究对教育工作者、研究人员和开发者在数学教育与实践应用中的LLM选择具有重要参考价值,同时也为LLM技术的进一步优化和发展提供了关键的灵感。

论文链接:https://arxiv.org/abs/2503.03960

LLM在微积分能带来什么惊喜?

微积分以其复杂的概念和严谨的解题方法,是测试LLM能力极限的理想领域。

解决微积分问题不仅需要计算的准确性,还要求模型具备深厚的数学原理理解能力、逻辑推理能力,以及将理论概念应用于实际问题的能力。

新研究所选问题涵盖微积分的多个重要主题,包括向量分析、几何解释、积分计算和优化问题。

通过评估这些模型在解题过程中的表现,希望识别它们的优势、劣势和可改进之处,从而推动更强大、更可靠的LLM技术的发展。

随着教育机构和工业界越来越多地探索AI技术的应用,深入了解LLM在处理复杂数学问题方面的能力和局限性变得至关重要。

新研究的分析结果对多个群体具有重要价值,包括开发AI辅助学习工具的教育工作者、致力于提升LLM能力的研究人员,以及希望在实际应用中部署这些技术的从业者。

此外,本研究还回应了对AI模型在专业领域进行系统评估的日益增长的需求。

通过精心设计的一组测试题和详细的评分体系,本研究为评估LLM在数学问题求解方面的表现提供了一种方法论框架。

此外,本研究还引入了重新提示(re-prompting)机制,并对错误模式进行了深入分析,以探讨模型的学习能力以及提高其准确性和可靠性的潜在策略。这些研究结果有助于更全面地理解LLM在数学推理中的优势和局限性,并为未来的优化提供有价值的参考。

研究方法

大型语言模型(LLMs)在架构和训练方法上,大多集中在语言处理任务上,但也各具特色:

ChatGPT 4o以其先进的自然语言理解和生成能力而闻名; Gemini Advanced with 1.5 Pro旨在处理高性能语言任务; Copilot Pro专注于编程和数学问题求解; Claude 3.5 Sonnet强调准确且具上下文意识的文本生成; Meta AI旨在提供多功能的语言理解和生成; Mistral AI以其高效且精准的语言处理能力著称; Perplexity则专为复杂问题求解和推理任务设计。

现在就关心一个问题:这些模型高等数学到底会不会?

这次评估共涉及32道测试题,总分320分。

如果模型在首次尝试中给出正确答案,则得10分;如果在第二次尝试中找到正确答案,则得5分。

测试题涵盖多个微积分主题,包括:向量计算与几何解释、积分计算及其应用、优化问题与约束优化、微分方程及其应用以及高级微积分概念(如格林定理、曲线积分等)。

模型的评估主要基于两个核心标准:

  1. 准确性(Accuracy)——指模型给出的答案是否正确。

  2. 解题过程(Step-by-Step Explanation)——指模型是否能够提供清晰、正确的解题步骤。

为了进一步测试模型的错误修正能力,本研究引入了重新提示(re-prompting)机制。

如果模型首次解答错误,则会再次提示它解决该问题,并对修正后的答案进行评估。该机制有助于更全面地分析模型的问题解决能力及其从错误中学习和修正答案的能力。

测试结果

总体来看,所有LLM的平均得分为90.4(按百分制计算),显示出较强的整体表现。其中ChatGPT 4o和Mistral AI得分310,并列第一,具体结果如下:

ChatGPT 4o和Mistral AI等模型展现出了较高的准确性和精确度,而其他模型在某些类型的问题上表现较为吃力。

比如,在关于向量分解的问题上,所有模型都正确计算了一个向量在另一个向量上的投影以及正交分量,表明它们在处理向量分解问题时具有较高的准确性和稳定性。

找到向量u=3i−5j+2k在向量v=7i+j−2k上的投影,以及u中与v正交的分量,显示所有步骤。

然而,不同模型在具体问题的解答能力上仍存在明显差异。

比如,求正交向量上,只有Claude 3.5 Sonnet最初回答错误,但在重提示后纠正了错误。

求一个同时正交于向量u=⟨4,−3,1⟩和v=⟨2,5,3⟩的单位向量,并展示所有步骤。

而在优化领域的求极值上,谷歌的Gemini Adavnced with 1.5 Pro直接翻车,提示它错误后,没有改正过来,两次持续出错,暴露了其在优化问题上的特定弱点。

检查函数的相对极值和鞍点:f(x, y)=-5x^2+4xy-y^2+16x+10。并给出全部步骤。

Meta AI在求一道积分问题上,回答错误;而ChatGPT 4o经过再提示后,几乎不会出错。

总体二样,大语言模型,在微积分测试中的表现存在差异。

其他20多个问题的具体测试结果,请参考原文。

结果分析

对LLMs在微积分测试中的表现分析揭示了多个关键见解和趋势,这对于理解它们在数学问题求解中的能力和局限性至关重要。

ChatGPT 4o和Mistral AI以96.9%的得分并列第一,表现最优。

ChatGPT 4o在广泛的问题类型中均表现出色,展现了其强大的数学推理能力。而Mistral AI在向量微积分和多元微积分方面表现尤为突出。Gemini Advanced、Claude 3.5 Sonnet和Meta AI的表现相同,得分均为87.5%。

LLM的优势

简单问题的稳定性:ChatGPT 4o 和Mistral AI在解答基础性问题(如向量计算、几何解释和基本求导)时展现出一致的准确性。这表明它们在处理基础微积分概念方面具备较强的稳健性和可靠性。

重新提示(Re-prompting)的有效性:在多次测试中,某些模型最初给出的答案错误,但在重新提示后成功修正。这表明通过迭代提问和反馈机制可以有效提升模型的表现。

特定领域的高准确性:在涉及方向余弦、偏导数、曲线积分等问题时,所有模型的解答均正确。这表明它们在这些微积分专题上具备较强的共识和理解能力。

LLM的劣势

复杂积分计算:在处理复杂积分(如迭代积分、三重积分和曲线下区域面积计算)时,模型普遍表现不佳。这表明它们在微积分求解方面仍有待改进。

优化问题:部分模型(尤其是Gemini Advanced with 1.5 Pro)在求解优化问题时表现较弱,尤其是在相对极值和鞍点的识别方面存在困难,说明其优化技术仍需加强。

持续性错误:某些模型在特定问题上反复出错。例如,Meta AI在积分计算上存在较大困难,而Gemini Advanced with 1.5 Pro在梯度计算上表现不佳。这些持续性错误表明其算法可能需要进一步优化。

重新提示(Re-prompting)的重要性

本研究强调了重新提示机制在提高解题准确性方面的重要作用。

多个模型在第一次解答错误后,通过重新提示成功修正答案。

这表明迭代提问和反馈机制可以显著提高模型的解题能力,尤其是在复杂问题上,初始错误的可能性更大,而重新提示可以提高最终正确率。

对LLM发展的启示

本研究对各模型的表现进行了详细分析,为LLM技术的持续优化提供了有价值的见解。

研究结果揭示了当前LLM的优势与不足,为未来的定向改进提供了清晰的路线图,尤其是在以下几个方面:复杂积分计算、优化问题求解、梯度计算的精确性。

如果开发者能针对这些弱点进行优化,在数学问题求解中,将有助于提升LLM的整体性能和可靠性。

本研究的结果对教育工作者、研究人员和开发者都具有重要意义,尤其是在数学教育和实际应用方面:

  • 表现优异的模型(如ChatGPT 4o 和 Mistral AI):展现出了较强的数学问题求解能力,使它们成为可靠的数学辅助工具,可应用于教育领域。

  • 其他模型的不足:指明了改进方向,为LLM技术的进一步优化提供了参考。未来,随着LLM在数学领域的 不断进步,它们有望成为更强大、更可靠的数学教育和问题求解工具,在教学、科研和工业应用等多个领域发挥重要作用。

参考资料:

https://arxiv.org/abs/2503.03960

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
缅甸女饲养员被老虎咬死,老虎猛攻26分钟,园长看到监控:不怪老虎

缅甸女饲养员被老虎咬死,老虎猛攻26分钟,园长看到监控:不怪老虎

罪案洞察者
2025-11-18 11:00:31
章子怡太绝了:你帮别人养孩子我不管,但我儿女抚养费必须给全!

章子怡太绝了:你帮别人养孩子我不管,但我儿女抚养费必须给全!

瑛派儿老黄
2025-11-18 17:23:22
九牧王涨停走出7连板

九牧王涨停走出7连板

每日经济新闻
2025-11-20 09:43:50
扎心了,上海一男子,因被裁员清理工位的花,大大小小一拖车

扎心了,上海一男子,因被裁员清理工位的花,大大小小一拖车

小小包工头阿汾
2025-11-20 06:11:01
不满04后小将?被陈熠爆冷,陈梦黑脸,原因找到,谁注意她举动

不满04后小将?被陈熠爆冷,陈梦黑脸,原因找到,谁注意她举动

乐聊球
2025-11-19 14:28:04
出征北极靠加拿大鹅?不,-15℃严寒地区的挪威人穿的是中国造!

出征北极靠加拿大鹅?不,-15℃严寒地区的挪威人穿的是中国造!

英国报姐
2025-11-19 13:09:33
上海哈罗德茶室及俱乐部将于2026年初关闭

上海哈罗德茶室及俱乐部将于2026年初关闭

界面新闻
2025-11-19 18:53:54
广东宏远VS山西男篮!萨林杰首秀,崔永熙出战,杜锋拒绝爆冷

广东宏远VS山西男篮!萨林杰首秀,崔永熙出战,杜锋拒绝爆冷

体坛瞎白话
2025-11-20 10:30:56
乒坛大爆冷!世界亚军浪费2赛点崩盘,单局轰出19-21比分 对手排名167

乒坛大爆冷!世界亚军浪费2赛点崩盘,单局轰出19-21比分 对手排名167

好乒乓
2025-11-20 08:08:38
李一诺:18岁保送清华,27岁博士毕业,4年生3娃,替世界首富花钱

李一诺:18岁保送清华,27岁博士毕业,4年生3娃,替世界首富花钱

毒sir财经
2025-10-08 21:36:11
是否考虑过国家队?朱婷扭头就走:没考虑过 记者疑似爆粗骂人

是否考虑过国家队?朱婷扭头就走:没考虑过 记者疑似爆粗骂人

风过乡
2025-11-20 07:01:16
黑色幽默!电诈园区办公室中文标语,简直是天大的讽刺

黑色幽默!电诈园区办公室中文标语,简直是天大的讽刺

麦大人
2025-11-06 08:32:30
我国有上千万人做肺部CT!院士:做一次肺部CT,或管五年无碍

我国有上千万人做肺部CT!院士:做一次肺部CT,或管五年无碍

荷兰豆爱健康
2025-11-10 12:41:57
柯文哲结局已定,岛内曝退党潮,大陆判断没错,两岸统一大势所趋

柯文哲结局已定,岛内曝退党潮,大陆判断没错,两岸统一大势所趋

起喜电影
2025-11-19 09:17:26
医生发现:天冷坚持戴口罩的人,过不了半年,身体会有4大变化

医生发现:天冷坚持戴口罩的人,过不了半年,身体会有4大变化

宝哥精彩赛事
2025-11-19 10:03:34
央视直播U17亚洲杯预选赛!中国队对阵巴林队,首轮即决战

央视直播U17亚洲杯预选赛!中国队对阵巴林队,首轮即决战

李帕在北漂
2025-11-20 06:48:25
骨裂骨折!踢熊猫杯弄伤了多少人?暴露U22“疲劳期遇上高强度”

骨裂骨折!踢熊猫杯弄伤了多少人?暴露U22“疲劳期遇上高强度”

罗掌柜体育
2025-11-20 11:27:10
取消赴日旅游的中国游客:机酒已全额退款,未来出行仍在观望

取消赴日旅游的中国游客:机酒已全额退款,未来出行仍在观望

南方都市报
2025-11-18 23:22:18
世界中锋身价最贵的十名球员出炉!劳塔罗第七 伊萨克真值1.4亿?

世界中锋身价最贵的十名球员出炉!劳塔罗第七 伊萨克真值1.4亿?

体坛八点半的那些事儿
2025-11-20 15:53:31
日本垄断全球90%!一旦断供中国如何应对?为何他国造不出?

日本垄断全球90%!一旦断供中国如何应对?为何他国造不出?

诗意世界
2025-09-13 18:35:57
2025-11-20 16:08:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13913文章数 66280关注度
往期回顾 全部

科技要闻

英伟达单季狂揽570亿美元,手握5000亿订单

头条要闻

数名蔚来车主被销售诈骗160万 称对品牌表态特别寒心

头条要闻

数名蔚来车主被销售诈骗160万 称对品牌表态特别寒心

体育要闻

Faker,何以成为Faker

娱乐要闻

胡彦斌易梦玲恋情曝光,相差16岁

财经要闻

霸王茶姬创始人将与“光伏女神”结婚

汽车要闻

一汽丰田发布IT'S TiME 3.0 三款焕新产品同步亮相

态度原创

艺术
旅游
本地
时尚
公开课

艺术要闻

陈洪绶:花鸟册二十开

旅游要闻

武陵源夜色变身“阿凡达秘境”

本地新闻

卖力整活儿的大湾鸡,靠疯癫成了新顶流

这四组绝美的冬季配色,很“暖”!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版