网易首页 > 网易号 > 正文 申请入驻

轻松拿捏高等数学,LLM平均得分90+!GPT-4o、Mistral几乎没错

0
分享至

新智元报道

编辑:KingHZ

【新智元导读】在32道高等数学测试中,LLM表现出色,平均能得分90.4(按百分制计算)。GPT-4o和Mistral AI更是几乎没错!向量计算、几何分析、积分计算、优化问题等,高等AI模型轻松拿捏。研究发现,再提示(Re-Prompting)对提升准确率至关重要。

朋友会离开你,兄弟会背叛你。

数学不会,数学不会就是不会

相信学不好高等数学的人,对上面这个梗深有感悟。

数学不会好像是真不会:出口成章也好,身体素质惊人也好,面对微积分,能有什么招?

那大语言模型(LLMs)是不是也是一个偏科生呢?

最新研究用32道测试题,总计320分,涵盖4大主题:向量计算、几何分析、积分计算、优化问题,评估了AI模型在高等数学的表现。

总体而言,结果表明LLM高等数学不错,平均得分为90.4(按百分制计算):

-ChatGPT 4o和Mistral AI在不同类型的数学问题上表现稳定,准确率较高,展现出较强的数学推理能力和可靠性。

-Gemini Advanced(1.5 Pro)和Meta AI在某些积分和优化问题上表现较弱,显示出需要针对性优化的领域。

其中, ChatGPT 4o和Mistral AI表现优异,并列第一:

有7款AI模型参与了测试 : ChatGPT 4o、Gemini Advanced(1.5 Pro)、Copilot Pro、Claude 3.5 Sonnet、Meta AI、Mistral AI、Perplexity。

此外,研究发现再提示(Re-Prompting)对提升准确率至关重要。

某些情况下,模型首次回答错误,但在重新提示后能够修正答案,这表明改进交互方式可提升模型解题效果。

新研究对教育工作者、研究人员和开发者在数学教育与实践应用中的LLM选择具有重要参考价值,同时也为LLM技术的进一步优化和发展提供了关键的灵感。

论文链接:https://arxiv.org/abs/2503.03960

LLM在微积分能带来什么惊喜?

微积分以其复杂的概念和严谨的解题方法,是测试LLM能力极限的理想领域。

解决微积分问题不仅需要计算的准确性,还要求模型具备深厚的数学原理理解能力、逻辑推理能力,以及将理论概念应用于实际问题的能力。

新研究所选问题涵盖微积分的多个重要主题,包括向量分析、几何解释、积分计算和优化问题。

通过评估这些模型在解题过程中的表现,希望识别它们的优势、劣势和可改进之处,从而推动更强大、更可靠的LLM技术的发展。

随着教育机构和工业界越来越多地探索AI技术的应用,深入了解LLM在处理复杂数学问题方面的能力和局限性变得至关重要。

新研究的分析结果对多个群体具有重要价值,包括开发AI辅助学习工具的教育工作者、致力于提升LLM能力的研究人员,以及希望在实际应用中部署这些技术的从业者。

此外,本研究还回应了对AI模型在专业领域进行系统评估的日益增长的需求。

通过精心设计的一组测试题和详细的评分体系,本研究为评估LLM在数学问题求解方面的表现提供了一种方法论框架。

此外,本研究还引入了重新提示(re-prompting)机制,并对错误模式进行了深入分析,以探讨模型的学习能力以及提高其准确性和可靠性的潜在策略。这些研究结果有助于更全面地理解LLM在数学推理中的优势和局限性,并为未来的优化提供有价值的参考。

研究方法

大型语言模型(LLMs)在架构和训练方法上,大多集中在语言处理任务上,但也各具特色:

ChatGPT 4o以其先进的自然语言理解和生成能力而闻名; Gemini Advanced with 1.5 Pro旨在处理高性能语言任务; Copilot Pro专注于编程和数学问题求解; Claude 3.5 Sonnet强调准确且具上下文意识的文本生成; Meta AI旨在提供多功能的语言理解和生成; Mistral AI以其高效且精准的语言处理能力著称; Perplexity则专为复杂问题求解和推理任务设计。

现在就关心一个问题:这些模型高等数学到底会不会?

这次评估共涉及32道测试题,总分320分。

如果模型在首次尝试中给出正确答案,则得10分;如果在第二次尝试中找到正确答案,则得5分。

测试题涵盖多个微积分主题,包括:向量计算与几何解释、积分计算及其应用、优化问题与约束优化、微分方程及其应用以及高级微积分概念(如格林定理、曲线积分等)。

模型的评估主要基于两个核心标准:

  1. 准确性(Accuracy)——指模型给出的答案是否正确。

  2. 解题过程(Step-by-Step Explanation)——指模型是否能够提供清晰、正确的解题步骤。

为了进一步测试模型的错误修正能力,本研究引入了重新提示(re-prompting)机制。

如果模型首次解答错误,则会再次提示它解决该问题,并对修正后的答案进行评估。该机制有助于更全面地分析模型的问题解决能力及其从错误中学习和修正答案的能力。

测试结果

总体来看,所有LLM的平均得分为90.4(按百分制计算),显示出较强的整体表现。其中ChatGPT 4o和Mistral AI得分310,并列第一,具体结果如下:

ChatGPT 4o和Mistral AI等模型展现出了较高的准确性和精确度,而其他模型在某些类型的问题上表现较为吃力。

比如,在关于向量分解的问题上,所有模型都正确计算了一个向量在另一个向量上的投影以及正交分量,表明它们在处理向量分解问题时具有较高的准确性和稳定性。

找到向量u=3i−5j+2k在向量v=7i+j−2k上的投影,以及u中与v正交的分量,显示所有步骤。

然而,不同模型在具体问题的解答能力上仍存在明显差异。

比如,求正交向量上,只有Claude 3.5 Sonnet最初回答错误,但在重提示后纠正了错误。

求一个同时正交于向量u=⟨4,−3,1⟩和v=⟨2,5,3⟩的单位向量,并展示所有步骤。

而在优化领域的求极值上,谷歌的Gemini Adavnced with 1.5 Pro直接翻车,提示它错误后,没有改正过来,两次持续出错,暴露了其在优化问题上的特定弱点。

检查函数的相对极值和鞍点:f(x, y)=-5x^2+4xy-y^2+16x+10。并给出全部步骤。

Meta AI在求一道积分问题上,回答错误;而ChatGPT 4o经过再提示后,几乎不会出错。

总体二样,大语言模型,在微积分测试中的表现存在差异。

其他20多个问题的具体测试结果,请参考原文。

结果分析

对LLMs在微积分测试中的表现分析揭示了多个关键见解和趋势,这对于理解它们在数学问题求解中的能力和局限性至关重要。

ChatGPT 4o和Mistral AI以96.9%的得分并列第一,表现最优。

ChatGPT 4o在广泛的问题类型中均表现出色,展现了其强大的数学推理能力。而Mistral AI在向量微积分和多元微积分方面表现尤为突出。Gemini Advanced、Claude 3.5 Sonnet和Meta AI的表现相同,得分均为87.5%。

LLM的优势

简单问题的稳定性:ChatGPT 4o 和Mistral AI在解答基础性问题(如向量计算、几何解释和基本求导)时展现出一致的准确性。这表明它们在处理基础微积分概念方面具备较强的稳健性和可靠性。

重新提示(Re-prompting)的有效性:在多次测试中,某些模型最初给出的答案错误,但在重新提示后成功修正。这表明通过迭代提问和反馈机制可以有效提升模型的表现。

特定领域的高准确性:在涉及方向余弦、偏导数、曲线积分等问题时,所有模型的解答均正确。这表明它们在这些微积分专题上具备较强的共识和理解能力。

LLM的劣势

复杂积分计算:在处理复杂积分(如迭代积分、三重积分和曲线下区域面积计算)时,模型普遍表现不佳。这表明它们在微积分求解方面仍有待改进。

优化问题:部分模型(尤其是Gemini Advanced with 1.5 Pro)在求解优化问题时表现较弱,尤其是在相对极值和鞍点的识别方面存在困难,说明其优化技术仍需加强。

持续性错误:某些模型在特定问题上反复出错。例如,Meta AI在积分计算上存在较大困难,而Gemini Advanced with 1.5 Pro在梯度计算上表现不佳。这些持续性错误表明其算法可能需要进一步优化。

重新提示(Re-prompting)的重要性

本研究强调了重新提示机制在提高解题准确性方面的重要作用。

多个模型在第一次解答错误后,通过重新提示成功修正答案。

这表明迭代提问和反馈机制可以显著提高模型的解题能力,尤其是在复杂问题上,初始错误的可能性更大,而重新提示可以提高最终正确率。

对LLM发展的启示

本研究对各模型的表现进行了详细分析,为LLM技术的持续优化提供了有价值的见解。

研究结果揭示了当前LLM的优势与不足,为未来的定向改进提供了清晰的路线图,尤其是在以下几个方面:复杂积分计算、优化问题求解、梯度计算的精确性。

如果开发者能针对这些弱点进行优化,在数学问题求解中,将有助于提升LLM的整体性能和可靠性。

本研究的结果对教育工作者、研究人员和开发者都具有重要意义,尤其是在数学教育和实际应用方面:

  • 表现优异的模型(如ChatGPT 4o 和 Mistral AI):展现出了较强的数学问题求解能力,使它们成为可靠的数学辅助工具,可应用于教育领域。

  • 其他模型的不足:指明了改进方向,为LLM技术的进一步优化提供了参考。未来,随着LLM在数学领域的 不断进步,它们有望成为更强大、更可靠的数学教育和问题求解工具,在教学、科研和工业应用等多个领域发挥重要作用。

参考资料:

https://arxiv.org/abs/2503.03960

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
触碰国家安全红线!9.38吨镓锗走私流入日本,涉案人员全部重罚

触碰国家安全红线!9.38吨镓锗走私流入日本,涉案人员全部重罚

云上乌托邦
2026-07-01 17:42:41
央视发声!如果不出意外的话,7月开始后,社会上或将出现3大变化

央视发声!如果不出意外的话,7月开始后,社会上或将出现3大变化

陈博世财经
2026-07-01 14:05:05
37岁女子吃左氧氟沙星治尿路感染,2个月后走了,医生:2个忠告

37岁女子吃左氧氟沙星治尿路感染,2个月后走了,医生:2个忠告

健康之光
2026-07-01 09:02:18
曝湖人正在猛追库明加!若裁掉范德比尔特 可腾出约700万空间报价

曝湖人正在猛追库明加!若裁掉范德比尔特 可腾出约700万空间报价

罗说NBA
2026-07-02 12:34:14
西安身家千万老总坠亡!头部运动品牌代理,曾购几十辆奔驰奖员工

西安身家千万老总坠亡!头部运动品牌代理,曾购几十辆奔驰奖员工

火山詩话
2026-07-02 05:52:19
今起坐飞机有变化!退改阶梯收费、行李尺寸统一,短途餐食改零食

今起坐飞机有变化!退改阶梯收费、行李尺寸统一,短途餐食改零食

原广工业
2026-07-02 04:17:45
印度裔抱团、代码被锁死、公司停摆,张江事件的致命教训!

印度裔抱团、代码被锁死、公司停摆,张江事件的致命教训!

A活着
2026-07-01 17:03:00
群演发视频吐槽王姓明星:骂助理,找替身,1米8的身高上不去马

群演发视频吐槽王姓明星:骂助理,找替身,1米8的身高上不去马

白面书誏
2026-06-30 13:37:37
一场大雪下了10亿年,连赤道都冻结成冰,冰河时代有多可怕?

一场大雪下了10亿年,连赤道都冻结成冰,冰河时代有多可怕?

观察宇宙
2026-07-02 20:02:02
现场上座率超99%!2026世界杯改写历史,48队赛制成最大商业胜利

现场上座率超99%!2026世界杯改写历史,48队赛制成最大商业胜利

热血体育社
2026-07-02 00:47:42
娱乐圈婆媳关系天花板,秦海璐用行动诠释什么是担当

娱乐圈婆媳关系天花板,秦海璐用行动诠释什么是担当

专扭杨过那条好胳膊
2026-07-02 15:30:15
紫牛头条|父亲带着 9 岁女儿在清华门口拍了张照,17 年后父女俩复刻了这张照片

紫牛头条|父亲带着 9 岁女儿在清华门口拍了张照,17 年后父女俩复刻了这张照片

扬子晚报
2026-07-01 22:55:08
Netflix的王牌美剧,又杀回来了

Netflix的王牌美剧,又杀回来了

来看美剧
2026-07-02 20:01:30
60岁公公奸杀24岁儿媳:你长得越看越漂亮,能不能给我搞一下?

60岁公公奸杀24岁儿媳:你长得越看越漂亮,能不能给我搞一下?

生活魔术专家
2026-07-02 20:57:25
扎克伯格一个骚操作,直接把AI存储市场搞崩了!网友:小扎想回血,市场大出血

扎克伯格一个骚操作,直接把AI存储市场搞崩了!网友:小扎想回血,市场大出血

大白聊IT
2026-07-02 17:34:58
潘石屹再次预判楼市!如果没看错,未来3年楼市或出“三大”变化

潘石屹再次预判楼市!如果没看错,未来3年楼市或出“三大”变化

巢客HOME
2026-06-30 04:30:03
A-级操作!哈里斯的加盟,能给马刺带来什么?

A-级操作!哈里斯的加盟,能给马刺带来什么?

篮球实录
2026-07-02 18:04:41
楼上泼我家3年脏水,他儿考飞行员,我带15份录音证明送航司纪检

楼上泼我家3年脏水,他儿考飞行员,我带15份录音证明送航司纪检

千秋文化
2026-06-27 19:40:09
​迈阿密静候梅西登场, 阿根廷球迷已占领佛罗里达

​迈阿密静候梅西登场, 阿根廷球迷已占领佛罗里达

足球推文C
2026-07-02 09:39:22
巴恩斯带一家度假,二婚妻子身材好,转型做老板,儿子跟前队友过

巴恩斯带一家度假,二婚妻子身材好,转型做老板,儿子跟前队友过

大西体育
2026-07-02 21:57:26
2026-07-02 23:39:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15590文章数 66945关注度
往期回顾 全部

科技要闻

马斯克不承认,但SpaceX就该造AI手机

头条要闻

兰州甘A88888出租车又成"网红" 官方澄清:非奖励号牌

头条要闻

兰州甘A88888出租车又成"网红" 官方澄清:非奖励号牌

体育要闻

韩国人,为什么恨透了洪明甫?

娱乐要闻

众星祝福祖国,曾沛慈原形毕露?

财经要闻

千亿茶市场无赢家:澜沧巨亏 八马停"蹄"

汽车要闻

有纯电有增程 还有二代VLA支持 小鹏MONA L03预售价14.38万起

态度原创

艺术
健康
房产
手机
公开课

艺术要闻

一念天堂,一念地狱:你的心是什么样,世界就什么样

这4类消化病患者 吃粘食管住嘴

房产要闻

稀缺预警!海岸线200米+限墅令下,海南「绝版硬通货」来了!

手机要闻

消息称三星Galaxy S27系列智能手机将标配防窥显示屏

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版