网易首页 > 网易号 > 正文 申请入驻

实测学而思MathGPT大模型:中小学数学解题正确率有望全球新SOTA

0
分享至

白交 发自 凹非寺
量子位 | 公众号 QbitAI

国内首个数学大模型MathGPT开放内测了,不上手试试怎么行?

第一印象上,最明显的就是:啪的一下,很快啊~

题目识别到对话框,结果不光答案准确,还就给出了具体的公式步骤、详细解析。

并且支持公式输入和修改

这着实是数理爱好者福音了!要知道市面上GPT-4在内的通用大模型,都无法实现这一点。

作为千亿参数级别首个数学专用大模型,放在全球范围内也是少数,背后则是来自国内教育行业20年深耕的学而思

另外内测据说还只是开始,因为之前就已经透露,将于年内推出基于该自研大模型的产品级应用。

所以这款垂直数学大模型究竟怎么样,完整上手“体验报告”呈上。

上手实测:支持公式图像输入

首先,从大模型基础功能来看,与GPT-4、Claude2相比,MathGPT主要有这些能与不能。

由于是数学专用大模型,因此对话内容目前只能回答与数学相关的问题。

界面上从现有的示例上看,它目前覆盖小学、中学以及高中的题目。

不仅有内容的划分,比如集合、立体几何、解析几何、导数、三角函数、统计学等模块;

还有题型的选择,比如应用题、高考填空压轴、解答压轴;

以及一些开拓思维的题目,比如小学题目中的推理推导、归纳总结、创新思维;初中的反正法、代入法等。

对于数学爱好者而言,可以说是非常全面了。

输入端,除了普通文本外,它支持公式格式以及图像(带有数字和文字)的输入。

除此之外,面对数学题目的追问,它也支持多轮对话的能力。

了解基本情况后,接着就来考验一下MathGPT的真实实力。

根据此前官方介绍,MathGPT是以解题和讲题算法为核心的大模型,具体拆分为三个问题:

  • 题目要解对;
  • 解题步骤要稳定、清晰;
  • 解题要讲的有趣、个性化。

依照这样的逻辑,先来看看它的基本解题思路。

以初中示例题为例,分为分析、详解、点睛三个步骤,不光给出详细的步骤,还会给你说知识点和题目难度,这归属于基本不等式的应用,难度为中档。

甚至还可以举一反三,比如就像这道整体代换的题目。

随手修改其中一两个数字,结果不光给出来了,还有更为详细的解析。

那么再上点难度,直接考验它高中题目,比如这道选择压轴。

结果也是分分钟出来。

还有像涉及几何类型的题目,也没有被难倒。

,时长00:30

所以,一圈体验下来,简单总结一下MathGPT的评测感受:

  • 基础功能上支持公式格式、图像输入,对数学爱好者很友好;
  • 支持小初高中的各类型题,覆盖比较全面。
  • 还能举一反三,多轮对话。

除此之外,还有一些不足,比如图像输入暂时不支持几何类型的题目,以及有时会出现一些乱码问题,比如答案对了,但中文输入,结果英文输出……

首个数学大模型,为什么是学而思?

大模型涌现以来,数学推理能力始终是产学研界共同攻坚的对象。

通用思路都是基于现有的通用LLM进行调优,最典型的就是OpenAI自己提出过程监督方法。

传统奖励模型采用的是结果监督,仅针对思维链的结果进行判别和反馈;相对的,过程监督就是对思维链每一步进行反馈。因此奖励增多、效果变好。

更多的还有像指令微调、prompt优化等思路。微软全华人团队提出WizardMath,用AI生成的指令微调羊驼大模型,结果直接超ChatGPT。

以及前段时间,有研究团队发现GPT-4代码解释器的代码生成和执行机制,于是就有特定的代码约束提示词直接将数学能力拔高至SOTA。

而像专门针对数学推理方向的自研大模型确实不多。目前来看,国内有且只有一个

这样做的核心原因只有一个,加速大模型在数学领域的落地

于行业玩家而言,若是依照通用开源LLM进行调优,一来目前还处于积极探索的阶段,没有形成一个很好的范式;二来,幻觉问题没有解决,稳定性依旧无法保证。

而数学推理不光要求结果的准确,还得强调过程的清晰和逻辑性

当然同样的原因,也不能简单直接调用像GPT-4的API,性能等各方面始终会受限。

不过此前我们也讨论过,打造行业大模型天然就有这非常高的壁垒,数据量大还得高质量,关键还要有场景,知道行业Know-how。

既然如此,学而思又是如何做到?

核心还是:术业专攻、对症下药

一方面,最首要也是本质的原因——术业专攻——多年在数学和AI领域的深入研发和布局。

学而思“以数学起家”,至今已有20年的数学教学经验,积累了庞大的数学相关数据,这些独家数据是进行MathGPT训练的必备物料。

而在AI领域,学而思早在第一波AI浪潮兴起之时(2017年)就已经开始布局——成立AI lab人工智能实验室。如今还是教育领域首批唯一一家人工智能“国家队”成员。

在学术方面,学而思实际也有高频产出。公开资料显示,基于智慧教育人工智能开放创新平台助力,学而思AI lab获得各类顶级学术会议比赛冠军16项,亚军6项;发表国际期刊和会议高水平学术论文31篇,包含光学字符识别、图像、自然语言处理、语音以及多模态等多领域的学术研究。

而在产品应用端,今年2月学而思学习机上线AI讲题机器人“小π”。其相关技术于2020年启动研发,背后是超3亿专业题库数据,经过三年的数据训练和迭代。

在实测中可以看到,在配套的AR镜识别到一道手写或者印刷的数学计算题时。

小π机器人会对题目进行智能AI拆解分析,同时生成逻辑流畅、表达清晰的语言,将题目的解题方法讲解出来。

该功能已覆盖的题目包括分数、小数等复杂计算,甚至一些“凑数、组合”的巧妙算法,已十分接近真人老师的解题效果。

正是基于这样的行业Know-how,MathGPT自诞生之日起就定义明确「面向更广泛的数学爱好者和科研机构打造」,并对症下药——

因为想要打造数学垂直大模型,就绕不过三大挑战:

  • 第一,题目要解对。现在连GPT的结果经常出现错误;
  • 第二,解题步骤要稳定、清晰。现在GPT的解题步骤每次都不一样,而且生成内容经常很冗余;
  • 第三,解题要讲的有趣、个性化。现在GPT的解释过于“学术”和机械,对体验很不友好。

基于这样的目标,MathGPT结合大模型计算引擎两者能力。

前者负责理解题目、分步解析,并在合适的步骤自行调用计算引擎,以此来提高正确率。基于海量名师解题过程的数据进行模型训练,模型的解题步骤可以更加清晰。再引入优秀老师的教学理念和方法,模型在解题趣味性上也能进一步提高。

可以看到的是,学而思展现了场景玩家入局大模型的优势——

可以后发制人,谋定而后动,而且壁垒天然

Wolfram alpha之后,数学大模型

随着业内首个数学大模型的发布,有关大模型在数学领域的落地可以阶段性梳理,大致可以分为两个方向。

一方面,科研为核心的前沿探索。陶哲轩不止一次地透露大模型如何加入其工作流、辅助研究。

他让GPT-4针对论文提出问题来准备讲座;还让GPT-4生成数学证明,并发现过去阅读人类作品的经验完全不适用了。

对于AI在数学研究中的表现,他给出预言:

当与形式证明验证器、互联网搜索和数学符号包等工具整合时,2026年的AI,如果使用得当,将成为数学研究中值得信赖的共同作者,而且在许多其他领域也是如此。

事实上,在更多的科研领域,大模型也正在赋予这样的价值。学界教授也不止一次提出,大模型的幻觉不见得是坏事,可以给研究方向提供新思路。

另一方面,则是面向更广泛大众的普惠教育、基础教育提升。让大模型参与到学习数学、思考数学的过程当中去,帮助人们更好地解决数学问题。学而思MathGPT就是基于这样的初衷。

事实上,数学本身在各个领域中充当着一种基础能力,未来数学大模型也将能够以工具的形态,与更多行业产生关联。

在此之前,理工科神器Wolfram alpha,就是以这样的作用垂直风靡。

它颠覆了传统模式,创造了一种全新的知识搜索引擎。由于支持几何、数值以及符号式计算,并拥有强大的可视化功能,支持用户对上传的图片进行识别等一系列功能而受到推崇。目前已经支持包括数学、统计学、物理化学、材料学等近20个领域的查询、计算和分析。

而现在,随着大模型范式到来,Wolfram alpha一样的理工基础教育、科研的工具,也将面临革新浪潮。

至少MathGPT已经展现了这样的趋势,MathGPT正在实践这样的趋势。

而MathGPT,一定只是开始。你说呢?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
重庆“色贪女虎”落马:依靠美貌上位,与多名男下属发生不正当关系

重庆“色贪女虎”落马:依靠美貌上位,与多名男下属发生不正当关系

天闻地知
2024-05-29 09:27:17
“下辈子不来了”,评论区49万条评论,揭露中国人最深的隐痛

“下辈子不来了”,评论区49万条评论,揭露中国人最深的隐痛

第一心理
2024-04-26 18:30:09
3换8交易达成!哈登正式加盟快船!NBA最强四巨头诞生

3换8交易达成!哈登正式加盟快船!NBA最强四巨头诞生

齐鲁情视频呀
2024-05-29 05:09:28
长江一支流恶臭熏天、鱼虾死亡,当地干部: 没有必要做毒性分析,喝茅台也能喝死人

长江一支流恶臭熏天、鱼虾死亡,当地干部: 没有必要做毒性分析,喝茅台也能喝死人

封面新闻
2024-05-28 18:50:15
崩溃!大笔大笔的钱,都没了!这个深深深坑,坑惨沪上一大波人!多部门,出招了→

崩溃!大笔大笔的钱,都没了!这个深深深坑,坑惨沪上一大波人!多部门,出招了→

新民晚报
2024-05-28 19:23:35
险创历史!森林狼扳回一城 避免了分区决赛史上首次两组4-0

险创历史!森林狼扳回一城 避免了分区决赛史上首次两组4-0

直播吧
2024-05-29 11:50:08
社评:菲方抗议中国休渔期,不是对渔民负责

社评:菲方抗议中国休渔期,不是对渔民负责

环球网资讯
2024-05-29 00:21:10
狂降32万的保时捷,雷军危险了

狂降32万的保时捷,雷军危险了

品牌头版
2024-05-27 17:25:45
广州,基本全脱了

广州,基本全脱了

博闻财经
2024-05-28 19:18:36
【痛心】官方通报:均已确认身亡

【痛心】官方通报:均已确认身亡

粤深平台
2024-05-28 19:33:05
交易结束了!全靠詹姆斯影响力!湖人割爱3首轮,联盟都害怕他们

交易结束了!全靠詹姆斯影响力!湖人割爱3首轮,联盟都害怕他们

张家大院趣说天下事
2024-05-28 20:55:02
过于惨烈不宜公开?美国两个小时的台海推演拒绝公布结果!

过于惨烈不宜公开?美国两个小时的台海推演拒绝公布结果!

大叔小厨房呀
2024-05-28 23:42:19
霍启刚三兄弟罕同框,36岁霍启仁太帅气,穿搭看出和俩哥哥区别!

霍启刚三兄弟罕同框,36岁霍启仁太帅气,穿搭看出和俩哥哥区别!

独特的文史
2024-05-28 20:16:39
监管零容忍 |年内50多家企业收立案书,近四成次日股价跌停

监管零容忍 |年内50多家企业收立案书,近四成次日股价跌停

时代商学院
2024-05-28 16:04:17
曝拉爵确定曼联首签人选,欲4000万趁火打劫!马奎尔求见争取留队

曝拉爵确定曼联首签人选,欲4000万趁火打劫!马奎尔求见争取留队

罗米的曼联博客
2024-05-29 08:57:23
女红军用匕首削笔,被陈毅一眼发现,老总俯身耳语:这刀姓张吧?

女红军用匕首削笔,被陈毅一眼发现,老总俯身耳语:这刀姓张吧?

正史笔记
2024-05-28 18:41:19
这两个新闻连在一起看,简直让人窒息

这两个新闻连在一起看,简直让人窒息

顾礼先生
2024-05-14 16:42:44
转业“女虎”6年内靠勾引男人,爬到正厅级后被判

转业“女虎”6年内靠勾引男人,爬到正厅级后被判

天闻地知
2024-05-29 09:21:45
阿司匹林再添新用!JAMA最新:仅低剂量服用,能使肝脏脂肪减少10.2%、糖尿病风险降15%!

阿司匹林再添新用!JAMA最新:仅低剂量服用,能使肝脏脂肪减少10.2%、糖尿病风险降15%!

梅斯医学
2024-05-28 07:32:11
秦刚赞美夫人:她是很好的贤内助,以她的方式行事,最后都很顺利

秦刚赞美夫人:她是很好的贤内助,以她的方式行事,最后都很顺利

李昕言温度空间
2024-05-21 21:17:34
2024-05-29 12:04:49
量子位
量子位
追踪人工智能动态
9452文章数 175295关注度
往期回顾 全部

教育要闻

二项式分布和展开有关的竞赛试题,灵活度较大

头条要闻

官员"信口开河"拿茅台比方污水 简历从官网撤下

头条要闻

官员"信口开河"拿茅台比方污水 简历从官网撤下

体育要闻

阿根廷一代神锋,击碎了沙特的金元足球梦

娱乐要闻

张若昀怎么剧外比剧内更惨兮兮…

财经要闻

东方通收购藏雷 花6亿买来"业绩变脸"

科技要闻

比亚迪重磅发布:最高续航2500KM

汽车要闻

新哈弗H6苦练内功 向燃油车绝缘智能SAY NO

态度原创

教育
艺术
本地
公开课
军事航空

教育要闻

有点烧脑的竞赛题,勇敢试一试,解题非常容易!

艺术要闻

穿越时空的艺术:《马可·波罗》AI沉浸影片探索人类文明

本地新闻

食味印象|歙县限定!枇杷味儿的清甜初夏

公开课

近视只是视力差?小心并发症

军事要闻

以军装甲部队进入加沙地带南部城市拉法市中心

无障碍浏览 进入关怀版