网易首页 > 网易号 > 正文 申请入驻

学而思为什么从数学切入做大模型

0
分享至

白锦峰首先分享了学而思为什么从数学切入做大模型,其中一个主要原因是数学是攻克大语言模型技术难点的天然好场景。此外,白锦峰还分析了通用模型与垂类模型各自的困境、MathGPT的训练过程,以及MathGPT训练中遇到的困难。

白锦峰表示,“学而思将K12全科的评估集合公开给业内,期待共同推动教育大模型的进步。同时,我们也发表了大模型数学论文,希望促进教育技术进步。”

以下为演讲实录,经编辑:

我今天分享的题目是《基于Verifier的九章大模型(MathGPT)业务落地应用》。“Verifier”直译过来是“验证器”。我们都知道大模型有幻觉,当大模型应用于教育的时候,幻觉问题是一个核心卡点,因此我们需要通过一种方法解决它,而引入Verifier是可行方式之一。

众所周知,国内外做大模型的机构非常多,如果大家留心去看各家大模型的切入点,绝大部分都是从语言、对话切入,这是为什么呢?因为ChatGPT在语言方面表现出惊人的天赋,所以大家群起追随,但我们另辟蹊径,从数学切入。我们的大模型的中文名字是“九章大模型”,与《九章算术》里的“九章”一样,英文是“MathGPT”。

为什么是Math?

我们去年做MathGPT的时候,很多大模型领域的专家、学者以及领导过来,他们问的第一个问题是“为什么你们要做数学?”“大模型做数学这条路可行吗?”今天在这里回答一下我们为什么要做数学这个问题。

首先,做数学的出发点是利他。数学是大语言模型最弱的地方,有时候连简单的加减乘除都算不对,但孩子学数学非常重要,大模型也需要教,于是我们选择数学作为切入口。

而且,数学是攻克大语言模型天然好场景。ChatGPT火之前有一篇论文是这么说的,我们已经观察到大模型具有所谓的涌现能力,什么是“涌现”?当模型在做一个数学问题,以及8位数的加法,参数从百亿(10B)到千亿(100B)以上的大规模之后,这个能力突然开始出现,这就是“涌现”。

大模型里为什么会提到“涌现”?大模型任务已经非常复杂,复杂到了很多时候并不能以传统的分析学或分析解构的视角去思考,于是就有了“涌现”。

涌现这个词来自复杂科学,技术领域很少见,生命就是典型的复杂科学。 研究复杂科学的规律,实验素材的选择至关重要。孟德尔之所以能够发现遗传三定律,至关重要的原因是选择了豌豆,豌豆“闭花传粉,自花授粉”在有性生殖的物种中是一个特殊的存在。遗传底层的真相是父母基因的组合违反绝大部分人对遗传的直觉,也就是遗传底层是“量子化”的,而不是连续的。

回过头来说,数学是不是我们解决大模型里面的豌豆,是不是那个好场景?

大家都知道ChatGPT是通过预测下一个词来决定它如何学习。大模型现在唯一Work的第一性原理是:通过预测下一个词去Scale,站在语言模型的视角是合理的。那么,从数学的视角还合理吗?

举个例子,我们都知道高考会考填空题。如果做高考的填空题也是通过预测下一个词的方式,这显然有问题。为什么?因为即使考上清华、北大,或哈佛、耶鲁的学生,也没有可能看完一个题目之后,就填出答案,即使聪明的人类,也一定需要详细的思考步骤,才能解决问题。不是说前后词之间没有关系,而是不能直接预测出来。

还有大语言模型主要靠抓取互联网上的语料来预训练得到的,训练之后再做微调。这个过程乍一看挺对的,但仔细一想其实有问题。因为它假设了我们全部的知识都是线上化的。虽然互联网已经发展了20年,但还有很多知识没有完成线上化,一旦没有完成这个过程,大模型是不可能学会的。

仍然以数学为例。没有完成线上化过程的原因,有的是太难,有的是太容易。比如孩子会做很多的加减乘除算术题,但在网上很少看到这些题目,因为这样的过程在搜索、检索或信息获取的过程中不提供信息价值,但大模型需要这样的知识,孩子的练习也需要这样的知识。因此我们需要补上这些知识。

接下来是我们为什么做数学的第二个原因——使命。学而思于2003年成立时就是以数学起家。同时,数学还是人类思维能力提升的最重要的手段之一,严谨的逻辑思维推导过程是需要训练的,没有哪个孩子生下来就会。

第三点是方法。AlphaGeometry搞定了几何证明难题,这进一步印证我们选择大模型解决数学的可行性。数学难点在于联想能力,推导过程是其次的。生成式大模型最大的优势在于联想,所以用大模型做数学从方法上来说是可行的。虽然一开始的起点低,但是增长曲线有可能非常陡峭,可能比语言会更让人类惊艳。

综上,数学是攻克大模型技术的好场景。也是我们的立家之本,使命当为。AlphaGeometry的成功更进一步印证了大模型解决数学的潜力。

第二个问题,为什么要解决逻辑推理的思维能力和幻觉?因为无论是大模型还是人,整个学习过程都需要经历四个阶段:记忆、联想、推理和泛化。一个孩子最开始让大家感觉到他比较机智是因为这个孩子的记忆力很好,慢慢就会发现,这个孩子的联想能力很好,他可以联想到很多事,当上学之后,下一步他需要解决推理的严谨。幻觉是联想能力的副作用,没有联想就不会有幻觉。反过来说,只要联想能力够厉害,就一定会有幻觉。那么模型如何解决幻觉?

这就需要去检验模型输出的观点,检验分为两点:

第一,为观点找到事实依据

第二,逻辑自洽。

小孩子在成长过程中,也会经历一个“胡说八道”幻觉很重的阶段,解决方法同样是为自己的观点找到依据,同时让自己的观点逻辑自洽。为观点找到依据就需要Verifier,逻辑自洽就需要逻辑推理能力。

最后一个阶段是泛化。总体来说大模型的泛化应该要远远差于人类。以数学为例,即使一个孩子考到清华、北大,总共加起来最多做10万道题,但是即使到目前为止,大模型训练了100倍,训练过千万题,能力可能比人差得多。核心在于大模型的举一反三能力弱很多。如果这个层面有所突破,那么强人工智能就会出现。

目前,大模型已经解决了联想能力,下一步是如何把推理解决好,完成前三步,这个过程需要时间。

为什么是大模型?

人工智能发展了很久,但直到大模型诞生之后,大家觉得大模型很厉害,究竟厉害在什么地方?

核心1:从整合性到任务Scaling Law的“涌现”

  • 任务跟模型结构解绑是多任务整合的基础

  • 单任务超越GPT4意义有限,大规模复杂任务的整合性才是大模型的真正价值所在

  • 理想情况是多个任务具有协同与促进,下限是两个任务不冲突

核心2:从指令跟随准确率到自然语言编程

  • 高准确率的指令跟随是自然语言变成的必要条件

为什么是大模型和教育?

《乔布斯传》中提到,乔布斯2011年跟比尔盖茨会面讨论教育和未来学校的问题时,说了一个现象:“自21世纪,人类在科技上的迅速发展,几乎改变了所有的领域,为什么唯独在学校教育上,影响小的令人吃惊?”

人类天生对两个方面不可或缺,物质方面是水和能量;另外是人类不能或缺信息。

但是教育在信息之上,我们希望教育具有获取知识和获取智慧的目的。

但21世纪绝大部分的发展过程都在解决信息化、数字化,基本上没有涉及知识和智慧。大模型通过大规模的预训练,基本上是从知识切入的,所以有希望对教育做出改变。

论“通用模型”和“垂类模型”

目前在做模型的有两拨团队:做通用模型和做垂类模型的。通用和垂类的差别是什么?

通用模型的困境:如何评估模型的性能

  • 无论术语上如何强调通用,模型总是需要构建集合进行评估,集合一定总体的有偏采样

  • 即使建立了一个无偏采样集合,只要根据评测指导模型优化,那你就在偏向你观测的集合,潜台词是在牺牲你没有观察到。

垂类模型的困境:细分的边界如何确定

教育是一个垂类,还是文科、理科是一个垂类,亦或者作文是一个垂类?

总结一下:

  • 数学是大模型能力提升的一个好场景

  • 联想能力是目前生成AI的核心优势,幻觉是优势的副作用

  • 整合复杂任务,Prompt Engineering实现自然语言编程是大模型的核心

  • 大模型有可能在知识获取完成供给侧升级,让个性化教育成为可能

  • 面向行业的垂类模型长期都会很有价值

学而思自去年5月正式启动研发大模型,8月24日发布内测版的MathGPT官网,11月4日获批大模型牌照,今年2月在MathEval榜单的数学能力评测中登顶。

为什么是学而思来做?

为什么是学而思来做?有人会问,数学是好场景,你们有志去做,这条曲线可能确实比较陡峭,但为什么不是别家?

学而思来做数学大模型的原因是,目前我们公司的技术研发和教研人员超3000人,研发经费也很高。只有资源的大规模投入,才能保证将来的产出。

做大模型如何才能实现个性化教育?我们通过大模型与检索增强生成(RAG,Retrieval-augmented Generation)技术,使所有知识内容具有一致性。这个能力一边指向知识库,解决幻觉问题;另一边是用户画像库,解决个性化问题。

MathGPT的训练过程

MathGPT的训练过程包括预训练、有监督微调、强化学习三个阶段,其中最要强调的是强化学习。为什么说数学的曲线会比较陡峭?因为大部分的数学题都有答案,有答案就意味着我们能做大规模的仿真,能够仿真是做好强化学习的核心要素。

大模型学习数学的方式和一个孩子很像,孩子需要看大量的数学书自学;老师给孩子讲解标准的解体套路;之后孩子做多轮练习,老师批改反馈。对应这三个阶段,大模型先用海量的讲义、题库和教辅进行预训练;再通过大量步骤清晰的解题数据做有监督的微调;最后用奖励模型给解题结果以反馈。

MathGPT训练中的困难

刚刚说了很多好处,但MathGPT在训练中也遇到了困难。目前,大模型掌握一条定律方式只有通过大量的例子让它自己悟到。

以加法交换律a+b=b+a为例,我们告诉别人的时候,他可以听懂这个定律,但告诉模型不行,需要举1+2=2+1、3+5=5+3,甚至A+C=C+A等大规模的例子,大模型才能悟到这两个数字可以互换。目前模型没有办法接受概念(定律)的直接输入,只能通过一个个例子自己学会,这是大模型目前存在的问题。

刚刚提到九章大模型登顶MathEval榜单(https://matheval.ai/),评估的这些能力中的集合都有参考依据,整体评估下来我们目前排第一。

如何解决幻觉?

来看一道题目,王老师需要为40名学生购买足球,每个足球的价格是48元,王老师还需要为这些足球支付一定的运费,运费是每个足球价格的八分之一,王老师一共需要支付多少钱?

第一轮:式子列对了,48*40*1/8+48*40,但计算48*40算错了,算成2880了;第二轮:我们让它在犯错的这一步重新尝试,48*5+48*40=48*45,换了种方式,做对了,因为先算40*1/8更简单。

因此,如何让大模型和人做的效果一样呢?那就是让大模型做很多遍,每做一遍都检查步骤,如果做的答案都一样,并且步骤也对,我们就认为它大概是对的,做了N多遍之后,幻觉问题得到大幅度解决。

目前,我们累计生产了600多万道题目,答案正确率可以达到96%,解析优良率可以达到95%。试题生成成本降低为原来的十分之一。只有供给侧效率提高,才能解决教育的个性化问题。

扫码体验学而思九章大模型

  • 学而思
  • 教育
  • 数学


1、本文是 芥末堆网原创文章,转载可点击 芥末堆内容合作 了解详情,未经授权拒绝一切形式转载,违者必究;
2、芥末堆不接受通过公关费、车马费等任何形式发布失实文章,只呈现有价值的内容给读者;
3、如果你也从事教育,并希望被芥末堆报道,请您 填写信息告诉我们。

来源: 芥末堆

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
巴拿马真顶不住了,无声反制23天后,巴港口瘫痪,穆利诺悔不当初

巴拿马真顶不住了,无声反制23天后,巴港口瘫痪,穆利诺悔不当初

面包夹知识
2026-03-24 19:14:06
绍伊古一语惊人,俄罗斯悲剧或将到来,中国罕见闭口不谈

绍伊古一语惊人,俄罗斯悲剧或将到来,中国罕见闭口不谈

浪子阿邴聊体育
2026-03-23 12:59:10
39人落网!中方追回走私稀土,价值46个亿,美国砸重金收买内鬼

39人落网!中方追回走私稀土,价值46个亿,美国砸重金收买内鬼

阿凫爱吐槽
2026-03-24 03:53:45
国乒,要变天了。
别被蒯曼的外表骗了

国乒,要变天了。 别被蒯曼的外表骗了

小光侃娱乐
2026-03-25 04:20:03
中国中煤能源股份有限公司副总裁、中国煤炭销售运输有限责任公司原党委书记、执行董事张国秀接受纪律审查和监察调查

中国中煤能源股份有限公司副总裁、中国煤炭销售运输有限责任公司原党委书记、执行董事张国秀接受纪律审查和监察调查

界面新闻
2026-03-24 10:31:45
天塌了!阿森纳王牌伤缺 6 周,曼城争冠直接躺赢

天塌了!阿森纳王牌伤缺 6 周,曼城争冠直接躺赢

奶盖熊本熊
2026-03-25 03:02:57
包养10位情妇,睡觉翻牌生下11个私生子,75岁还在拼命生娃!

包养10位情妇,睡觉翻牌生下11个私生子,75岁还在拼命生娃!

来科点谱
2026-02-16 07:12:06
原来她是瞿颖母亲,今81岁精神饱满,与前夫离婚主动为他物色伴侣

原来她是瞿颖母亲,今81岁精神饱满,与前夫离婚主动为他物色伴侣

查尔菲的笔记
2026-03-24 14:39:37
土耳其站出来反对以色列,大量爱国者导弹已就绪,以色列要麻烦了

土耳其站出来反对以色列,大量爱国者导弹已就绪,以色列要麻烦了

音乐时光的娱乐
2026-03-24 18:37:02
现场尖叫拉扯!金溥聪带队闯马办,马英九基金会内讧闹大!

现场尖叫拉扯!金溥聪带队闯马办,马英九基金会内讧闹大!

达文西看世界
2026-03-24 19:50:27
德转预热法蒂身价更新:最高涨至2000万欧元

德转预热法蒂身价更新:最高涨至2000万欧元

懂球帝
2026-03-24 08:17:04
为什么我强烈建议成年人玩《荒野大镖客1》

为什么我强烈建议成年人玩《荒野大镖客1》

老端的观点
2026-03-21 22:51:45
黄晓明没用!叶珂直播带娃,女儿哭到晕无人管,黄妈眼里只有小海绵

黄晓明没用!叶珂直播带娃,女儿哭到晕无人管,黄妈眼里只有小海绵

八星人
2026-03-21 23:39:17
郝蕾太丰满,穿透视礼服都兜不住好身材,难怪网友这么喜欢她

郝蕾太丰满,穿透视礼服都兜不住好身材,难怪网友这么喜欢她

章眽八卦
2026-03-24 10:59:53
“最惨超女”黄雅莉:没工作没积蓄,34岁生子后住5平米的小屋

“最惨超女”黄雅莉:没工作没积蓄,34岁生子后住5平米的小屋

幽棠的趣式
2026-03-23 21:16:36
价格飙涨6000%!原研药集体撤离中国的影响,开始出现了...

价格飙涨6000%!原研药集体撤离中国的影响,开始出现了...

坠入二次元的海洋
2026-03-24 00:58:18
重磅升级!切尔西必须立刻解雇罗塞尼尔,锁定足坛顶级少帅

重磅升级!切尔西必须立刻解雇罗塞尼尔,锁定足坛顶级少帅

奶盖熊本熊
2026-03-25 02:31:54
华为全新智能绿水鬼正式发布!腕上高球教练仅需7999元

华为全新智能绿水鬼正式发布!腕上高球教练仅需7999元

雷科技
2026-03-23 17:20:39
湖南一位28岁女教师徐某,亲手把一手好牌打得稀烂

湖南一位28岁女教师徐某,亲手把一手好牌打得稀烂

叮当当科技
2026-03-24 15:46:58
章若楠曝《冬去春来》火爆后,请童蕾田雨出来聚会被拒,理由搞笑

章若楠曝《冬去春来》火爆后,请童蕾田雨出来聚会被拒,理由搞笑

娱最资讯
2026-03-23 20:51:38
2026-03-25 05:19:00
芥末堆看教育 incentive-icons
芥末堆看教育
面向教育行业的专业新媒体
28256文章数 78212关注度
往期回顾 全部

教育要闻

昨晚接到学生求救:这题太难了!

头条要闻

张雪峰去世 猝死前身体的3个求救信号别忽视

头条要闻

张雪峰去世 猝死前身体的3个求救信号别忽视

体育要闻

NBA最强左手射手,是个右撇子

娱乐要闻

张雪峰经抢救无效不幸去世 年仅41岁

财经要闻

特朗普再TACO 可以押注伊朗局势降级?

科技要闻

年仅41岁,教育名师张雪峰猝然离世

汽车要闻

尚界Z7双车预售22.98万起 问界M6预售26.98万起

态度原创

游戏
教育
房产
旅游
艺术

余霜管泽元官宣怀孕!“小队新成员” 来了

教育要闻

圣母大学,访问顶级211

房产要闻

北上广深二手房集体回暖!三月小阳春行情全面兑现

旅游要闻

联袂演绎江南风华,浦东多个古镇将集中亮相2026上海旅游产业博览会

艺术要闻

300米!非洲最高全钢混住宅,中国建造又破纪录!

无障碍浏览 进入关怀版