网易首页 > 网易号 > 正文 申请入驻

学而思为什么从数学切入做大模型

0
分享至


4月27-28日,芥末堆在北京举办以“中行独复,教育重构科技”为主题的GET2024春季教育科技大会。在4月27日下午的主论坛中,学而思技术总监、MathGPT负责人白锦峰以《基于Verifier的九章大模型(MathGPT)业务落地应用》为题进行了内容分享。

白锦峰首先分享了学而思为什么从数学切入做大模型,其中一个主要原因是数学是攻克大语言模型技术难点的天然好场景。此外,白锦峰还分析了通用模型与垂类模型各自的困境、MathGPT的训练过程,以及MathGPT训练中遇到的困难。

白锦峰表示,“学而思将K12全科的评估集合公开给业内,期待共同推动教育大模型的进步。同时,我们也发表了大模型数学论文,希望促进教育技术进步。”

以下为演讲实录,经编辑:

我今天分享的题目是《基于Verifier的九章大模型(MathGPT)业务落地应用》。“Verifier”直译过来是“验证器”。我们都知道大模型有幻觉,当大模型应用于教育的时候,幻觉问题是一个核心卡点,因此我们需要通过一种方法解决它,而引入Verifier是可行方式之一。

众所周知,国内外做大模型的机构非常多,如果大家留心去看各家大模型的切入点,绝大部分都是从语言、对话切入,这是为什么呢?因为ChatGPT在语言方面表现出惊人的天赋,所以大家群起追随,但我们另辟蹊径,从数学切入。我们的大模型的中文名字是“九章大模型”,与《九章算术》里的“九章”一样,英文是“MathGPT”。

为什么是Math?

我们去年做MathGPT的时候,很多大模型领域的专家、学者以及领导过来,他们问的第一个问题是“为什么你们要做数学?”“大模型做数学这条路可行吗?”今天在这里回答一下我们为什么要做数学这个问题。


首先,做数学的出发点是利他。数学是大语言模型最弱的地方,有时候连简单的加减乘除都算不对,但孩子学数学非常重要,大模型也需要教,于是我们选择数学作为切入口。

而且,数学是攻克大语言模型天然好场景。ChatGPT火之前有一篇论文是这么说的,我们已经观察到大模型具有所谓的涌现能力,什么是“涌现”?当模型在做一个数学问题,以及8位数的加法,参数从百亿(10B)到千亿(100B)以上的大规模之后,这个能力突然开始出现,这就是“涌现”。

大模型里为什么会提到“涌现”?大模型任务已经非常复杂,复杂到了很多时候并不能以传统的分析学或分析解构的视角去思考,于是就有了“涌现”。

涌现这个词来自复杂科学,技术领域很少见,生命就是典型的复杂科学。 研究复杂科学的规律,实验素材的选择至关重要。孟德尔之所以能够发现遗传三定律,至关重要的原因是选择了豌豆,豌豆“闭花传粉,自花授粉”在有性生殖的物种中是一个特殊的存在。遗传底层的真相是父母基因的组合违反绝大部分人对遗传的直觉,也就是遗传底层是“量子化”的,而不是连续的。

回过头来说,数学是不是我们解决大模型里面的豌豆,是不是那个好场景?

大家都知道ChatGPT是通过预测下一个词来决定它如何学习。大模型现在唯一Work的第一性原理是:通过预测下一个词去Scale,站在语言模型的视角是合理的。那么,从数学的视角还合理吗?

举个例子,我们都知道高考会考填空题。如果做高考的填空题也是通过预测下一个词的方式,这显然有问题。为什么?因为即使考上清华、北大,或哈佛、耶鲁的学生,也没有可能看完一个题目之后,就填出答案,即使聪明的人类,也一定需要详细的思考步骤,才能解决问题。不是说前后词之间没有关系,而是不能直接预测出来。

还有大语言模型主要靠抓取互联网上的语料来预训练得到的,训练之后再做微调。这个过程乍一看挺对的,但仔细一想其实有问题。因为它假设了我们全部的知识都是线上化的。虽然互联网已经发展了20年,但还有很多知识没有完成线上化,一旦没有完成这个过程,大模型是不可能学会的。

仍然以数学为例。没有完成线上化过程的原因,有的是太难,有的是太容易。比如孩子会做很多的加减乘除算术题,但在网上很少看到这些题目,因为这样的过程在搜索、检索或信息获取的过程中不提供信息价值,但大模型需要这样的知识,孩子的练习也需要这样的知识。因此我们需要补上这些知识。

接下来是我们为什么做数学的第二个原因——使命。学而思于2003年成立时就是以数学起家。同时,数学还是人类思维能力提升的最重要的手段之一,严谨的逻辑思维推导过程是需要训练的,没有哪个孩子生下来就会。

第三点是方法。AlphaGeometry搞定了几何证明难题,这进一步印证我们选择大模型解决数学的可行性。数学难点在于联想能力,推导过程是其次的。生成式大模型最大的优势在于联想,所以用大模型做数学从方法上来说是可行的。虽然一开始的起点低,但是增长曲线有可能非常陡峭,可能比语言会更让人类惊艳。

综上,数学是攻克大模型技术的好场景。也是我们的立家之本,使命当为。AlphaGeometry的成功更进一步印证了大模型解决数学的潜力。


第二个问题,为什么要解决逻辑推理的思维能力和幻觉?因为无论是大模型还是人,整个学习过程都需要经历四个阶段:记忆、联想、推理和泛化。一个孩子最开始让大家感觉到他比较机智是因为这个孩子的记忆力很好,慢慢就会发现,这个孩子的联想能力很好,他可以联想到很多事,当上学之后,下一步他需要解决推理的严谨。幻觉是联想能力的副作用,没有联想就不会有幻觉。反过来说,只要联想能力够厉害,就一定会有幻觉。那么模型如何解决幻觉?

这就需要去检验模型输出的观点,检验分为两点:

第一,为观点找到事实依据

第二,逻辑自洽。

小孩子在成长过程中,也会经历一个“胡说八道”幻觉很重的阶段,解决方法同样是为自己的观点找到依据,同时让自己的观点逻辑自洽。为观点找到依据就需要Verifier,逻辑自洽就需要逻辑推理能力。

最后一个阶段是泛化。总体来说大模型的泛化应该要远远差于人类。以数学为例,即使一个孩子考到清华、北大,总共加起来最多做10万道题,但是即使到目前为止,大模型训练了100倍,训练过千万题,能力可能比人差得多。核心在于大模型的举一反三能力弱很多。如果这个层面有所突破,那么强人工智能就会出现。

目前,大模型已经解决了联想能力,下一步是如何把推理解决好,完成前三步,这个过程需要时间。

为什么是大模型?

人工智能发展了很久,但直到大模型诞生之后,大家觉得大模型很厉害,究竟厉害在什么地方?

核心1:从整合性到任务Scaling Law的“涌现”

  • 任务跟模型结构解绑是多任务整合的基础

  • 单任务超越GPT4意义有限,大规模复杂任务的整合性才是大模型的真正价值所在

  • 理想情况是多个任务具有协同与促进,下限是两个任务不冲突

核心2:从指令跟随准确率到自然语言编程

  • 高准确率的指令跟随是自然语言变成的必要条件

为什么是大模型和教育?

《乔布斯传》中提到,乔布斯2011年跟比尔盖茨会面讨论教育和未来学校的问题时,说了一个现象:“自21世纪,人类在科技上的迅速发展,几乎改变了所有的领域,为什么唯独在学校教育上,影响小的令人吃惊?”

人类天生对两个方面不可或缺,物质方面是水和能量;另外是人类不能或缺信息。

但是教育在信息之上,我们希望教育具有获取知识和获取智慧的目的。

但21世纪绝大部分的发展过程都在解决信息化、数字化,基本上没有涉及知识和智慧。大模型通过大规模的预训练,基本上是从知识切入的,所以有希望对教育做出改变。

论“通用模型”和“垂类模型”

目前在做模型的有两拨团队:做通用模型和做垂类模型的。通用和垂类的差别是什么?

通用模型的困境:如何评估模型的性能

  • 无论术语上如何强调通用,模型总是需要构建集合进行评估,集合一定总体的有偏采样

  • 即使建立了一个无偏采样集合,只要根据评测指导模型优化,那你就在偏向你观测的集合,潜台词是在牺牲你没有观察到。

垂类模型的困境:细分的边界如何确定

教育是一个垂类,还是文科、理科是一个垂类,亦或者作文是一个垂类?

总结一下:

  • 数学是大模型能力提升的一个好场景

  • 联想能力是目前生成AI的核心优势,幻觉是优势的副作用

  • 整合复杂任务,Prompt Engineering实现自然语言编程是大模型的核心

  • 大模型有可能在知识获取完成供给侧升级,让个性化教育成为可能

  • 面向行业的垂类模型长期都会很有价值

学而思自去年5月正式启动研发大模型,8月24日发布内测版的MathGPT官网,11月4日获批大模型牌照,今年2月在MathEval榜单的数学能力评测中登顶。

为什么是学而思来做?

为什么是学而思来做?有人会问,数学是好场景,你们有志去做,这条曲线可能确实比较陡峭,但为什么不是别家?

学而思来做数学大模型的原因是,目前我们公司的技术研发和教研人员超3000人,研发经费也很高。只有资源的大规模投入,才能保证将来的产出。


做大模型如何才能实现个性化教育?我们通过大模型与检索增强生成(RAG,Retrieval-augmented Generation)技术,使所有知识内容具有一致性。这个能力一边指向知识库,解决幻觉问题;另一边是用户画像库,解决个性化问题。

MathGPT的训练过程

MathGPT的训练过程包括预训练、有监督微调、强化学习三个阶段,其中最要强调的是强化学习。为什么说数学的曲线会比较陡峭?因为大部分的数学题都有答案,有答案就意味着我们能做大规模的仿真,能够仿真是做好强化学习的核心要素。


大模型学习数学的方式和一个孩子很像,孩子需要看大量的数学书自学;老师给孩子讲解标准的解体套路;之后孩子做多轮练习,老师批改反馈。对应这三个阶段,大模型先用海量的讲义、题库和教辅进行预训练;再通过大量步骤清晰的解题数据做有监督的微调;最后用奖励模型给解题结果以反馈。

MathGPT训练中的困难

刚刚说了很多好处,但MathGPT在训练中也遇到了困难。目前,大模型掌握一条定律方式只有通过大量的例子让它自己悟到。

以加法交换律a+b=b+a为例,我们告诉别人的时候,他可以听懂这个定律,但告诉模型不行,需要举1+2=2+1、3+5=5+3,甚至A+C=C+A等大规模的例子,大模型才能悟到这两个数字可以互换。目前模型没有办法接受概念(定律)的直接输入,只能通过一个个例子自己学会,这是大模型目前存在的问题。

刚刚提到九章大模型登顶MathEval榜单(https://matheval.ai/),评估的这些能力中的集合都有参考依据,整体评估下来我们目前排第一。

如何解决幻觉?

来看一道题目,王老师需要为40名学生购买足球,每个足球的价格是48元,王老师还需要为这些足球支付一定的运费,运费是每个足球价格的八分之一,王老师一共需要支付多少钱?

第一轮:式子列对了,48*40*1/8+48*40,但计算48*40算错了,算成2880了;第二轮:我们让它在犯错的这一步重新尝试,48*5+48*40=48*45,换了种方式,做对了,因为先算40*1/8更简单。

因此,如何让大模型和人做的效果一样呢?那就是让大模型做很多遍,每做一遍都检查步骤,如果做的答案都一样,并且步骤也对,我们就认为它大概是对的,做了N多遍之后,幻觉问题得到大幅度解决。

目前,我们累计生产了600多万道题目,答案正确率可以达到96%,解析优良率可以达到95%。试题生成成本降低为原来的十分之一。只有供给侧效率提高,才能解决教育的个性化问题。


评估一个孩子难,评估一个模型同样难,学而思将K12全科的评估集合公开给业内,期待共同推动教育大模型的进步。同时,我们也发表了大模型数学论文,希望促进教育技术进步。

扫码体验学而思九章大模型

  • 学而思
  • 教育
  • 数学


1、本文是 芥末堆网原创文章,转载可点击 芥末堆内容合作 了解详情,未经授权拒绝一切形式转载,违者必究;
2、芥末堆不接受通过公关费、车马费等任何形式发布失实文章,只呈现有价值的内容给读者;
3、如果你也从事教育,并希望被芥末堆报道,请您 填写信息告诉我们。

来源: 芥末堆

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
小米公司两位总经理涉贪腐被开除!

小米公司两位总经理涉贪腐被开除!

互联网坊间八卦
2024-06-15 17:51:11
影片中“强奸片段”的假戏真做了,这到底是艺术还是故意伤害?

影片中“强奸片段”的假戏真做了,这到底是艺术还是故意伤害?

综艺拼盘汇
2024-06-15 18:20:56
凯特王妃正式现身,阴谋论者哑口无言

凯特王妃正式现身,阴谋论者哑口无言

华人生活网
2024-06-16 00:37:31
媒体:曾表示不与共产党人共事的阿根廷总统将访华

媒体:曾表示不与共产党人共事的阿根廷总统将访华

俄罗斯卫星通讯社
2024-06-14 15:05:45
瞒不住了!3家中超俱乐部涉嫌行贿陈戌源,最重处罚降级解散

瞒不住了!3家中超俱乐部涉嫌行贿陈戌源,最重处罚降级解散

宝哥精彩赛事
2024-06-15 20:56:04
申花正式敲定夏窗5人离队名单,中超标王领衔,两人将驰援津门虎

申花正式敲定夏窗5人离队名单,中超标王领衔,两人将驰援津门虎

评球论事
2024-06-15 19:38:11
打的就是精锐!中国女排逆转土耳其女排,送巴西女排登顶世界第一

打的就是精锐!中国女排逆转土耳其女排,送巴西女排登顶世界第一

直播吧
2024-06-15 22:57:41
无锡再添一家上市公司,可惜上市首日破发,大跌超17%!

无锡再添一家上市公司,可惜上市首日破发,大跌超17%!

胡华成
2024-06-15 16:30:10
越是触碰女人这5个地方,女人越觉得舒服,男人要明白

越是触碰女人这5个地方,女人越觉得舒服,男人要明白

四象八卦
2024-06-15 14:27:38
广州当年的战略短视苦果,从放手东莞的那一刻就开始了!

广州当年的战略短视苦果,从放手东莞的那一刻就开始了!

元爸体育
2024-06-15 21:12:43
难怪58岁张居正死后全家暴毙,你看他生前都干了啥?连皇帝也得罪

难怪58岁张居正死后全家暴毙,你看他生前都干了啥?连皇帝也得罪

史笔似尘钩
2024-06-13 16:37:58
一边出口创新高,一边大量的企业迁离倒闭,工人失业,原因是什么

一边出口创新高,一边大量的企业迁离倒闭,工人失业,原因是什么

创作者朱海平
2024-06-15 13:18:49
22岁卡车司机,带45岁女人跑长途,两人最喜欢经过百里无人区

22岁卡车司机,带45岁女人跑长途,两人最喜欢经过百里无人区

牛城王小帅
2024-06-14 11:45:37
国足或提前晋级世界杯,抽签分组是形式主义,或被FIFA保送?

国足或提前晋级世界杯,抽签分组是形式主义,或被FIFA保送?

体坛狗哥
2024-06-15 10:37:56
F-16登场,留给侵略者耀武扬威的时间不多喽

F-16登场,留给侵略者耀武扬威的时间不多喽

临墨有余
2024-06-13 09:06:39
闹大了!邻居点蚊香致女子全家中毒!协商无果,已报警!评论炸锅

闹大了!邻居点蚊香致女子全家中毒!协商无果,已报警!评论炸锅

鬼谷子思维
2024-06-11 14:10:34
普京透露:近70万俄罗斯军人参与特别军事行动

普京透露:近70万俄罗斯军人参与特别军事行动

参考消息
2024-06-15 12:26:07
广东省人力资源和社会保障厅原二级巡视员刘正让被双开

广东省人力资源和社会保障厅原二级巡视员刘正让被双开

界面新闻
2024-06-15 09:06:21
罗斯人开始抛弃卢布,乌克兰愈战愈勇

罗斯人开始抛弃卢布,乌克兰愈战愈勇

非虚构故事
2024-06-13 13:28:47
大瓜!又有网友自曝给王思聪生孩子,称万达长孙,喊话不想再忍了

大瓜!又有网友自曝给王思聪生孩子,称万达长孙,喊话不想再忍了

拾娱先生
2024-06-15 22:05:08
2024-06-16 01:54:44
芥末堆看教育
芥末堆看教育
面向教育行业的专业新媒体
27378文章数 78090关注度
往期回顾 全部

教育要闻

剑南春2024高考专题报道

头条要闻

563支AI队伍和姜萍考同一份试卷:最高34分 都没进决赛

头条要闻

563支AI队伍和姜萍考同一份试卷:最高34分 都没进决赛

体育要闻

莱夫利,让困难为我让路

娱乐要闻

江宏杰秀儿女刺青,不怕刺激福原爱?

财经要闻

新情况!高层对人民币的态度180°转弯

科技要闻

TikTok开始找退路了?

汽车要闻

东风奕派eπ008售21.66万元 冰箱彩电都配齐

态度原创

旅游
游戏
时尚
手机
公开课

旅游要闻

如何文艺消夏?乌镇10大活动开启古镇消夏节

魂师对决:SP唐昊返场抽取价值分析!真身幻金真是一个都少不了!

艳压四方的刘亦菲,也没能赢她

手机要闻

小米澎湃OS再次公布进展通报:多项问题优化中,且全是内置应用!

公开课

近视只是视力差?小心并发症

无障碍浏览 进入关怀版