网易首页 > 网易号 > 正文 申请入驻

AI做题不止高数!Google新模型Minerva称霸工科竞赛:秘诀竟是保留LaTeX表达式?

0
分享至


新智元报道

编辑:LRS

【新智元导读】Google的新语言模型Minerva将AI做数学题的水平抬到新高度,而且工科领域如天文、几何、代数、机器学习统统不在话下。

用学「语文」的脑子能学好「数学」吗?


从Bert开始,到GPT-3, Gopher和PaLM,大型语言模型在各个自然语言处理任务上不断刷新成绩,创作个小作文、聊个天、写个代码都不在话下,可以说语言模型在大规模数据集下的自监督训练下已经能很好地模拟人类的语言能力了。

但定量推理(Quantitative Reasoning),也就是解决数学问题上,AI模型跟人类比还是有相当大的差距。

如果把「数学问题」作为文本输入,答案作为输出,也就只能解决一些小学数学的应用题,至于大学数学以及其他的科学和工程问题,语言模型只会「胡言乱语」。

MIT之前剑走偏锋,把「问题」作为输入,「程序代码」作为输出,基于OpenAI Codex预训练模型,借助Python解释器,在七门大学数学课程上通过few-shot learning成功达到81%的正确率。

最近Google也发布了一个基于PaLM语言模型的求解器

,在不借助外部工具的情况下取得了sota的结果。


论文链接:https://storage.googleapis.com/minerva-paper/minerva_paper.pdf

演示链接:https://minerva-demo.github.io/

Minerva最主要的改进点在于微调的数据集。

研究人员首先在arXiv服务器上下载了200万篇用LaTex排版的科学论文(截至2021年2月),在删掉那些内容不足75000个token的论文后,最后得到了120万篇论文,共计58GB

第二个数据渠道来自网页,先收集HTML中包含「

标准的数据清洗过程通常都是把符号和数学表达式给删掉,导致E=mc^2给转成了E=mc2,语义就变了。在保留LaTex数学公式后,模型在那些要求计算和符号操作的任务上性能得到显著提高。


最终的训练数据连带自然语言文本和数学公式在内总共包含了385亿个token。


Minerva的训练基于三个不同尺寸的PaLM模型。


Minerva生成答案的过程使用了Chain of Thought方法来提示模型step-by-step地解决问题。


另一个技术是Majority Voting,在回答一个问题时虽然答案相同,但推理过程可能不同,Minerva通过从所有可能的输出中随机抽样来产生多个解决方案,然后对结果进行投票,把出现次数最多的结果作为最终的答案。

在评估阶段,使用了三个数据集:

MATH: 高中数学竞赛水平,包括12000个初中和高中的数学问题,问题描述使用LaTex

GSM8k: 小学级别的数学问题,包括基本的算术运算。

MMLU-STEM: 大规模多任务语言理解基准的一个子集,涵盖高中和大学水平的工程、化学、数学和物理等多个学科

实验结果直接把基线抬高一个层次,MATH的sota直接从6.9提高到50.3,而MMLU-STEM也有大幅提升。


解决这几个「简单的」数据集之后,Minerva又把目标对准本科生水平的STEM问题(OCWCourses),研究人员根据MIT提供的公开课程材料(OpenCourseWare)中,在「固态化学」、「信息与熵」、「微分方程」和「狭义相对论」等课程中收集了272个问题,其中191个有数字解,81个有符号解,最终正确率达到30.8%


除此之外,Minerva 62B还参加了一次「波兰的全国数学考试」,最后得分57,正好是2021年的全国平均分;而540B的模型最终成绩为65分。

比如说几何体,尽管模型从来没有「看见」过立方体,但它仍然能通过公式计算出表面积。


虽然Minerva的性能已经很强了,但它仍然做错了很多题目,通过分析结果可以发现,大约一半的错误是因为计算错误,另一半是推理错误,也就是解题步骤跳跃了,没有遵循思维链。


下面这个例子就是个计算错误,把式子里的根号给消了(难不成是通过其他数学公式推理出来的消根号)


推理错误的例子里,模型的推理链只有一次,实际上应该进行5次。


而且有的Minerva做对的题目也没有完全正确,有的步骤错了,但结果正确,这种情况称为False Positive,假阳率大概是8%

Minerva的这种方法也存在局限性,定量推理没有以形式化的数学公式为基础,而是采用自然语言和LaTeX数学表达式的组合来解析问题和生成答案,没有明确的基础数学结构。

最重要的是,模型生成的答案没法自动验证,即使最终答案的只是一个数值或者符号,可以通过匹配字符来验证,模型也可以通过不正确的推理步骤得出最终的正确答案。如果不是人来阅卷的话,很难发现其中的端倪。而这种限制在定理证明的形式化方法中是不存在的。

不过非形式化方法的一个优点是它可以应用于比较灵活、不适合形式化描述的问题。

Minerva还公开了模型的输入样例和预测结果,包括物理、生物、化学、天文学、机器学习等多个领域。


下面是几道「机器学习」的问题。

以下哪一项是修剪决策树的主要原因?

A. 减少测试时的计算时间

B. 节省保存决策树的空间

C. 在训练集上的错误率更低

D. 避免在训练集上过拟合


模型返回的答案为「决策树剪枝是为了防止在训练集过拟合」,所以答案为D

还有一些概念上的题目:out-of-distribtion detection换种说法叫什么?

A. 异常检测

B. One-Class检测

C. train-test 失配稳健性

D. 背景检测


模型返回的答案为「Out-of-distribution检测任务就是找出那些不属于任何一个训练类别的样例,也称为异常检测」

不过稍难一些、不是很直观的题来说,模型还是很难回答正确,比如问题是:在指定数据集上构建一个线性回归模型,发现有一个特征的权重系数值有一个很高的负值,说明什么?

A. 该特征对模型有很强的影响(应该保留)

B. 该特征对模型没什么影响(应该删除)

C. 没有额外信息的话很难知道该特征的重要性

D. 什么也无法确定


模型返回的答案为「该特征对模型有一个负面影响」,所以答案为B,但实际上答案为C

要是这些题当面试题,你能答对吗?

参考资料:

http://ai.googleblog.com/2022/06/minerva-solving-quantitative-reasoning.html

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
秋天最该吃的不是南瓜,而是它,我早餐宵夜都要吃,10分钟就出锅

秋天最该吃的不是南瓜,而是它,我早餐宵夜都要吃,10分钟就出锅

家尤菜菜
2022-10-04 12:55:18
欧足联主席确认,上赛季罗马的欧会杯决赛,比欧联杯更受球迷欢迎

欧足联主席确认,上赛季罗马的欧会杯决赛,比欧联杯更受球迷欢迎

福酱侃球
2022-10-04 12:53:09
陈萌陪嫁礼单出炉,看看大衣哥给了多少彩礼?

陈萌陪嫁礼单出炉,看看大衣哥给了多少彩礼?

综艺贴士站
2022-10-04 15:05:11
部门聚餐,一位同事媳妇电话来查岗,女秘书挨着电话嗲嗲地说...

部门聚餐,一位同事媳妇电话来查岗,女秘书挨着电话嗲嗲地说...

娱乐计划儿
2022-10-04 10:09:04
江西男子在家请客,做了一大桌子海鲜,却被福建同事吐槽:白瞎了

江西男子在家请客,做了一大桌子海鲜,却被福建同事吐槽:白瞎了

三炮讲故事
2022-10-04 08:56:17
曝姚威已从单位辞职?田静直播称自己没有辞职,但愿带货不忘初心

曝姚威已从单位辞职?田静直播称自己没有辞职,但愿带货不忘初心

柠重
2022-10-04 16:11:18
我国中小学校将迎来“全面放权”,校长、老师、家长反应不一!

我国中小学校将迎来“全面放权”,校长、老师、家长反应不一!

请叫我教育君
2022-10-04 07:50:16
父亲离世留下破棉袄,女儿穿上进城,出城时却被6辆大奔团团围住

父亲离世留下破棉袄,女儿穿上进城,出城时却被6辆大奔团团围住

小鹿别乱撞
2022-10-03 08:00:02
周总理下令彻查害贺龙真凶,华国锋请示后续如何处置,总理:算了

周总理下令彻查害贺龙真凶,华国锋请示后续如何处置,总理:算了

兵家历史
2022-07-26 15:52:20
徐智胜得冠,只是笑果安排他得冠,跟王勉得冠一样

徐智胜得冠,只是笑果安排他得冠,跟王勉得冠一样

知了娱乐
2022-10-04 06:59:45
叶倩文,突然发文,令人泪目!!

叶倩文,突然发文,令人泪目!!

知了娱乐
2022-10-01 20:49:08
如果俄罗斯“豁出去”,对美国海底光缆下手…

如果俄罗斯“豁出去”,对美国海底光缆下手…

娱乐小美女啊
2022-10-04 00:46:19
乌克兰宣布“单方面关闭”

乌克兰宣布“单方面关闭”

北青网-北京青年报
2022-10-03 17:56:03
紧急公告!上海碧海金沙闭园3天;奉贤海湾三校深夜核酸,什么情况?官方回应→

紧急公告!上海碧海金沙闭园3天;奉贤海湾三校深夜核酸,什么情况?官方回应→

上观新闻
2022-10-04 14:12:58
辛吉飞爆料肯德徳麦当当的科技与狠活,炸鸡香味的秘密都在油里!少吃!

辛吉飞爆料肯德徳麦当当的科技与狠活,炸鸡香味的秘密都在油里!少吃!

美食与生活不可辜负
2022-10-04 04:18:00
伊朗议长称,他们要推翻政府

伊朗议长称,他们要推翻政府

陶白白文案馆
2022-10-04 13:12:58
2009年,迈克尔杰克逊死亡后,一张罕见的遗容

2009年,迈克尔杰克逊死亡后,一张罕见的遗容

历史图鉴
2022-10-04 01:14:24
外媒述评:中国发展成就足以令中国人自豪

外媒述评:中国发展成就足以令中国人自豪

参考消息
2022-10-04 10:25:06
陕西女子结婚陪嫁一辆绿色特斯拉,婚礼当天因刹车失灵掉下山坡

陕西女子结婚陪嫁一辆绿色特斯拉,婚礼当天因刹车失灵掉下山坡

大叔的mck
2022-10-03 20:21:55
赞同西方制裁中国,携全家隐居美国,前央视主持人柴静自毁前程

赞同西方制裁中国,携全家隐居美国,前央视主持人柴静自毁前程

旧日兮
2022-10-02 08:03:39
2022-10-04 18:06:44
新智元
新智元
AI产业主平台领航智能+时代
8701文章数 59737关注度
往期回顾 全部

科技要闻

诺奖新得主,有位中国高足

头条要闻

中方呼吁"个别主要会费大国":及时足额向联合国缴费

头条要闻

中方呼吁"个别主要会费大国":及时足额向联合国缴费

体育要闻

久违!小卡正式回归 开场就飙三分

娱乐要闻

陈妍希晒合影,儿子和陈晓如复制粘贴

财经要闻

汽车要闻

或命名M9 一汽奔腾全新MPV预计广州车展上市

态度原创

艺术
房产
家居
健康
教育

艺术要闻

中国画美在:神、情、意、趣!

房产要闻

国庆特惠③︱通州鑫苑「盛世天玺」推特价房源

家居要闻

特效设计师装103平美式复古宅 五颜六色还大气

好体态是什么样子的?

教育要闻

“我被美国大学招生官拉黑了”

进入关怀模式