网易首页 > 网易号 > 正文 申请入驻

清华十大才女宋晓东教授团队新作,教语言模型更会做数学题

0
分享至

新智元报道

来源:外媒

编辑:yaxin, LQ

【新智元导读】GPT-3很强大?但做数学题不行。最新研究表明,当GPT-3面对一个包含1.3万道数学题的数据集时,它的完成度远达不到10%. 那么如何提高语言模型的解题能力?加州大学伯克利分校最新的一项研究提供了新思路。

数学是人类科学的基础。

我们在模拟行星轨道、原子运动、信号频率、蛋白质折叠等活动中都离不开数学。

即便今天最先进的机器学习模型也难以正确解决大量的数学问题。

加州大学伯克利分校的研究人员发表的一项新研究发现,包括OpenAI的GPT-3在内的大型语言模型在包含12500多道数学题的数据集中只能完成2.9%—6.9%的问题。

论文作者认为,「新的算法进步可能需要给予模型更强的解决问题的技能。」

语言模型解决数学问题

先前的研究已经证明了人工智能对数学概念的牢固掌握是非常有用的。

例如,OpenAI最近引入的GPT-f就很好地阐明了这个问题。

与GPT-3类似,最新推出的GPT-f同样是基于Transformer的语言模型。

该语言模型为 Metamath 形式化语言提供了自动证明器和证明助理(Proof Assistant)两个部分,目标是解决自动定理证明(ATP)的问题。

这项研究成果表明,GPT-f 能够产出新的简短命题证明,这些证明已被 Metamath 数学库接受。

这是第一次一个基于机器学习的系统提供的证明被一个正式的数学社区所采用。

除此之外,Facebook也声称已经成功地进行了人工智能算法的数学求解实验。

在去年1月的一篇博文中,该公司的研究人员表示,他们已经教会了一个模型,将复杂的数学方程视为一种语言,然后将解决方案视为翻译问题。

加州大学伯克利分校的研究人员认为,虽然大型语言模型解决了大多数其他基于文本的任务,但是数学却截然不同,其准确性正在缓慢提高。

如果按照这种趋势继续下去,社区将需要找到概念和算法上的突破,以获得强大的数学表现。

「考虑到数学的广泛性和适用性,用机器学习解决数学数据集将具有深远的意义。」

全新开源数据集MATH和AMPS

为了测量大型通用语言模型的解题能力,研究人员创建了MATH数据集,其中包括12500道高中数学竞赛的题目。对于 MATH所出的题,语言模型必须生成一个序列来揭示最终答案。

MATH数据集的数学题目与DeepMind的数学数据集和Metamath模块的数学题目的比较(图源: MATH)

MATH的数学题按难度从1到5划分,涵盖7个学科:几何、代数、微积分、统计学、线性代数和数论。

它们还提供了分步解决方案,这样语言模型就可以学习回答他们以前从未见过的新问题。

训练数学基本原理的模型要求研究人员创建一个单独的数据集,包含数十万个常见数学问题的解题方法。

第二个数据集是「Auxiliary Mathematics Problems and Solutions」(AMPS) ,其中包括「可汗学院」提供的10万多个题目和解题方法,以及使用基于100个手工设计模块的Mathematica脚本生成的500多万道题。AMPS数据集总共包含23GB的内容。

非盈利教育机构可汗学院

正如研究人员解释的那样,数据集的分步解决方案允许语言模型像人类数学家那样使用「涂销空间」。

模型不需要马上得到正确答案,而是可以先在部分解题方法中「展示他们的工作」,再逐步走向正确的答案。

MATH数据集给定部分解法的准确率

以题目的大部分步解法为条件的模型往往可以通过理解解法来预测最终答案。'99%'的解法是指最终答案之前的所有解法文本。并不是所有的解题方法都有一个答案,都可以直接从前面的解题文本中找到。

即使有了这些解题方法,论文作者发现他们所测试的大型语言模型 (GPT-3及其前身GPT-2)的准确率仍然很低。让模型在生成答案之前生成自己的解题方案实际上降低了准确性,因为尽管许多步骤与题目相关,但它们是不合逻辑的。

此外,简单地增加训练时间和模型中的参数数量,有时可以提高性能,但事实证明这样做不仅代价很高而且并不实用。(在机器学习中,参数是变量,其值控制学习过程。)

在这种情况下,研究人员表明,分步解题方法仍然可以改善性能。特别是,在训练时提供解题方案模型大大提高了准确性,AMPS的预训练准确性提高了25%左右,相当于模型大小增加了15倍。

「尽管准确度很低,但模型显然拥有一些数学知识: 在最低难度级别上,它们可以达到15% 的准确率,而且即使不正确,它们也能够逐步生成连贯的、与主题相关的解题方案......与直接对问题和答案进行训练相比,对模型进行解题方案的训练相对准确性可以提高10%.

目前两个数据集MATH和AMPS都已开源,再加上DeepMind的数学数据集,这将进一步这方面的研究。

作者介绍

个人主页:https://people.eecs.berkeley.edu/~hendrycks/

本论文的一作Dan Hendrycks是加州大学伯克利分校计算机科学专业的三年级博士生,导师是Dawn Song(宋晓东)和Jacob Steinhardt,两位导师也是本论文的作者之一。

Hendrycks的研究方向是安全可靠的机器学习,他曾获得美国国家科学基金会GRFP(Graduate Research Fellowship Program)奖学金,研究成果包括激活函数GELU,分布外检测基准和分布偏移基准。

该论文的另一名作者宋晓东,是美籍华人学者,现任加州大学伯克利分校电气工程与计算机科学系教授。

她的研究集中在计算机安全、机器学习和区块链。

宋晓东教授还被称为「计算机安全教母」,2019年,她因「对安全和隐私的贡献」而被选为ACM研究员。

另外她还是区块链云计算提供商绿洲实验室(Oasis Labs)创始人兼CEO,致力于打造区块链上隐私性第一、高性能的云计算平台。

1996年获得清华大学学士学位,1999年获得卡内基梅隆大学学士学位,2002年获得加州大学伯克利分校博士学位。

在2007年加入加州大学伯克利分校之前,她在卡内基梅隆大学做助理教授(2002-2007)。

宋晓东教授曾获得多项大奖,包括斯隆研究奖、 美国国家科学基金会职业奖(CAREER Award)、 IBM杰出学者奖(Faculty Award)、古根海姆奖、麦克阿瑟基金会奖学金,2009年,《麻省理工科技评论》的TR35将她列为全球35岁以下创新者之一。

参考资料:

https://venturebeat.com/2021/03/09/researchers-find-that-large-language-models-struggle-with-math/

https://arxiv.org/pdf/2103.03874.pdf

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
多邻国股价盘前下跌13.4%

多邻国股价盘前下跌13.4%

每日经济新闻
2026-05-05 16:15:05
3-3!曼城绝平却交出争冠命门:格伊致命短路,瓜帅体系现死穴!

3-3!曼城绝平却交出争冠命门:格伊致命短路,瓜帅体系现死穴!

落夜足球
2026-05-05 15:40:58
央视官宣歼-35新机0001,出口版“首机”亮相

央视官宣歼-35新机0001,出口版“首机”亮相

世家宝
2026-05-03 20:49:57
上海富商花2000万,让情人生3个孩子,2019年后得知娃都不是他的

上海富商花2000万,让情人生3个孩子,2019年后得知娃都不是他的

汉史趣闻
2026-04-24 18:35:46
紫牛热点 | 夫妻入住千元帐篷民宿险遭陌生男子入室,酒店回应:深表歉意,已加装门锁

紫牛热点 | 夫妻入住千元帐篷民宿险遭陌生男子入室,酒店回应:深表歉意,已加装门锁

扬子晚报
2026-05-04 21:13:40
荒唐的斯威士兰:集中10万少女贡献国王选妃,国民平均寿命35岁

荒唐的斯威士兰:集中10万少女贡献国王选妃,国民平均寿命35岁

春秋砚
2026-04-25 17:15:06
五一假期超燃画面!火箭军展示护国利器,10枚弹道导弹震撼起竖

五一假期超燃画面!火箭军展示护国利器,10枚弹道导弹震撼起竖

谛听骨语本尊
2026-05-05 16:50:24
为什么女教师成了单身女的最重灾区?网友剖析一针见血,我明白了

为什么女教师成了单身女的最重灾区?网友剖析一针见血,我明白了

夜深爱杂谈
2026-04-27 22:11:39
51岁女子包养24岁男孩,嫌男孩不行被杀,2014年男孩说她索取无度

51岁女子包养24岁男孩,嫌男孩不行被杀,2014年男孩说她索取无度

汉史趣闻
2026-05-05 11:40:36
取消所有航班!突然宣布:停止运营!伊朗局势重大冲击!

取消所有航班!突然宣布:停止运营!伊朗局势重大冲击!

中国能源网
2026-05-03 11:47:04
陈坤、黄晓明接连发文,赵薇罕见露面,原来她还有一条“退路”

陈坤、黄晓明接连发文,赵薇罕见露面,原来她还有一条“退路”

八斗小先生
2026-05-04 10:45:07
25年恩爱抵不过残忍现实,76岁张艺谋年老色衰,44岁陈婷花样年华

25年恩爱抵不过残忍现实,76岁张艺谋年老色衰,44岁陈婷花样年华

兴史兴谈
2026-05-05 02:42:55
网友上海麦当劳点餐,发现里面坐满了化妆女子,香水味非常刺鼻

网友上海麦当劳点餐,发现里面坐满了化妆女子,香水味非常刺鼻

映射生活的身影
2026-05-04 17:24:14
政府200亿挽留失败,ASML光刻机巨头坚持迁离荷兰

政府200亿挽留失败,ASML光刻机巨头坚持迁离荷兰

璀璨明星
2026-05-04 01:00:04
浏阳烟花圈水有多深?法人未必是老板,胡正平身份耐人寻味

浏阳烟花圈水有多深?法人未必是老板,胡正平身份耐人寻味

观星赏月
2026-05-05 12:39:33
中方在联合国点名日本,呼吁国际社会警惕其涉核消极动向,警告东京将很快具备制造核武器的能力

中方在联合国点名日本,呼吁国际社会警惕其涉核消极动向,警告东京将很快具备制造核武器的能力

极目新闻
2026-05-05 13:09:19
马刺两大败因出炉,文班看清现实!福克斯难堪大任,华子承认错误

马刺两大败因出炉,文班看清现实!福克斯难堪大任,华子承认错误

鱼崖大话篮球
2026-05-05 13:38:12
王鸥的脚真漂亮

王鸥的脚真漂亮

喜欢历史的阿繁
2026-05-01 18:21:52
抢走王朔,睡遍京圈,定居国外9年的“坏种”徐静蕾,成最终赢家

抢走王朔,睡遍京圈,定居国外9年的“坏种”徐静蕾,成最终赢家

日落于西
2026-04-15 16:04:57
庄增大任青岛市政府党组成员

庄增大任青岛市政府党组成员

中国山东网
2026-05-05 17:01:58
2026-05-05 17:35:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15135文章数 66835关注度
往期回顾 全部

教育要闻

新校长上任三件事:带头干、陪到底、敢担当

头条要闻

伊朗警告阿联酋:勿当以色列棋子 否则将得到难忘教训

头条要闻

伊朗警告阿联酋:勿当以色列棋子 否则将得到难忘教训

体育要闻

全世界都等着看他笑话,他带国米拿下冠军

娱乐要闻

英皇25周年演唱会 张敬轩被救护车拉走

财经要闻

五一假期,中国年轻人的“首尔病”犯了

科技要闻

传苹果考虑让英特尔、三星代工设备处理器

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

教育
亲子
艺术
公开课
军事航空

教育要闻

语法第3课(上)-英文造句的被动结构

亲子要闻

吃糖对孩子的危害不只是牙齿!家长一定要注意

艺术要闻

有多少人知道,它曾是亚洲第一高楼?

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普威胁伊朗不要向美国船开火

无障碍浏览 进入关怀版