网易首页 > 网易号 > 正文 申请入驻

北大GPT解题有数学老师内味了,用人话讲难题,从高中到高数都行

0
分享至

克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

北大团队教会AI把人话当编程语言用。

这下大语言模型(LLM)不光能做对数学题,而且解题过程你也能看懂!

数学,曾经是不知多少人学生时代的梦魇。但是现在,LLM或许可以帮你脱离苦海了。

用自然语言编程,本质就是描述步骤再执行,GPT3.5其实本来就会,但结果却不忍直视——往往包含不完整步骤甚至事实错误。

于是团队便提出了Learning to Program (LP)方法,让LLM从自然语言程序数据集中进行学习,并用学到的内容指导其推理过程。

具体来说,他们将一些高中数学问题和对应解题程序以自然语言形式灌输给GPT。

经过训练,ChatGPT具备了团队预期的解题能力。

在使用10个高中难度的数学问题进行的零样本测试中,LP加持后的LLM成绩显著提高。

这10个问题包括几何、代数和微积分,具体如下表所示:

可以看出,在每一项任务中,有LP加持的ChatGPT表现,无论是在零样本还是少样本测试中,均优于独立或自编程的版本。

对于第8类问题,LP加持版更是在少样本测试中取得了100分的成绩。

团队又将难度提高,测试其在(高等数学视角下的)中级代数(IA)、数论(NT)、几何、统计概率(CP)等方面的表现,结果均好于无加持的ChatGPT或仅有极小的差距。

当然,这些数据还不能证明LP训练在提高ChatGPT数学成绩当中的关联性。

于是团队使用一道几何问题,评估了ChatGPT在LP训练前、中、后三个阶段的表现。

结果显示,输出内容的正确率的确随着训练过程的进行在逐步提高。

在接下来的质量评价中,训练后的LLM可以给出多种通用性策略。

因此,团队认为,在今后的训练中,只需要将某一类问题的通用解法教给LLM。

有了通用方法,它们就可以举一反三,解决未知但性质相同的问题。

LP的训练过程是怎样的

LP训练的第一步,是要先准备出问题,以及对应的用自然语言编写出的程序,作为训练数据集。

这种自然语言程序不是具体的解题步骤,它们需要具有更强的通用性。

相应的,准备的问题也不是具体的,而是某一类问题。

既要简短明确,同时又要考虑到实际过程中所有可能出现的情况。

这些自然语言程序主要有三种来源:机器自生成、人工编写和经LP训练的LLM生成。

人工编写工作量过于庞大,LP训练已经是结果,所以实际使用的数据集主要来源于第一种途径。

有了训练数据,LLM便可以结合数据集中的问题,学习句子、段落和公式。

初步学习完成之后,就要让LLM进行预测,并与预设结果比较,计算误差。

同时,所有不符合预设正确结果的输出均被收集,构成了错误数据集。

错误数据集在之后的阶段也将作为LLM学习的内容,以避免再次出现同样的失误。

基于这些错误数据,研究人员让LLM对所提出的策略进行回溯,但又引发了新的问题:

一是出现了重复的解决方案需要移除,二是有些方案自身内容虽然没错,但与问题并不匹配。

最重要的第三点,是输入数据的长度会随着回溯的过程不断增加……

于是团队还需要对回溯数据进行压缩,并判断它们对LLM改正错误是否有帮助。

经过这一系列的处理,便可以将回溯数据作为训练样本,升级LLM程序了。

最终,升级后的程序经过检验,就可以使用了。

△举个例子:已知直角三角形两边,求某角正弦值

团队介绍

团队的领导者是北京大学王选计算机研究所博士生导师赵东岩研究员和微软亚洲研究院首席研究员段楠博士。

赵东岩2000年获得北大博士学位,主要研究方向为自然语言处理、大规模语义数据管理、基于知识的智能服务技术。

段楠博士毕业于天津大学,于2012年进入微软一直研究院,并在2018年6月晋升为首席研究员。

此外,他还多次担任NLP/AI学术会议程序主席,发表学术论文100余篇,持有专利20余项。

论文地址:https://arxiv.org/abs/2304.10464

参考链接:
[1]https://www.microsoft.com/en-us/research/people/nanduan/
[2]https://www.wict.pku.edu.cn/zhaodongyan/
[3]https://www.linkedin.com/in/nan-duan-322739a/details/experience/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
高市一刻也等不了了!一架专机飞抵中国,这次派的高官,很有讲究

高市一刻也等不了了!一架专机飞抵中国,这次派的高官,很有讲究

寻墨阁
2025-11-12 21:14:07
美媒预测24位全明星:世界队8人星光闪耀 美国队16人含诸多变数

美媒预测24位全明星:世界队8人星光闪耀 美国队16人含诸多变数

罗说NBA
2025-11-13 18:19:11
快报,快报  菲律宾正式宣布

快报,快报 菲律宾正式宣布

南权先生
2025-11-12 09:15:03
江苏对河南:是三个臭皮匠胜过诸葛亮,还是一个冬瓜胜过一筐茄子

江苏对河南:是三个臭皮匠胜过诸葛亮,还是一个冬瓜胜过一筐茄子

体育快递小哥哥
2025-11-13 18:32:31
什么是文明?看挪威富裕后如何对待自己的国民​

什么是文明?看挪威富裕后如何对待自己的国民​

深度报
2025-11-07 22:57:08
马云全面高调杀回来了

马云全面高调杀回来了

华尔街见闻官方
2025-11-12 21:19:17
挑衅!沈伯洋现身德国,叫嚷“来抓我啊”,大陆再出手,杀鸡儆猴

挑衅!沈伯洋现身德国,叫嚷“来抓我啊”,大陆再出手,杀鸡儆猴

南宫一二
2025-11-13 17:06:50
曾医生日常容颜,没有美颜的样子才是真实的

曾医生日常容颜,没有美颜的样子才是真实的

诗意世界
2025-11-12 20:52:54
王星军与关牧村离婚34年,一个与高官收获幸福,一个单身定居美国

王星军与关牧村离婚34年,一个与高官收获幸福,一个单身定居美国

白面书誏
2025-11-12 15:59:17
被辛芷蕾反击后,“一言不发”的郝蕾,终于不再顾忌所谓的体面

被辛芷蕾反击后,“一言不发”的郝蕾,终于不再顾忌所谓的体面

查尔菲的笔记
2025-11-11 21:06:46
爆大冷输越南!国足俊才颜面尽失,裁判多次留情,邵佳一仰天长叹

爆大冷输越南!国足俊才颜面尽失,裁判多次留情,邵佳一仰天长叹

话体坛
2025-11-12 22:13:16
我师专毕业分在县教育局,同桌分在乡下初中,退休时却是天壤之别

我师专毕业分在县教育局,同桌分在乡下初中,退休时却是天壤之别

辉哥说动漫
2025-11-13 09:43:07
朝鲜战争中,美军原本已接近击败中国,却碰上了志愿军决死的师长

朝鲜战争中,美军原本已接近击败中国,却碰上了志愿军决死的师长

知鉴明史
2025-11-09 17:15:03
日本摄影大赛一等奖作品疑是 AI 生成,作者承认没自己拍

日本摄影大赛一等奖作品疑是 AI 生成,作者承认没自己拍

IT之家
2025-11-12 22:16:08
二手房“抛售”愈演愈烈,业内人士:我们正在创造一个人类奇迹!

二手房“抛售”愈演愈烈,业内人士:我们正在创造一个人类奇迹!

猫叔东山再起
2025-11-13 13:00:03
被无数人吐槽的10个“蠢设计”,得知正确用法:哑巴不许当设计师

被无数人吐槽的10个“蠢设计”,得知正确用法:哑巴不许当设计师

Home范
2025-11-11 13:57:32
19岁男孩喝百草枯苦熬18天,逼外出打工母亲回家,母亲:你放心去

19岁男孩喝百草枯苦熬18天,逼外出打工母亲回家,母亲:你放心去

林子说事
2025-11-12 10:40:27
王鹤棣孟子义真要搭?书粉、演员粉、路人都沉默了

王鹤棣孟子义真要搭?书粉、演员粉、路人都沉默了

八卦三缺一
2025-11-13 15:34:32
彩票店老板谈“中奖1200万被骗光”:确有中奖但是否被骗不知,曾买新房|求真

彩票店老板谈“中奖1200万被骗光”:确有中奖但是否被骗不知,曾买新房|求真

红星新闻
2025-11-13 13:25:34
俄罗斯以每桶近20美元的全年最高折扣价出售石油,俄能源经济承压

俄罗斯以每桶近20美元的全年最高折扣价出售石油,俄能源经济承压

山河路口
2025-11-12 18:26:24
2025-11-13 19:11:00
量子位 incentive-icons
量子位
追踪人工智能动态
11666文章数 176329关注度
往期回顾 全部

科技要闻

深夜重磅!GPT-5.1发布,奥特曼大谈情商

头条要闻

谋划70余年 四川省内的重大水利工程要来了

头条要闻

谋划70余年 四川省内的重大水利工程要来了

体育要闻

保罗,看看你对马刺干的好事!

娱乐要闻

王鹤棣孟子义真要搭?

财经要闻

源峰25亿赌局!汉堡王中国"卖身"求生

汽车要闻

具备高阶辅助驾驶功能 欧拉5预售价10.98万起

态度原创

本地
教育
健康
房产
公开课

本地新闻

云游安徽 | 江声浩荡阅千年,文脉相承看芜湖

教育要闻

《2026秋招补录岗位表.xlsx》

血液科专家揭秘白血病七大误区

房产要闻

8200元/㎡!海口宝龙城,彻底杀疯了!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版