网易首页 > 网易号 > 正文 申请入驻

GPT-4计算能力差怎么破?把它当小学生,保证结果跟计算器一样准

0
分享至

丰色 发自 凹非寺
量子位 | 公众号 QbitAI

大语言模型的数学能力到底怎么破?

一位数学本科生发现:

实际上,咱们只需像一年级小学生一样教它们“掰着手指头算”,就能让它立马变身数学小能手。

比如像“34756918247632 + 7934619867453210082”这样的大数加法,任你丢给哪个大模型,即使强如GPT-4,都算不明白。

但如果你按照他说的做,保证结果跟用计算器摁出来的一模一样

具体怎么操作?

像小学生一样教GPT-4

我们就以上面的加法题为例,要想让GPT-4算对,需要给它举两个例子。

但只需非常简单的那种就行,重点是把计算过程给它“掰开了揉碎了”讲出来。

第一个例子如下:

我们要教会它算379+64。

具体而言,先让GPT-4分别捋清两个加数的位数有几位,每位都是几。

然后告诉它如果第一个加数的位数比第二个多1位就补1个0。

在哪补?补在位数少的那个加数。于是64变成064。

这件事做完之后,再重复一遍第一个步骤。

接着,设定一些表示进位、连接等意思的变量和初始值,再从高位一位一位的相加数字,把每一位结果组合起来,就得出了最终答案。

从下面的提示词模版可以看到,一定要写的非常详细,把对方当作小学生一样看待。

(ps. 可以看到计算第二位的7+6+c时作者写错了,应该等于14,导致最终结果也错了,但这压根不影响,只要思想是对的,模型就能get到!)

对于第二个例子,步骤也一样,主要不同之处在于这次不需要补0——把人家当作小学生,就得把每种情况都讲明白。

把以上两个例子作为模版喂给GPT-4后,我们要做的就是“千叮咛万嘱咐”

这是你必须用来进行加法运算时使用的模板,你必须使用同样的关键字。
记住按照模版所写的那样,该有空格的地方都得有。不要用大写字母,因为模版里没用。
在计算之前和之后都不要要添加任何解释或填充词,因为你唯一的任务就是照着上面的模板来做。
最后将答案格式化为纯文本。

然后告诉它:

现在,我将提供两个新的操作数,你必须使用模版来计算答案。懂了吗?

(英文提示语如下:This is a template you must use to do addition. You must use the same keywords. You must use whitespace wherever it is used above.
Do not use uppercase letters, since they’re not present in the template. Do not add any explanations or filler words before and after doing the computation. Your sole task is to follow the template above.
Format the answer as plaintext.
I’ll provide a new set operands and you must use the template to compute the answer. Got it?)

这时,GPT-4就会告诉你:懂了,严格按照你提供的模版来算两个数字的加法。

然后,你把“34756918247632”和“7934619867453210082”输入进去,记住一定每个数字进行空格(原因后面说):

3 4 7 5 6 9 1 8 2 4 7 6 3 2 + 7 9 3 4 6 1 9 8 6 7 4 5 3 2 1 0 0 8 2
GPT-4就能开始照猫画虎完成下面这一系列的计算:

最后告诉你正确答案:

  • 0 7 9 3 4 6 5 4 6 2 4 3 7 1 4 5 7 7 1 4.

嗯,和计算器结果一样:

而我们也随便挑了一个模型实测了一下,计算:376900+12678922(等于13055822)。

原来算不对:

套用以上方法之后,就OK了:

所以说,大语言模型还是很聪明的,只要你会教,数学计算能力压根没问题。

为什么算不对?

想必大家也会好奇,为什么要像小学生这样教它们才能做对这样的数学题呢?

作者分析,有两大原因

一是模型在处理文本输入时会进行的tokenization操作,导致数字被多个组合在一起变成一个个token。

比如咱们今天算的这道,在GPT-4眼里它看到的其实是这样的:

这也就是为什么我们需要用空格将每个数字隔开,GPT-4才不会进行拆分,才有算对的可能性。

当然,如果你仅仅是加了空格不用上面的方法教它,它也算不对。

这就引出第二个原因:没有给够它上下文学习的空间来进行计算

GPT-4是一种自回归语言模型,这意味着它某个时间步的输出以所有先前的输出为条件,就像小学生做题一样,我们需要一种方法让我们的模型能够一步一步地检索到任何位置的数字。

因此,就需要给它设定如上的模版,让它“有迹可循”。

最后作者表示,语言模型不同于我们以前构建的任何类型的软件。所以需要一些特别的耐心。

那么,理解了以上这两个原因,大家是不是也就能更好地理解上面一系列如教小学生似的提示词操作了?

作者介绍

本方法作者名叫Karthik Balaji,是滑铁卢大学数学本科生。

据个人主页介绍,他对大语言模型非常感兴趣,最近正在开始研究生成模型,尤其是扩散类型,并已经有一些小小的产出,大家感兴趣的可以去翻阅。

原文地址:

https://okarthikb.github.io/site/blog/detailed-prompting.html

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
第二个贾玲?事实证明,让马丽下不来台的王琦,从一开始就错了

第二个贾玲?事实证明,让马丽下不来台的王琦,从一开始就错了

舞娱天地
2024-07-26 17:19:37
86年,妇人到烈士陵园祭拜,儿子突然惊呼:妈,墓碑上有你名字!

86年,妇人到烈士陵园祭拜,儿子突然惊呼:妈,墓碑上有你名字!

青栀伊人
2024-07-26 19:01:15
凌晨0:22,山东媒体人怒了,用240字表达不满,矛头直指崔康熙

凌晨0:22,山东媒体人怒了,用240字表达不满,矛头直指崔康熙

老鬼侃篮球
2024-07-27 07:56:09
开幕式花絮!库里自拍忙不停 旗手詹姆斯风雨中雨衣忘摘帽半遮面

开幕式花絮!库里自拍忙不停 旗手詹姆斯风雨中雨衣忘摘帽半遮面

狍子歪解体坛
2024-07-27 04:05:23
臭棋一招!特朗普还有后悔药吗

臭棋一招!特朗普还有后悔药吗

亚太观澜
2024-07-26 20:49:21
我们想要申京!名记曝多队哄抢,火箭布局成功,乌度卡野心暴露了

我们想要申京!名记曝多队哄抢,火箭布局成功,乌度卡野心暴露了

巴叔GO聊体育
2024-07-27 10:44:04
12架F-35穿越1700公里,美俄防空导弹全没反应:胡塞武器库大爆炸

12架F-35穿越1700公里,美俄防空导弹全没反应:胡塞武器库大爆炸

历史有些冷
2024-07-26 12:35:02
不堪入目,江西万年县县委书记遭举报性侵下属,上饶发布情况通报

不堪入目,江西万年县县委书记遭举报性侵下属,上饶发布情况通报

说真话的小陈
2024-07-26 10:23:16
国务院国资委:未来五年,中央企业预计安排大规模设备更新改造总投资超3万亿元

国务院国资委:未来五年,中央企业预计安排大规模设备更新改造总投资超3万亿元

人民资讯
2024-07-26 14:12:21
刘伯温偶遇一人家办喜事,掐指一算竟是五魂日,询问之后大惊失色

刘伯温偶遇一人家办喜事,掐指一算竟是五魂日,询问之后大惊失色

小哥很OK
2024-07-21 17:54:38
数百架无人机群扑向以色列,内塔飞机飞错方向,美军想救也救不了

数百架无人机群扑向以色列,内塔飞机飞错方向,美军想救也救不了

不吃草de兔子
2024-07-25 20:11:37
日乒全军覆没!巴黎奥运会只能待3天,就要返回日本老家

日乒全军覆没!巴黎奥运会只能待3天,就要返回日本老家

体坛狗哥
2024-07-26 14:31:53
两件大事,突然发生!意味着什么

两件大事,突然发生!意味着什么

刘晓博说楼市
2024-07-26 10:50:19
严重违规!中国女排克星遭遇重创,副攻被禁赛,利好意大利队

严重违规!中国女排克星遭遇重创,副攻被禁赛,利好意大利队

跑者排球视角
2024-07-27 08:08:51
北京市人民代表大会常务委员会决定任命名单

北京市人民代表大会常务委员会决定任命名单

金台资讯
2024-07-27 09:52:06
大陆有权收台,美高官急忙致电中方,就台海表明立场

大陆有权收台,美高官急忙致电中方,就台海表明立场

日风的故事屋
2024-07-26 21:01:47
史上第一位,国台办女副主任首次亮相,直接点出民进党“三宗罪”

史上第一位,国台办女副主任首次亮相,直接点出民进党“三宗罪”

时时有聊
2024-07-26 21:03:40
苏林一号位再次稳定!武氏映春迫不及待要挑战!

苏林一号位再次稳定!武氏映春迫不及待要挑战!

趣说世界哈
2024-07-27 00:10:02
83岁“核武”功勋遗嘱刷屏!儿子智力障碍,女儿精神分裂:抱歉,这还不是最残酷的

83岁“核武”功勋遗嘱刷屏!儿子智力障碍,女儿精神分裂:抱歉,这还不是最残酷的

笨鸟摘文
2024-07-26 22:15:55
俞敏洪:我跟董宇辉到今天没有任何隔阂!任何时候都不会参与到与辉同行的资本运作、投资发展中去

俞敏洪:我跟董宇辉到今天没有任何隔阂!任何时候都不会参与到与辉同行的资本运作、投资发展中去

和讯网
2024-07-26 15:59:16
2024-07-27 13:28:49
量子位
量子位
追踪人工智能动态
9729文章数 175425关注度
往期回顾 全部

科技要闻

俞敏洪:以分手换安宁,剥离无法避免

头条要闻

带母亲酒店养老被"拉黑" 69岁老人对网友指责感到苦恼

头条要闻

带母亲酒店养老被"拉黑" 69岁老人对网友指责感到苦恼

体育要闻

奥运会能有今天,多亏了巴黎

娱乐要闻

《歌手2024》总决赛赛制被质疑好搞笑

财经要闻

董宇辉单飞,与辉同行到底值多少钱?

汽车要闻

售价18.27万/新外观 雪铁龙 天逸C5冠军版上市

态度原创

房产
教育
游戏
旅游
艺术

房产要闻

广州中考Top5大洗牌!广附系,这次赢麻了!

教育要闻

中科大保卫处惊现硕士招聘门槛!网友炸锅:真需要如此高学历?

16年来首次!马里奥和索尼克缺席巴黎奥运会

旅游要闻

麻路小镇,遗落人间的雪域明珠,邂逅边陲的诗与远方。

艺术要闻

穿越时空的艺术:《马可·波罗》AI沉浸影片探索人类文明

无障碍浏览 进入关怀版