网易首页 > 网易号 > 正文 申请入驻

GPT-4计算能力差怎么破?把它当小学生,保证结果跟计算器一样准

0
分享至

丰色 发自 凹非寺
量子位 | 公众号 QbitAI

大语言模型的数学能力到底怎么破?

一位数学本科生发现:

实际上,咱们只需像一年级小学生一样教它们“掰着手指头算”,就能让它立马变身数学小能手。

比如像“34756918247632 + 7934619867453210082”这样的大数加法,任你丢给哪个大模型,即使强如GPT-4,都算不明白。

但如果你按照他说的做,保证结果跟用计算器摁出来的一模一样

具体怎么操作?

像小学生一样教GPT-4

我们就以上面的加法题为例,要想让GPT-4算对,需要给它举两个例子。

但只需非常简单的那种就行,重点是把计算过程给它“掰开了揉碎了”讲出来。

第一个例子如下:

我们要教会它算379+64。

具体而言,先让GPT-4分别捋清两个加数的位数有几位,每位都是几。

然后告诉它如果第一个加数的位数比第二个多1位就补1个0。

在哪补?补在位数少的那个加数。于是64变成064。

这件事做完之后,再重复一遍第一个步骤。

接着,设定一些表示进位、连接等意思的变量和初始值,再从高位一位一位的相加数字,把每一位结果组合起来,就得出了最终答案。

从下面的提示词模版可以看到,一定要写的非常详细,把对方当作小学生一样看待。

(ps. 可以看到计算第二位的7+6+c时作者写错了,应该等于14,导致最终结果也错了,但这压根不影响,只要思想是对的,模型就能get到!)

对于第二个例子,步骤也一样,主要不同之处在于这次不需要补0——把人家当作小学生,就得把每种情况都讲明白。

把以上两个例子作为模版喂给GPT-4后,我们要做的就是“千叮咛万嘱咐”

这是你必须用来进行加法运算时使用的模板,你必须使用同样的关键字。
记住按照模版所写的那样,该有空格的地方都得有。不要用大写字母,因为模版里没用。
在计算之前和之后都不要要添加任何解释或填充词,因为你唯一的任务就是照着上面的模板来做。
最后将答案格式化为纯文本。

然后告诉它:

现在,我将提供两个新的操作数,你必须使用模版来计算答案。懂了吗?

(英文提示语如下:This is a template you must use to do addition. You must use the same keywords. You must use whitespace wherever it is used above.
Do not use uppercase letters, since they’re not present in the template. Do not add any explanations or filler words before and after doing the computation. Your sole task is to follow the template above.
Format the answer as plaintext.
I’ll provide a new set operands and you must use the template to compute the answer. Got it?)

这时,GPT-4就会告诉你:懂了,严格按照你提供的模版来算两个数字的加法。

然后,你把“34756918247632”和“7934619867453210082”输入进去,记住一定每个数字进行空格(原因后面说):

3 4 7 5 6 9 1 8 2 4 7 6 3 2 + 7 9 3 4 6 1 9 8 6 7 4 5 3 2 1 0 0 8 2
GPT-4就能开始照猫画虎完成下面这一系列的计算:

最后告诉你正确答案:

  • 0 7 9 3 4 6 5 4 6 2 4 3 7 1 4 5 7 7 1 4.

嗯,和计算器结果一样:

而我们也随便挑了一个模型实测了一下,计算:376900+12678922(等于13055822)。

原来算不对:

套用以上方法之后,就OK了:

所以说,大语言模型还是很聪明的,只要你会教,数学计算能力压根没问题。

为什么算不对?

想必大家也会好奇,为什么要像小学生这样教它们才能做对这样的数学题呢?

作者分析,有两大原因

一是模型在处理文本输入时会进行的tokenization操作,导致数字被多个组合在一起变成一个个token。

比如咱们今天算的这道,在GPT-4眼里它看到的其实是这样的:

这也就是为什么我们需要用空格将每个数字隔开,GPT-4才不会进行拆分,才有算对的可能性。

当然,如果你仅仅是加了空格不用上面的方法教它,它也算不对。

这就引出第二个原因:没有给够它上下文学习的空间来进行计算

GPT-4是一种自回归语言模型,这意味着它某个时间步的输出以所有先前的输出为条件,就像小学生做题一样,我们需要一种方法让我们的模型能够一步一步地检索到任何位置的数字。

因此,就需要给它设定如上的模版,让它“有迹可循”。

最后作者表示,语言模型不同于我们以前构建的任何类型的软件。所以需要一些特别的耐心。

那么,理解了以上这两个原因,大家是不是也就能更好地理解上面一系列如教小学生似的提示词操作了?

作者介绍

本方法作者名叫Karthik Balaji,是滑铁卢大学数学本科生。

据个人主页介绍,他对大语言模型非常感兴趣,最近正在开始研究生成模型,尤其是扩散类型,并已经有一些小小的产出,大家感兴趣的可以去翻阅。

原文地址:

https://okarthikb.github.io/site/blog/detailed-prompting.html

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
两岸谈判破裂又反转,大陆切断金门补给线,台退役少将惊呼麻烦了

两岸谈判破裂又反转,大陆切断金门补给线,台退役少将惊呼麻烦了

利刃号
2024-02-27 11:37:50
反转了!老农卖菜赚了14元被罚10万,央视怒问:这样处罚合理吗?

反转了!老农卖菜赚了14元被罚10万,央视怒问:这样处罚合理吗?

你不知道的养生知识
2024-02-29 12:44:49
辣眼睛!新娘结婚前夜出轨,婚后和前任同居,大尺度聊天记录惊爆

辣眼睛!新娘结婚前夜出轨,婚后和前任同居,大尺度聊天记录惊爆

坠儿斯
2024-02-29 08:59:46
大陆可能在等,等这3大问题解决了,再出手彻底解决台湾问题

大陆可能在等,等这3大问题解决了,再出手彻底解决台湾问题

沈从史
2024-02-27 15:55:03
古代专设“通房丫鬟”,主子同房要守床边,近身伺候才是重头戏!

古代专设“通房丫鬟”,主子同房要守床边,近身伺候才是重头戏!

刀刃历史
2023-10-24 20:08:15
听说大家都在比谁上班穿的恶心?

听说大家都在比谁上班穿的恶心?

小虎新车推荐员
2024-02-29 15:24:05
四川发布最新干部任前公示 5人拟任正厅级领导职务

四川发布最新干部任前公示 5人拟任正厅级领导职务

金台资讯
2024-02-29 21:43:14
他慌了!黄蜂一波17-3 里弗斯赶紧叫暂停 换上波蒂斯稳局势

他慌了!黄蜂一波17-3 里弗斯赶紧叫暂停 换上波蒂斯稳局势

直播吧
2024-03-01 10:21:51
金马出海口被封,大陆断了军援后路,国民党赶往厦门,形势迎大变

金马出海口被封,大陆断了军援后路,国民党赶往厦门,形势迎大变

亚男视界
2024-02-28 16:10:59
申请交易,指定加盟快船!完成了自我救赎,但你已经不是顶薪球员

申请交易,指定加盟快船!完成了自我救赎,但你已经不是顶薪球员

呆哥聊球
2024-02-29 22:21:05
日本媒体:让张本美和离开日本!伊藤美诚:我上场会完败给陈梦

日本媒体:让张本美和离开日本!伊藤美诚:我上场会完败给陈梦

室内设计师阿喇
2024-02-29 15:45:35
王艳母亲节晒儿子!球球从小胖墩逆袭成大帅哥,16岁身高近一米八

王艳母亲节晒儿子!球球从小胖墩逆袭成大帅哥,16岁身高近一米八

健康小玥玥
2024-03-01 10:29:30
外婆住院四个舅舅不理睬,只有我妈悉心照料,可她却被外婆逼死了

外婆住院四个舅舅不理睬,只有我妈悉心照料,可她却被外婆逼死了

夜色故事集锦
2024-02-18 19:34:30
韩国财阀崔泰源和爱人高兴得太早了,前夫人卢素英已化身复仇女王

韩国财阀崔泰源和爱人高兴得太早了,前夫人卢素英已化身复仇女王

长颈鹿娱乐资讯
2024-02-29 23:43:13
霸气!乌军这把玩大了,泽连斯基:乌克兰创造二战以来最高纪录

霸气!乌军这把玩大了,泽连斯基:乌克兰创造二战以来最高纪录

不吃草de兔子
2024-02-25 19:33:02
东北大学为什么会降级?

东北大学为什么会降级?

牛锅巴小钒
2024-03-01 03:08:11
官方证明霸哥没开挂后,霸哥开始清算各大主播:不会轻易放过他们

官方证明霸哥没开挂后,霸哥开始清算各大主播:不会轻易放过他们

姚某人说联盟
2024-03-01 10:28:44
看到中国过年放烟花,外国人终于明白:为何没人敢动中国

看到中国过年放烟花,外国人终于明白:为何没人敢动中国

康浔说
2024-02-21 13:30:03
1.3亿欧!夏窗标王呼之欲出:新德罗巴闪耀意甲,令全欧豪门眼馋

1.3亿欧!夏窗标王呼之欲出:新德罗巴闪耀意甲,令全欧豪门眼馋

球场没跑道
2024-02-29 11:10:30
印度火箭发射场出现中国国旗,总理莫迪暴怒:抢功还要带上中国!

印度火箭发射场出现中国国旗,总理莫迪暴怒:抢功还要带上中国!

爱钓鱼的阿
2024-02-29 19:50:22
2024-03-01 13:48:49
量子位
量子位
追踪人工智能动态
9108文章数 174957关注度
往期回顾 全部

科技要闻

比亚迪价格“四连降”,压力给到了谁

头条要闻

多位"80后"厅级干部履新 无一例外均具有高学历

头条要闻

多位"80后"厅级干部履新 无一例外均具有高学历

体育要闻

让豪门眼馋的80后少帅 不止一个阿隆索

娱乐要闻

周星驰为《女足》选角,网友反应平淡

财经要闻

名表二级市场"缩水":行情大幅跳水

汽车要闻

比亚迪宋Pro DM-i荣耀版10.98万起 低价降2万

态度原创

教育
艺术
家居
手机
时尚

教育要闻

孩子不想去上学,也许是家长太焦虑,切断了和孩子的连接

艺术要闻

给画布做一场解剖,看看表面之下都藏了什么?

家居要闻

优雅浪漫,把生活过成喜欢的样子

手机要闻

红魔携家族新品亮相MWC 2024,用电竞生态“震撼”国际市场

谁不想穿得高级不费力?今春看看日本主妇的搭配,真是美极了

无障碍浏览 进入关怀版