网易首页 > 网易数码 > 正文

谷歌让NLP模型也能debug:只要给一张“草稿纸”就行

0
分享至

现在的大型语言模型,能力个个都挺强。但,它们的计算能力都不太行:比如GPT-3,没法做超过三位数的加法。再比如它们当中的大多数都可以写代码,但是理解代码却很费劲 —— 稍微遇到点带循环的程序就“GG”。

不过,来自MIT和谷歌的研究人员发现:不用修改模型的底层架构,只需训练它们学会像程序员 debug时那样“打断点”,读代码的能力就唰唰唰地涨上去了。

将同样的思路用于大数加法、多项式计算,那就更不在话下了。所以,语言模型的数学能力终于也要跟上了?!

教语言模型用“打断点”的方法做加法、读程序

前面说的“打断点”,其实指的是在计算步骤较多的程序中,让模型把每一步都编码为文本,并将它们记录到一个称为“便签”的暂存器中,或者叫“草稿纸”。

听起来是个“笨”方法,但正是这样才使得模型的计算过程变得清晰有条理,性能也就比以往直接计算的方式提升了很多。

具体操作也很简单。就比如在简单的加法计算中,计算“29+57”的方式就是像这样的:

其中 C 表示进位,#表注释。先计算9+7,进位1;再计算2+5 + 进位1,最后得出86。

从上可以看出,这个训练示例由“输入”和“目标”组成。训练时将两者都喂给模型;测试时,模型就能根据“输入”预测出正确的“目标”。

而“目标”就是要发送到临时暂存器上的内容,通过关注其上下文就可以引用;实际操作中,还可以对“草稿”内容进行检查纠错。

显著提高语言模型的计算能力

研究人员选用了仅含解码器结构的 Transformer 语言模型来实验,其参数规模介于200万到1370亿之间。原则上,任何序列模型都可以使用这个方法,包括编-解码器模型或循环网络等。

首先,他们按这种“打断点”的方式训练语言模型进行1-8位数的整数加法。训练包含10万个示例,并进行了5000步的微调,batch size 为32。然后分别用1万个数据来测试训练分布内的加法;1千个数据来测试训练分布之外,也就是9位和10位数的加法。

将结果分别与直接运算的语言模型进行比较,发现:即使超出临界模型大小,用了“打断点”法的模型也能够进行加法运算,而直接运算的基线模型就没法做到这一点。

而在分布外的任务中,直接运算的基线模型完全挂掉 ——“没练过就不会做”,而用了“断点”法的模型随着规模的增大 hold 住了9-10位数的加法。

好,大数加法搞定。接下来上多项式。他们生成了一个包含1万个多项式的训练数据集和2000个数据的测试集。其中项数一般不超过3项,系数范围在-10到 + 10之间,结果在-1000到 + 10000之间。多项式的训练示例如下:

结果发现:无论是微调还是少样本训练之后,“断点”法的性能都优于直接预测。

最后就是读 Python 代码了。

代码的训练示例中,记录了正在执行的是哪行代码,以及此时各变量的值,用 json 格式表示。

此前的语言模型读代码的能力都表现不佳。“打断点”的方式可以让它们一改常态么?

首先,经过200个程序(都是人工编写的,包括简单的 while 循环和 if 语句)的测试发现,“断点法”整体执行精度更高。与直接执行的模型相比,微调还可以将模型性能从26.5% 提高到41.5%。

一个真实例子:

“断点”法经过3次 while 循环,最终给出了正确的变量值。

接着,他们又用包含了1000个程序的 MBPP 数据集进行训练和测试。这些程序涉及多种数据类型的计算,包括整数、字符串、浮点数等,以及涉及循环、API 调用和递归等流程结构。并添加训练数据之外的“single line”程序集和 CodeNet 程序集进行测试。

结果发现,模型也可以很好地扩展。

当然,这个方法也有局限性:比如复杂的计算可能需要很“长”的暂存器,这可能需要进一步改进 Transformer 生成窗口的大小。好在这也是 NLP 领域的一个活跃研究领域。而在未来,他们可能会尝试在无监督情况下用强化学习让语言模型学会“打断点”。

总之,语言模型的计算能力、读代码的能力会越来越强。

相关推荐
热点推荐
较强冷空气影响我国大部地区 台风“海鸥”影响我国南海海域

较强冷空气影响我国大部地区 台风“海鸥”影响我国南海海域

中国气象局
2025-11-05 08:10:53
毛人凤凄凉晚景:被亲家讥讽,被亲信出卖,最终死于江湖骗子之手

毛人凤凄凉晚景:被亲家讥讽,被亲信出卖,最终死于江湖骗子之手

墨兰史书
2025-11-05 18:10:03
1996年前在国企上过班?恭喜!你的工龄能多领养老金!

1996年前在国企上过班?恭喜!你的工龄能多领养老金!

刘哥谈体育
2025-11-05 13:25:37
0-4到2-4!小司机紧追TOP16,赵心童4-1冲赛点,吴宜泽连输4局!

0-4到2-4!小司机紧追TOP16,赵心童4-1冲赛点,吴宜泽连输4局!

刘姚尧的文字城堡
2025-11-05 16:25:53
窦唯二女儿酒吧工作被拍,两年没见过爸爸,和妈妈高原各自租房住

窦唯二女儿酒吧工作被拍,两年没见过爸爸,和妈妈高原各自租房住

花心电影
2025-10-06 16:00:12
郑丽文惨遭迫害,赖清德玩阴的,中央政府雷霆出击,力挽狂澜

郑丽文惨遭迫害,赖清德玩阴的,中央政府雷霆出击,力挽狂澜

小影的娱乐
2025-10-24 06:24:47
只喂饼姆巴佩引争议?皇马新核被传奇警告:还不够

只喂饼姆巴佩引争议?皇马新核被传奇警告:还不够

运动全视界
2025-11-04 16:30:35
就差一点达到20000分15000板!霍华德还真不死心啊!

就差一点达到20000分15000板!霍华德还真不死心啊!

篮球大图
2025-11-04 23:26:41
腾讯反击索尼抄袭指控!《我的世界》全球销量已突破3.5亿份

腾讯反击索尼抄袭指控!《我的世界》全球销量已突破3.5亿份

游戏头条
2025-11-03 08:05:49
反转!爆国足新帅正式敲定:邵佳一击败郑智+欧洲教练当选

反转!爆国足新帅正式敲定:邵佳一击败郑智+欧洲教练当选

何老师呀
2025-11-05 17:24:04
全红婵复出夺冠仅2天,三大恶心情况发生了,爸爸全文茂很有格局

全红婵复出夺冠仅2天,三大恶心情况发生了,爸爸全文茂很有格局

揽星河的笔记
2025-11-05 14:39:00
武松断臂出家后,梁山无一人看望,唯独曾最瞧不上他的人还记得他

武松断臂出家后,梁山无一人看望,唯独曾最瞧不上他的人还记得他

鹤羽说个事
2025-10-30 15:56:40
见过最傻的父母:手里攥着大把的存款和退休金,等着给子女当遗产

见过最傻的父母:手里攥着大把的存款和退休金,等着给子女当遗产

阿芒娱乐说
2025-11-05 05:04:48
假“业务员”在银行大厅帮“存钱” 57名储户上千万养老钱打水漂!当地回应了

假“业务员”在银行大厅帮“存钱” 57名储户上千万养老钱打水漂!当地回应了

闪电新闻
2025-11-04 17:08:01
WC!锡安!鹈鹕最快速度交易

WC!锡安!鹈鹕最快速度交易

技巧君侃球
2025-11-05 15:41:31
印媒指出福建舰严重设计缺陷! 这回没瞎说: 福建舰确实存在这问题

印媒指出福建舰严重设计缺陷! 这回没瞎说: 福建舰确实存在这问题

福建平子
2025-11-03 10:21:52
陕西高二女生午休时操场产子,调查后发现,孩子父亲身份不简单

陕西高二女生午休时操场产子,调查后发现,孩子父亲身份不简单

苏大强专栏
2024-07-18 20:34:57
探访:二期开街一个半月后,隆福寺商圈怎么样了?|新商圈新潮流

探访:二期开街一个半月后,隆福寺商圈怎么样了?|新商圈新潮流

北青网-北京青年报
2025-11-05 13:15:15
A妈和杰森吵架,直言压力很大,杰森身体出问题 连妈妈都跟着担心

A妈和杰森吵架,直言压力很大,杰森身体出问题 连妈妈都跟着担心

动物奇奇怪怪
2025-11-05 11:01:29
纳什:对库里让我考虑退役,我打不过他…詹姆斯抢话:那就加入他们!

纳什:对库里让我考虑退役,我打不过他…詹姆斯抢话:那就加入他们!

懂球帝
2025-11-05 09:05:15
2025-11-05 19:04:49

头条要闻

杨受成名下英皇宫殿停运 曾以大堂铺满78公斤黄金闻名

头条要闻

杨受成名下英皇宫殿停运 曾以大堂铺满78公斤黄金闻名

体育要闻

赢下皇马,会是利物浦的转折点吗?

娱乐要闻

港星林尚武突发心脏病去世

财经要闻

中方官宣!对美关税,调整!

科技要闻

大转弯!特朗普再提名马斯克盟友任NASA局长

汽车要闻

智己LS9入局"9系"混战 全尺寸SUV市场迎来新变量

态度原创

亲子
本地
手机
时尚
公开课

亲子要闻

流感和感冒我猜家长们掌握的都不错

本地新闻

秋颜悦色 | 在榆中,秋天是一场盛大的视觉交响

手机要闻

天玑9500需求远超预期!持续领跑高端市场:OPPO、vivo旗舰卖爆了

坏了,看到剧本杀鼻祖了!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版
×