网易首页 > 网易号 > 正文 申请入驻

谷歌让NLP模型也能debug,只要给一张「草稿纸」就行

0
分享至

丰色 发自 凹非寺
量子位 报道 | 公众号 QbitAI

现在的大型语言模型,能力个个都挺强。

但,他们的计算能力都不太行:

比如GPT-3,没法做超过三位数的加法。

再比如它们当中的大多数都可以写代码,但是理解代码却很费劲——稍微遇到点带循环的程序就gg。

不过,来自MIT和谷歌的研究人员发现:

不用修改模型的底层架构,只需训练它们学会像程序员debug时那样“打断点”,读代码的能力就唰唰唰地涨上去了。

将同样的思路用于大数加法、多项式计算,那就更不在话下了。

所以,语言模型的数学能力终于也要跟上了?!

教语言模型用“打断点”的方法做加法、读程序

前面说的“打断点”,其实指的是在计算步骤较多的程序中,让模型把每一步都编码为文本,并将它们记录到一个称为“便签”的暂存器中,或者叫“草稿纸”

听起来是个“笨”方法,但正是这样才使得模型的计算过程变得清晰有条理,性能也就比以往直接计算的方式提升了很多。

具体操作也很简单。

就比如在简单的加法计算中,计算“29+57”的方式就是像这样的:

其中C表示进位,#表注释。

先计算9+7,进位1;再计算2+5+进位1,最后得出86。

从上可以看出,这个训练示例由“输入”和“目标”组成。

训练时将两者都喂给模型;测试时,模型就能根据“输入”预测出正确的“目标”。

而“目标”就是要发送到临时暂存器上的内容,通过关注其上下文就可以引用;实际操作中,还可以对“草稿”内容进行检查纠错。

显著提高语言模型的计算能力

研究人员选用了仅含解码器结构的Transformer语言模型来实验,其参数规模介于200万到1370亿之间。

原则上,任何序列模型都可以使用这个方法,包括编-解码器模型或循环网络等。

首先,他们按这种“打断点”的方式训练语言模型进行1-8位数的整数加法

训练包含10万个示例,并进行了5000步的微调,batch size为32。

然后分别用1万个数据来测试训练分布内的加法;1千个数据来测试训练分布之外,也就是9位和10位数的加法。

将结果分别与直接运算的语言模型进行比较,发现:

即使超出临界模型大小,用了“打断点”法的模型也能够进行加法运算,而直接运算的基线模型就没法做到这一点。

而在分布外的任务中,直接运算的基线模型完全挂掉——“没练过就不会做”,而用了“断点”法的模型随着规模的增大hold住了9-10位数的加法。

好,大数加法搞定。

接下来上多项式

他们生成了一个包含1万个多项式的训练数据集和2000个数据的测试集。

其中项数一般不超过3项,系数范围在-10到+10之间,结果在-1000到+10000之间。

多项式的训练示例如下:

结果发现:无论是微调还是少样本训练之后,“断点”法的性能都优于直接预测。

最后就是读Python代码了。

代码的训练示例中,记录了正在执行的是哪行代码,以及此时各变量的值,用json格式表示。

此前的语言模型读代码的能力都表现不佳。“打断点”的方式可以让它们一改常态么?

首先,经过200个程序(都是人工编写的,包括简单的while循环和if语句)的测试发现,“断点法”整体执行精度更高。

与直接执行的模型相比,微调还可以将模型性能从26.5%提高到41.5%。

一个真实例子:

“断点”算法经过3次while循环,最终给出了正确的变量值。

接着,他们又用包含了1000个程序的MBPP数据集进行训练和测试。

这些程序涉及多种数据类型的计算,包括整数、字符串、浮点数等,以及涉及循环、API调用和递归等流程结构。

并添加训练数据之外的“single line”程序集和CodeNet程序集进行测试。

结果发现,模型也可以很好地扩展。

当然,这个方法也有局限性:

比如复杂的计算可能需要很“长”的暂存器,这可能需要进一步改进Transformer生成窗口的大小。这也是NLP领域的一个活跃研究领域。

而在未来,他们可能会尝试在无监督情况下用强化学习让语言模型学会“打断点”。

总之,语言模型的计算能力、读代码的能力会越来越强。

论文地址:

https://arxiv.org/abs/2112.00114

— 完 —

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
公交“耳牌”标识全新上线 乘车更方便

公交“耳牌”标识全新上线 乘车更方便

北青网-北京青年报
2026-02-02 09:54:03
90后产妇生娃时遇上"生理需求",男医生:见怪不怪,现场解决

90后产妇生娃时遇上"生理需求",男医生:见怪不怪,现场解决

大果小果妈妈
2026-01-15 20:13:44
满是心酸!42岁著名歌手江苏走穴,宾客只顾吃席没人搭理

满是心酸!42岁著名歌手江苏走穴,宾客只顾吃席没人搭理

查尔菲的笔记
2026-01-04 13:13:57
太顶了!明明什么都没露,却性感得要命!

太顶了!明明什么都没露,却性感得要命!

贵圈真乱
2025-12-20 12:02:06
史诗级暴跌震撼全球市场!彭博:中国投机者为黄金和白银的崩盘埋下伏笔

史诗级暴跌震撼全球市场!彭博:中国投机者为黄金和白银的崩盘埋下伏笔

新浪财经
2026-02-02 11:43:34
四川绵阳一佳人太漂亮,身高177cm体重54kg五官精致到无懈可击!

四川绵阳一佳人太漂亮,身高177cm体重54kg五官精致到无懈可击!

TVB的四小花
2026-01-27 11:03:50
首款凝胶“伟哥”,起效速度是西地那非10倍,百亿市场大变天?

首款凝胶“伟哥”,起效速度是西地那非10倍,百亿市场大变天?

科学认识论
2026-02-02 15:16:14
硒含量是洋葱的30倍,正大量上市!中老年人多吃它,手脚麻利。

硒含量是洋葱的30倍,正大量上市!中老年人多吃它,手脚麻利。

阿龙美食记
2026-01-25 14:20:28
俄乌冲突结束了!特朗普宣布重磅消息,不到24小时,普京致电中国

俄乌冲突结束了!特朗普宣布重磅消息,不到24小时,普京致电中国

老谢谈史
2026-02-03 00:05:46
和王毅握完手,绍伊古访华结束,登机前通知日本,高市捅了马蜂窝

和王毅握完手,绍伊古访华结束,登机前通知日本,高市捅了马蜂窝

影孖看世界
2026-02-02 16:31:08
12306回应“每天都用前任的身份证订票不付款取消3次让他买不了过年回家的票”:锁的是订票账户

12306回应“每天都用前任的身份证订票不付款取消3次让他买不了过年回家的票”:锁的是订票账户

新浪财经
2026-02-02 23:00:39
石田佳莲:从偶像到演员的跨界之路

石田佳莲:从偶像到演员的跨界之路

碧波万览
2026-02-03 03:35:03
年度预定?IGN9分神作销量破20万!上线仅三天

年度预定?IGN9分神作销量破20万!上线仅三天

游民星空
2026-02-02 12:12:21
已经退休的“飞天将军”聂海胜,如今的现状让人敬佩

已经退休的“飞天将军”聂海胜,如今的现状让人敬佩

触摸史迹
2026-02-02 18:14:11
日本足协前主席:J联赛不受欢迎的原因之一是球员总抱怨裁判

日本足协前主席:J联赛不受欢迎的原因之一是球员总抱怨裁判

懂球帝
2026-02-02 12:42:31
台湾最新民调出炉,赖清德、郑丽文支持率惊人,萧旭岑亮两张底牌

台湾最新民调出炉,赖清德、郑丽文支持率惊人,萧旭岑亮两张底牌

往事我敬你一杯酒人
2026-02-03 02:44:57
过气男顶流沦为酒局“工具人”!全程讨好、倒酒赔笑,像一个商品

过气男顶流沦为酒局“工具人”!全程讨好、倒酒赔笑,像一个商品

涵豆说娱
2026-01-19 18:16:27
娱乐圈又丢人!嫣然医院捐款名单曝光,年入上亿明星“集体沉默”

娱乐圈又丢人!嫣然医院捐款名单曝光,年入上亿明星“集体沉默”

睿鉴历史
2026-02-02 08:15:08
山东怎么了?3个外援都不行,高诗岩又神经刀,邱彪总算等来新人

山东怎么了?3个外援都不行,高诗岩又神经刀,邱彪总算等来新人

萌兰聊个球
2026-02-02 22:19:53
谷爱凌脑出血险丧命!休克5分钟伴癫痫,母亲:差点没醒过来

谷爱凌脑出血险丧命!休克5分钟伴癫痫,母亲:差点没醒过来

深析古今
2026-02-02 16:26:59
2026-02-03 06:15:00
量子位 incentive-icons
量子位
追踪人工智能动态
12101文章数 176369关注度
往期回顾 全部

科技要闻

阿里筑墙,腾讯寄生,字节偷家

头条要闻

周生生足金挂坠戴1天被刮花 检测后发现含铁、银、钯

头条要闻

周生生足金挂坠戴1天被刮花 检测后发现含铁、银、钯

体育要闻

澳网男单决赛,属于阿尔卡拉斯的加冕仪式

娱乐要闻

57岁音乐人袁惟仁去世,家属发文悼念

财经要闻

金银暴跌 全球股市遭遇“黑色星期一”

汽车要闻

雷克萨斯LC500将于今年底停产 "最美雷克萨斯"谢幕

态度原创

家居
艺术
教育
亲子
时尚

家居要闻

现代几何彩拼 智焕童梦居

艺术要闻

曾经的年画,难得一见!

教育要闻

中国未来将淘汰8个专业,就业率极低,毕业生很难找工作!

亲子要闻

萌娃哄生气的妈妈,人小鬼大逗得妈妈生不起气来了

裤子+靴子:今年冬天最经典搭配,松弛又时髦!

无障碍浏览 进入关怀版