网易首页 > 网易数码 > 正文

谷歌让NLP模型也能debug:只要给一张“草稿纸”就行

0
分享至

现在的大型语言模型,能力个个都挺强。但,它们的计算能力都不太行:比如GPT-3,没法做超过三位数的加法。再比如它们当中的大多数都可以写代码,但是理解代码却很费劲 —— 稍微遇到点带循环的程序就“GG”。

不过,来自MIT和谷歌的研究人员发现:不用修改模型的底层架构,只需训练它们学会像程序员 debug时那样“打断点”,读代码的能力就唰唰唰地涨上去了。

将同样的思路用于大数加法、多项式计算,那就更不在话下了。所以,语言模型的数学能力终于也要跟上了?!

教语言模型用“打断点”的方法做加法、读程序

前面说的“打断点”,其实指的是在计算步骤较多的程序中,让模型把每一步都编码为文本,并将它们记录到一个称为“便签”的暂存器中,或者叫“草稿纸”。

听起来是个“笨”方法,但正是这样才使得模型的计算过程变得清晰有条理,性能也就比以往直接计算的方式提升了很多。

具体操作也很简单。就比如在简单的加法计算中,计算“29+57”的方式就是像这样的:

其中 C 表示进位,#表注释。先计算9+7,进位1;再计算2+5 + 进位1,最后得出86。

从上可以看出,这个训练示例由“输入”和“目标”组成。训练时将两者都喂给模型;测试时,模型就能根据“输入”预测出正确的“目标”。

而“目标”就是要发送到临时暂存器上的内容,通过关注其上下文就可以引用;实际操作中,还可以对“草稿”内容进行检查纠错。

显著提高语言模型的计算能力

研究人员选用了仅含解码器结构的 Transformer 语言模型来实验,其参数规模介于200万到1370亿之间。原则上,任何序列模型都可以使用这个方法,包括编-解码器模型或循环网络等。

首先,他们按这种“打断点”的方式训练语言模型进行1-8位数的整数加法。训练包含10万个示例,并进行了5000步的微调,batch size 为32。然后分别用1万个数据来测试训练分布内的加法;1千个数据来测试训练分布之外,也就是9位和10位数的加法。

将结果分别与直接运算的语言模型进行比较,发现:即使超出临界模型大小,用了“打断点”法的模型也能够进行加法运算,而直接运算的基线模型就没法做到这一点。

而在分布外的任务中,直接运算的基线模型完全挂掉 ——“没练过就不会做”,而用了“断点”法的模型随着规模的增大 hold 住了9-10位数的加法。

好,大数加法搞定。接下来上多项式。他们生成了一个包含1万个多项式的训练数据集和2000个数据的测试集。其中项数一般不超过3项,系数范围在-10到 + 10之间,结果在-1000到 + 10000之间。多项式的训练示例如下:

结果发现:无论是微调还是少样本训练之后,“断点”法的性能都优于直接预测。

最后就是读 Python 代码了。

代码的训练示例中,记录了正在执行的是哪行代码,以及此时各变量的值,用 json 格式表示。

此前的语言模型读代码的能力都表现不佳。“打断点”的方式可以让它们一改常态么?

首先,经过200个程序(都是人工编写的,包括简单的 while 循环和 if 语句)的测试发现,“断点法”整体执行精度更高。与直接执行的模型相比,微调还可以将模型性能从26.5% 提高到41.5%。

一个真实例子:

“断点”法经过3次 while 循环,最终给出了正确的变量值。

接着,他们又用包含了1000个程序的 MBPP 数据集进行训练和测试。这些程序涉及多种数据类型的计算,包括整数、字符串、浮点数等,以及涉及循环、API 调用和递归等流程结构。并添加训练数据之外的“single line”程序集和 CodeNet 程序集进行测试。

结果发现,模型也可以很好地扩展。

当然,这个方法也有局限性:比如复杂的计算可能需要很“长”的暂存器,这可能需要进一步改进 Transformer 生成窗口的大小。好在这也是 NLP 领域的一个活跃研究领域。而在未来,他们可能会尝试在无监督情况下用强化学习让语言模型学会“打断点”。

总之,语言模型的计算能力、读代码的能力会越来越强。

相关推荐
热点推荐
邱毅:大陆的鹰派上来了!解放军出现重大变动,台岛担忧武统提前

邱毅:大陆的鹰派上来了!解放军出现重大变动,台岛担忧武统提前

我心纵横天地间
2026-02-23 23:04:29
长达10年,女子被丈夫下药供陌生人性侵,人数创纪录让女子崩溃

长达10年,女子被丈夫下药供陌生人性侵,人数创纪录让女子崩溃

干史人
2026-02-23 00:40:16
球员锦标赛奖金排名:赵心童夺冠149万!小特33万,吴宜泽14万第9

球员锦标赛奖金排名:赵心童夺冠149万!小特33万,吴宜泽14万第9

球场没跑道
2026-02-23 06:33:28
代谢上去了,我瘦了20斤,总结出来的8个提升代谢的方法!

代谢上去了,我瘦了20斤,总结出来的8个提升代谢的方法!

运动健身号
2026-02-23 08:30:09
贝加尔湖坠车事件细节曝光:根本不是湖面冰脆

贝加尔湖坠车事件细节曝光:根本不是湖面冰脆

今日搞笑分享
2026-02-24 03:56:31
“标准技校脸!”技校女生大合照走红,网友:感觉她们欺负过我!

“标准技校脸!”技校女生大合照走红,网友:感觉她们欺负过我!

有范又有料
2026-01-30 10:26:28
暴涨75%!“内存末日”降临,半导体芯片六朵“金花”尚处低位!

暴涨75%!“内存末日”降临,半导体芯片六朵“金花”尚处低位!

Thurman在昆明
2026-02-24 03:15:18
可悲!已经脱离中华百年的外蒙古,正在把中国人40年的努力毁掉!

可悲!已经脱离中华百年的外蒙古,正在把中国人40年的努力毁掉!

青烟小先生
2026-02-23 19:12:33
西媒:欧足联担心维尼修斯与普雷斯蒂安尼次回合赛前拒绝握手

西媒:欧足联担心维尼修斯与普雷斯蒂安尼次回合赛前拒绝握手

懂球帝
2026-02-23 21:11:04
严兵兼任重庆广播电视集团(总台)党委书记、台长

严兵兼任重庆广播电视集团(总台)党委书记、台长

广电视界
2026-02-23 21:24:58
天津两公园,明起关闭!

天津两公园,明起关闭!

天津人
2026-02-23 15:11:53
挑衅原配、“睡”遍京圈,定居美国7年的徐静蕾,私生活太狂野了

挑衅原配、“睡”遍京圈,定居美国7年的徐静蕾,私生活太狂野了

时光在作祟
2025-12-27 18:37:45
本硕博毕业于山东农业大学,西北农林科技大学副教授以通讯作者身份在一区Top期刊上发表研究论文

本硕博毕业于山东农业大学,西北农林科技大学副教授以通讯作者身份在一区Top期刊上发表研究论文

植物研究进展
2026-02-23 23:17:31
3-0横扫晋级!中国女乒22岁第三巨头崛起:追赶孙颖莎王曼昱?

3-0横扫晋级!中国女乒22岁第三巨头崛起:追赶孙颖莎王曼昱?

李喜林篮球绝杀
2026-02-23 20:35:54
乌克兰的伤亡情况,终于有人说了真话!

乌克兰的伤亡情况,终于有人说了真话!

安安说
2026-02-19 11:59:22
撒贝宁将第十次主持央视春晚,家庭变故烦心事多

撒贝宁将第十次主持央视春晚,家庭变故烦心事多

吃青菜长高
2026-02-06 21:23:14
军令如山!3月1日起全军实行终身负责制,从严治军强根基

军令如山!3月1日起全军实行终身负责制,从严治军强根基

我心纵横天地间
2026-02-19 23:15:18
2026年最神的神童

2026年最神的神童

木子默
2026-02-23 20:46:54
女孩当小姐,一晚要提供4到5次上门服务,2015年被亲人点到不赴约

女孩当小姐,一晚要提供4到5次上门服务,2015年被亲人点到不赴约

汉史趣闻
2025-11-08 09:27:32
上海街头,车辆突然失控撞向人行道!一男子在一旁猛喝热水,民警:不对劲……

上海街头,车辆突然失控撞向人行道!一男子在一旁猛喝热水,民警:不对劲……

上观新闻
2026-02-23 09:49:18
2026-02-24 06:44:49

头条要闻

墨西哥最大毒枭被击毙:喜欢杀人灭门 几乎没人看见过他

头条要闻

墨西哥最大毒枭被击毙:喜欢杀人灭门 几乎没人看见过他

体育要闻

哈登版骑士首败:雷霆的冠军课

娱乐要闻

那艺娜账号被禁止关注,视频已清空!

财经要闻

美国海关将停止征收被裁定违法的关税

科技要闻

智谱、MiniMax合计蒸发近千亿市值,为何?

汽车要闻

续航1810km!smart精灵#6 EHD超级电混2026年上市

态度原创

教育
艺术
本地
房产
数码

教育要闻

北大教授透露:70% 职高生农村户口,不是孩子不争气,是现实扎心

艺术要闻

雍正帝御笔春条

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

房产要闻

窗前即地标!独占三亚湾C位 自贸港总裁行宫亮相

数码要闻

英特尔要回归统一核心设计,预计未来十年推出!

无障碍浏览 进入关怀版
×