网易首页 > 网易数码 > 正文

谷歌让NLP模型也能debug:只要给一张“草稿纸”就行

0
分享至

现在的大型语言模型,能力个个都挺强。但,它们的计算能力都不太行:比如GPT-3,没法做超过三位数的加法。再比如它们当中的大多数都可以写代码,但是理解代码却很费劲 —— 稍微遇到点带循环的程序就“GG”。

不过,来自MIT和谷歌的研究人员发现:不用修改模型的底层架构,只需训练它们学会像程序员 debug时那样“打断点”,读代码的能力就唰唰唰地涨上去了。

将同样的思路用于大数加法、多项式计算,那就更不在话下了。所以,语言模型的数学能力终于也要跟上了?!

教语言模型用“打断点”的方法做加法、读程序

前面说的“打断点”,其实指的是在计算步骤较多的程序中,让模型把每一步都编码为文本,并将它们记录到一个称为“便签”的暂存器中,或者叫“草稿纸”。

听起来是个“笨”方法,但正是这样才使得模型的计算过程变得清晰有条理,性能也就比以往直接计算的方式提升了很多。

具体操作也很简单。就比如在简单的加法计算中,计算“29+57”的方式就是像这样的:

其中 C 表示进位,#表注释。先计算9+7,进位1;再计算2+5 + 进位1,最后得出86。

从上可以看出,这个训练示例由“输入”和“目标”组成。训练时将两者都喂给模型;测试时,模型就能根据“输入”预测出正确的“目标”。

而“目标”就是要发送到临时暂存器上的内容,通过关注其上下文就可以引用;实际操作中,还可以对“草稿”内容进行检查纠错。

显著提高语言模型的计算能力

研究人员选用了仅含解码器结构的 Transformer 语言模型来实验,其参数规模介于200万到1370亿之间。原则上,任何序列模型都可以使用这个方法,包括编-解码器模型或循环网络等。

首先,他们按这种“打断点”的方式训练语言模型进行1-8位数的整数加法。训练包含10万个示例,并进行了5000步的微调,batch size 为32。然后分别用1万个数据来测试训练分布内的加法;1千个数据来测试训练分布之外,也就是9位和10位数的加法。

将结果分别与直接运算的语言模型进行比较,发现:即使超出临界模型大小,用了“打断点”法的模型也能够进行加法运算,而直接运算的基线模型就没法做到这一点。

而在分布外的任务中,直接运算的基线模型完全挂掉 ——“没练过就不会做”,而用了“断点”法的模型随着规模的增大 hold 住了9-10位数的加法。

好,大数加法搞定。接下来上多项式。他们生成了一个包含1万个多项式的训练数据集和2000个数据的测试集。其中项数一般不超过3项,系数范围在-10到 + 10之间,结果在-1000到 + 10000之间。多项式的训练示例如下:

结果发现:无论是微调还是少样本训练之后,“断点”法的性能都优于直接预测。

最后就是读 Python 代码了。

代码的训练示例中,记录了正在执行的是哪行代码,以及此时各变量的值,用 json 格式表示。

此前的语言模型读代码的能力都表现不佳。“打断点”的方式可以让它们一改常态么?

首先,经过200个程序(都是人工编写的,包括简单的 while 循环和 if 语句)的测试发现,“断点法”整体执行精度更高。与直接执行的模型相比,微调还可以将模型性能从26.5% 提高到41.5%。

一个真实例子:

“断点”法经过3次 while 循环,最终给出了正确的变量值。

接着,他们又用包含了1000个程序的 MBPP 数据集进行训练和测试。这些程序涉及多种数据类型的计算,包括整数、字符串、浮点数等,以及涉及循环、API 调用和递归等流程结构。并添加训练数据之外的“single line”程序集和 CodeNet 程序集进行测试。

结果发现,模型也可以很好地扩展。

当然,这个方法也有局限性:比如复杂的计算可能需要很“长”的暂存器,这可能需要进一步改进 Transformer 生成窗口的大小。好在这也是 NLP 领域的一个活跃研究领域。而在未来,他们可能会尝试在无监督情况下用强化学习让语言模型学会“打断点”。

总之,语言模型的计算能力、读代码的能力会越来越强。

相关推荐
热点推荐
特斯拉 Model 3 坠落超 91 米高悬崖,车上 2 人均无生命危险!

特斯拉 Model 3 坠落超 91 米高悬崖,车上 2 人均无生命危险!

新浪财经
2026-06-01 10:51:54
女老师上课汗流浃背,博主感叹老师不容易,反遭全网谩骂、泼冷水

女老师上课汗流浃背,博主感叹老师不容易,反遭全网谩骂、泼冷水

谭谈社会
2026-06-01 17:39:07
活动擅自开展、暂停一切合作!茅台子公司连夜发布情况说明

活动擅自开展、暂停一切合作!茅台子公司连夜发布情况说明

每日经济新闻
2026-06-02 08:55:08
周六打虎!任上落马的正部级“老虎”,辞去职务

周六打虎!任上落马的正部级“老虎”,辞去职务

上观新闻
2026-06-01 12:44:24
美国现在有多少中国人?终于统计出来了,数字让很多人难以置信

美国现在有多少中国人?终于统计出来了,数字让很多人难以置信

九天揽月1
2026-06-02 12:53:50
中国汽车企业2026年5月销量月报!

中国汽车企业2026年5月销量月报!

极速车情speed
2026-06-02 16:17:42
奚梦瑶何猷君晚宴细节曝光,四太全程难掩喜悦,三太一家也有动作

奚梦瑶何猷君晚宴细节曝光,四太全程难掩喜悦,三太一家也有动作

一娱三分地
2026-06-01 20:24:21
美媒称美伊谈判重回正轨

美媒称美伊谈判重回正轨

界面新闻
2026-06-02 11:24:25
中央定调!2026年养老金从1月补发,去年涨2%,今年会涨多少呢?

中央定调!2026年养老金从1月补发,去年涨2%,今年会涨多少呢?

社保小达人
2026-06-01 11:03:56
驴友夫妇痛骂国内医院,8天花1471元?3年后美国车祸花60余万美元

驴友夫妇痛骂国内医院,8天花1471元?3年后美国车祸花60余万美元

贱议你读史
2026-05-31 16:19:12
上海瑞金研究:低密度胆固醇越低,癌症风险越高?控制到多少才好

上海瑞金研究:低密度胆固醇越低,癌症风险越高?控制到多少才好

健康科普365
2026-06-01 19:35:05
印度首富组团来华骗技术,吃闭门羹后11亿美元设备堆在仓库吃灰

印度首富组团来华骗技术,吃闭门羹后11亿美元设备堆在仓库吃灰

混沌录
2026-05-30 23:51:06
国乒男队队长调整

国乒男队队长调整

政知新媒体
2026-06-02 16:26:44
老婆出轨后,我去找对方老婆,谁料他老婆:给你套房,但有个条件

老婆出轨后,我去找对方老婆,谁料他老婆:给你套房,但有个条件

千秋文化
2026-05-29 19:56:40
成都出台户籍新政 连续缴纳养老保险3年可申请落户

成都出台户籍新政 连续缴纳养老保险3年可申请落户

北青网-北京青年报
2026-06-02 13:02:21
CCTV5直播!中国男篮对阵欧洲劲旅,徐昕首发,郭士强剑指开门红

CCTV5直播!中国男篮对阵欧洲劲旅,徐昕首发,郭士强剑指开门红

中国篮坛快讯
2026-06-02 13:49:23
李连杰携家人拜见仁波切,64岁利智罕露面,全家向大师鞠躬很虔诚

李连杰携家人拜见仁波切,64岁利智罕露面,全家向大师鞠躬很虔诚

草莓解说体育
2026-06-02 12:19:58
以军发动“规模最大”进攻,伊朗重申“所有战线”停火,黎以冲突“逼停”美伊和谈

以军发动“规模最大”进攻,伊朗重申“所有战线”停火,黎以冲突“逼停”美伊和谈

环球网资讯
2026-06-02 07:03:18
德媒:中东地缘政治正形成两个阵营

德媒:中东地缘政治正形成两个阵营

参考消息
2026-06-01 14:13:16
德甲U19国青球员火了!法媒赞谢初筠:中国队的引擎

德甲U19国青球员火了!法媒赞谢初筠:中国队的引擎

新英体育
2026-06-02 11:40:57
2026-06-02 16:56:49

头条要闻

男子离婚当晚杀害前妻逃亡17年被判死缓 检方抗诉成功

头条要闻

男子离婚当晚杀害前妻逃亡17年被判死缓 检方抗诉成功

体育要闻

1米74的业余联赛替补,在英超踢中卫

娱乐要闻

奚梦瑶何猷君补办婚礼超幸福

财经要闻

锂电“资源墙”高筑 全球性长期博弈开始

科技要闻

烧掉千亿后,美团、阿里、京东谁先止血?

汽车要闻

星途神秘新车轮廓曝光 又一款性能SUV要来了?

态度原创

艺术
游戏
家居
房产
军事航空

艺术要闻

周杰伦花 1.36 亿拍下这幅画

刺客信条:侠隐独占手游无PC版!中国刺客不配3A画质?

家居要闻

流线型轮廓 包容多元身形

房产要闻

5200巨量投资曝光!未来五年,海南格局大变!

军事要闻

伊朗媒体新发布最高领袖照片

无障碍浏览 进入关怀版
×