网易首页

注册免费邮箱

网易首页 > 网易数码 > 正文

谷歌让NLP模型也能debug：只要给一张“草稿纸”就行

2021-12-05 00:02:34　来源: 量子位举报

0

分享至

现在的大型语言模型，能力个个都挺强。但，它们的计算能力都不太行：比如GPT-3，没法做超过三位数的加法。再比如它们当中的大多数都可以写代码，但是理解代码却很费劲 —— 稍微遇到点带循环的程序就“GG”。

不过，来自MIT和谷歌的研究人员发现：不用修改模型的底层架构，只需训练它们学会像程序员 debug时那样“打断点”，读代码的能力就唰唰唰地涨上去了。

将同样的思路用于大数加法、多项式计算，那就更不在话下了。所以，语言模型的数学能力终于也要跟上了？！

教语言模型用“打断点”的方法做加法、读程序

前面说的“打断点”，其实指的是在计算步骤较多的程序中，让模型把每一步都编码为文本，并将它们记录到一个称为“便签”的暂存器中，或者叫“草稿纸”。

听起来是个“笨”方法，但正是这样才使得模型的计算过程变得清晰有条理，性能也就比以往直接计算的方式提升了很多。

具体操作也很简单。就比如在简单的加法计算中，计算“29+57”的方式就是像这样的：

其中 C 表示进位，#表注释。先计算9+7，进位1；再计算2+5 + 进位1，最后得出86。

从上可以看出，这个训练示例由“输入”和“目标”组成。训练时将两者都喂给模型；测试时，模型就能根据“输入”预测出正确的“目标”。

而“目标”就是要发送到临时暂存器上的内容，通过关注其上下文就可以引用；实际操作中，还可以对“草稿”内容进行检查纠错。

显著提高语言模型的计算能力

研究人员选用了仅含解码器结构的 Transformer 语言模型来实验，其参数规模介于200万到1370亿之间。原则上，任何序列模型都可以使用这个方法，包括编-解码器模型或循环网络等。

首先，他们按这种“打断点”的方式训练语言模型进行1-8位数的整数加法。训练包含10万个示例，并进行了5000步的微调，batch size 为32。然后分别用1万个数据来测试训练分布内的加法；1千个数据来测试训练分布之外，也就是9位和10位数的加法。

将结果分别与直接运算的语言模型进行比较，发现：即使超出临界模型大小，用了“打断点”法的模型也能够进行加法运算，而直接运算的基线模型就没法做到这一点。

而在分布外的任务中，直接运算的基线模型完全挂掉 ——“没练过就不会做”，而用了“断点”法的模型随着规模的增大 hold 住了9-10位数的加法。

好，大数加法搞定。接下来上多项式。他们生成了一个包含1万个多项式的训练数据集和2000个数据的测试集。其中项数一般不超过3项，系数范围在-10到 + 10之间，结果在-1000到 + 10000之间。多项式的训练示例如下：

结果发现：无论是微调还是少样本训练之后，“断点”法的性能都优于直接预测。

最后就是读 Python 代码了。

代码的训练示例中，记录了正在执行的是哪行代码，以及此时各变量的值，用 json 格式表示。

此前的语言模型读代码的能力都表现不佳。“打断点”的方式可以让它们一改常态么？

首先，经过200个程序（都是人工编写的，包括简单的 while 循环和 if 语句）的测试发现，“断点法”整体执行精度更高。与直接执行的模型相比，微调还可以将模型性能从26.5% 提高到41.5%。

一个真实例子：

“断点”法经过3次 while 循环，最终给出了正确的变量值。

接着，他们又用包含了1000个程序的 MBPP 数据集进行训练和测试。这些程序涉及多种数据类型的计算，包括整数、字符串、浮点数等，以及涉及循环、API 调用和递归等流程结构。并添加训练数据之外的“single line”程序集和 CodeNet 程序集进行测试。

结果发现，模型也可以很好地扩展。

当然，这个方法也有局限性：比如复杂的计算可能需要很“长”的暂存器，这可能需要进一步改进 Transformer 生成窗口的大小。好在这也是 NLP 领域的一个活跃研究领域。而在未来，他们可能会尝试在无监督情况下用强化学习让语言模型学会“打断点”。

总之，语言模型的计算能力、读代码的能力会越来越强。

本文来源：量子位责任编辑：陈功_NT3893

相关推荐

热点推荐

CVPR 2026 | 20步也能稳住画质，这个扩散加速方法不一样

机器之心Pro 2026-04-10 18:40:17
0 跟贴 0
领导当众表扬你，别傻，做到以下几点

学习经营管理 2026-06-02 13:02:45
0 跟贴 0

你以为爱是加法，其实它改变了你全部的生活

有态度网友ytd2993 2026-06-01 01:03:02
0 跟贴 0

盘点谷歌地图拍到的诡异街景，最后一个还拍到传说中的后室！

绝世的画a 2026-05-31 17:51:28
1 跟贴 1
鲜奶雪糕包装印“不加一滴水”配料表首位竟是水厂家：系旧包装，已改名“一滴水”

上游新闻 2026-05-29 18:03:05
1852 跟贴 1852

机智妈妈这波带娃操作绝了

北青网-北京青年报 2026-06-02 05:53:28
37 跟贴 37

港股“子”曰｜罕见增发谷歌800亿美元砸向这一领域

每日经济新闻 2026-06-02 15:21:08
0 跟贴 0
「龙虾之父」吐槽人类互联网后，终于有人把这当个事儿办了

机器之心Pro 2026-03-31 11:09:26
0 跟贴 0

Claude design限速，谷歌开源轻松做动态网页，实力打脸？

机器之心Pro 2026-04-29 17:20:04
0 跟贴 0
先上市者为王？一文读懂：Anthropic与OpenAI缘何上演“抢滩登陆战”！

财联社 2026-06-02 10:50:22
0 跟贴 0
大举加仓谷歌巴菲特接班人看中了什么?

财联社 2026-06-02 15:52:25
0 跟贴 0
美股大型科技股盘前涨跌互现，英伟达涨1%

每日经济新闻 2026-06-02 16:13:13
0 跟贴 0
10天内5省迎新任副省长：两人是70后两人跨省调整

国是直通车 2026-06-02 07:26:26
328 跟贴 328
上海一家医院不设急诊发热门诊，周末无门诊引热议，回应：人还没配齐，有需求可到总院

潇湘晨报 2026-06-01 18:16:21
314 跟贴 314
阿迪达斯夹克可用于“在城里办事”？客服：相关商品页面已修改优化

中国能源网 2026-06-02 00:27:04
204 跟贴 204
沈南鹏，捐3亿

新京报 2026-06-01 21:02:19
246 跟贴 246
成龙向全球发出入境游邀约：欢迎感受无滤镜的真实中国

新京报 2026-06-01 12:09:13
416 跟贴 416
VeRL-Omni：面向扩散和全模态生成模型的通用RL后训练框架

机器之心Pro 2026-05-25 17:32:45
0 跟贴 0
OpenAI官宣：进军机器人赛道

财联社 2026-06-02 06:08:10
0 跟贴 0
幼儿在公园误舔了一口叶子中毒入院

澎湃新闻 2026-06-01 19:48:49
412 跟贴 412
逆袭的残酷真相：你必须“死掉”一次

时光慢邮啊 2026-06-02 00:58:58
0 跟贴 0
“Lorem ipsum”究竟是什么意思？这段无意义文字为何无处不在

追星雷达站 2026-06-01 00:50:50
0 跟贴 0
吃片皮鸭、喝红酒、品甜点…夏日，上海市集的烟火气和氛围感如何“炼成”？

上观新闻 2026-06-01 07:34:08
971 跟贴 971
人民日报有问有答：对随身登机行李收费，有依据吗？

澎湃新闻 2026-06-02 07:53:14
60 跟贴 60
美股三大股指集体收涨，纳指首次收于27000点上方

每日经济新闻 2026-06-02 05:14:31
101 跟贴 101
新疆托克逊县发生5.0级地震，这些谣言勿信勿传（2026·06·01）

今日辟谣 2026-06-01 18:21:07
91 跟贴 91
欧洲企业CEO：中国抗生素卖得比口香糖还便宜我好气

澎湃新闻 2026-06-02 08:00:08
2 跟贴 2
游客吃潮汕火锅嫌“口太淡”要挟写“5000字差评”要免单，火锅店最新回应：高峰期排队上千桌，为顾全大局妥协

洪观新闻 2026-06-02 13:19:43
0 跟贴 0
美据报或在欧洲增加核部署

界面新闻 2026-06-02 15:11:49
14 跟贴 14
浙江广厦主帅：G4无论结果如何都要拼到最后一刻

北青网-北京青年报 2026-06-02 13:50:14
0 跟贴 0
稻城亚丁“省道”，车票收入超1亿元

中国新闻周刊 2026-06-01 20:10:11
0 跟贴 0
挪威深海发现载有中国瓷器的18世纪沉船：大量青花瓷碗重见天日，文物达数千件，目前正开展船只溯源工作并努力还原历史真相

大风新闻 2026-06-02 12:15:18
0 跟贴 0
英伟达巧用8B模型秒掉GPT-5 开源了

量子位 2025-12-06 14:07:18
0 跟贴 0

特斯拉 Model 3 坠落超 91 米高悬崖，车上 2 人均无生命危险！

特斯拉 Model 3 坠落超 91 米高悬崖，车上 2 人均无生命危险！

新浪财经

2026-06-01 10:51:54

女老师上课汗流浃背，博主感叹老师不容易，反遭全网谩骂、泼冷水

女老师上课汗流浃背，博主感叹老师不容易，反遭全网谩骂、泼冷水

谭谈社会

2026-06-01 17:39:07

活动擅自开展、暂停一切合作！茅台子公司连夜发布情况说明

活动擅自开展、暂停一切合作！茅台子公司连夜发布情况说明

每日经济新闻

2026-06-02 08:55:08

周六打虎！任上落马的正部级“老虎”，辞去职务

周六打虎！任上落马的正部级“老虎”，辞去职务

上观新闻

2026-06-01 12:44:24

美国现在有多少中国人？终于统计出来了，数字让很多人难以置信

美国现在有多少中国人？终于统计出来了，数字让很多人难以置信

九天揽月1

2026-06-02 12:53:50

中国汽车企业2026年5月销量月报！

中国汽车企业2026年5月销量月报！

极速车情speed

2026-06-02 16:17:42

奚梦瑶何猷君晚宴细节曝光，四太全程难掩喜悦，三太一家也有动作

奚梦瑶何猷君晚宴细节曝光，四太全程难掩喜悦，三太一家也有动作

一娱三分地

2026-06-01 20:24:21

美媒称美伊谈判重回正轨

界面新闻

2026-06-02 11:24:25

中央定调！2026年养老金从1月补发，去年涨2%，今年会涨多少呢？

中央定调！2026年养老金从1月补发，去年涨2%，今年会涨多少呢？

社保小达人

2026-06-01 11:03:56

驴友夫妇痛骂国内医院，8天花1471元？3年后美国车祸花60余万美元

驴友夫妇痛骂国内医院，8天花1471元？3年后美国车祸花60余万美元

贱议你读史

2026-05-31 16:19:12

上海瑞金研究：低密度胆固醇越低，癌症风险越高？控制到多少才好

上海瑞金研究：低密度胆固醇越低，癌症风险越高？控制到多少才好

健康科普365

2026-06-01 19:35:05

印度首富组团来华骗技术，吃闭门羹后11亿美元设备堆在仓库吃灰

印度首富组团来华骗技术，吃闭门羹后11亿美元设备堆在仓库吃灰

混沌录

2026-05-30 23:51:06

国乒男队队长调整

政知新媒体

2026-06-02 16:26:44

老婆出轨后，我去找对方老婆，谁料他老婆：给你套房，但有个条件

老婆出轨后，我去找对方老婆，谁料他老婆：给你套房，但有个条件

千秋文化

2026-05-29 19:56:40

成都出台户籍新政连续缴纳养老保险3年可申请落户

成都出台户籍新政连续缴纳养老保险3年可申请落户

北青网-北京青年报

2026-06-02 13:02:21

CCTV5直播！中国男篮对阵欧洲劲旅，徐昕首发，郭士强剑指开门红

CCTV5直播！中国男篮对阵欧洲劲旅，徐昕首发，郭士强剑指开门红

中国篮坛快讯

2026-06-02 13:49:23

李连杰携家人拜见仁波切，64岁利智罕露面，全家向大师鞠躬很虔诚

李连杰携家人拜见仁波切，64岁利智罕露面，全家向大师鞠躬很虔诚

草莓解说体育

2026-06-02 12:19:58

以军发动“规模最大”进攻，伊朗重申“所有战线”停火，黎以冲突“逼停”美伊和谈

以军发动“规模最大”进攻，伊朗重申“所有战线”停火，黎以冲突“逼停”美伊和谈

环球网资讯

2026-06-02 07:03:18

德媒：中东地缘政治正形成两个阵营

德媒：中东地缘政治正形成两个阵营

参考消息

2026-06-01 14:13:16

德甲U19国青球员火了！法媒赞谢初筠：中国队的引擎

德甲U19国青球员火了！法媒赞谢初筠：中国队的引擎

新英体育

2026-06-02 11:40:57

网易新闻

iOS

Android

头条要闻

男子离婚当晚杀害前妻逃亡17年被判死缓检方抗诉成功

头条要闻

男子离婚当晚杀害前妻逃亡17年被判死缓检方抗诉成功

体育要闻

1米74的业余联赛替补，在英超踢中卫

娱乐要闻

奚梦瑶何猷君补办婚礼超幸福

财经要闻

锂电“资源墙”高筑全球性长期博弈开始

科技要闻

烧掉千亿后，美团、阿里、京东谁先止血？

汽车要闻

星途神秘新车轮廓曝光又一款性能SUV要来了？

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

艺术

游戏

家居

房产

军事航空

艺术要闻

周杰伦花 1.36 亿拍下这幅画

刺客信条:侠隐独占手游无PC版！中国刺客不配3A画质?

家居要闻

流线型轮廓包容多元身形

房产要闻

5200巨量投资曝光！未来五年，海南格局大变！

军事要闻

伊朗媒体新发布最高领袖照片

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版

×