网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

李飞飞DeepMind全新「代码链」碾压CoT！大模型用Python代码推理，性能暴涨12%

2023-12-24 12:49:54　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：桃子

【新智元导读】激发大模型解决复杂问题的重要技术之一CoT，如今要被颠覆了？谷歌DeepMind斯坦福UC伯克利共同提出了「代码链」（CoC），让LLM在代码中学会了思考。

思维链（CoT），最具开拓性和影响力的提示工程技术之一，能增强LLM在推理决策中的表现。

那么，如果大模型可以在代码中「思考」，会如何呢？

最近，谷歌DeepMind、斯坦福、UC伯克利团队联手提出了全新技术——「代码链」（CoC）。

论文地址：https://arxiv.org/pdf/2312.04474.pdf

「代码链」是一种将编码逻辑与自然语言理解相结合，简单却非常有效的创新方法，能够提升LLM基于代码的推理能力，让其更智能、更通用。

再通俗点讲，CoC允许LLM生成「伪代码」来分解难题，通过LMulator执行有效代码，模拟无效代码。

研究结果显示，在BIG-Bench Hard基准上，CoC实现了84%的准确率，比CoT提高了12%。

另外，在BIG-Bench Hard的23项任务中，CoC在18项任务中超过了人类的平均表现。

看得出，「代码链」将CoT向前推进了一步，并将生成用于逻辑推理的代码与LLM的语义推理集成在一起。

研究人员称CoC非常适合机器人技术，可以进行语义和算法推理，在现实世界中的表现让人惊艳。

对垃圾和可回收物进行分类。

还可以准备出西红柿炒蛋的配菜。

值得一提的是，李飞飞的学生也是这篇论文的核心作者之一。

「代码链」让大模型用代码思考

除了CoT，先前的工作还有多种方法来提升大模型推理能力。

比如，Program of Thoughts（思维程序）提示编写并执行代码，还有ScratchPad提示通过跟踪程序状态的中间步骤来模拟运行已经写入的代码。

最新工作中，研究人员提出了「代码链」（CoC），其中大模型不仅编写一个程序，还可以改善大模型基于代码的推理能力。

具体来说，大模型不仅编写一个程序，而且还有选择性地「模拟」解释器，通过生成生成某些代码行的预期输出。

关键思路是，鼓励大模型将程序中的语义子任务格式化为灵活的伪代码，在运行时可以明确地捕捉到这些伪代码，并将其交给LLM进行仿真。作者将其称为LMulator。

举个栗子，给定任务「在上面的段落中，数一数这个人讽刺了多少次」。

接下来，可以在在上下文中提示LM一个可以调用辅助函数的程序，例如is_sarcastic(sentence)，LM对此进行语言预测，并将结果作为布尔（boolean）结果输出返回，然后与程序的其余部分一起处理。

具体来说，研究人员将LM推理公式化为以下过程，如下图所示：

LM编写代码，解释器逐步执行每行代码（红色）。或者如果失败，则用LM （紫色）模拟结果，并更新程序状态（绿色）。

CoC 继承了（i）编写可执行代码（将精确的算法计算留给解释器）和（ii）编写语义问题的伪代码，并生成其输出（可视为简单的格式更改，LM对其具有很强的适应性）的优点，使LM能够「用代码思考」。

研究人员还总结了「代码链」的几个特点：

- 将代码的优势与语言模型的强大语义和常识知识结合起来，使得代码能够在全新的体系中使用。

- 利用了语言模型的编码能力，这是近期语言模型的一个特别优势，因为可以获得高质量的数据。

- 继承了推理代码的许多好处，包括代码的形式化表达式结构（例如图灵完备性）和可用于代码的强大计算工具。

- 继承了通过中间步骤进行推理的技术的许多优势，比如CoT。这些技术使得语言模型在必要的时候可以使用更多的计算来解决问题，同时提供更多的可解释性。

语言推理评估

CoC的整体性能如下表1所示。

可以看到，无论是在超过人类基线的任务数量上，还是在超过基线的总体数量上，CoC都优于其他方法。

事实上，CoC在84%任务上取得SoTA。甚至在几项任务中，CoC的表现大大超过了人类基线和其他方法，几乎达到了100%准确率。

一般来说，对于这些任务，结果在语言上很复杂，但在代码上却很简单，比如，多步算术Q任务：（（-3+5×8×-4）-（9-8×-7））=）。

研究人员还观察到，CoT在许多任务上都优于人类基线，而直接答案则差强人意。

图3按问题类型将结果分解，任务标签如表a1所示。研究人员将主要是算法或主要是自然语言的问题分离出来。

实验结果显示，在算法任务上，CoC的表现尤为出色，而在自然语言任务上，CoC的表现与CoT相当。

这一结果尤其令人鼓舞，因为人们可能会认为这些面向语言的任务更不适合编码。关键是CoC方法提供了灵活性，使用仿真器来模拟代码执行的输出，同时保留了LM对自然语言问题的语义推理能力。

消融研究

图4和5，以及表2显示了为激发「代码链」提示的各个方面而执行的消融研究。

正如人们所预期的那样，执行Python的方法在多项任务上都实现了100%的性能，如果代码正确，那么模型每次输出结果都会正确。

然而，仅依赖Python的方法（CoC (Python)）在应用于非算法任务时表现不佳，几乎全部失败。

CoC（Python）的消融与最近的研究成果相似，这些研究成果表明，如果应用于数值问题，代码推理的效果会很好。

扩展

图6显示了CoC在不同规模的模型中的表现。

研究人员观察到，与「思维链」提示类似，CoC的改进也随着模型的增加而增加。

事实上，在某些算法任务中，「代码链」的表现甚至超过了最优秀的人类评测员。然而，CoT只为最大的模型（d-3）带来性能优势，而CoC在较小的模型（a-1、b-1、c-1）上也优于直接问题解答基线，这表明较小的模型更容易输出结构化代码作为中间步骤，而不是自然语言。

跨任务提示

对于跨任务提示，研究人员用一些来自不同问题的例子来提示语言模型。从上图6和表2中看到了所有方法的性能下降。

尽管有这种下降，CoC在规模上优于CoT和直接提示，几乎达到了人类的平均性能。

指令调优模型

为了与使用聊天界面的指令调优的模型进行比较，研究人员向模型发出指令，以引出所需的推理方法。

对于基线，作者要求模型「直接回答」（Direct）或「逐步思考」（CoT）。

对于CoC变体，研究人员要求模型「编写python代码来帮助解决问题，如果有帮助的话」。

如果编写了程序，可以使用Python解释器运行代码，然后将结果（或执行失败时的错误信息）反馈给模型以确定最终答案（CoC (Python)），或者要求模型将代码执行的输出模拟为LMulator（CoC (LM)）。

如下表显示了每种方法的性能。使用gpt-3.5-turbo，CoT和CoC (Python)都显示出比直接提示更好的性能，尽管它们都被CoC (Interweave) 大大超越。

机器人用上了

此外，研究人员还将CoC的方法用在了机械臂在真实环境中的探索中。

结果发现，「代码链」非常适合解决机器人任务，因为这类任务需要语义和算法推理。

它们还通过代码（控制或感知 API）与其他API交互，以及通过自然语言与用户交互。

就比如开头提到的垃圾分类任务，「代码链」加持的机械臂的「思考过程」如下。

红色突出显示表示解释器正在执行LM生成的代码，紫色突出显示表示LMulator正在模拟代码。

西红柿炒蛋的过程。

参考资料：

https://arxiv.org/abs/2312.04474

https://twitter.com/ChengshuEricLi/status/1733169631949701425

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

最强开源编程大模型一夜易主：精通80+语言，仅22B

量子位 2024-05-30 15:44:31
46 跟贴 46
秒杀GPT-4o!Mistral开源首个22B代码模型破记录,支持80+编程语言

新智元 2024-05-30 13:18:01
1 跟贴 1

比LoRA还快50%！一张3090超越全参调优，UIUC联合LMFlow提出LISA

机器之心Pro 2024-04-01 15:29:05
0 跟贴 0

大语言模型权重、激活的全方位低bit可微量化，已集成进商用APP

机器之心Pro 2024-03-07 16:00:01
0 跟贴 0
Mac专属大模型框架来了！两行代码部署，能聊本地数据，支持中文

量子位 2024-03-04 16:53:32
0 跟贴 0

从零复现Llama3代码库爆火，大神Kapathy一键三连，GitHub狂揽2k+

量子位 2024-05-21 09:51:02
0 跟贴 0

速度秒掉GPT-4o,22B击败Llama 3 70B,Mistral AI开放首个代码模型

机器之心Pro 2024-05-30 15:54:49
0 跟贴 0
全世界机器人共用一个大脑，谷歌DeepMind已经完成了第一步

机器之心Pro 2024-01-25 15:59:20
0 跟贴 0

一哄而上，打不赢美国高科技

华商韬略 2024-03-14 10:07:05
3871 跟贴 3871
当事人回应红十字会直升机送烤全羊：系私人飞机，演练后忘记撕标

北京青年报 2024-05-30 14:26:52
55412 跟贴 55412
何小鹏：未来一年半智驾迎30倍提升，大模型时代难有Tier 1

HiEV 2024-05-30 13:22:17
0 跟贴 0
每天都看模型评分，但你真的了解吗？OpenAI研究员最新博客，一文读懂LLM评估

新智元 2024-05-30 13:12:45
0 跟贴 0
田静全家给奇奇庆生，怼小星星很偏激，郭威和老丈人关系融洽

小柠娱计 2024-05-29 14:26:16
371 跟贴 371
美国司法部逮捕1名中国公民外交部回应

外交部网站 2024-05-30 18:46:41
4304 跟贴 4304
27岁华裔天才少年对打UC伯克利，首发SEAL大模型排行榜！Claude 3 Opus数学封神

新智元 2024-05-30 13:13:44
11 跟贴 11
确认！武大女选调生已离职，整个学校被牵连，野妇论导师也逃不了

影孖看世界 2024-05-30 21:03:00
2323 跟贴 2323
萝卜快跑无人驾驶车辆致拥堵遭大量投诉，武汉相关部门已介入

澎湃新闻 2024-05-30 13:57:29
12130 跟贴 12130
新一代注意力机制Lightning Attention-2：无限序列长度

机器之心Pro 2024-01-18 14:41:20
2 跟贴 2
现在，所有人都能免费用GPT-4o了！

新智元 2024-05-30 13:12:45
3462 跟贴 3462
国产大模型第一波应用已经落地：搜索与情感陪伴赛道崛起！

华尔街见闻官方 2024-05-30 11:57:40
0 跟贴 0
2024新一线城市榜单出炉，江苏三市上榜！该市时隔5年重回榜单

江苏新闻 2024-05-30 17:16:52
2067 跟贴 2067
600元一亩交钱浇地：黑龙江四川尝鲜水资源承包，种粮难全球领先

大风文字 2024-05-30 15:16:26
10889 跟贴 10889
笑死！佩斯科夫：欧盟不喜欢匈牙利的独立性因此欧尔班受到压力

老马拉车莫少装 2024-05-31 00:06:26
41 跟贴 41
曾经卖7000元的顶配商务本，现在成了闲鱼上最火的洋垃圾

雷科技 2023-12-20 17:03:55
762 跟贴 762
不分割成token，直接从字节中高效学习，Mamba原来还能这样用

机器之心Pro 2024-02-04 17:15:05
0 跟贴 0
解放军指挥系统的“超级大脑”，为何公开出来，战颅系统有多强

李大娱乐糊涂 2024-05-27 08:03:42
1 跟贴 1
“离谱的AI扩图”火了！张张那叫一个出其不意

量子位 2023-12-05 13:17:05
0 跟贴 0
在执行这个政策前，请先查查官员的财产

顾礼先生 2024-05-30 16:21:19
9777 跟贴 9777
国防部：美方的老毛病现在有必要改一改了

环球网 2024-05-30 16:54:55
2130 跟贴 2130
老板让程序员做个登录功能，程序员：“这简直多此一举！”

程序员古耕 2024-05-29 21:58:53
123 跟贴 123
中国决定对航空航天结构件及发动机制造相关装备及软件、技术等实施出口管制

每日经济新闻 2024-05-30 17:03:20
2561 跟贴 2561
苟仲文被查！8天前还露面，曾因国足成绩不好“作检讨”

政知新媒体 2024-05-30 15:59:15
2579 跟贴 2579
20%的杨幂+80%的泰勒长什么样？全新风格化AI来了，可兼容SD

量子位 2024-01-18 15:38:06
0 跟贴 0
闹大了！窦局长等干部登上《新闻联播》，李梓萌点评，网友热议

180°视角 2024-05-30 12:52:08
4439 跟贴 4439
世界离不开美元，依赖度还在走高

学者马国川 2024-05-30 15:39:50
3226 跟贴 3226
一个未被探索的数学世界——第五种算术运算，刷新你对数学的认知

老胡说科学 2024-05-27 05:00:03
31 跟贴 31
房价直逼鹤岗？河北一市距离北京152公里，房价最低858每平米

小萝卜丝 2024-05-30 20:21:59
2850 跟贴 2850
女孩相亲，全程叼着烟，女孩直言：我曾是大哥的女人，你养得起吗

世态言凉 2024-05-28 10:44:59
72 跟贴 72
Deepfake假CFO骗走公司1.8个亿，员工：视频会议每个人都很真实啊

量子位 2024-02-11 13:35:56
0 跟贴 0
央视曝光市场“夺命毒衣服”，致癌物超标20多倍！可别再乱买了

39健康网 2024-05-30 20:51:12
74 跟贴 74

消失许久的周立波突然发声！感慨：做我局的人已经叛逃，人不怕被冤枉就怕有报应

消失许久的周立波突然发声！感慨：做我局的人已经叛逃，人不怕被冤枉就怕有报应

可达鸭面面观

2024-05-30 12:24:04

姚小平被查

核电那些事

2024-05-30 19:29:06

雅迪、爱玛多个品牌禁止在北京销售，70%配置锂电池，车主怎么办

雅迪、爱玛多个品牌禁止在北京销售，70%配置锂电池，车主怎么办

电动车的那些事儿

2024-05-30 06:25:32

央视曝光市场“夺命毒衣服”，致癌物超标20多倍！可别再乱买了

央视曝光市场“夺命毒衣服”，致癌物超标20多倍！可别再乱买了

39健康网

2024-05-30 20:51:12

欧洲之所以如此强大、伟大，是因为这五大“元规则”

欧洲之所以如此强大、伟大，是因为这五大“元规则”

尚曦读史

2024-05-29 22:58:07

中国决定对航空航天结构件及发动机制造相关装备及软件、技术等实施出口管制

中国决定对航空航天结构件及发动机制造相关装备及软件、技术等实施出口管制

每日经济新闻

2024-05-30 17:03:20

领先60分，基本出线！中国女排安枕无忧，再胜=送日本无缘奥运会

领先60分，基本出线！中国女排安枕无忧，再胜=送日本无缘奥运会

侃球熊弟

2024-05-30 19:23:15

曝某地妇幼医院推“骨密度检查”项目，曾有知名医院科普过，小孩不需要做检查！

曝某地妇幼医院推“骨密度检查”项目，曾有知名医院科普过，小孩不需要做检查！

可达鸭面面观

2024-05-30 14:29:51

林毅夫教授，网民喊您兑现“光刻机三年之约”……

林毅夫教授，网民喊您兑现“光刻机三年之约”……

故园老丁

2024-05-30 19:33:58

新华社快讯：据朝中社31日报道，朝鲜最高领导人金正恩直接下令进行了超大型火箭炮火力示威射击。

新华社快讯：据朝中社31日报道，朝鲜最高领导人金正恩直接下令进行了超大型火箭炮火力示威射击。

新华社

2024-05-31 05:33:36

独行侠半场领先森林狼29分：东契奇25分欧文19分华子12分

独行侠半场领先森林狼29分：东契奇25分欧文19分华子12分

醉卧浮生

2024-05-31 09:39:05

创纪录！曝因恒大审计事件，普华永道将遭史上最大罚单，最快本周官宣

创纪录！曝因恒大审计事件，普华永道将遭史上最大罚单，最快本周官宣

小星球探索

2024-05-30 15:20:58

瑞典能源与工商大臣：如果匈牙利否决欧盟制裁瑞典或禁止从俄罗斯进口液化天然气

瑞典能源与工商大臣：如果匈牙利否决欧盟制裁瑞典或禁止从俄罗斯进口液化天然气

财联社

2024-05-31 02:54:07

“穷人三件套”齐齐涨价，高铁之后，更重要的信号出现了

“穷人三件套”齐齐涨价，高铁之后，更重要的信号出现了

智谷趋势

2024-05-30 19:23:19

“俄乌战争”出现战略转变，大势已定

“俄乌战争”出现战略转变，大势已定

深度知局

2024-05-29 19:01:35

新加坡坠亡女留学生男友发声：事发凌晨，她独自在高处坐了几个小时

新加坡坠亡女留学生男友发声：事发凌晨，她独自在高处坐了几个小时

红星新闻

2024-05-30 20:46:47

在执行这个政策前，请先查查官员的财产

在执行这个政策前，请先查查官员的财产

顾礼先生

2024-05-30 16:21:19

汪峰给森林北写歌，歌词肉麻遭吐槽，森林北给汪峰做新疆大盘鸡

汪峰给森林北写歌，歌词肉麻遭吐槽，森林北给汪峰做新疆大盘鸡

红大娘娱乐

2024-05-30 21:23:45

女子趁理发师工作时，伸手摸向敏感部位，网友调侃：这钱真难赚

女子趁理发师工作时，伸手摸向敏感部位，网友调侃：这钱真难赚

看晓天下事

2024-05-26 18:38:25

聪明的李凯尔，开窍的森林狼

静易墨

2024-05-30 20:59:19

AI产业主平台领航智能+时代

11095文章数 65530关注度

往期回顾全部

科技要闻

百公里油耗2.9L真不真？吉利比亚迪"翻脸"

头条要闻

牛弹琴：特朗普成为重刑犯痛骂"美国已经下地狱了"

头条要闻

牛弹琴：特朗普成为重刑犯痛骂"美国已经下地狱了"

体育要闻

聪明的李凯尔，开窍的森林狼

娱乐要闻

法国这一夜，45岁章子怡惊艳世界！

财经要闻

海峡两岸经济合作框架协议部分产品关税减让中止

汽车要闻

年内上市/纯电和增程可选阿维塔07实车谍照曝光

态度原创

本地

教育

旅游

手机

数码

本地新闻

食味印象｜歙县限定！枇杷味儿的清甜初夏

教育要闻

学习卡片 | 务农重本，国之大纲

旅游要闻

飞深圳航班滑出后女子疑因情感问题要求下飞机

手机要闻

颜值配置样样能打这款OPPO Reno12居然只卖2000多

数码要闻

11英寸M4 iPad Pro更难被折断但其弱点与大尺寸版本完全相同

© 1997-2024 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 广告服务 | 不良信息举报 Complaint Center | 廉正举报

无障碍浏览进入关怀版