网易首页 > 网易号 > 正文 申请入驻

李飞飞DeepMind全新「代码链」碾压CoT!大模型用Python代码推理,性能暴涨12%

0
分享至


新智元报道

编辑:桃子

【新智元导读】激发大模型解决复杂问题的重要技术之一CoT,如今要被颠覆了?谷歌DeepMind斯坦福UC伯克利共同提出了「代码链」(CoC),让LLM在代码中学会了思考。

思维链(CoT),最具开拓性和影响力的提示工程技术之一,能增强LLM在推理决策中的表现。


那么,如果大模型可以在代码中「思考」,会如何呢?

最近,谷歌DeepMind、斯坦福、UC伯克利团队联手提出了全新技术——「代码链」(CoC)。


论文地址:https://arxiv.org/pdf/2312.04474.pdf

「代码链」是一种将编码逻辑与自然语言理解相结合,简单却非常有效的创新方法,能够提升LLM基于代码的推理能力,让其更智能、更通用。

再通俗点讲,CoC允许LLM生成「伪代码」来分解难题,通过LMulator执行有效代码,模拟无效代码。


研究结果显示,在BIG-Bench Hard基准上,CoC实现了84%的准确率,比CoT提高了12%。

另外,在BIG-Bench Hard的23项任务中,CoC在18项任务中超过了人类的平均表现。


看得出,「代码链」将CoT向前推进了一步,并将生成用于逻辑推理的代码与LLM的语义推理集成在一起。

研究人员称CoC非常适合机器人技术,可以进行语义和算法推理,在现实世界中的表现让人惊艳。

对垃圾和可回收物进行分类。


还可以准备出西红柿炒蛋的配菜。


值得一提的是,李飞飞的学生也是这篇论文的核心作者之一。


「代码链」让大模型用代码思考

除了CoT,先前的工作还有多种方法来提升大模型推理能力。

比如,Program of Thoughts(思维程序)提示编写并执行代码,还有ScratchPad提示通过跟踪程序状态的中间步骤来模拟运行已经写入的代码。


最新工作中,研究人员提出了「代码链」(CoC),其中大模型不仅编写一个程序,还可以改善大模型基于代码的推理能力。

具体来说,大模型不仅编写一个程序,而且还有选择性地「模拟」解释器,通过生成生成某些代码行的预期输出。

关键思路是,鼓励大模型将程序中的语义子任务格式化为灵活的伪代码,在运行时可以明确地捕捉到这些伪代码,并将其交给LLM进行仿真。作者将其称为LMulator。

举个栗子,给定任务「在上面的段落中,数一数这个人讽刺了多少次」。

接下来,可以在在上下文中提示LM一个可以调用辅助函数的程序,例如is_sarcastic(sentence),LM对此进行语言预测,并将结果作为布尔(boolean)结果输出返回,然后与程序的其余部分一起处理。

具体来说,研究人员将LM推理公式化为以下过程,如下图所示:

LM编写代码,解释器逐步执行每行代码(红色) 。或者如果失败,则用LM (紫色)模拟结果,并更新程序状态(绿色)。

CoC 继承了(i)编写可执行代码(将精确的算法计算留给解释器)和(ii)编写语义问题的伪代码,并生成其输出(可视为简单的格式更改,LM对其具有很强的适应性)的优点,使LM能够「用代码思考」。


研究人员还总结了「代码链」的几个特点:

- 将代码的优势与语言模型的强大语义和常识知识结合起来,使得代码能够在全新的体系中使用。

- 利用了语言模型的编码能力,这是近期语言模型的一个特别优势,因为可以获得高质量的数据。

- 继承了推理代码的许多好处,包括代码的形式化表达式结构(例如图灵完备性)和可用于代码的强大计算工具。

- 继承了通过中间步骤进行推理的技术的许多优势,比如CoT。这些技术使得语言模型在必要的时候可以使用更多的计算来解决问题,同时提供更多的可解释性。

语言推理评估

CoC的整体性能如下表1所示。

可以看到,无论是在超过人类基线的任务数量上,还是在超过基线的总体数量上,CoC都优于其他方法。

事实上,CoC在84%任务上取得SoTA。甚至在几项任务中,CoC的表现大大超过了人类基线和其他方法,几乎达到了100%准确率。

一般来说,对于这些任务,结果在语言上很复杂,但在代码上却很简单,比如,多步算术Q任务:((-3+5×8×-4)-(9-8×-7))=)。

研究人员还观察到,CoT在许多任务上都优于人类基线,而直接答案则差强人意。


图3按问题类型将结果分解,任务标签如表a1所示。研究人员将主要是算法或主要是自然语言的问题分离出来。

实验结果显示,在算法任务上,CoC的表现尤为出色,而在自然语言任务上,CoC的表现与CoT相当。

这一结果尤其令人鼓舞,因为人们可能会认为这些面向语言的任务更不适合编码。关键是CoC方法提供了灵活性,使用仿真器来模拟代码执行的输出,同时保留了LM对自然语言问题的语义推理能力。


消融研究

图4和5,以及表2显示了为激发「代码链」提示的各个方面而执行的消融研究。

正如人们所预期的那样,执行Python的方法在多项任务上都实现了100%的性能,如果代码正确,那么模型每次输出结果都会正确。

然而,仅依赖Python的方法(CoC (Python))在应用于非算法任务时表现不佳,几乎全部失败。

CoC(Python)的消融与最近的研究成果相似,这些研究成果表明,如果应用于数值问题,代码推理的效果会很好。




扩展

图6显示了CoC在不同规模的模型中的表现。

研究人员观察到,与「思维链」提示类似,CoC的改进也随着模型的增加而增加。

事实上,在某些算法任务中,「代码链」的表现甚至超过了最优秀的人类评测员。然而,CoT只为最大的模型(d-3)带来性能优势,而CoC在较小的模型(a-1、b-1、c-1)上也优于直接问题解答基线,这表明较小的模型更容易输出结构化代码作为中间步骤,而不是自然语言。


跨任务提示

对于跨任务提示,研究人员用一些来自不同问题的例子来提示语言模型。从上图6和表2中看到了所有方法的性能下降。

尽管有这种下降,CoC在规模上优于CoT和直接提示,几乎达到了人类的平均性能。

指令调优模型

为了与使用聊天界面的指令调优的模型进行比较,研究人员向模型发出指令,以引出所需的推理方法。

对于基线,作者要求模型「直接回答」(Direct)或 「逐步思考」(CoT)。

对于CoC变体,研究人员要求模型「编写python代码来帮助解决问题,如果有帮助的话」。

如果编写了程序,可以使用Python解释器运行代码,然后将结果(或执行失败时的错误信息)反馈给模型以确定最终答案(CoC (Python)),或者要求模型将代码执行的输出模拟为LMulator(CoC (LM))。

如下表显示了每种方法的性能。使用gpt-3.5-turbo,CoT和CoC (Python)都显示出比直接提示更好的性能,尽管它们都被CoC (Interweave) 大大超越。


机器人用上了

此外,研究人员还将CoC的方法用在了机械臂在真实环境中的探索中。

结果发现,「代码链」非常适合解决机器人任务,因为这类任务需要语义和算法推理。

它们还通过代码(控制或感知 API)与其他API交互,以及通过自然语言与用户交互。

就比如开头提到的垃圾分类任务,「代码链」加持的机械臂的「思考过程」如下。


红色突出显示表示解释器正在执行LM生成的代码,紫色突出显示表示LMulator正在模拟代码。


西红柿炒蛋的过程。


参考资料:

https://arxiv.org/abs/2312.04474

https://twitter.com/ChengshuEricLi/status/1733169631949701425


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
消失许久的周立波突然发声!感慨:做我局的人已经叛逃,人不怕被冤枉就怕有报应

消失许久的周立波突然发声!感慨:做我局的人已经叛逃,人不怕被冤枉就怕有报应

可达鸭面面观
2024-05-30 12:24:04
姚小平 被查

姚小平 被查

核电那些事
2024-05-30 19:29:06
雅迪、爱玛多个品牌禁止在北京销售,70%配置锂电池,车主怎么办

雅迪、爱玛多个品牌禁止在北京销售,70%配置锂电池,车主怎么办

电动车的那些事儿
2024-05-30 06:25:32
央视曝光市场“夺命毒衣服”,致癌物超标20多倍!可别再乱买了

央视曝光市场“夺命毒衣服”,致癌物超标20多倍!可别再乱买了

39健康网
2024-05-30 20:51:12
欧洲之所以如此强大、伟大,是因为这五大“元规则”

欧洲之所以如此强大、伟大,是因为这五大“元规则”

尚曦读史
2024-05-29 22:58:07
中国决定对航空航天结构件及发动机制造相关装备及软件、技术等实施出口管制

中国决定对航空航天结构件及发动机制造相关装备及软件、技术等实施出口管制

每日经济新闻
2024-05-30 17:03:20
领先60分,基本出线!中国女排安枕无忧,再胜=送日本无缘奥运会

领先60分,基本出线!中国女排安枕无忧,再胜=送日本无缘奥运会

侃球熊弟
2024-05-30 19:23:15
曝某地妇幼医院推“骨密度检查”项目,曾有知名医院科普过,小孩不需要做检查!

曝某地妇幼医院推“骨密度检查”项目,曾有知名医院科普过,小孩不需要做检查!

可达鸭面面观
2024-05-30 14:29:51
林毅夫教授,网民喊您兑现“光刻机三年之约”……

林毅夫教授,网民喊您兑现“光刻机三年之约”……

故园老丁
2024-05-30 19:33:58
新华社快讯:据朝中社31日报道,朝鲜最高领导人金正恩直接下令进行了超大型火箭炮火力示威射击。

新华社快讯:据朝中社31日报道,朝鲜最高领导人金正恩直接下令进行了超大型火箭炮火力示威射击。

新华社
2024-05-31 05:33:36
独行侠半场领先森林狼29分:东契奇25分欧文19分 华子12分

独行侠半场领先森林狼29分:东契奇25分欧文19分 华子12分

醉卧浮生
2024-05-31 09:39:05
创纪录!曝因恒大审计事件,普华永道将遭史上最大罚单,最快本周官宣

创纪录!曝因恒大审计事件,普华永道将遭史上最大罚单,最快本周官宣

小星球探索
2024-05-30 15:20:58
瑞典能源与工商大臣:如果匈牙利否决欧盟制裁 瑞典或禁止从俄罗斯进口液化天然气

瑞典能源与工商大臣:如果匈牙利否决欧盟制裁 瑞典或禁止从俄罗斯进口液化天然气

财联社
2024-05-31 02:54:07
“穷人三件套”齐齐涨价,高铁之后,更重要的信号出现了

“穷人三件套”齐齐涨价,高铁之后,更重要的信号出现了

智谷趋势
2024-05-30 19:23:19
“俄乌战争”出现战略转变,大势已定

“俄乌战争”出现战略转变,大势已定

深度知局
2024-05-29 19:01:35
新加坡坠亡女留学生男友发声:事发凌晨,她独自在高处坐了几个小时

新加坡坠亡女留学生男友发声:事发凌晨,她独自在高处坐了几个小时

红星新闻
2024-05-30 20:46:47
在执行这个政策前,请先查查官员的财产

在执行这个政策前,请先查查官员的财产

顾礼先生
2024-05-30 16:21:19
汪峰给森林北写歌,歌词肉麻遭吐槽,森林北给汪峰做新疆大盘鸡

汪峰给森林北写歌,歌词肉麻遭吐槽,森林北给汪峰做新疆大盘鸡

红大娘娱乐
2024-05-30 21:23:45
女子趁理发师工作时,伸手摸向敏感部位,网友调侃:这钱真难赚

女子趁理发师工作时,伸手摸向敏感部位,网友调侃:这钱真难赚

看晓天下事
2024-05-26 18:38:25
聪明的李凯尔,开窍的森林狼

聪明的李凯尔,开窍的森林狼

静易墨
2024-05-30 20:59:19
2024-05-31 09:52:49
新智元
新智元
AI产业主平台领航智能+时代
11095文章数 65530关注度
往期回顾 全部

科技要闻

百公里油耗2.9L真不真?吉利比亚迪"翻脸"

头条要闻

牛弹琴:特朗普成为重刑犯 痛骂"美国已经下地狱了"

头条要闻

牛弹琴:特朗普成为重刑犯 痛骂"美国已经下地狱了"

体育要闻

聪明的李凯尔,开窍的森林狼

娱乐要闻

法国这一夜,45岁章子怡惊艳世界!

财经要闻

海峡两岸经济合作框架协议部分产品关税减让中止

汽车要闻

年内上市/纯电和增程可选 阿维塔07实车谍照曝光

态度原创

本地
教育
旅游
手机
数码

本地新闻

食味印象|歙县限定!枇杷味儿的清甜初夏

教育要闻

学习卡片 | 务农重本,国之大纲

旅游要闻

飞深圳航班滑出后 女子疑因情感问题要求下飞机

手机要闻

颜值配置样样能打 这款OPPO Reno12居然只卖2000多

数码要闻

11英寸M4 iPad Pro更难被折断 但其弱点与大尺寸版本完全相同

无障碍浏览 进入关怀版