网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

重要的事情说两遍！Prompt「复读机」，显著提高LLM推理能力

2024-10-08 13:18:25　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：alan

【新智元导读】尽管大模型能力非凡，但干细活的时候还是比不上人类。为了提高LLM的理解和推理能力，Prompt「复读机」诞生了。

众所周知，人类的本质是复读机。

我们遵循复读机的自我修养：敲黑板，划重点，重要的事情说三遍。

but，事实上同样的方法对付AI也有奇效！

有研究证明，在提问的时候故意重复一遍——也就是复制粘贴，即可显著提高LLM的推理能力。

论文地址：https://arxiv.org/pdf/2309.06275

看下面的例子：

作者认为，通常情况下，问题中的重点token（比如这里的tennis balls）无法看到位于它后面的token（上图）。

相比之下，使用重读（re-reading，RE2）的方法，允许「tennis balls」在第二遍中看到自己对应的整个问题（How many tennis balls does he have now?），从而达到双向理解的效果（下图）。

实验表明，在14个数据集上的112个实验中，RE2技术都能带来一致的性能提升，无论是经过指令调整的模型（如ChatGPT），还是未经调整的模型（如Llama）。

实践中，RE2作为独立的技巧，可以与CoT（Let’s think step by step）以及自我一致性方法（self-consistency，SC）一起使用。

下表展示了混合应用多种方法对模型效果的影响。尽管自我一致性聚合了多个答案，但重读机制仍然有助于大多数场景的改进。

接下来，在GSM8K数据集上（使用ChatGPT）进一步研究输入问题复杂性对CoT和RE2提示的推理性能的影响。

这里通过计算真实解释中存在的推理步骤来衡量问题的复杂性，结果如下图所示。

随着问题复杂性的增加，所有提示的表现通常都会下降，但重读的引入提高了LLM应对各种复杂问题的表现。

此外，作者还计算了各代和输入问题之间的覆盖度，证明RE2增加了输出解释中的n-gram (n=1,2,3,4) 召回率。

重要的事情说2遍

现有的推理研究主要集中在设计多样化引导提示，而对输入阶段的理解却很少受到关注。

事实上，理解是解决问题的第一步，至关重要。

当今大多数LLM都采用单向注意力的decoder-only架构，在对问题进行编码时，单向注意力限制了token的可见性，这可能会损害对问题的全局理解。

怎么解决这个问题？作者受到人类习惯的启发，尝试让LLM把输入再读一遍。

与引导模型在输出中推理的CoT不同，RE2通过两次处理问题将焦点转移到输入，促进了单向解码器的双向编码，从而增强LLM理解过程。

上图为GSM8K数据集上测试的注意力分布图，较暗的单元格表示较高的注意力。

上虚线三角形内的区域表明，第二遍输入中的每个token都明显关注第一遍中的后续token，证明LLM的重读有望实现对问题的双向理解。

从另一个角度考虑，重读使LLM能够为输入编码分配更多的计算资源，类似于水平增加神经网络的深度。因此，拥有RE2的LLM对问题有更深入的理解。

普通推理

利用带有CoT提示的LLM来解决推理任务，可以用公式表述为：

其中，Cx表示提示输入，来自带有CoT提示指令的模板，z表示自然语言中的采样基本原理。

因此， LLM可以将复杂的任务分解为更易于管理的推理步骤，将每个步骤视为整个解决方案链的组成部分。

RE2 推理

受到人类重读策略的启发，将上面的方程改写为：

所以RE2在实际应用中就是下面这种格式：

其中{Input Query}是输入查询的占位符，左侧部分可以包含其他引发思考的提示。

实验

由于RE2的简单性和对输入阶段的重视，它可以与各种LLM和算法无缝集成，包括few-shot、自我一致性、各种引发思考的提示策略等。

为了验证RE2的有效性和通用性，研究人员在14个数据集上进行了112个实验，涵盖算术、常识和符号推理任务。

算术推理

实验考虑以下七个算术推理基准：

数学应用题的GSM8K基准、具有不同结构的数学应用问题的SVAMP数据集、不同数学应用题的ASDiv数据集、代数应用题的AQuA数据集、三到五年级学生的加法和减法数学应用题、多步骤数学问题数据集，以及单次运算的初等数学应用题数据集。

上表为算术推理基准测试结果。*处表示不使用任何技巧，但效果优于CoT提示的情况。

常识和符号推理

对于常识推理，实验采用StrategyQA、ARC和CSQA数据集。

StrategyQA数据集包含需要多步骤推理的问题；

ARC数据集（ARC-t）分为两个集合：挑战集（ARC-c）和简单集（ARC-e），前者包含基于检索和单词共现算法都错误回答的问题；

CSQA数据集由需要各种常识知识的问题组成。

实验评估两个符号推理任务：日期理解和Coinflip。日期理解是 BigBench数据集的子集，Coinflip是一个问题数据集，根据问题中给出的步骤，判断硬币翻转后是否仍然正面朝上。

结果表明，除了普通ChatGPT上的某些场景之外，具有简单重读策略的RE2，持续增强了LLM的推理性能。

RE2展示了跨各种LLM的多功能性（Text-Davinci-003、ChatGPT、LLaMA-2-13B和LLaMA-2-70B），涵盖指令微调 (IFT) 和非IFT模型。

作者还对RE2在零样本和少样本的任务设置、思维引发的提示方法以及自洽设置方面进行了探索，突出了其通用性。

Prompting

实验严格评估RE2模型在两种基线提示方法上的性能：Vanilla（不添加特技）和CoT（通过逐步的思维过程来指导模型）。

针对不同的任务，作者在提示中设计了答案格式指令，以规范最终答案的结构，便于精确提取答案。

实验的解码策略使用贪婪解码，温度设置为0，从而产生确定性输出。

最后探索一下问题重读次数对推理性能的影响：

上图展示了两个不同的LLM的表现如何随问题重读次数的变化而变化。我们可以发现重读2次使性能提高，之后随着问题重读次数增加，性能开始下降。

猜测原因有两个：i）过度重复问题可能会起到示范作用，鼓励LLM重复问题而不是生成答案，ii）重复问题会显著增加推理和预训练之间的不一致。

参考资料：

https://arxiv.org/pdf/2309.06275

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

电车，是时候交养路费了

第一财经资讯 2026-05-29 10:11:25
16882 跟贴 16882
贵州大学招聘管理岗引质疑，要求配偶须是本校在职博士，校方：不是“萝卜岗”

封面新闻 2026-05-29 16:08:24
113 跟贴 113

执法车堵企业门11天基层执法该守怎样的边界？

看看新闻Knews 2026-05-29 14:37:11
22 跟贴 22

地毯拖拽行李费力？广州白云机场回应T3三大热点

南方都市报 2026-05-30 00:19:26
168 跟贴 168
神舟二十二号载人飞船顺利撤离空间站组合体

央视新闻客户端 2026-05-29 14:55:45
1448 跟贴 1448

鲜奶雪糕包装印“不加一滴水”配料表首位竟是水厂家：系旧包装，已改名“一滴水”

上游新闻 2026-05-29 18:03:05
1414 跟贴 1414

官方通报低保老人被贷款20万

看看新闻Knews 2026-05-29 15:25:38
1437 跟贴 1437
今晚，数百人准备在南京路排通宵！消费者：“预想到火爆，没想到比预想的更火爆”

上观新闻 2026-05-30 01:04:23
0 跟贴 0

广州市市长孙志洋：2030年广州GDP将达4.5万亿元，2035年达到6万亿元

证券时报 2026-05-29 16:42:04
79 跟贴 79
浙江两级文物部门回应：文物战国青铜剑疑有拼接痕调查结束近期通报

新京报 2026-05-29 17:23:45
2188 跟贴 2188
网线被人拔断、传感器被阻断，瓦斯监测为何失效？

中国新闻周刊 2026-05-29 13:28:03
186 跟贴 186
“一人住院”不再“全家受累” 上海持续破解“陪护难”

新华社 2026-05-29 20:42:09
61 跟贴 61
广东小学生合唱粤语歌《上海滩》一男孩不停随歌摇摆

星视频 2026-05-29 11:38:02
280 跟贴 280
幼儿园集中用餐新规：饭菜烧熟到食用不得超2小时

央视新闻 2026-05-29 16:10:22
994 跟贴 994
优衣库等品牌收集非必要个人信息被通报

封面新闻 2026-05-29 12:10:44
2016 跟贴 2016
扎哈罗娃：俄日关系处于前所未有的低谷

澎湃新闻 2026-05-29 19:51:35
437 跟贴 437
城6区建无蚊害城区，13家公园建无蚊害公园！6月开始集中防治，北京启动防蚊灭蚊三年行动计划

北青网-北京青年报 2026-05-29 14:12:42
138 跟贴 138
重庆：望乡台瀑布进入最佳观赏期

环球网资讯 2026-05-30 07:42:15
11 跟贴 11
夜空中最亮的星

国际在线 2026-05-29 08:57:49
1225 跟贴 1225
一货车凌晨闯红灯与油罐车相撞，1人死亡！

应急360 2026-05-30 09:10:32
0 跟贴 0
大风追踪 | 广告灯箱“公益黑灯、商业通明”郑州地铁方回应：黑灯是节能降本，亮灯是合同约定，若全亮年度电费近千万

大风新闻 2026-05-30 09:17:31
0 跟贴 0
美国与古巴两军高级将领举行罕见会晤

极目新闻 2026-05-30 07:22:15
0 跟贴 0

辽宁舰闯进菲律宾海，美航母火速赶到，送给解放军“拿来练兵”？

辽宁舰闯进菲律宾海，美航母火速赶到，送给解放军“拿来练兵”？

有范又有料

2026-05-29 11:20:25

大换血！国足官宣26人集训名单，邵佳一换掉8大国脚，网友炸锅

大换血！国足官宣26人集训名单，邵佳一换掉8大国脚，网友炸锅

不写散文诗

2026-05-29 12:27:42

北工大连爆“核弹”！又站上风口浪尖！

北工大连爆“核弹”！又站上风口浪尖！

京城教育圈

2026-05-29 20:37:43

“还没当婆婆，就开始嫉妒儿媳了！”家长因半个鸡蛋破防，被群嘲

“还没当婆婆，就开始嫉妒儿媳了！”家长因半个鸡蛋破防，被群嘲

妍妍教育日记

2026-05-29 08:30:09

2026国家教学成果奖评审启动：没有领导挂名就报不了奖？教育部：那就让奖项空着

2026国家教学成果奖评审启动：没有领导挂名就报不了奖？教育部：那就让奖项空着

教育放大镜

2026-05-29 22:41:16

黄安现状：定居福建住别墅，财富自由收藏世界名琴，喜爱养猫解闷

黄安现状：定居福建住别墅，财富自由收藏世界名琴，喜爱养猫解闷

白面书誏

2026-05-28 13:59:04

四位跳水皇后现状：有人嫁豪门“老头”有人嫁穷小子，但最羡慕她

四位跳水皇后现状：有人嫁豪门“老头”有人嫁穷小子，但最羡慕她

孤城落日

2026-05-30 02:48:14

执法权再下沉，广东省赋权深圳街道直接开"乱摆摊罚单"

执法权再下沉，广东省赋权深圳街道直接开"乱摆摊罚单"

南方都市报

2026-05-29 19:46:12

61岁名校原系主任、教授、博导逝世

61岁名校原系主任、教授、博导逝世

双一流高校

2026-05-30 00:12:05

张本智和父亲语出惊人，儿子下一目标，不是冠军，是世界第一

张本智和父亲语出惊人，儿子下一目标，不是冠军，是世界第一

削桐作琴

2026-05-29 13:14:58

梅西伤情公布：左腿轻度拉伤，预计世界杯前伤愈；6月16日，阿根廷队将出战首场小组赛

梅西伤情公布：左腿轻度拉伤，预计世界杯前伤愈；6月16日，阿根廷队将出战首场小组赛

鲁中晨报

2026-05-29 14:18:03

"不能判刑，那就高额罚款！"

回京历史梦

2026-05-29 18:31:50

山东二孩非亲生最新：长子当庭辱骂，生父殴打爷爷，叫嚣到处有人

山东二孩非亲生最新：长子当庭辱骂，生父殴打爷爷，叫嚣到处有人

老猫观点

2026-05-30 08:02:46

穿了跟没穿一样？戛纳闭幕式，女星下垂，副乳突出，造型太辣眼

穿了跟没穿一样？戛纳闭幕式，女星下垂，副乳突出，造型太辣眼

林雁飞

2026-05-27 12:25:30

同事蹭我车回家，路过超市时买了1800块东西，要结账时我笑着说：你稍等一下，我去地下2层把车开上来

同事蹭我车回家，路过超市时买了1800块东西，要结账时我笑着说：你稍等一下，我去地下2层把车开上来

品读时刻

2026-05-28 09:06:31

皇马豪赌！弗洛伦蒂诺锁定 3 大重磅引援，2 位世界顶级巨星驰援

皇马豪赌！弗洛伦蒂诺锁定 3 大重磅引援，2 位世界顶级巨星驰援

澜归序

2026-05-30 08:36:18

大定破2万！余承东：全新M9是地球上最强SUV，没有之一！网友：广告法能不能管管他

大定破2万！余承东：全新M9是地球上最强SUV，没有之一！网友：广告法能不能管管他

大白聊IT

2026-05-28 21:21:39

4400万辆电车免费跑，油车替全国养路，电车交养路费或还没到时候

4400万辆电车免费跑，油车替全国养路，电车交养路费或还没到时候

王新喜

2026-05-29 21:32:42

扎克伯格再出王炸！开源全球首个AI蛋白质世界模型，最高88%命中率，颠覆药物研发！

扎克伯格再出王炸！开源全球首个AI蛋白质世界模型，最高88%命中率，颠覆药物研发！

智药局

2026-05-28 19:10:25

徐帆回应离婚几个月后，68岁冯小刚再惹争议，养女徐朵成导火索！

徐帆回应离婚几个月后，68岁冯小刚再惹争议，养女徐朵成导火索！

乡野小珥

2026-05-18 08:58:28

AI产业主平台领航智能+时代

15337文章数 66892关注度

往期回顾全部

科技要闻

Claude Opus 4.8凌晨突发上线

头条要闻

"莫氏鸡煲"店主老莫：靠流量还清欠债计划3年后退休

头条要闻

"莫氏鸡煲"店主老莫：靠流量还清欠债计划3年后退休

体育要闻

即使是文班亚马，也做不到这件事

娱乐要闻

奚梦瑶何猷君将于6月在法国举行婚礼

财经要闻

双汇管不住一头猪

汽车要闻

900V+3.2秒破百领克10+&领克10上市16.99万元起

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

艺术

亲子

教育

时尚

本地

艺术要闻

粉墙黛瓦别样美

亲子要闻

孩子减脂减重饿的哇哇哭正在毁掉他的代谢

教育要闻

四年级，看似复杂，其实理解了很简单

aespa治好了我的黑眼圈焦虑

本地新闻

用剪纸的方式，打开江苏扬州

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版