网易首页 > 网易号 > 正文 申请入驻

比「让我们一步一步思考」这句咒语还管用,提示工程正在被改进

0
分享至

机器之心报道

编辑:rome rome

大语言模型可以通过元提示执行自动提示工程,但由于缺乏足够的指导以引导大语言模型中的复杂推理能力,它们的潜力可能没有完全发挥。那么该如何指导大语言模型进行自动提示工程?

大型语言模型(LLM)已经是许多自然语言处理任务的强大工具,只要能给出正确的提示。然而,由于模型的敏感性,找到最优提示通常需要进行大量手动尝试和试错努力。此外,一旦将初始提示部署到生产环境中,可能会出现意想不到的边缘情况,需要更多轮的手动调整来进一步完善提示。

这些挑战催生了自动提示工程的新兴研究领域。在这一领域内,一个显著的方法涉及利用 LLM 自身的能力。具体来说,这涉及使用指令对 LLM 进行元提示,例如「检查当前提示和一批示例,然后提出一个新的提示」。

虽然这些方法取得了令人印象深刻的性能,但随之而来的问题是:什么样的元提示适用于自动提示工程?

为了回答这个问题,来自南加州大学、微软的研究者将两个关键观察联系起来:(1)提示工程本身就是需要深层推理的复杂语言任务:这涉及密切审查模型的错误、假设当前提示中缺少或误导了什么、如何将任务更清晰的传递给 LLM。(2) 在 LLM 中,通过促使模型「一步一步地思考」可以引发复杂的推理能力,并通过指导它们反思其输出可以进一步提高这种能力。

论文地址:
https://arxiv.org/pdf/2311.05661.pdf

通过连接前面的两个观察,研究者进行提示工程,这样做的目的是构建一个元提示,从而指导 LLM 更有效地执行提示工程 (见下图 2)。通过反思现有方法的局限性并融合复杂推理提示的最新进展,他们引入了元提示组件,如逐步推理模板和上下文规范,明确指导 LLM 在提示工程过程中进行推理。

此外,由于提示工程可以看作是一个优化问题,通过从常见的优化概念中汲取灵感,如批处理大小、步长和动量,并将它们的口头表达引入到元提示中。并且两个数学推理数据集,MultiArith 和 GSM8K 上实验了这些组件和变体,并确定了一个表现最佳的组合,将其命名为 PE2。

PE2 取得了强大的实证性能。在使用 TEXT-DAVINCI-003 作为任务模型时,PE2 生成的提示在 MultiArith 上超过 zero-shot 思维链的一步一步进行思考的提示 6.3%,在 GSM8K 上提高了 3.1%。此外,PE2 在性能上优于两个自动提示工程基线,Iterative APE 和 APO (图 1)。

值得注意的是,PE2 在反事实任务上的表现最为有效。此外,该研究还证明了 PE2 在优化冗长、现实世界提示上具有广泛的适用性。

在审查 PE2 的提示编辑历史时,研究者发现 PE2 始终提供有意义的提示编辑。它能够修正错误或不完整的提示,并通过添加额外的细节使提示更加丰富,从而促成最终性能的提升 (表 4 所示)。

有趣的是,当 PE2 不知道在八进制中进行加法运算时,它会从示例中制定自己的算术规则:「如果两个数字都小于 50,则将 2 添加到总和中。如果其中一个数字是 50 或更大,则将 22 添加到总和中。」尽管这是一个不完美的简便解决方案,但它展示了 PE2 在反事实情境中进行推理的非凡能力。

尽管取得了这些成就,研究者也认识到了 PE2 的局限性和失败案例。PE2 也会受到 LLM 固有限制的影响和限制,比如忽视给定的指令和产生错误的合理性 (下表 5 所示)。

背景知识

提示工程

提示工程的目标是在使用给定的 LLM M_task 作为任务模型时(如下公式所示),在给定数据集 D 上找到达到最佳性能的文本提示 p∗。更具体地说,假设所有数据集都可以格式化为文本输入 - 输出对,即 D = {(x, y)}。一个用于优化提示的训练集 D_train,一个用于验证的 D_dev,以及一个用于最终评估的 D_test。按照研究者提出的符号表示,提示工程问题可以描述为:

其中,M_task (x; p) 是在给定提示 p 的条件下模型生成的输出,而 f 是对每个示例的评估函数。例如,如果评估指标是完全匹配,那么

使用 LLM 进行自动提示工程

在给定一组初始提示的情况下,自动提示工程师将不断提出新的、可能更好的提示。在时间戳 t,提示工程师获得一个提示 p^(t),并期望写一个新提示 p^(t+1)。在新的提示生成过程中,可以选择检查一批示例 B = {(x, y, y′ )}。这里 y ′ = M_task (x; p) 表示模型生成的输出,y 表示真实标签。使用 p^meta 表示一个元提示,用于指导 LLM 的 M_proposal 提出新的提示。因此,

构建一个更好的元提示 p^meta 以提高所提出的提示 p^(t+1) 的质量是本研究的主要关注点。

构建更好的元提示

就像提示在最终任务性能中发挥重要作用一样,引入到公式 2 中的元提示 p^meta 在新提出的提示质量以及自动提示工程的整体质量中起着重要作用。

研究者主要专注于对元提示 p^meta 进行提示工程,开发了可能有助于提高 LLM 提示工程质量的元提示组件,并对这些组件进行系统的消融研究。

研究者基于以下两个动机来设计这些组件的基础:(1)提供详细的指导和背景信息:(2)融入常见的优化器概念。接下来,研究者将更详细地描述这些元素并解释相关原理。下图 2 为可视化展示。

提供详细的指令和上下文。在先前的研究中,元提示要么指示提议模型生成提示的释义,要么包含有关检查一批示例的最小指令。因此通过为元提示添加额外的指令和上下文可能是有益的。

(a) 提示工程教程。为了帮助 LLM 更好地理解提示工程的任务,研究者在元提示中提供一个提示工程的在线教程。

(b) 两步任务描述。提示工程任务可以分解为两个步骤,像 Pryzant et al. 所做的那样:在第一步,模型应该检查当前的提示和一批示例。在第二步,模型应该构建一个改进的提示。然而,在 Pryzant et al. 的方法中,每一步都是即时解释的。与之相反的是,研究者考虑的是在元提示中澄清这两个步骤,并提前传递期望。

(c) 逐步推理模板。为了鼓励模型仔细检查批次 B 中的每个示例并反思当前提示的局限性,研究者引导提示提议模型 M_proposal 回答一系列问题。例如:输出是否正确?提示是否正确描述了任务?是否有必要编辑提示?

(d) 上下文规范。在实践中,提示插入整个输入序列的位置是灵活的。它可以在输入文本之前描述任务,例如「将英语翻译成法语」。它也可以出现在输入文本之后,例如「一步一步地思考」,以引发推理能力。为了认识到这些不同的上下文,研究者明确指定了提示与输入之间的相互作用。例如:「Q: A :一步一步地思考。」

融入常见的优化器概念。在前面方程 1 中描述的提示工程问题本质上是一个优化问题,而方程 2 中的提示提议可以被视为进行一次优化步骤。因此,研究者考虑以下在基于梯度的优化中常用的概念,并开发他们元提示中使用的对应词。

(e) 批处理大小。批处理大小是在每个提示提议步骤 (方程 2) 中使用的 (失败) 示例数量。作者在分析中尝试了批处理大小为 {1, 2, 4, 8}。

(f) 步长。在基于梯度的优化中,步长确定模型权重更新的幅度。在提示工程中,其对应物可能是可以修改的单词(token)数量。作者直接指定「你可以更改原始提示中的最多 s 个单词」,其中 s ∈ {5, 10, 15, None}。

(g) 优化历史和动量。动量 (Qian, 1999) 是一种通过保持过去梯度的移动平均来加速优化并避免振荡的技术。为了开发动量的语言对应部分,本文包含了所有过去的提示(时间戳为 0, 1, ..., t − 1)、它们在 dev 集上的表现以及提示编辑的摘要。

实验

作者使用以下四组任务来评估 PE2 的有效性和局限性:

1. 数学推理;2. 指令归纳;3. 反事实评估;4. 生产提示。

改进的基准与更新的 LLMs。在表 2 的前两部分中,作者观察到使用 TEXT-DAVINCI-003 可以显著提高性能,表明它更能够在 Zero-shot CoT 中解决数学推理问题。此外,两个提示之间的差距缩小了(MultiArith:3.3% → 1.0%,GSM8K:2.3% → 0.6%),表明 TEXT-DAVINCI-003 对提示释义的敏感性减小。鉴于此,依赖简单释义的方法如 Iterative APE,可能无法有效地提升最终结果。更精确和有针对性的提示编辑是提高性能的必要条件。

PE2 在各种任务上优于 Iterative APE 和 APO。PE2 能够找到一个在 MultiArith 上达到 92.3% 准确率(比 Zero-shot CoT 高 6.3%)和在 GSM8K 上达到 64.0% 的提示 (+3.1%)。此外,PE2 找到的提示在指令归纳基准、反事实评估和生产提示上优于 Iterative APE 和 APO。

在前面图 1 中,作者总结了 PE2 在指令归纳基准、反事实评估和生产提示上获得的性能提升,展示了 PE2 在各种语言任务上取得了强大的性能。值得注意的是,当使用归纳初始化时,PE2 在 12 个反事实任务中的 11 个上优于 APO (图 6 所示),证明了 PE2 能够推理矛盾和反事实情境。

PE2 生成有针对性的提示编辑和高质量提示。在图 4 (a) 中,作者绘制了提示优化过程中提示提议的质量。实验中观察到三种提示优化方法有非常明显的模式:Iterative APE 基于释义,因此新生成的提示具有较小的方差。APO 进行了大幅度的提示编辑,因此性能在第一步下降。PE2 在这三种方法中是最稳定的。在表 3 中,作者列出了这些方法找到的最佳提示。APO 和 PE2 都能够提供「考虑所有部分 / 细节」的指令。此外,PE2 被设计为仔细检查批次,使其能够超越简单的释义编辑,进行非常具体的提示编辑,例如「记得根据需要添加或减去」。

了解更多内容,请参考原论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
发现妻子出轨第5天,我麻利做完财产分割,微笑祝福他俩白头偕老

发现妻子出轨第5天,我麻利做完财产分割,微笑祝福他俩白头偕老

星辰故事屋
2024-06-05 12:18:58
大反转,塔图姆突爆强势发言!布朗很意外,球迷:下场想抢fmvp了

大反转,塔图姆突爆强势发言!布朗很意外,球迷:下场想抢fmvp了

阿泰希特
2024-06-14 10:04:49
2出2进!皇马重建,回归433阵型,贝林厄姆失宠,4.7亿三叉戟亮相

2出2进!皇马重建,回归433阵型,贝林厄姆失宠,4.7亿三叉戟亮相

邮轮摄影师阿嗵
2024-06-14 16:45:25
国际排联公布最新数据,刁琳宇排名第一,中国女排二传碾压对手

国际排联公布最新数据,刁琳宇排名第一,中国女排二传碾压对手

极度说球
2024-06-14 00:20:33
中国制造赢麻了!中东采购商排队抢购,欧美订单火爆,出口大增!

中国制造赢麻了!中东采购商排队抢购,欧美订单火爆,出口大增!

户外钓鱼哥阿旱
2024-06-14 22:38:14
17岁数学天才少女背后,越想越后怕

17岁数学天才少女背后,越想越后怕

声道
2024-06-14 19:31:01
少帅+1!多特官方:35岁沙欣出任球队主帅,接替泰尔齐奇

少帅+1!多特官方:35岁沙欣出任球队主帅,接替泰尔齐奇

直播吧
2024-06-14 22:57:11
曝孙一宁与王思聪恋爱,偷偷在日本约会?本人回应:“有种别删”

曝孙一宁与王思聪恋爱,偷偷在日本约会?本人回应:“有种别删”

拾娱先生
2024-06-12 22:19:39
南安普顿官方:36岁老将拉拉纳免签回归,双方签约一年

南安普顿官方:36岁老将拉拉纳免签回归,双方签约一年

直播吧
2024-06-15 01:37:07
贵州省省长:现在全国电动汽车中,每三辆就有一辆的电池用了贵州“磷元素”

贵州省省长:现在全国电动汽车中,每三辆就有一辆的电池用了贵州“磷元素”

红星新闻
2024-06-14 11:12:10
最后一搏?孙杨压哨赴意大利参赛!争取达标巴黎奥运,仍有2阻碍

最后一搏?孙杨压哨赴意大利参赛!争取达标巴黎奥运,仍有2阻碍

我爱英超
2024-06-13 22:22:48
惊人!江苏一河道水位下降,河道全是地笼,网友:鱼犯了天条吗?

惊人!江苏一河道水位下降,河道全是地笼,网友:鱼犯了天条吗?

白浅娱乐聊
2024-06-14 15:50:27
10套S-400导弹被摧毁,俄军来不及后悔:幸亏土耳其退货红旗9导弹

10套S-400导弹被摧毁,俄军来不及后悔:幸亏土耳其退货红旗9导弹

鹅毛的大雪
2024-06-13 16:14:56
俄罗斯突传大消息!

俄罗斯突传大消息!

第一财经资讯
2024-06-10 14:34:27
长得小是种什么样的体验?网友:老婆就是这样没的!

长得小是种什么样的体验?网友:老婆就是这样没的!

户外阿崭
2024-05-01 11:43:03
粟裕被连斗60天,从此离开军队,2年后毛主席:你的事可不能怪我

粟裕被连斗60天,从此离开军队,2年后毛主席:你的事可不能怪我

今人说古
2024-06-14 23:55:03
心惊!虹口某小区一男孩从6楼坠下!摔落至1楼房顶上!居民:疑似收衣服时跌落…

心惊!虹口某小区一男孩从6楼坠下!摔落至1楼房顶上!居民:疑似收衣服时跌落…

上海圈
2024-06-14 18:18:33
广东队最新消息:三名核心完成续约,两名小将被淘汰,张昊大爆发

广东队最新消息:三名核心完成续约,两名小将被淘汰,张昊大爆发

开心体育站
2024-06-14 19:37:48
6.15 深析 德国Vs苏格兰 匈牙利Vs瑞士 西班牙Vs克罗地亚等 胜负 比分

6.15 深析 德国Vs苏格兰 匈牙利Vs瑞士 西班牙Vs克罗地亚等 胜负 比分

祝晓塬
2024-06-14 15:12:50
赫迪拉忆加盟皇马:接到电话后我问自己,皇马和穆帅看上我什么了

赫迪拉忆加盟皇马:接到电话后我问自己,皇马和穆帅看上我什么了

直播吧
2024-06-14 16:01:11
2024-06-15 02:00:49
机器之心Pro
机器之心Pro
专业的人工智能媒体
9079文章数 141943关注度
往期回顾 全部

科技要闻

马斯克重获信任 豪言特斯拉市值超10个苹果

头条要闻

媒体:欧盟对华抡贸易大棒后 中方"报复"来得又快又猛

头条要闻

媒体:欧盟对华抡贸易大棒后 中方"报复"来得又快又猛

体育要闻

我们为什么还爱欧洲杯?

娱乐要闻

江宏杰秀儿女刺青,不怕刺激福原爱?

财经要闻

“石油美元”协议走向终结 影响几何?

汽车要闻

提供100/240kW双电机版本车型 乐道L60实车曝光

态度原创

房产
艺术
本地
公开课
军事航空

房产要闻

万华对面!海口今年首宗超百亩宅地,重磅挂出!

艺术要闻

穿越时空的艺术:《马可·波罗》AI沉浸影片探索人类文明

本地新闻

粽情一夏|海河龙舟赛,竟然成了外国人的大party!

公开课

近视只是视力差?小心并发症

军事要闻

美国与乌克兰签署双边安全协议

无障碍浏览 进入关怀版