网易首页 > 网易号 > 正文 申请入驻

「深呼吸」让大模型表现更佳!谷歌DeepMind利用大语言模型生成Prompt,还是AI更懂AI

0
分享至

新智元报道

编辑:Lumina

【新智元导读】谷歌DeepMind提出了一个全新的优化框架OPRO,仅通过自然语言描述就可指导大语言模型逐步改进解决方案,实现各类优化任务。

「深呼吸,一步一步地解决这个问题。」

这句像你在冥想时会听到的话,其实是大语言模型的Prompt提示词!

只是多了「深呼吸」的命令,模型在GSM8K的得分就从「think step by step」的71.8上升至80.2,成为表现最佳的Prompt。

「深呼吸」是人类常常用来放松、集中的手段之一。

但令人好奇的的是,为什么对并不能「呼吸」的大模型,「深呼吸」也能提高它的表现?

有网友认为这是大模型在模仿人类,毕竟它可没有肺。

也有网友认为,或许是在人工智能的训练中,使用互联网资源让人工智能意外地负载了人性。

「我们无意中把情感赋予了机器。」

而这个Prompt也不是人类设计出的,而是模型自己生成的。

仿佛模型自己也更偏好带有鼓励、正向的Prompt。

另一方面,随着技术的发展,大语言模型在各个领域都取得了令人瞩目的成绩。

它们理解自然语言的能力为优化提供了一种新的可能性:

我们可以不再使用程序化求解器来定义优化问题和推导更新步骤,而是用自然语言来描述优化问题,然后指示LLM根据问题描述和之前找到的解决方案迭代生成新的解决方案。

使用LLM进行优化时,只需更改提示中的问题描述,就能快速适应不同的任务,而且还可以通过添加指令来指定所需的解决方案属性,从而定制优化过程。

最近,谷歌DeepMind一篇研究介绍了使用LLM对自然语言的提示工程进行优化的方法,称为Optimization by PROmpting(OPRO)。

论文地址:https://arxiv.org/pdf/2309.03409.pdf

OPRO就是一种将大型语言模型(LLM)用作优化器的简单有效的方法。

OPRO的步骤如下:

在每一步优化中,使用元提示(meta-prompt)向LLM描述优化问题。

元提示包含自然语言任务描述、以往生成的解决方案及其目标函数值。

然后,LLM根据元提示生成新的解决方案。

最后,计算新解的目标函数值,并加入元提示以进行下一步优化。

重复该过程,直到LLM无法再找到更好的解决方案。

研究表明,OPRO生成的最佳提示在GSM8K问题上超过人类设计的提示高达8%,在Big-Bench Hard任务上高达50%。

LLM作为数学优化器

「推理」是大语言模型的短处,基于诸多语料训练的这些模型在推理问题上的表现与文本处理相比十分糟糕。

就连最简单的加减乘除,大语言模型也会一本正经地「胡说八道」。

但谷歌DeepMind证实了OPRO在数学问题中也能优化模型的表现。

研究人员选择了线性回归作为连续优化的例子,旅行商问题(Traveling Salesman Problem, TSP)作为离散优化的示例。

线性回归

实验表明,仅通过提示LLM就能在线性回归问题上找到全局最优解。有时可匹敌专门设计的算法,证明了LLM作为优化器的潜力。

旅行商问题(Traveling Salesman Problem,TSP)

TSP实验证明,在小规模问题上LLM可通过提示实现类似专业优化算法的效果。

但对于大规模组合优化问题而言,LLM带来的性能仍需提升。

下图是在GSM8K上使用经过指令调整的PalM 2-I(PaLM 2-L-IT)进行提示优化的元提示例子。

生成的指令将被添加到评分器LLM输出中的A开头。

蓝色文本包含过去生成的提示和对应的分数,分数高的排在前面。这是一系列指令及其在训练集上的精度。

紫色文本描述了优化任务和输出格式要求,说明了生成指令的位置和作用。

橙色文本是元指令,提供了LLM如何进一步解释优化目标和如何使用给定信息。

表示将添加生成指令的位置。

提示优化实验

实验将PaLM 2-L、text-bison、gpt-3.5-turbo、gpt-4作为优化器和评测模型。

并选择了GSM8K和Big-Bench Hard(BBH)作为评估基准。GSM8K是一个小学数学问题的基准,有7473个训练样本和1319个测试样本。

BBH是一套包含23个具有挑战性的BIG-Bench任务符号操作和常识推理的基准,每个任务包含多达250个示例。

表4总结了使用不同LLM作为评分器和优化器在GSM8K上发现的顶级指令:

不同LLM作为优化器时,指令的风格差异很大:PalM 2-L-IT和text-bison的指令简洁明了,而GPT的指令则冗长而详细。

虽然有些得分高的指令中包含「step by step」,但大多数其他指令在语义不同的情况下也达到了相当或更高的准确度。

GSM8K结果

GSM8K上的优化以预训练的PalM 2-L作为评分器,以经过指令调整的PalM 2-I-IT作为优化器。

BBH的电影推荐上的优化以text-bison作为评分器,以PalM 2-I-IT作为优化器。

下图显示了在预训练的PalM 2-L和PalM 2-I-IT作为优化器的即时优化曲线:

曲线整体呈上升趋势,并在整个过程中出现了几次跳跃。

接下来,研究人员使用(a)text-bison评分器和PalM 2-L-IT优化器,以及(b)预训练 PaLM 2-L作为评分器和优化器,在 GSM8K 上进行提示优化。

下图中的优化曲线也呈现出了类似的上升趋势。

BBH结果

研究人员还在BBH数据集上进行了提示优化。与GSM8K类似,其优化曲线也基本呈上升趋势。这表示随着优化,生成的提示性能逐步提升。

但优化得到的提示大多数任务上比「Let's think step by step」提示效果好5%以上,个别任务提升可达50%以上。

与空提示相比,找到的提示在大多数任务上也有5%以上的显著提升。

而在一些具体任务如ruin_names上,后期生成的提示通过替换关键词子句的方式进行释义改写,从而获得进一步提升。

可以看到,不同优化器找到的提示语义和风格有所不同,但效果相近。

一些任务优化过程中也出现了精度飞跃,对应生成提示的质的飞跃。

综上,BBH数据集的优化实验也验证了方法的有效性。

提示优化可以持续改进性能,明显超过强基线。但小的语义变化带来的效果提升显示了提示优化的难点之一。

下表比较了不同模型对于同一任务找到的不同提示风格,验证了提示优化可以广泛适用于不同模型,并给出每个任务的最优提示。

总而言之,这项研究首次提出并验证了使用大语言模型进行优化的有效性,为利用LLM进行更广泛优化任务提供了框架和经验,是这个新的研究方向的开拓性工作,具有重要意义。

参考资料:

https://arxiv.org/pdf/2309.03409.pdf

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
世乒赛收官,下届奥运会阵容基本确定,王励勤高度赞扬世乒赛男团

世乒赛收官,下届奥运会阵容基本确定,王励勤高度赞扬世乒赛男团

小祁谈历史
2026-05-12 02:49:47
“野爹机”事件给所有公司敲响了警钟

“野爹机”事件给所有公司敲响了警钟

老端的观点
2026-05-11 19:32:12
狂喜!阿森纳锁定巴西冠军强援,实力比廷贝尔还强

狂喜!阿森纳锁定巴西冠军强援,实力比廷贝尔还强

澜归序
2026-05-12 03:56:29
六台:皇马输掉国家德比后,姆巴佩一直待在皇马基地

六台:皇马输掉国家德比后,姆巴佩一直待在皇马基地

懂球帝
2026-05-11 18:51:07
江苏突降冰雹!多地发布预警:警惕10级雷暴大风、短时强降水和冰雹!

江苏突降冰雹!多地发布预警:警惕10级雷暴大风、短时强降水和冰雹!

环球网资讯
2026-05-11 20:34:10
鲁比奥没上桌,特朗普却笑了?这场访华大戏,主角根本不是国务卿

鲁比奥没上桌,特朗普却笑了?这场访华大戏,主角根本不是国务卿

青途历史
2026-05-12 00:33:45
学生小瑶遗体已经找到!确认属于意外溺亡 夜间照明不足是主要诱因

学生小瑶遗体已经找到!确认属于意外溺亡 夜间照明不足是主要诱因

小鋭有话说
2026-05-12 00:03:42
状元签到手却要卖?奇才交易状元签理由曝光,神思路性价比拉满

状元签到手却要卖?奇才交易状元签理由曝光,神思路性价比拉满

夜白侃球
2026-05-11 11:10:16
梧州公交坠桥事件后续!知情人曝事发细节,多部门仍在现场处置

梧州公交坠桥事件后续!知情人曝事发细节,多部门仍在现场处置

奇思妙想草叶君
2026-05-12 00:48:52
今年夏日流行“铅笔裙”,这样搭配上衣火爆了,超赞!

今年夏日流行“铅笔裙”,这样搭配上衣火爆了,超赞!

何有强
2026-05-11 02:40:20
凤凰卫视著名主持人沈星,在母亲节当天晒出了自己孕期产检的照片

凤凰卫视著名主持人沈星,在母亲节当天晒出了自己孕期产检的照片

岁月有情1314
2026-05-11 15:07:23
订单排到3年后!硬核国产,全球爆火

订单排到3年后!硬核国产,全球爆火

看看新闻Knews
2026-05-11 11:56:13
女主持人:为了给儿子弄到签名手套,我曾和库尔图瓦好过一阵

女主持人:为了给儿子弄到签名手套,我曾和库尔图瓦好过一阵

懂球帝
2026-05-09 08:33:15
女子车祸住院遭男医生侵犯,录下全过程并主动反问,为何不立案

女子车祸住院遭男医生侵犯,录下全过程并主动反问,为何不立案

一丝不苟的法律人
2026-05-11 11:45:38
世乒赛落幕!国乒284万奖金分配出炉,王楚钦65万,孙颖莎47万

世乒赛落幕!国乒284万奖金分配出炉,王楚钦65万,孙颖莎47万

帛河体育
2026-05-11 09:21:55
5人违规穿越卧龙未开发区域失联获救,被处以罚款并承担救援费用共计超4万元

5人违规穿越卧龙未开发区域失联获救,被处以罚款并承担救援费用共计超4万元

红星新闻
2026-05-11 19:04:35
中国U17女足挺进亚洲杯四强!直通世界杯!

中国U17女足挺进亚洲杯四强!直通世界杯!

五星体育
2026-05-11 21:52:08
塞尔主持:姆巴佩可能以为皇马是主队2-0领先,才发了Hala Madrid

塞尔主持:姆巴佩可能以为皇马是主队2-0领先,才发了Hala Madrid

懂球帝
2026-05-11 12:09:08
紫牛头条|儿子车祸受伤生存希望不足0.1%仍绝不放弃!这位母亲生死守护已620天

紫牛头条|儿子车祸受伤生存希望不足0.1%仍绝不放弃!这位母亲生死守护已620天

扬子晚报
2026-05-10 20:20:42
弊端显现!7岁小天赐74岁妈妈患病,剃光头发暴瘦,疑似接受化疗

弊端显现!7岁小天赐74岁妈妈患病,剃光头发暴瘦,疑似接受化疗

裕丰娱间说
2026-05-10 20:35:50
2026-05-12 04:59:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15185文章数 66863关注度
往期回顾 全部

科技要闻

黄仁勋:你们赶上了一代人一次的大机会

头条要闻

母女二人一年用水量高达400多吨 警方发现背后隐情

头条要闻

母女二人一年用水量高达400多吨 警方发现背后隐情

体育要闻

梁靖崑:可能是最后一届了,想让大家记住这个我

娱乐要闻

“孕妇坠崖案”王暖暖称被霸凌协商解约

财经要闻

宗馥莉罢免销售负责人 部分业务将外包

汽车要闻

吉利银河“TT”申报图曝光 电动尾翼+激光雷达

态度原创

教育
本地
艺术
房产
游戏

教育要闻

课堂乱象触目惊心,老师气得血压飙升,谁在一步步毁掉当今教育?

本地新闻

用苏绣的方式,打开江西婺源

艺术要闻

震撼!Nicole Nodland镜头下的绝美时尚女神!

房产要闻

产业赋能教育!翰林府与北师大的这场签约,绝不那么简单!

LOL第一支MSI战队出炉,TSW确定晋级季中赛!BLG已锁定淘汰赛名额

无障碍浏览 进入关怀版