网易首页 > 网易号 > 正文 申请入驻

微软仅凭「提示工程」让GPT-4成医学专家!超过一众高度微调模型

0
分享至

西风 发自 凹非寺
量子位 | 公众号 QbitAI

微软最新研究再次证明提示工程的威力——

无需额外微调,无需专家策划,仅凭提示,GPT-4就能化身“专家”。

使用他们提出的最新提示策略Medprompt,在医疗专业领域,GPT-4在MultiMed QA九个测试集中取得最优结果。

在MedQA数据集(美国医师执照考试题)上,Medprompt让GPT-4的准确率首次超过90%,超越BioGPT和Med-PaLM等一众微调方法。

研究人员还表示Medprompt方法是通用的,不仅适用于医学,还可以推广到电气工程、机器学习、法律等专业中。

这项研究在X(原Twitter)一经分享,就引发众多网友关注。

沃顿商学院教授Ethan Mollick、Artificial Intuition作者Carlos E. Perez等都有转发分享。

Carlos E. Perez直呼“出色的提示策略可以甩微调一大截”:

有网友表示早就有这种预感,现在能看到结果出来,真的是“so cool”:

还有网友表示这真的很“激进”:

  • GPT-4是一项能改变行业的技术,而我们还远没有触及提示的极限,也未达到微调极限。

组合提示策略,“变身”专家

Medprompt是多种提示策略的组合体,包含三大法宝:

  • 动态少样本选择(Dynamic few-shot selection)
  • 自生成思维链(Self-generated chain of thought)
  • 选项洗牌集成(Choice shuffling ensemble)

下面我们来一一介绍。

动态少样本选择

少样本学习可以说是让模型快速学习上下文的一种最有效的方法。简单来说,就是输入一些示例,让模型快速适应特定领域,并学习遵循任务的格式。

这种用于特定任务提示的少样本示例通常是固定的,所以对示例的代表性和广泛性有较高的要求。

之前一种方法是让领域专家手动制作范例,但即便如此,也不能保证专家策划的固定的少样本示例在每个任务中都有代表性。

因此,微软研究人员提出了动态少样本示例的方法。

想法是,任务训练集可以作为少样本示例的来源,如果训练集足够大,那就可以为不同的任务输入选择不同的少样本示例。

具体来说,研究人员先利用text-embedding-ada-002模型为每个训练样本和测试样本生成向量表示。然后,对于每个测试样本,基于向量相似度,从训练样本中挑选出最相似的k个样本。

与微调方法相比,动态少样本选择利用了训练数据,但不需要对模型参数进行大量更新。

自生成思维链

思维链(CoT)方法就是让模型一步一步思考,生成一系列中间推理步骤。

之前一种方法也是依赖专家手动编写少量的带有提示思维链的示例。

在这里,研究人员发现,可以简单地要求GPT-4使用以下提示为训练示例生成思维链:

但研究人员也指出这种自动生成的思维链可能包含错误的推理步骤,于是设置了一个验证标签作为过滤器,可以有效减少错误。

与在Med-PaLM 2模型中专家手工制作的思维链示例相比,GPT-4生成的思维链基本原理更长,而且分步推理逻辑更细粒度。

选项洗牌集成

除此之外,GPT-4在做选择题时,可能会存在一种偏见,就是不管选项内容是什么,它会偏向总是选择A,或者总是选择B,这就是位置偏差。

为了减少这个问题,研究人员选择将原来的选项顺序打乱重排。比如原先选项是ABCD,可以变成BCDA、CDAB。

然后让GPT-4做多轮预测,每轮使用选项的一个不同排列顺序。如此一来“迫使”GPT-4考虑选项的内容。

最后对多轮预测结果做个投票,选择最一致、正确的选项。

将以上几种提示策略组合在一起就是Medprompt,下面来看测试结果。

多项测试最优

在测试中,研究人员采用了MultiMed QA评估基准。

使用Medprompt提示策略的GPT-4,在MultiMedQA的九个基准数据集中均取得最高分,优于Flan-PaLM 540B、Med-PaLM 2。

此外研究人员还讨论了Medprompt策略在“Eyes-Off”数据上的表现,也就是在训练或优化过程中模型未曾见过的数据中的表现,用于检验模型是否过拟合训练数据。

结果GPT-4结合Medprompt策略在多个医学基准数据集上表现出色,平均准确率达到了91.3%。

研究人员还在MedQA数据集上进行了消融实验,探索了三个组件对于整体性能的相对贡献。

其中自动生成思维链步骤对性能提升的贡献最大。

而且GPT-4自动生成的思维链比Med-PaLM 2中专家策划的得分更高:

最后,研究人员还探索了Medprompt的跨域泛化能力,取用了MMLU基准中的六个不同的数据集,涵盖了电气工程、机器学习、哲学、专业会计、专业法律和专业心理学的问题。

还添加了另外两个包含NCLEX(美国护士执照考试)问题的数据集。

结果显示,Medprompt在这些数据集上的效果与在MultiMedQA医学数据集上的提升幅度相近,平均准确率提高了7.3%。

论文链接:https://arxiv.org/pdf/2311.16452.pdf

参考链接:
[1]https://twitter.com/erichorvitz/status/1729854235443884385
[2]https://twitter.com/emollick/status/1729733749657473327

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
63岁张近东:2387亿债务清零,身家散尽,南京街头三分钟背影!

63岁张近东:2387亿债务清零,身家散尽,南京街头三分钟背影!

别人都叫我阿腈
2026-03-15 21:17:02
四川达州市应急管理局原党委书记、局长王德春被“双开”

四川达州市应急管理局原党委书记、局长王德春被“双开”

界面新闻
2026-03-16 16:51:28
博主:里巴回归郑钦文教练团队,目前采用双教练制

博主:里巴回归郑钦文教练团队,目前采用双教练制

懂球帝
2026-03-17 07:48:06
网友曝姚晨新欢是侯雯元!女方逼男方和钟楚曦分手,二人交集被扒

网友曝姚晨新欢是侯雯元!女方逼男方和钟楚曦分手,二人交集被扒

观察鉴娱
2026-03-17 09:12:19
黄金荣大世界门口扫地、于右任最后留影、伯希和烛光下挑选经卷

黄金荣大世界门口扫地、于右任最后留影、伯希和烛光下挑选经卷

历史小破站
2026-03-16 06:45:03
削发明志!陈熠发文称六年后再次剪短发,输给大藤沙月让她太痛苦

削发明志!陈熠发文称六年后再次剪短发,输给大藤沙月让她太痛苦

凤幻洋
2026-03-16 16:40:03
日本远程导弹瞄准上海?高市早已通告全球,解放军新增2大利器

日本远程导弹瞄准上海?高市早已通告全球,解放军新增2大利器

现代小青青慕慕
2026-03-16 10:55:58
你永远想不到医院的八卦能有多炸裂?一件提神醒脑,两件直接撂倒

你永远想不到医院的八卦能有多炸裂?一件提神醒脑,两件直接撂倒

另子维爱读史
2026-01-22 18:21:09
火没灭,烟又起!朝鲜半岛,正在成为新的风暴中心

火没灭,烟又起!朝鲜半岛,正在成为新的风暴中心

空间展示知识
2026-03-15 20:42:34
阴雨“包周”已上线,晴天要等这一天→

阴雨“包周”已上线,晴天要等这一天→

上观新闻
2026-03-17 00:56:08
万茜自曝上学时没人追,看清她的校服照后,网友:这谁敢追啊!

万茜自曝上学时没人追,看清她的校服照后,网友:这谁敢追啊!

背包旅行
2026-01-17 15:03:45
中国采购48架卡-52文件流出,苏-35引进历史或将重演

中国采购48架卡-52文件流出,苏-35引进历史或将重演

装满幸福
2026-03-13 19:13:28
名记爆料,NBA扩军32队已成定局,只差走个流程,2个难题不好解决

名记爆料,NBA扩军32队已成定局,只差走个流程,2个难题不好解决

铁甲西奇
2026-03-17 09:17:00
长沙解放西事件:4分44秒视频流出,黄发女子身份被扒

长沙解放西事件:4分44秒视频流出,黄发女子身份被扒

温柔看世界
2026-03-16 10:57:23
网红紧凑哥手术完成,不想要小眼睛,割了双眼皮后确实变大了

网红紧凑哥手术完成,不想要小眼睛,割了双眼皮后确实变大了

新游戏大妹子
2026-03-14 12:48:53
李在城28球并列韩国德甲射手榜第三名,仅次于孙兴慜、车范根

李在城28球并列韩国德甲射手榜第三名,仅次于孙兴慜、车范根

懂球帝
2026-03-16 16:43:14
樊振东继续留洋!真实原因曝光,王励勤说的没错,最快下月初回归

樊振东继续留洋!真实原因曝光,王励勤说的没错,最快下月初回归

体育就你秀
2026-03-17 04:45:03
1966年周总理与会时,偶然看了一眼倒水女孩,觉得眼熟:她叫啥?

1966年周总理与会时,偶然看了一眼倒水女孩,觉得眼熟:她叫啥?

简史档案馆
2026-03-16 11:05:03
太惊人了!忘了上螺丝,零跑车主一家三口高速险酿悲剧

太惊人了!忘了上螺丝,零跑车主一家三口高速险酿悲剧

中国能源网
2026-03-15 15:24:03
深度揭秘 | 台盟中央原常务副主席李钺锋:一个“非典型实权派”的13年贪腐路

深度揭秘 | 台盟中央原常务副主席李钺锋:一个“非典型实权派”的13年贪腐路

一分为三看人生
2026-03-16 00:08:00
2026-03-17 10:00:49
量子位 incentive-icons
量子位
追踪人工智能动态
12292文章数 176414关注度
往期回顾 全部

科技要闻

冲击万亿美元订单!黄仁勋定下宏大目标

头条要闻

协助拦截伊朗无人机 乌克兰遭“敲打”

头条要闻

协助拦截伊朗无人机 乌克兰遭“敲打”

体育要闻

那个送老奶奶去医院的球员 成了队史第一人

娱乐要闻

姚晨曹郁发离婚声明 多年前已结束婚姻

财经要闻

我们都是被“训练”出来的大模型

汽车要闻

大众全球首款9系旗舰SUV 上汽大众ID.ERA 9X首秀

态度原创

亲子
本地
旅游
艺术
公开课

亲子要闻

托育需求从刚需看管向科学养育升级

本地新闻

坐标北京,过敏季反向迁徒

旅游要闻

广西阳朔:乘竹筏 赏美景

艺术要闻

书法对决!王洪文江青的字竟比颜真卿差那么多?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版