网易首页 > 网易号 > 正文 申请入驻

斯坦福新作:无指令调优的指令遵循

0
分享至

机器之心报道

编辑:杜伟、陈陈

指令调优(Instruction tuning)是一种优化技术,通过对模型的输入进行微调,以使其更好地适应特定任务。先前的研究表明,指令调优样本效率是很高效的,只需要大约 1000 个指令-响应对或精心制作的提示和少量指令-响应示例即可。

本文中,来自斯坦福大学的研究者更进一步探索了这样一种想法,即指令遵循甚至可以隐式地从语言模型中产生,即通过并非明确设计的方法产生。本文发现了两种执行隐式指令调优的适应形式,与显式指令调优相比,它们似乎存在缺陷:(1)响应调优,仅对响应进行训练;(2)单任务调优,仅对来自狭窄目标领域的数据进行训练,如诗歌生成。

  • 论文标题:Instruction Following without Instruction Tuning
  • 论文地址:https://arxiv.org/pdf/2409.14254
  • 博客地址:https://nlp.stanford.edu/~johnhew/instruction-following.html

首先,该研究证明,响应调优(仅对响应进行训练而不对其指令进行条件限制)足以产生指令遵循。特别是使用 LIMA 数据集进行调优,在 AlpacaEval 2 上的评估表明,响应调优模型与指令调优模型相比,有43%的胜率,在同等性能下则对应 50% 的胜率。

响应调优不提供有关从指令到响应映射的明确信息,只提供有关所需响应分布的信息。这表明,指令-响应映射可以在预训练期间学习,但所有理想响应的概率都太低而无法生成。

从响应调优的结果来看,指令调优的关键部分是得到期望响应的分布。然而,作者发现这也不重要。对单任务、窄域数据进行微调,例如将英语请求映射到Python片段,或者从诗歌标题生成诗歌,也会产生广泛的指令遵循行为。

也就是说,尽管训练只生成 Python 代码或诗歌,但模型在收到指令后仍会生成传记或食谱。例如,经过诗歌调优的 Llama-2-7B 在 AlpacaEval 2 中与经过指令调优的 Llama-2-7B 胜出 23.7%,而基础模型胜出率为 2.4%。

总之,本文结果表明, 即使适应方法本意不在于产生指令遵循行为,它们也可能隐式地做到这一点。

论文作者之一John Hewitt 表示:这是他在斯坦福 NLP 的最后一篇论文。Hewitt即将加入哥伦比亚大学担任助理教授。

实验设置

指令调优。指令调优可以对一个语言模型的参数θ进行微调,以调整它的行为并针对查询给出包含相关有帮助答案的响应。给定包含指令和对应响应的一组示例D_ins = {instruction_i , response_i }^k _i=1,指令调优可以优化:

指令格式。在语言模型实践中,指令和响应之间的区别通过输入中的格式化token来指定。研究者使用了 Tulu 格式。之所以会介绍指令格式,是因为它可能对从语言模型中产生指令遵循行为的难易程度很重要。

定义指令遵循行为。研究者区分了指令遵循行为和非指令遵循行为,实际上存在一系列更好和更糟糕的响应,没有单一的界限。为了保证一定程度的系统性,他们使用了以下评估设置

AlpacaEval vs 可比较的指令调优模型。研究者根据AlpacaEval LLM-as-a-judge框架来测量每个模型与可比较指令调优模型在长度控制方面的正面交锋胜率。

贪婪解码。研究者从模型中贪婪地解码,以观察指令遵循响应什么时候最有可能是模型的延续。

响应调优产生指令遵循

在本章中,研究者探讨了响应调优,即仅对响应进行微调,而无需任何相应的指令。

响应调优

方法,给定包含指令和对应响应的一组示例D_ins = {instructioni , response_i }^k_i=1,响应调优将指令字符串替换为空字符串,并优化如下:

研究者比较了指令调优和响应调优。对于适应数据集,研究者使用包含1030个训练示例的LIMA。对于基础预训练模型,研究者使用了Llama-2-7B 和 OLMo-7B-Feb2024语言模型,并对这两个模型的所有参数进行微调。对于超参数选择,研究者在为本文开发的held-out验证集上使用了 AlpacaEval 相对GPT-3.5-turbo的胜率。验证集部分手写部分由GPT-4生成,包含各种知识、蒸馏、翻译和行政指令,比如「给我安排两天假期去玩《虚幻勇士》」。

结果发现,响应调优的Llama-2-7B模型对指令调优的Llama-2-7B的平均胜率是43.3%,而基础模型对指令调优模型的胜率为2.4%。对于OLMo-7B-Feb2024,响应调优模型对指令调优模型的胜率为 43.7%, 而基础模型的胜率为 4.7%。研究者在下图2中提供了响应调优、指令调优和基础Llama-2-7B模型的示例。

对于Llama-2-7B 和 OLMo-7B-Feb2024 基础模型,响应调优模型的行为比基础模型更接近指令调优模型。指令调优始终优于响应调优,但差别不大。因此在调整过程中指定指令会带来一些收益,但这对于产生基线水平的指令遵循行为并不重要。

响应排序能力

研究者提出了响应排序能力:为一个指令的正确响应分配的可能性高于一个其他随机指令的预期响应。对于独立的指令-响应对(instruction, response)∼ D 和(instruction′ , response′)∼ D 以及一个模型 pθ,若如下公式(3)所示,则响应排序能力成立。

由于这两个概率可能都很小,因此即使没有遵循指令的模型,响应排序能力也可以成立。通过响应调优来增加预期响应的概率,并且当模型的很多指令具有响应排序能力时,可能会产生预期的响应。

对于Alpaca训练集,研究者针对预训练、LIMA 指令调优和响应调优模型,计算了它们指令对的响应排序能力成立的可能性。结果表明,预训练模型的响应排序能力成立的可能性与指令调优模型类似。具体如下表2所示。

单任务微调产生指令遵循

此方法与指令调优相同,只是输入和输出的分布发生了变化。

研究发现,在每个单任务微调数据集上对 Llama-2-7B 和 OLMo-7B-Feb2024 进行微调都会导致一般的指令遵循行为,并且与基础模型相比,指令调优模型(表 3)的胜率明显更高。

在 OLMo-7B-Feb2024 和 Llama-2-7B上,对 GSM 数据集进行微调可获得最高的 AlpacaEval 胜率。图 4 提供了模型输出的示例。

如图 5 所示,对于非常类似于 GSM 的指令,模型输出遵循 GSM 样式及其使用的特定数学符号。然而,对于大多数指令,作者注意到输出仅受到 GSM 的细微影响:它们具有普遍存在的 GSM 序列结尾样式,以四个哈希和一个整数答案结尾,例如 ####1。

更多技术细节和实验结果请参阅原论文。

返回

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
重返猛龙+顶薪续约!三点原因告诉你伦纳德36岁依然值得顶薪!

重返猛龙+顶薪续约!三点原因告诉你伦纳德36岁依然值得顶薪!

刘哥谈体育
2026-06-30 20:07:32
广东一老板搭员工的车去吃饭, 发现员工开的车是迈巴赫,瞬间破防,老板:她月薪2000,日常工作勤勤恳恳

广东一老板搭员工的车去吃饭, 发现员工开的车是迈巴赫,瞬间破防,老板:她月薪2000,日常工作勤勤恳恳

东莞好生活
2026-06-28 10:45:51
听闻吴化文35军占总统府,粟裕急令24军进南京接替

听闻吴化文35军占总统府,粟裕急令24军进南京接替

探史
2026-06-29 12:12:39
男女的性压抑已经恐怖如斯了?

男女的性压抑已经恐怖如斯了?

灯锦年
2026-06-29 17:15:19
正常人可以偶尔偷吃一颗伟哥吗?有什么副作用?本文为你讲出实情

正常人可以偶尔偷吃一颗伟哥吗?有什么副作用?本文为你讲出实情

健康科普365
2026-05-09 21:05:04
港媒曝TVB幸福人妻孕味浓!爆料马国明三招催生备孕

港媒曝TVB幸福人妻孕味浓!爆料马国明三招催生备孕

TVB资讯台
2026-07-01 01:20:21
普京放重话!俄称正处生死存亡时刻,泽连斯基彻底掌握战争主动权

普京放重话!俄称正处生死存亡时刻,泽连斯基彻底掌握战争主动权

离离言几许
2026-07-01 00:37:12
世界杯动容1幕:27岁球星跪地痛哭!儿子胎中夭折 全队安慰

世界杯动容1幕:27岁球星跪地痛哭!儿子胎中夭折 全队安慰

叶青足球世界
2026-06-30 10:50:44
上海交大研究:早上睡懒觉的老人,用不了多久,身体或有6变化

上海交大研究:早上睡懒觉的老人,用不了多久,身体或有6变化

牛锅巴小钒
2026-06-30 00:06:45
曹德旺对未来房价预言:250万的房子,到2032年还能值多少钱?

曹德旺对未来房价预言:250万的房子,到2032年还能值多少钱?

猫叔东山再起
2026-06-30 08:05:08
曾呼吁“向美国投降”的大V,看到中国越来越强大,竟然“疯”了

曾呼吁“向美国投降”的大V,看到中国越来越强大,竟然“疯”了

开着车去流浪
2026-06-30 10:43:18
上限锁死了

上限锁死了

新浪财经
2026-06-30 22:57:23
异性对接吻一定要慎重,一旦“接吻”了,关系就会发生重大变化!

异性对接吻一定要慎重,一旦“接吻”了,关系就会发生重大变化!

皓皓情感说
2026-05-15 12:29:38
没有证据?那就发明证据!从中国第一“女福尔摩斯”到冤案制造者

没有证据?那就发明证据!从中国第一“女福尔摩斯”到冤案制造者

许三岁
2026-06-24 11:06:59
湖南农村学霸高考只考239,班主任不相信查监控,看到真相他哭了

湖南农村学霸高考只考239,班主任不相信查监控,看到真相他哭了

二十一号故事铺
2024-09-28 06:30:02
张学良被囚禁后,两儿子死于非命,张家亲人:于凤至做母亲很失职

张学良被囚禁后,两儿子死于非命,张家亲人:于凤至做母亲很失职

水木史记
2026-07-01 00:07:11
《午夜凶铃》女星死因确认,年仅35岁

《午夜凶铃》女星死因确认,年仅35岁

生活观察员啊
2026-07-01 00:55:15
裤裆里放屁,自欺欺人!手机音质集体摆烂的真相

裤裆里放屁,自欺欺人!手机音质集体摆烂的真相

数码黄药师
2026-06-29 09:35:21
2026年最强反腐来了!中纪委:害群之马将清除到底!

2026年最强反腐来了!中纪委:害群之马将清除到底!

职场资深秘书
2026-06-30 11:24:20
一杯水是礼貌 八杯水是信号

一杯水是礼貌 八杯水是信号

张晓磊
2026-06-28 11:30:17
2026-07-01 02:55:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13401文章数 142685关注度
往期回顾 全部

科技要闻

iPhone18 Pro遭泄密!印度代工商惹祸

头条要闻

坎贝尔承认:中国是最成功渡过难关的国家

头条要闻

坎贝尔承认:中国是最成功渡过难关的国家

体育要闻

德国足球,脸都不要了

娱乐要闻

黄晓明沦陷!羡慕周杰伦能降住昆凌

财经要闻

万亿“寒王”,历史时刻

汽车要闻

奇瑞风云A9探店 五个理由一定来看看

态度原创

游戏
房产
数码
亲子
军事航空

线下宣发落地!知名连锁品牌曝光《GTA6》专属活动

房产要闻

TOP10单盘狂卖210亿!海南楼市,上半年热销榜单出炉

数码要闻

曝微软停产Surface Go与Surface Laptop Go,无后续机型研发计划

亲子要闻

我来兑现2年前的承诺啦!

军事要闻

以色列防长:穆杰塔巴已被列入死亡名单

无障碍浏览 进入关怀版