网易首页 > 网易号 > 正文 申请入驻

拯救被「掰弯」的GPT-4!西交微软北大联合提出IN2训练治疗LLM「中间迷失」

0
分享至


新智元报道

编辑:alan

【新智元导读】近日,西交微软北大联合提出信息密集型训练大法,使用纯数据驱动的方式,矫正LLM训练过程产生的偏见,在一定程度上治疗了大语言模型丢失中间信息的问题。

辛辛苦苦给大语言模型输入了一大堆提示,它却只记住了开头和结尾?

这个现象叫做LLM的中间迷失(Lost in the Middle),是大模型当前仍面临的最大挑战之一。

毕竟,LLM现在的上下文长度已经冲到了百万级别,而难以处理中间的信息,会使得LLM在评估大量数据时不再可靠。


Midjourney对于Lost in the Middle的理解

其实,我们人类也有类似「中间迷失」的毛病,心理学上叫「Primacy/recency effect」,感兴趣的读者可以参见:

https://www.sciencedirect.com/topics/psychology/recency-effect

「我怕零点的钟声太响......后面忘了」

不过就在不久前,来自西交、微软和北大的研究人员,开发了一种纯粹的数据驱动解决方案,来治疗LLM丢失中间信息的症状:


论文地址:https://arxiv.org/pdf/2404.16811

研究人员认为,Lost in the Middle的原因是训练数据中的无意偏差。

因为LLM的预训练侧重于根据最近的一些token预测下一个token,而在微调过程中,真正的指令又往往位于上下文开始的位置。

这在不知不觉中引入了一种立场偏见,让LLM认为重要信息总是位于上下文的开头和结尾。

基于这样的见解,研究人员提出了信息密集型(INformation-INtensive,IN2)训练方法,来建立数据之间的桥梁。


既然是训练过程造成的偏见,那么就用训练数据来解决。

IN2训练使用合成问答数据,向模型显式指出重要信息可以位于上下文中的任何位置。

整个上下文长度(4K-32K个token),被分为许多128个token的片段,而答案所对应的信息位于随机位置的片段中。


研究人员使用了两种类型的训练问题:一种是要求在一个片段中提供细节,另一种是需要整合和推断来自多个片段的信息。

IN2训练到底效果如何?使用明星模型Mistral-7B来试试。

将IN2训练应用于Mistral-7B,得到了新模型FILM-7B(FILl-in-the-Middle),然后测试为长上下文设计的三个新的提取任务。

测试任务涵盖不同的上下文类型(文档、代码、结构化数据)和搜索模式(向前、向后、双向)。


结果表明,IN2显著降低了原始Mistral模型的「中间丢失」问题。更厉害的是,作为只有7B的模型,FILM的性能在很多情况下甚至超越了GPT-4 Turbo。

在保持自己执行短上下文任务能力的同时,FILM-7B在各种长上下文任务中也表现出色,例如总结长文本,回答有关长文档的问题,以及对多个文档的推理。


上表是不同模型在现实的长上下文任务中的表现。与本体Mistral-7B 相比,INformation-INtensive (IN2) 训练带来的提升很明显,FILM-7B的综合成绩仅次于GPT-4 Turbo。

不过有一说一,Lost in the Middle的问题并没有完全解决,而且在长上下文存在问题的情况下,GPT-4 Turbo也仍然是上下文基准中最强的模型。

Lost in the Middle

LLM丢失中间信息的问题最早由斯坦福、UC伯克利和Samaya AI的研究人员在去年发现。


论文地址:https://arxiv.org/pdf/2307.03172

当面对较长的信息流时,人类倾向于记住开头和结尾,中间的内容更容易被忽视。

没想到LLM也学会了这个套路:对于从输入中检索信息的任务,当信息位于输入的开头或结尾时,模型的表现最好。

但是,当相关信息位于输入的中间时,性能会显著下降。尤其是在回答需要从多个文档中提取信息的问题时,性能下降尤为明显。

——真是干啥啥不行,偷懒第一名。

模型必须同时处理的输入越多,其性能往往越差。——而在实际得应用场景中,往往就是需要LLM同时均匀地处理大量信息。

另外,研究结果还表明,大型语言模型使用额外信息的效率是有限的,具有特别详细指令的「大型提示」可能弊大于利。


对于许多长上下文LLM,中间信息丢失的现象普遍存在。上表测试了当时市面上流行的各种款式LLM,包括GPT-4,一共是七种。

可以看出,不论是开源还是闭源模型的强者,测试结果都显示出明显的U形曲线,说明都是在两头效果好,而中间就拉跨了。


即使强如GPT-4,也难逃被「掰弯」的命运。

这也不禁让人质疑:你们这些卷超长上下文的模型到底有没有用啊?不但吃得多,中间信息也记不住。

信息密集型训练大法

为了明确教导模型,在长上下文中的任何位置都可以包含关键信息。研究人员构建了一个长上下文问答训练数据集 D = {L,q,a},其中问题q的答案a,来自长上下文L中的随机位置。

下图展示了整个数据构建过程。具体来说,训练数据D基于通用自然语言语料库C。给定一个原始文本,首先使用LLM(GPT-4-Turbo)生成一个问答对 (q,a),然后合成一个长上下文 L,其中包括来自C的其他随机抽样文本的必要信息。


上图包含两种类型的问答对:(1)对长上下文中细粒度信息的掌握;(2)对长上下文中不同位置出现的信息进行整合和推理。

细粒度信息感知

将包含128个token的段视为上下文的最小信息单元。给定一个原始文本C,首先从中随机提取一个128个token的段s,然后生成q、a和 L:


信息整合和推理

除了利用每个片段之外,研究人员还考虑为两个或多个片段中包含的信息生成问答对。

按照上面最小信息单元的设置,同样将全文拆分为一组128个token的段 [s],然后相应地生成 q、a和L:

使用LLM生成多跳问答对,保证每个问题对应的答案至少需要两个段内的信息。

训练

整个训练数据集包含:1.1M用于细粒度信息感知的长上下文数据(∼63%)、300K用于信息整合和推理的长上下文数据(∼17%)、150K短上下文问答数据(∼9%)和200K通用指令调整数据(∼11%)。

使用上面构建的训练数据,研究人员对Mistral-7B-Instruct-v0.2执行 IN2训练:将长上下文和问题作为指令,并使用答案部分的损失来更新模型。

超参数:将全局批处理大小设置为128,使用余弦学习率衰减,最大值为1e-6。


模型训练在16个80G A100 GPU上进行,采用由pytorch FSDP实现的完整分片策略和cpu卸载策略,整个训练过程耗时大约18天。

VAL 探测

研究人员提出了VAL探测方法,作为评估语言模型上下文性能的更合适的方法,涵盖了不同的上下文风格和检索模式,以进行更彻底的评估。

下图表示VAL探测中的三个任务。检索模式由检索关键字与要检索的信息之间的相对位置决定。


这里考虑了三种上下文样式(文档、代码和结构化数据上下文)和三种检索模式(前向、后向和双向检索)。

VAL探测中的每个上下文都包含约32K个token,每个任务包含约3K个示例。

文档句子检索(双向):上下文由许多自然语言句子组成,目的是检索包含给定片段的单个句子。这些句子是从arXiv上的论文摘要中抽取的。

此任务遵循双向检索模式,因为预期的检索结果包含上下文中给定片段之前和之后的单词。评估指标是单词级别的召回率分数。

代码函数检索(向后):上下文由Python函数组成,目的是检索函数定义中给定代码行的函数名称。原始代码函数是从StarCoder数据集中采样的,并为每个函数随机选择三行定义。

此任务遵循向后检索模式,因为函数名称始终位于定义之前。评估指标是匹配精度。

数据库实体检索(向前):上下文包含结构化实体列表,每个实体都有三个字段:ID、label和description,目的是检索给定ID的标签和说明。这些实体是从维基百科数据中采样的。

此任务遵循正向检索模式,因为标签和说明跟随ID。以宽松的匹配准确性作为衡量标准:如果响应中的标签或描述完全匹配,则给出 1 分,否则为0分。

参考资料:

https://the-decoder.com/new-ai-training-method-mitigates-the-lost-in-the-middle-problem-that-plagues-llms/


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
欧洲杯巨大争议!比利时被“抢劫”,卢卡库太冤,名记:如同闹剧

欧洲杯巨大争议!比利时被“抢劫”,卢卡库太冤,名记:如同闹剧

奥拜尔
2024-06-18 02:27:44
中超第7轮补赛,上海海港一旦战胜梅州客家,必将带来如下影响!

中超第7轮补赛,上海海港一旦战胜梅州客家,必将带来如下影响!

人生趣事悟语
2024-06-18 01:54:26
特斯拉三款新车曝光!确认年内推出,最早8月8日全球公开亮相

特斯拉三款新车曝光!确认年内推出,最早8月8日全球公开亮相

网上车市
2024-06-17 08:18:10
杨毅炮轰姚明:不理解他执意要留乔帅 逼得总局局长下令让乔帅走人

杨毅炮轰姚明:不理解他执意要留乔帅 逼得总局局长下令让乔帅走人

818体育
2024-06-17 23:01:06
抖音正式下架,苹果用户怒了!

抖音正式下架,苹果用户怒了!

果粉俱乐部
2024-06-17 11:44:53
广东初二男生遭五人暴殴,其父铁棍反击施暴者,117秒棍砸45次

广东初二男生遭五人暴殴,其父铁棍反击施暴者,117秒棍砸45次

沐子畅谈局
2024-06-18 06:08:37
TVB老夫少妻林祖辉姚嘉妮结束18年婚姻,女方身材美貌仍在巅峰

TVB老夫少妻林祖辉姚嘉妮结束18年婚姻,女方身材美貌仍在巅峰

八卦宝宝
2024-06-18 01:24:57
高科技!VAR回放展示奥蓬达手球时芯片捕捉到的波动

高科技!VAR回放展示奥蓬达手球时芯片捕捉到的波动

直播吧
2024-06-18 02:05:51
这居然是生图,感觉冯绍峰真的需要去看眼睛了

这居然是生图,感觉冯绍峰真的需要去看眼睛了

小米虫侃人物
2024-06-17 10:16:07
再出“绝招”,G7盯上了中国银行!不到24小时,中方连将西方两军

再出“绝招”,G7盯上了中国银行!不到24小时,中方连将西方两军

趣史微视频
2024-06-17 09:19:06
再次爆料!美国媒体:3名中国游泳选手呈阳性,2人是东京奥运冠军

再次爆料!美国媒体:3名中国游泳选手呈阳性,2人是东京奥运冠军

体坛知识分子
2024-06-16 06:20:02
国家统计局:就业形势总体稳定,城镇调查失业率同比下降

国家统计局:就业形势总体稳定,城镇调查失业率同比下降

每日经济新闻
2024-06-17 11:50:45
美国以令人惊叹的速度恢复了巴尔的摩航道,然而代价呢?

美国以令人惊叹的速度恢复了巴尔的摩航道,然而代价呢?

熊孩子爱科技
2024-06-17 22:35:53
那段耻辱的历史,至今让人且悲且痛!

那段耻辱的历史,至今让人且悲且痛!

无心镜
2024-06-17 08:07:44
震惊!网传某大厂HR涉贪公司1500万元做医美,部门老大被牵连失业

震惊!网传某大厂HR涉贪公司1500万元做医美,部门老大被牵连失业

火山诗话
2024-06-17 20:15:29
前线彻底失控,伤亡猛增7倍,炸毁100辆西方坦克战车,尸骸遍野

前线彻底失控,伤亡猛增7倍,炸毁100辆西方坦克战车,尸骸遍野

秦蓁
2024-06-16 16:10:02
金灿荣:两国关系跌进谷底!中印矛盾已久,印度野心不容小觑

金灿荣:两国关系跌进谷底!中印矛盾已久,印度野心不容小觑

前沿讲座课堂
2023-04-28 16:04:32
上海高中生写下断绝父子关系的长信!“他们离婚约定房子给我,爸爸却反悔了...”

上海高中生写下断绝父子关系的长信!“他们离婚约定房子给我,爸爸却反悔了...”

上观新闻
2024-06-10 11:20:59
上海已婚少妇“脚踏四只船”,出轨全过程曝光,传疯了!

上海已婚少妇“脚踏四只船”,出轨全过程曝光,传疯了!

拾点先生
2024-06-17 20:14:40
10月15日前,新疆赛里木湖景区全面禁止自行车骑行活动

10月15日前,新疆赛里木湖景区全面禁止自行车骑行活动

鲁中晨报
2024-06-17 15:11:04
2024-06-18 10:02:44
新智元
新智元
AI产业主平台领航智能+时代
11161文章数 65537关注度
往期回顾 全部

科技要闻

低价“6·18”没有狂欢

头条要闻

牛弹琴:普京罕见访朝一箭三雕 中方回应四两拨千斤

头条要闻

牛弹琴:普京罕见访朝一箭三雕 中方回应四两拨千斤

体育要闻

24年后,他们终于又在欧洲杯赢球了

娱乐要闻

上影节红毯:倪妮好松弛,娜扎吸睛

财经要闻

广汽也想“掀桌子”了?

汽车要闻

传奇新篇章 全新一代大众迈腾来了

态度原创

家居
房产
健康
教育
亲子

家居要闻

研己实景 古典与现代的交融

房产要闻

强!全国第三!海口房价正在止跌!

晚餐不吃or吃七分饱,哪种更减肥?

教育要闻

一道河南中考数学题,非常简单,很多同学却丢了3分

亲子要闻

“你们老爷们儿都不去,让小女孩都看不起你们”,宝爸“PUA式”劝宝宝上幼儿园,求你了出一套对小女生的说辞吧。

无障碍浏览 进入关怀版