网易首页 > 网易号 > 正文 申请入驻

LLM-Blender:大语言模型也可以进行集成学习

0
分享至


最近在看arxiv的时候发现了一个有意思的框架:LLM-Blender,它可以使用Ensemble 的方法来对大语言模型进行集成。

官方介绍如下:LLM-Blender是一个集成框架,可以通过利用多个开源大型语言模型(llm)的不同优势来获得始终如一的卓越性能。

LLM集成

我们都知道集成学习是一种机器学习方法,旨在提高预测模型的性能和鲁棒性。它通过将多个不同的学习器(如决策树、神经网络等)结合成一个整体,来取得比单个学习器更好的预测效果。比如最常见的Kaggle比赛中就广泛的使用了这种方法。

那么大语言模型有必要进行集成吗

论文给出了以下观点:

由于数据、架构和超参数的变化,LLM表现出不同的优势和劣势,使它们互补。并且目前不存在一个开源LLM在所有例子中都占主导地位。可以集成LLM的输出(基于输入、任务和领域),以便在不同的示例中提供一致的卓越性能。结合他们独特的贡献;可以减轻个别LLM的偏差、误差和不确定性,从而使产出与人类偏好保持一致。

LLM-Blender

所以论文就给出了一个框架LLM-Blender

LLM-Blender有两个模块:PairRanker和GenFuser。PairRanker比较多个模型的输出,给出排名最高的输出。然后GenFuser将前几个排名靠前的输出融合在一起,生成最终输出。

1、PairRanker是如何工作的

PairRanker模块用于有效地识别候选模型输出之间的细微差异,并根据它们的质量对它们进行排名。
收集N个模型的输出,并以总共N(N-1)/2种方式进行配对(从总共N个项目中选择2个项目的组合次数)。
然后根据以下条件对结果进行评估:给定输入提示,哪个候选人的输出更好。

在推理过程中,计算一个包含表示两两比较结果的对数的矩阵。给定该矩阵确定并选择排名前k的输出用于GenFuser模块。

2、GenFuser是如何工作的

GenFuser模块使用PairRanker模块排名靠前的输出,为最终用户生成潜在的改进输出。该模块融合了排名前n位的结果中的前K位,并产生了改进的输出,利用他们的优势和减轻他们的弱点。

基准测试

论文介绍了一个名为mixdirective的新数据集,用于对llm在指令跟随任务中的集成模型进行基准测试。
该数据集拥有来自Alpaca-GPT4、Dolly-15K、GPT4-ALL-LAION和ShareGPT的大规模指令示例集。
有10万例用于训练,5万例用于验证,5万例用于测试。

使用N = 11个流行的开源LLM进行测试。候选的输出使用ChatGPT对所有候选对进行评估。对于每一对,ChatGPT被要求判断那个是更好的。

可以看到各个LLM有不同的优势和劣势。顶尖的LLM在测试中并不总是最优的。PairRanker优于其他LLM。LLM-Blender组合比其他任何单个模型更好。

限制

最主要的还是效率,因为对PairRanker中top-K输出进行排序的过程需要调用模型O(n²)次才能获得最佳性能。解决这个问题的一种方法是使用多轮气泡排序方法来减少所需的推断数量。另一种提高时间效率的方法是并行执行PairRanker的推理,因为它们是独立的,也就是多个模型同时推理。

目前论文使用的是在ChatGPT帮助下的自动评估。虽然自动评估是一个很好的选择,但人工评价可以提供更可靠、更全面的评价结果。

这时一个很有意思的项目,有兴趣的可以看看他的论文还有源代码:

https://avoid.overfit.cn/post/29adfb00f1b44adabe43f6a5cd47c53b

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
铁饭碗排名:公务员跌至第8,第1太意外!

铁饭碗排名:公务员跌至第8,第1太意外!

山东教育
2026-02-22 20:40:12
江苏高速全红了!

江苏高速全红了!

中吴网
2026-02-22 16:08:43
公积金缴纳等级,你在几级?

公积金缴纳等级,你在几级?

新浪财经
2026-02-04 05:17:52
比人参还稀罕!03年被送上太空,培育后产量爆发,帮全县赚超18亿

比人参还稀罕!03年被送上太空,培育后产量爆发,帮全县赚超18亿

万象硬核本尊
2026-01-05 17:10:35
印度又闹笑话了,全网疯传的“全球5G地图”,印度亮成第一了?

印度又闹笑话了,全网疯传的“全球5G地图”,印度亮成第一了?

青青子衿
2026-02-22 03:11:02
殷秀梅:遗憾没生孩子,一心培养弟弟,替弟弟养女儿值吗?

殷秀梅:遗憾没生孩子,一心培养弟弟,替弟弟养女儿值吗?

细品名人
2025-12-11 07:16:50
马云会不会收购美团外卖?这是今日资本市场的最大疑问

马云会不会收购美团外卖?这是今日资本市场的最大疑问

流苏晚晴
2026-02-22 15:08:07
孙立人遗骸将迁回大陆,国台办未作表态,其中究竟有何隐情?

孙立人遗骸将迁回大陆,国台办未作表态,其中究竟有何隐情?

文史明鉴
2026-02-15 10:45:17
一个问题:爱泼斯坦的“邪恶”从何而来?

一个问题:爱泼斯坦的“邪恶”从何而来?

百味朱砂
2026-02-14 14:46:51
3天付清16亿!山东80后拒上市,44岁稳坐首富,千亿帝国靠啥硬撑

3天付清16亿!山东80后拒上市,44岁稳坐首富,千亿帝国靠啥硬撑

青眼财经
2026-01-13 22:58:50
用了半年iPhone16后,还是决定换回华为Mate80,这三个原因太真实

用了半年iPhone16后,还是决定换回华为Mate80,这三个原因太真实

小蜜情感说
2026-02-22 20:12:07
军事热点‖专家担忧俄罗斯与朝鲜结盟对抗乌克兰或涉及核技术交易

军事热点‖专家担忧俄罗斯与朝鲜结盟对抗乌克兰或涉及核技术交易

假如明天来临
2026-02-22 14:55:24
哈登加盟效应太猛!5战全胜砍92+43+25:艾伦升级数据暴涨

哈登加盟效应太猛!5战全胜砍92+43+25:艾伦升级数据暴涨

罗说NBA
2026-02-22 05:24:10
我国崩塌最彻底的专业,从年薪20万到找不到工作,毕业即失业!

我国崩塌最彻底的专业,从年薪20万到找不到工作,毕业即失业!

黯泉
2026-02-10 22:00:47
和平已无望?马斯克预言大战时间,美政府已签字:提到台湾省8次

和平已无望?马斯克预言大战时间,美政府已签字:提到台湾省8次

兴史兴谈
2026-01-07 06:19:46
3-0,63岁穆帅发威:率队豪取葡超3连胜,一夜逼近葡超榜首

3-0,63岁穆帅发威:率队豪取葡超3连胜,一夜逼近葡超榜首

侧身凌空斩
2026-02-22 08:15:08
唐镇、徐泾、华泾……上海外环这些地方,凭啥让人放弃市中心?

唐镇、徐泾、华泾……上海外环这些地方,凭啥让人放弃市中心?

观察眼看世界
2026-02-22 07:55:04
金球奖概率榜:梅西无缘前十!C罗排名高居前十五!

金球奖概率榜:梅西无缘前十!C罗排名高居前十五!

氧气是个地铁
2026-02-21 22:13:54
谷爱凌6枚奖牌追平濛!王濛盛赞实至名归 比一顿花里胡哨转美得多

谷爱凌6枚奖牌追平濛!王濛盛赞实至名归 比一顿花里胡哨转美得多

醉卧浮生
2026-02-22 19:53:31
美国U-2侦察机全球共被击落7架,其中5架败于我军之手,百岁院士张履谦披露详情

美国U-2侦察机全球共被击落7架,其中5架败于我军之手,百岁院士张履谦披露详情

极目新闻
2026-02-21 21:45:52
2026-02-22 22:04:49
deephub incentive-icons
deephub
CV NLP和数据挖掘知识
1928文章数 1455关注度
往期回顾 全部

科技要闻

马斯克:星舰每年将发射超过10000颗卫星

头条要闻

中国游客与贝加尔湖8死事故擦肩而过:曾踩过出事冰缝

头条要闻

中国游客与贝加尔湖8死事故擦肩而过:曾踩过出事冰缝

体育要闻

自由式滑雪U型池 谷爱凌成功卫冕

娱乐要闻

裴世矩养侄为刃 看懂两次放行裴行俨!

财经要闻

特朗普新加征关税税率从10%提升至15%

汽车要闻

续航1810km!smart精灵#6 EHD超级电混2026年上市

态度原创

本地
家居
房产
教育
公开课

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

家居要闻

本真栖居 爱暖伴流年

房产要闻

窗前即地标!独占三亚湾C位 自贸港总裁行宫亮相

教育要闻

本科生,就业去哪了?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版