网易首页 > 网易号 > 正文 申请入驻

最佳开源模型刷新多项SOTA,首次超越Mixtral Instruct!「开源版GPT-4」家族迎来大爆发

0
分享至

新智元报道

编辑:桃子

【新智元导读】Mixtral 8x7B模型开源后,AI社区再次迎来一大波微调实践。来自Nous Research应用研究小组团队微调出新一代大模型Nous-Hermes 2 Mixtral 8x7B,在主流基准测试中击败了Mixtral Instruct。

Mixtral 8x7B开源模型的诞生,正如Llama一样,为开源社区了带来曙光。

前段时间,Mixtral刚刚发布了8x7B模型的论文。在基准测试结果中,其性能达到或超过 Llama 2-70B和GPT-3.5。

甚至,Mixtral在数学、代码生成和多语言理解任务方面表现亮眼。

最近,一个开源研究小组Nous Research推出了新一代旗舰大模型Nous-Hermes 2 Mixtral 8x7B。

这是首个通过RLHF训练的模型,并在主流基准测试中超越Mixtral Instruct,成为最佳开源模型。

此外,Nous Research团队发布的SFT和SFT+DPO模型,以及DPO适配器将为用户提供更多选择。

在所有的基准测试中,Nous-Hermes 2 Mixtral 8x7B模型也略不逊色。

目前,这些模型同样在Hugging Face上开源上线。

最佳开源模型诞生

据介绍,最新模型是在Mixtral 8x7B MoeLLM微调训练而来。

具体来说,Nous-Hermes 2 Mixtral 8x7B是在1,000,000个条目进行了训练(主要是GPT-4生成的数据),以及整个AI领域开放数据集等其他高质量数据集。

研究人员同时还发布了SFT Only版本,以及SFT+DPO版本。

模型演示

那么,Nous Research团队最新的模型能力有多强?

编写可视化数据代码完全是小菜一碟。

它还能写赛博朋克的迷幻诗。

可以执行反向翻译,从输入文本中创建提示信息。

基准测试

与Mixtral基础模型相比,Mixtral 8x7B上的Nous-Hermes 2在以下基准测试中取得了全面提升,也是MistralAI首次击败旗舰型号Mixtral Finetune。

在GPT4All中,Nous-Hermes Mixtral 8x7B(SFT+DPO)拿下了75.7分,位列榜单第三。

在AGIEval的排行中,Nous-Hermes Mixtral 8x7B(SFT+DPO)拿下了46.05的成绩。

此外,在BigBench Reasoning Test中,Nous-Hermes 2 Mixtral 8x7B(SFT+DPO)霸榜第一。

背后团队

成立于2023年,Nous Research是一个在大模型领域发布开源研究而闻名的私人应用研究小组。

去年12月,这个研究团队成员曾发布了一款轻量的视觉语言模型——Nous Hermes 2 Vision。

这个模型以希腊神使赫尔墨斯的名字命名。它通过用户上传的图像数据,通过自然语言提供详细的答案。

就在前几天,Nous Research宣布了一轮520万美元的种子融资,涉及了多位天使投资人。

到目前为止,Nous Research已经发布了40多个开源模型,包括Hermes、YaRN、Capybara、Puffin和Obsidian系等系列。

Mixtral模型,会将成为开源版GPT-4

继2023年年初Llama发布之后,一系列羊驼家族瞬间爆发。年底,Mixtral的开源MoE发布,更是为开源年做了一个完美的收尾。

有网友表示,Mixtral或将有实力将于今年接管GPT-4。

在Chatbot Arena排行榜上,Mixtral成为(继GPT-4、Claude和Mistral Medium之后)唯一能打的开源模型,也是仅有7B参数的最小模型,甚至比谷歌的Gemini Pro还要好!

而且它是开源的!任何人可以获取该模型,并将其部署到自己的设备,而且可以对其进行微调,可以随心所欲地使用它。

现在,在Mixtral-7B上进行微调、部署的模型案例,也是非常的多。

比如,有网友用树莓派在本地跑起了Phi-2、Mistral和LLaVA等模型。

还有人出了一款APP,名为Offline Chat:Private AI,能够在iPhone上离线跑Mistral 7B模型。

这样一来,模型生成的内容,可以保障安全和隐私。

还有人用直接偏好微调了Mistral-7B模型。

具体来说,研究人员将使用一种类似RLHF的技术:直接偏好优化(DPO)对OpenHermes-2.5进行微调,从而创建NeuralHermes-2.5。

为此,他们还引入了一个偏好数据集,描述DPO算法的工作原理,并将其应用到模型中。我们将看到它显著提高了OpenLLM排行榜上基本模型的性能。

有网友进行的海底捞针实验中, Mistral-7B-Instruct-v0.2在80000 token情况下,召回率下降。

相信未来,Mixtral模型会向羊驼家族一样,迎来大爆发。

参考资料:

https://twitter.com/NousResearch/status/1746988416779309143

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
深圳高端商场店员讥讽顾客穷,涉事店铺曝光,网友:离倒闭不远

深圳高端商场店员讥讽顾客穷,涉事店铺曝光,网友:离倒闭不远

一盅情怀
2026-06-01 19:32:43
“耿同学”永久限流后,南开大学、中山大学趁周末接连通报:多人遭免职

“耿同学”永久限流后,南开大学、中山大学趁周末接连通报:多人遭免职

药识局
2026-05-30 21:11:23
王菲背的珑骧帆布包又火了,这包已售罄,窦颖也去看谢霆锋演唱会

王菲背的珑骧帆布包又火了,这包已售罄,窦颖也去看谢霆锋演唱会

荒野老五
2026-05-31 20:16:24
哭笑不得!网传某985文学院毕业女生相亲市场遇冷,男方扭头就跑

哭笑不得!网传某985文学院毕业女生相亲市场遇冷,男方扭头就跑

火山詩话
2026-06-01 07:30:30
他58岁任四川省委书记,61岁接替华主席的职务,后来组建武警部队

他58岁任四川省委书记,61岁接替华主席的职务,后来组建武警部队

旧史新谭
2026-05-31 02:04:51
报道称美军“悄悄”引导约70艘商船通过霍尔木兹海峡

报道称美军“悄悄”引导约70艘商船通过霍尔木兹海峡

财联社
2026-06-01 13:59:05
对比之下,国米管理层靠谱得多!对帕莱多重定位,或投重金豪购!

对比之下,国米管理层靠谱得多!对帕莱多重定位,或投重金豪购!

肥强侃球
2026-06-01 23:48:36
割四赔五让当地农户拦不到收割机,媒体呼吁有关部门调查此事

割四赔五让当地农户拦不到收割机,媒体呼吁有关部门调查此事

映射生活的身影
2026-05-31 18:49:29
谁能想到?淘汰雷霆后,文班亚马收到中国少林师父的八字祝福

谁能想到?淘汰雷霆后,文班亚马收到中国少林师父的八字祝福

阿讯说天下
2026-06-01 14:28:50
每天做这10件小事,你的状态会悄悄变好

每天做这10件小事,你的状态会悄悄变好

有态度网友ytd2993
2026-06-01 01:32:15
重庆明晚将迎来一次较强降雨!主要集中在这些地区→

重庆明晚将迎来一次较强降雨!主要集中在这些地区→

鲁中晨报
2026-06-01 21:23:44
卖掉开8年的燃油车,花35万买了一辆理想L8,开了6个月,终于明白

卖掉开8年的燃油车,花35万买了一辆理想L8,开了6个月,终于明白

沙雕小琳琳
2026-06-01 06:06:09
性生活是不是人的刚需?

性生活是不是人的刚需?

宇宙时空
2026-05-31 12:30:18
巴菲特“接班人”首笔68亿美元大单押注房地产 分析师:他在赌周期反转

巴菲特“接班人”首笔68亿美元大单押注房地产 分析师:他在赌周期反转

红星新闻
2026-06-01 19:30:39
黄仁勋突然掀桌子,一切都反转了!

黄仁勋突然掀桌子,一切都反转了!

互联网品牌官
2026-06-01 18:52:25
埋进土里一万年:为什么玻璃才是人类文明的“终极硬盘”?

埋进土里一万年:为什么玻璃才是人类文明的“终极硬盘”?

心中的麦田
2026-06-01 20:59:23
重磅!美记曝光雷霆灰熊交易方案:霍姆格伦成筹码,西部要变天

重磅!美记曝光雷霆灰熊交易方案:霍姆格伦成筹码,西部要变天

酷侃体坛
2026-06-01 09:25:02
樊振东热持续发酵!德国召开乒乓会议,打造世界第一联赛赴华办赛

樊振东热持续发酵!德国召开乒乓会议,打造世界第一联赛赴华办赛

杨华评论
2026-06-02 01:59:20
因Kimmel拿第一夫人开玩笑,ABC被迫提前审执照,怒斥违宪

因Kimmel拿第一夫人开玩笑,ABC被迫提前审执照,怒斥违宪

自愈小日子
2026-06-01 01:01:32
99年日月潭碎尸案:枕边人贪念成魔!残忍虐杀母女三人,分尸42块

99年日月潭碎尸案:枕边人贪念成魔!残忍虐杀母女三人,分尸42块

莫地方
2026-06-02 00:14:16
2026-06-02 04:03:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15359文章数 66894关注度
往期回顾 全部

科技要闻

黄仁勋演讲实录|40年来PC首次重设计!

头条要闻

伊朗计划彻底封锁霍尔木兹海峡 特朗普回应

头条要闻

伊朗计划彻底封锁霍尔木兹海峡 特朗普回应

体育要闻

杰威:如果我没受伤,我们能击败马刺

娱乐要闻

奚梦瑶婚礼现场图!一双儿女当花童

财经要闻

宇树过会,杭州赢麻了

汽车要闻

奇瑞集团5月销量24.8万辆 同比增长20.5% 出口18.2万辆再创新高

态度原创

房产
游戏
时尚
旅游
手机

房产要闻

100亿!1371亩!海口城市更新,再爆超级项目!

又一款经典RPG神作启动重制!不止高清 期待拉满

夏天裤子不用多买,阔腿裤一整个夏天都能穿,日常出行好打理

旅游要闻

世界旅游城市联合会“会员之家”在京揭牌

手机要闻

华为nova 16系列支持5A速度!传输、流畅度领先友商17 Pro

无障碍浏览 进入关怀版