网易首页 > 网易号 > 正文 申请入驻

467亿参数MoE追平GPT-3.5!爆火开源Mixtral模型细节首公开,中杯逼近GPT-4

0
分享至


新智元报道

编辑:alan 好困

【新智元导读】今天,Mistral AI公布了Mixtral 8x7B的技术细节,不仅性能强劲,而且推理速度更快!还有更强型号的Mistral-medium也已开启内测,性能直追GPT-4。

今天,Mistral AI正式放出了Mixtral 8x7B的技术细节——

在大多数基准测试中,Mixtral的表现不仅优于Llama 2 70B,而且推理速度提高了整整6倍!

尤其是,它在大多数标准基准测试上与GPT-3.5打平,甚至略胜一筹。

新开源的Mixtral 8x7B自带了一些出色的表现:

比如可以很好地处理32k长度的上下文,支持英语、法语、意大利语、德语和西班牙语,且在代码生成方面表现出强大的性能。

另外,它可以微调为指令跟随模型(instruction-following model),在MT-Bench上获得了8.3分的好成绩。

467亿参数打平GPT-3.5

Mixtral是基于decoder-only架构的稀疏专家混合网络。

它的前馈模块从8组不同的参数中进行选择。在每一层网络中,对于每个token,路由器网络选择8组中的两组(专家),来处理token并将其输出累加组合。

这种技术增加了模型的参数数量,同时控制了成本和延迟,因为模型只使用每个token参数集总数的一小部分。

Mixtral有46.7B的总参数量,但每个token只使用其中12.9B参数。因此,Mixtral的实际执行速度和所需的成本,都只相当于一个12.9B的模型。

Mixtral根据从开放网络中提取的数据进行预训练——包括训练专家网络和路由模块。

性能实测

如下图所示,在大多数基准测试中,Mixtral与Llama 2 70B和GPT-3.5表现相当,其中的几项测试结果还要优于另外两个模型。


下图展示了模型生成质量与推理消耗成本的关系。与Llama 2相比,Mistral 7B和Mixtral 8x7B表现出自己高能效的优势。


更加详细的比较结果看下面的表格:


下面来看下模型在幻觉和偏见问题上的表现。

公平起见,为了避免微调或者偏好建模带来的影响,这里使用BBQ和BOLD来测试基本模型的性能。


从上面的结果可以看出,与Llama 2相比,Mixtral更真实,并且在BBQ基准上表现出更少的偏差。

另外,Mixtral在BOLD上表现出比Llama 2更积极的情绪,每个维度的差异相似。


上表中,在各种支持的语言上与Llama 2进行PK,Mixtral 8x7B可以说是「精通」法语、德语、西班牙语、意大利语和英语。

本次发布的Mixtral 8x7B Instruct和Mixtral 8x7B,已通过监督微调和直接偏好优化(DPO)进行了优化,并实现了指令的跟随。

在MT-Bench上,它的得分达到了8.30——是目前开源模型的最好成绩,性能可与GPT-3.5相媲美。

用户还可以通过提示的方式,进一步约束Mixtral,从而构建一些需要严格审核级别的应用程序。

另外,为了使社区能够使用完全开源的堆栈运行Mixtral,开发人员提交了对vLLM项目的更新,并集成了Megablocks CUDA内核以实现高效推理。

逼近GPT-4,「中杯」开启内测

与此同时,Mistral AI还开放了首个平台服务的测试版——la plateforme。

其中,平台提供了三个基于指令生成文本的聊天模型,以及一个嵌入模型。

目前,mistral-tiny和mistral-small已经正式发布,而性能更强的mistral-medium还处在测试阶段。

这些模型首先在开放网络抽取的数据上进行预训练,随后通过标注进行指令微调,并融合了最为有效的对齐技术(如高效微调、直接偏好优化)。

- Mistral-tiny

基于Mistral 7B Instruct v0.2的Mistral-tiny是最具性价比的模型,它在MT-Bench上的得分为7.6,但仅支持英语。

- Mistral-small

作为最新开源的模型,Mixtral 8x7B在MT-Bench上的得分达到了8.3,并支持英语、法语、意大利语、德语、西班牙语和代码生成。

- Mistral-medium

这是Mistral AI推出的最强开源模型,虽然目前还处在原型阶段,但它在主流评测上已经可以实现对GPT-3.5的碾压了!

Mistral-medium在MT-Bench上拿下了8.6的高分,同样支持英语、法语、意大利语、德语、西班牙语和代码生成。


- Mistral-embed

除了文本生成模型外,Mistral还提供了一个具有1024嵌入维度的嵌入模型。

在设计模型时,团队着重增强了它的检索功能,从而在MTEB上实现了高达55.26的检索得分。

从测试到全面开放

从今天起,任何人都可以注册并使用Mistral的API。

该API与其主要竞品类似,并且支持Python和Javascript客户端库,从而让用户可以方便地检查模型端点。

此外,Mistral还允许用户设置系统提示,以便在模型输出中实施更高级别的内容审查。这一功能对于某些应用来说非常重要。

不过,由于平台还处在测试阶段,使用过程中可能会出现一些小的问题。

致谢

感谢英伟达在TensorRT-LLM和Triton的整合,以及使专家稀疏混合模型与TRT-LLM兼容方面,提供的支持。

网友热议

鉴于Mistral-Medium的强力表现,有网友翻出了GPT-4在相关测试中的分数:



结果,Mistral-Medium在Winogrande基准测试中优于GPT-4。

由于Mistral-Medium的能力貌似可与GPT-4一战,所以有网友自然开始比较两者的价格。



这位网友表示Mistral-Medium的价格约为GPT4-turbo价格的1/4,比自己预期的要昂贵。

对此,也有网友表示反对:「恕我直言,这个价格很公道。小规模模型和GPT-3.5相当,并且更便宜。中等的价格则要高很多,但仍然只有GPT4-turbo的1/4。」


另外也有网友讨论和猜测新的Mixtral 8x7B的技术内幕:


通过比较Mixtral 8x7B和Mistral 7B每层的相似度,这位网友指出Mistral可能已经大规模地进行了稀疏的升级再造工作。


「两个模型的权重之间的显著相关性证明了模型的成功重用。这种方法可以赋予OSS社区自己强大的MoE!希望我们能尽快看到类似于GPT-4的开源质量!」

参考资料:

https://mistral.ai/news/mixtral-of-experts/


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
牛肉价格为何断崖式下跌?

牛肉价格为何断崖式下跌?

别人都叫我阿腈
2024-05-31 21:34:14
深圳摆烂,广州也不玩了,篮球还是要看广东宏远

深圳摆烂,广州也不玩了,篮球还是要看广东宏远

元爸体育
2024-05-31 19:38:50
打包交易!马刺核心走人!场均30分5助,恭喜波波,你的韦德来了

打包交易!马刺核心走人!场均30分5助,恭喜波波,你的韦德来了

领袖阿尔弗图
2024-05-31 21:55:24
网红小姐姐“seonhe”|美图分享

网红小姐姐“seonhe”|美图分享

娱乐的小灶
2024-06-01 00:48:56
进入夏天,再贵也一定多吃它,全身是宝,被誉为“水中人参”

进入夏天,再贵也一定多吃它,全身是宝,被誉为“水中人参”

小怪吃美食
2024-05-30 20:08:33
周杰伦演唱会门票卖家违约“退一赔一”,有歌迷最高获赔一万八

周杰伦演唱会门票卖家违约“退一赔一”,有歌迷最高获赔一万八

上游新闻
2024-05-31 18:24:14
穆雷父母发表声明:他选择了结束自己的生命

穆雷父母发表声明:他选择了结束自己的生命

高尔夫杂志
2024-05-27 08:19:26
地铁上的不文明行为,我该提醒一下吗?

地铁上的不文明行为,我该提醒一下吗?

元爸体育
2024-05-31 14:43:41
台词不清、口音出戏!《庆余年2》这个戏混子,分分钟让人出戏

台词不清、口音出戏!《庆余年2》这个戏混子,分分钟让人出戏

喵喵娱乐团
2024-05-31 15:29:52
这些“老物件”价格飞涨,千万要保存好了!一件可能顶上一套房!

这些“老物件”价格飞涨,千万要保存好了!一件可能顶上一套房!

娱乐小可爱蛙
2024-05-31 11:56:45
抢走小演员角色,金晨被观众骂到“自闭”,庆余年这么大流量,愣是一点也不敢露面宣传

抢走小演员角色,金晨被观众骂到“自闭”,庆余年这么大流量,愣是一点也不敢露面宣传

来电娱乐
2024-05-27 19:39:10
重庆一花季少女被推土坑活埋,曾哭着求饶:妈妈在家等我

重庆一花季少女被推土坑活埋,曾哭着求饶:妈妈在家等我

莉雅细细谈
2023-10-20 01:20:11
汪嘉伟用男排事例评价朱婷:男排没有国家队光环,出去也挣不了钱

汪嘉伟用男排事例评价朱婷:男排没有国家队光环,出去也挣不了钱

林子说事
2024-05-12 07:15:03
沿着国道看长白丨 欲知喜乐 纵情跋涉

沿着国道看长白丨 欲知喜乐 纵情跋涉

冬天来旅游
2024-05-31 10:53:50
笑不活了,62岁刘德华成都演唱会票价最低680元,评论区炸锅了

笑不活了,62岁刘德华成都演唱会票价最低680元,评论区炸锅了

娱乐白名单
2024-05-30 14:32:09
上海“老年月光族”引争议!老两口1万多退休金,花光不考虑子女

上海“老年月光族”引争议!老两口1万多退休金,花光不考虑子女

华庭讲美食
2024-05-31 09:54:59
2-0!连续逆风翻盘,客场灭世锦赛冠军,李诗沣半决赛欲屠龙!

2-0!连续逆风翻盘,客场灭世锦赛冠军,李诗沣半决赛欲屠龙!

钉钉陌上花开
2024-05-31 21:28:33
俄防长:乌军在哈尔科夫关键地区后撤8至9公里

俄防长:乌军在哈尔科夫关键地区后撤8至9公里

参考消息
2024-05-31 18:10:12
1955年大授衔时,刘少奇让陈毅把元帅衔让给粟裕,陈毅回了2个字

1955年大授衔时,刘少奇让陈毅把元帅衔让给粟裕,陈毅回了2个字

洞鉴五千年
2024-05-30 11:23:31
老鹰队向火箭提出交易报价!

老鹰队向火箭提出交易报价!

小豆豆赛事
2024-06-01 01:42:59
2024-06-01 11:04:49
新智元
新智元
AI产业主平台领航智能+时代
11100文章数 65530关注度
往期回顾 全部

科技要闻

华为上新!余承东:问界6月销量将超4万辆

头条要闻

中方确认不参加6月的乌克兰和平峰会 俄方回应:支持

头条要闻

中方确认不参加6月的乌克兰和平峰会 俄方回应:支持

体育要闻

欧文:当老二怎么了?硬就行了!

娱乐要闻

白玉兰提名:胡歌、范伟争视帝

财经要闻

实锤!普华永道,危!

汽车要闻

吉利银河E5 Flyme Auto智能座舱首发

态度原创

时尚
旅游
艺术
数码
家居

今年夏天,穿得越放松越时髦!

旅游要闻

美国华盛顿年内将迎来大熊猫“宝力”和“青宝”

艺术要闻

穿越时空的艺术:《马可·波罗》AI沉浸影片探索人类文明

数码要闻

真正的咸鱼翻身!两年前的骁龙6 Gen 1怎么就翻红了

家居要闻

风雅自来 中式的和谐平衡

无障碍浏览 进入关怀版