网易首页 > 网易号 > 正文 申请入驻

原作亲自下场!Mistral首款开源7B Mamba模型「埃及艳后」效果惊艳

0
分享至

新智元报道

编辑:编辑部

【新智元导读】最近,7B小模型又成为了AI巨头们竞相追赶的潮流。继谷歌的Gemma2 7B后,Mistral今天又发布了两个7B模型,分别是针对STEM学科的Mathstral,以及使用Mamaba架构的代码模型Codestral Mamba。

Mistral又惊喜上新了!

就在今天,Mistral发布了两款小模型:Mathstral 7B和Codestral Mamba 7B。

首先是专为数学推理和科学发现设计的Mathstral 7B。

在MATH基准测试中,它获得了56.6% pass@1的成绩,比Minerva 540B提高了20%以上。Mathstral在MATH上的得分为68.4%,使用奖励模型得分为74.6%。

而代码模型Codestral Mamba,是首批采用Mamba 2架构的开源模型之一。

它是可用的7B代码模型中最佳的,使用256k token的上下文长度进行训练。

两款模型均在Apache 2.0许可证下发布,目前权重都已上传HuggingFace仓库。

Hugging Face地址:https://huggingface.co/mistralai

Mathstral

有趣的是,根据官宣文章,Mathstral的发布恰好庆祝了阿基米德2311周年诞辰。

Mathstral专为STEM学科设计,以解决需要复杂、多步骤推理的高级数学问题。参数仅有7B,上下文窗口为32k。

而且,Mathstral的研发还有一个重量级的合作伙伴——上周刚刚在Kaggle第一届AI奥数竞赛中得到冠军宝座的Numina。

而且,有推特网友发现,Mathstral可以正确回答「9.·11和9.9哪个更大」这个难倒一众大模型的问题。

整数、小数分开比较,思维链清清楚楚,可以说是数学模型优秀作业的典范了。

基于Mistral 7B的语言能力,Mathstral进一步聚焦STEM学科。根据MMLU的学科分解结果,数学、物理、生物、化学、统计学、计算机科学等领域都是Mathstral的绝对优势项目。

根据官方博客文章的透露,Mathstral似乎牺牲了一些推理速度以换取模型性能,但从测评结果来看,这种权衡是值得的。

在多个数学、推理领域的基准测试中,Mathstral打败了Llama 3 8B、Gemma2 9B等流行的小模型,特别是在AMC 2023、AIME 2024这类数学竞赛题上达到了SOTA。

而且,还可以进一步增加推理时间以取得更好的模型效果。

如果对64个候选使用多数投票(majority voting),Mathstral在MATH上的分数可以达到68.37%,进一步添加额外的奖励模型,还能取得74.59%的高分。

除了HuggingFace和la Plateforme平台,还可以调用官方发布的Mistral-finetune和Mistral Inference两个开源SDK,使用或微调模型。

Codestral Mamba

继沿用Transformer架构的Mixtral系列发布后,第一个采用Mamba2架构的代码生成模型Codestral Mamba也问世了。

而且,研发过程也得到了Mamba原作者Albert Gu和Tri Dao的协助。

有趣的是,官宣文章专门cue到了和有关的「埃及艳后」Cleopatra七世,她就是戏剧般地用一条毒蛇终结了自己的生命。

Mamba架构发布后,其优越的实验性能得到了广泛的关注和看好,但由于整个AI社区在Transformer上投入了太多成本,我们至今也很少看到实际采用Mamba的工业界模型。

此时,Codestral Mamba恰好能为我们提供研究新架构的全新视角。

Mamba架构首发于2023年12月,两位作者又在今年5月推出了更新版的Mamba-2。

与Transformer不同,Mamba模型具有线性时间推理的优势,并且理论上能够建模无限长度的序列。

同为7B模型,Mathstral的上下文窗口只有32k时,Codestral Mamba却能扩展到256k。

这种推理时间和上下文长度方面的效率优势,以及实现快速响应的潜力,在用于提升编码效率的实际场景中尤为重要。

Mistral团队正是看到了Mamba模型的这种优势,因而率先尝试。从基准测试来看,7B参数的Codestral Mamba不仅比其他7B模型有明显优势,甚至可以和更大规模的模型掰掰手腕。

在8个基准测试中,Codestral Mamba基本达到了和Code Llama 34B相匹配的效果,甚至在其中6个测试上实现了性能超越。

然而相比大姐姐Codestral 22B,Codestral Mamba的参数量劣势就体现出来了,依旧显得能力不足。

值得一提的是,Codestral 22B还是不到两个月前发布的新模型,再次感叹一下总部在巴黎的Mistral竟如此之卷。

Codestral Mamba同样可以使用Mistral-inference部署,或者英伟达发布的快速部署API TensorRL-LLM。

GitHub地址:https://github.com/NVIDIA/TensorRT-LLM

对于本地运行,官方博客表示,可以留意后续llama.cpp的支持。但ollama行动迅速,已经将Mathstral加入到了模型库中。

面对网友催更codestral mamba,ollama也非常给力地表示:「已经在弄了,稍安勿躁。」

参考资料:

https://mistral.ai/news/codestral-mamba/

https://mistral.ai/news/mathstral/

https://venturebeat.com/ai/mistral-releases-codestral-mamba-for-faster-longer-code-generation/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美媒:美国对大疆等所有外国制造新型无人机禁令引发美国消费者愤怒,“疯狂囤货”

美媒:美国对大疆等所有外国制造新型无人机禁令引发美国消费者愤怒,“疯狂囤货”

环球网资讯
2025-12-23 20:22:16
1986年韩先楚病危,硬撑着给余秋里打了个电话:有个事我得求你,请务必给我的秘书安排个工作

1986年韩先楚病危,硬撑着给余秋里打了个电话:有个事我得求你,请务必给我的秘书安排个工作

文史明鉴
2025-12-19 16:51:13
快手变快播?深夜上万直播间同时"搞黄色"裸聊,年度最大网络事故

快手变快播?深夜上万直播间同时"搞黄色"裸聊,年度最大网络事故

派大星纪录片
2025-12-23 16:49:00
68岁相声演员娶小30岁洋妻,生一屋混血儿移居国外,如今过得怎样

68岁相声演员娶小30岁洋妻,生一屋混血儿移居国外,如今过得怎样

丰谭笔录
2025-12-24 00:09:46
阚清子让微博炸锅了!被传孩子没留住?路透看样子夫妇俩心情很差

阚清子让微博炸锅了!被传孩子没留住?路透看样子夫妇俩心情很差

好贤观史记
2025-12-23 23:44:58
医生多次强调老人立刻停止食用4种坚果,吃得越多,肺会越差

医生多次强调老人立刻停止食用4种坚果,吃得越多,肺会越差

健康科普365
2025-12-22 09:17:36
A股分红派息转增一览(12月24日):4股今日股权登记

A股分红派息转增一览(12月24日):4股今日股权登记

每日经济新闻
2025-12-24 07:42:06
争议!2025十佳运动员评选:樊振东,陈梦,德约入围,莎头落选

争议!2025十佳运动员评选:樊振东,陈梦,德约入围,莎头落选

大秦壁虎白话体育
2025-12-24 13:40:47
对华反击计划已敲定!高市早苗兴奋之际发现:中国正狂抛美债

对华反击计划已敲定!高市早苗兴奋之际发现:中国正狂抛美债

小鬼头体育
2025-12-24 15:39:37
美女白色露脐T恤配蓝色瑜伽裤,性感值拉满,简直是行走的 荷尔蒙

美女白色露脐T恤配蓝色瑜伽裤,性感值拉满,简直是行走的 荷尔蒙

小乔古装汉服
2025-09-24 07:20:03
中国奉陪到底!局势紧张之际,《东京宣言》发布,高市换新打法

中国奉陪到底!局势紧张之际,《东京宣言》发布,高市换新打法

绝对军评
2025-12-24 15:45:48
老公驻派中东3年,我深夜给5岁女儿掖被角,她说:爸爸每天半夜来

老公驻派中东3年,我深夜给5岁女儿掖被角,她说:爸爸每天半夜来

朝暮书屋
2025-12-17 18:26:03
一笔失败的引援?拜仁新11号表现远不及预计,身价下滑1000万

一笔失败的引援?拜仁新11号表现远不及预计,身价下滑1000万

里芃芃体育
2025-12-24 03:00:03
3人20+力克国王!CC23分7板14助5断,德罗赞空砍37分,威少27+6+4

3人20+力克国王!CC23分7板14助5断,德罗赞空砍37分,威少27+6+4

无术不学
2025-12-24 14:10:18
乌军确认撤出西维尔斯克,库皮扬斯克取得进展,克宫拒绝圣诞停火

乌军确认撤出西维尔斯克,库皮扬斯克取得进展,克宫拒绝圣诞停火

鹰眼Defence
2025-12-24 16:19:36
打脸来得太快!徐湖平“装病”不到24小时,却被扒出频繁现身活动

打脸来得太快!徐湖平“装病”不到24小时,却被扒出频繁现身活动

有范又有料
2025-12-24 10:04:39
0+0+0!冒充NBA球员!开拓者用人方式引发质疑

0+0+0!冒充NBA球员!开拓者用人方式引发质疑

篮球教学论坛
2025-12-24 16:24:12
秦岚的脚部照片在网上爆红,这背后是否有利益链的争议?

秦岚的脚部照片在网上爆红,这背后是否有利益链的争议?

动物奇奇怪怪
2025-12-22 05:25:09
最新公开!爱泼斯坦自杀前给性侵犯写信:我们的总统也喜欢......

最新公开!爱泼斯坦自杀前给性侵犯写信:我们的总统也喜欢......

扬子晚报
2025-12-24 10:51:06
快船大胜!小卡41+8+5,哈登29+4+6,赛后小卡走过去,抱住伊森

快船大胜!小卡41+8+5,哈登29+4+6,赛后小卡走过去,抱住伊森

担酒
2025-12-24 14:02:23
2025-12-24 17:35:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14170文章数 66395关注度
往期回顾 全部

科技要闻

马斯克没想到的"中国速度"!2026值得期待

头条要闻

辽宁省三名厅官被开除党籍 一人被指未经批准出入国境

头条要闻

辽宁省三名厅官被开除党籍 一人被指未经批准出入国境

体育要闻

26岁广西球王,在质疑声中成为本土得分王

娱乐要闻

曝阚清子女儿早产但没保住

财经要闻

假冒的“晴王”葡萄,还在卖

汽车要闻

“运动版库里南”一月份亮相   或命名极氪9S

态度原创

家居
艺术
本地
亲子
公开课

家居要闻

法式大平层 智能家居添彩

艺术要闻

2026第一福!孙晓云亲笔“福”字出炉

本地新闻

云游安徽|一川江水润安庆,一塔一戏一城史

亲子要闻

妈妈对你的爱,永远拿得出手

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版