网易首页 > 网易号 > 正文 申请入驻

「欧洲的DeepSeek」发布Mistral 3系列模型,全线回归Apache 2.0

0
分享至

机器之心报道

编辑:Panda

刚刚,「欧洲的 DeepSeek」Mistral AI 刚刚发布了新一代的开放模型 Mistral 3 系列模型。



该系列有多个模型,具体包括:

  • 「世界上最好的小型模型」:Ministral 3(14B、8B、3B),每个模型都发布了基础版、指令微调版和推理版。
  • 一款前沿级开源 MoE:Mistral Large 3,总参数量 675B,激活参数 41B。

Mistral 表示:「所有模型均采用 Apache 2.0 许可证发布。以多种压缩格式开源我们的模型,能够赋能开发者社区,并通过分布式智能将 AI 交到人们手中。」

该公司也声称:「Ministral 模型代表了同类产品中最佳的性价比。与此同时,Mistral Large 3 也跻身于前沿指令微调开源模型的行列。」

该系列模型一发布就吸引了无数眼球,有人表示这标志着欧洲重返了由中美主导的 AI 竞赛。







不过 Mistral 在基准展示上的操作也让一些开发者表示了质疑:



Mistral Large 3:一款 SOTA 开放模型

Mistral 表示,Mistral Large 3 是在 3000 台 NVIDIA H200 GPU 上从头开始训练的。

Mistral Large 3 是 Mistral 自开创性的 Mixtral 系列以来的首个混合专家模型,代表了 Mistral 在预训练方面迈出的重要一步。经过后训练,该模型在通用提示词上达到了与市场上最好的指令微调开放权重模型同等的水平,同时展现了图像理解能力,并在多语言对话(即非英语 / 中文环境)中表现出一流的性能。





值得注意的是,Mistral 在这里并没有对比刚发布几天的 DeepSeek-V3.2 正式版,可能是因为 DeepSeek 没有发布在普通语言任务上的基准测试结果,仅给出了推理和智能体任务的基准结果。



Mistral Large 3 在 LMArena 排行榜的 OSS(开源软件)非推理模型类别中首次亮相即排名第 2(在所有开放模型中排名第 6),是性能最好的开放模型之一。



Mistral 表示,Mistral Large 3 还有推理(Reasoning)版本,也即将推出。

Mistral、NVIDIA、vLLM 和 Red Hat 联手,提供更快、更易用的 Mistral 3

Mistral 还宣布与 vLLM 和 Red Hat 达成了合作,让开源社区可以非常便捷地获取 Mistral Large 3:「我们发布了一个采用 NVFP4 格式的检查点(checkpoint),该检查点使用 llm-compressor 构建。这个经过优化的检查点让您能够使用 vLLM 在 Blackwell NVL72 系统以及单个 8×A100 或 8×H100 节点上高效运行 Mistral Large 3。」

另外,他们还强调与英伟达的合作:「交付先进的开源 AI 模型需要广泛的优化,这通过与 NVIDIA 的合作得以实现。我们所有的新 Mistral 3 模型,从 Large 3 到 Ministral 3,都在 NVIDIA Hopper GPU 上进行了训练,以利用高带宽 HBM3e 内存来处理前沿规模的工作负载。NVIDIA 的极致协同设计(co-design)方法将硬件、软件和模型融为一体。NVIDIA 工程师为整个 Mistral 3 系列实现了对 TensorRT-LLM 和 SGLang 的高效推理支持,从而实现高效的低精度执行。

针对 Large 3 的稀疏 MoE 架构,英伟达集成了最先进的 Blackwell 注意力和 MoE 内核,增加了对预填充 / 解码分离服务的支持,并与 Mistral 在推测性解码(方面进行合作,使开发者能够在 GB200 NVL72 及更高版本的硬件上高效地服务长上下文、高吞吐量的工作负载。在边缘端,NVIDIA 为 DGX Spark、RTX PC 和笔记本电脑以及 Jetson 设备提供了 Ministral 模型的优化部署方案,为开发者提供了一条从数据中心到机器人运行这些开放模型的一致且高性能的路径。」

Ministral 3:边缘端的顶尖智能

Mistral 针对边缘和本地用例,还发布了 Ministral 3 系列,提供三种模型尺寸:3B、8B 和 14B 参数。

此外,对于每种尺寸,他们都向社区发布了基础版(base)、指令版(instruct)和推理版(reasoning)变体,每种都具备图像理解能力,且全部采用 Apache 2.0 许可证。



Mistral 重点强调:「Ministral 3 实现了所有开源模型中最佳的性价比。在实际用例中,生成的 token 数量和模型大小同等重要。Ministral 指令模型与其同类模型的性能相当或更好,同时生成的 token 数量通常要少一个数量级。」

另外,Ministral 推理变体可以进行更长时间的思考,以在其权重级别中产生最先进的准确性 —— 例如,其 14B 变体在 AIME ‘25 上达到了 85% 的准确率。







(预训练基准)







(指令基准)







(推理基准)

即日可用

Mistral 3 即日起可在 Mistral AI Studio、Amazon Bedrock、Azure Foundry、Hugging Face (Large 3 & Ministral)、Modal、IBM WatsonX、OpenRouter、Fireworks、Unsloth AI 和 Together AI 上使用。此外,这些模型也即将在 NVIDIA NIM 和 AWS SageMaker 上线。

Mistral AI 定制服务

对于寻求量身定制 AI 解决方案的组织,Mistral AI 也提供了定制模型训练服务,以微调或完全适配模型来满足自己的特定需求。

该公司表示:「无论是针对特定领域任务进行优化、提高在专有数据集上的性能,还是在独特环境中部署模型,我们的团队都会与您合作构建符合您目标的 AI 系统。对于企业级部署,定制训练可确保您的 AI 解决方案安全、高效且大规模地交付最大影响力。」

结语

Mistral 早期的模型采用 Apache 2.0 开源许可,属于真正开放权重;但随着公司推出更大型、更高性能的旗舰模型(如 Mistral Large),逐步转向闭源与商业授权。可以说, Mistral 此次全线回归 Apache 2.0 协议,某种程度上是被 DeepSeek「逼」出来的战略调整。

在过去的一段时间里,DeepSeek 以极致的推理成本和激进的开源策略迅速抢占了全球开发者社区的心智,一度让坚持「开放权重但限制商用」的中间派厂商陷入被动。

Mistral 3 的发布,可以看作是这家法国独角兽对 DeepSeek 发起的正面追赶:不仅在 MoE(混合专家)架构上继续深耕,更试图通过端侧模型(Ministral)的差异化优势,在被中美巨头挤压的缝隙中杀出一条血路。

https://mistral.ai/news/mistral-3

https://x.com/MistralAI/status/1995872766177018340

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
又一个邻国一夜变天,亲印派高层“一个不留”,中国第一时间表态

又一个邻国一夜变天,亲印派高层“一个不留”,中国第一时间表态

肖兹探秘说
2026-01-29 12:48:29
27岁男星宣布退圈,妻子是大9岁李心艾,混不出头要回家当老总了

27岁男星宣布退圈,妻子是大9岁李心艾,混不出头要回家当老总了

大铁猫娱乐
2026-02-01 12:49:39
神仙姐姐公开承认过的男朋友

神仙姐姐公开承认过的男朋友

微微热评
2026-01-20 18:35:54
砍了一场40+彻底飘了!直言老詹是最被高估球员:该把权杖交给我

砍了一场40+彻底飘了!直言老詹是最被高估球员:该把权杖交给我

你的篮球频道
2026-02-01 10:57:56
关键时刻,高市早苗“跑了”,在野党懵了,日网友:和安倍一德行

关键时刻,高市早苗“跑了”,在野党懵了,日网友:和安倍一德行

风信子的花
2026-02-01 12:15:58
山东大学顺利举办“马杜罗思想体系研讨会”

山东大学顺利举办“马杜罗思想体系研讨会”

必记本
2026-02-01 13:12:33
人口告别世界第一?二孩催生无效后,国家终于向住房出手了

人口告别世界第一?二孩催生无效后,国家终于向住房出手了

春秋论娱
2025-12-25 07:11:24
庆祝时刻,莱巴金娜一袭红裙拍摄澳网女单冠军写真

庆祝时刻,莱巴金娜一袭红裙拍摄澳网女单冠军写真

懂球帝
2026-02-01 12:16:16
山西一演唱会取消!

山西一演唱会取消!

朔州那些事儿
2026-02-01 18:07:34
福建3名干部,被纪委监委点名通报

福建3名干部,被纪委监委点名通报

新浪财经
2026-02-01 21:14:44
49岁马伊琍变样了!穿红衣烫羊毛卷土到认不出,皮松肉垮老得真快

49岁马伊琍变样了!穿红衣烫羊毛卷土到认不出,皮松肉垮老得真快

老吴教育课堂
2026-01-10 13:22:02
关晓彤近况曝光:脸浮肿,满脸疲惫感,一举动透露和鹿晗感情状态

关晓彤近况曝光:脸浮肿,满脸疲惫感,一举动透露和鹿晗感情状态

白面书誏
2026-01-31 16:11:47
为什么美国、日本第一时间就知道中国的决策、军事及重大的工程等

为什么美国、日本第一时间就知道中国的决策、军事及重大的工程等

今墨缘
2026-01-30 12:45:45
他一人杀20万日本人,日本逼他道歉,他怒说:你们给中国道歉了吗

他一人杀20万日本人,日本逼他道歉,他怒说:你们给中国道歉了吗

千秋文化
2026-01-06 20:35:06
不反华了?高市通知中国,战争派兵方案变了,解放军舰队已上场!

不反华了?高市通知中国,战争派兵方案变了,解放军舰队已上场!

来科点谱
2026-02-01 17:44:16
中国专家断言,美国绑走马杜罗最终可能烂尾:当年在朝鲜也是这样

中国专家断言,美国绑走马杜罗最终可能烂尾:当年在朝鲜也是这样

青辉
2026-01-09 16:45:32
继杨振宁去世不到2月,翁帆首次携76岁妈妈亮相,一个细节惹争议

继杨振宁去世不到2月,翁帆首次携76岁妈妈亮相,一个细节惹争议

涵豆说娱
2025-12-04 15:03:22
越南少将阮德辉揭露:中方撤军时越军为何按兵不动?

越南少将阮德辉揭露:中方撤军时越军为何按兵不动?

磊子讲史
2026-01-09 18:00:27
白银LOF跌停板逃生指南

白银LOF跌停板逃生指南

今晚吃基
2026-02-01 07:20:13
南宁23岁男子在邕江北岸公园献血爱心园附近失联,至今仍下落不明

南宁23岁男子在邕江北岸公园献血爱心园附近失联,至今仍下落不明

好词好文
2026-01-31 19:45:46
2026-02-02 04:19:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12226文章数 142562关注度
往期回顾 全部

科技要闻

10亿元宝红包突袭 复刻微信支付还是微视?

头条要闻

爱泼斯坦追逐女孩、安德鲁跪爬女子身上画面全公布

头条要闻

爱泼斯坦追逐女孩、安德鲁跪爬女子身上画面全公布

体育要闻

德约大度祝贺阿卡 幽默互动逗笑纳达尔

娱乐要闻

春晚第三次联排阵容曝光:全是实力派

财经要闻

黄仁勋台北"夜宴":汇聚近40位台企高管

汽车要闻

岚图汽车1月交付10515辆 同比增长31%

态度原创

艺术
亲子
健康
家居
房产

艺术要闻

上海“高技派”地标:华润中心竣工,LV总部入驻!

亲子要闻

兰姐带玥儿看北京新学校,玥儿一待俩小时,筱梅的话终于有人信了

耳石症分类型,症状大不同

家居要闻

蓝调空舍 自由与个性

房产要闻

藏不住的小城大事,海澄新城执掌自贸港风口,进阶兑现美好生活新篇

无障碍浏览 进入关怀版