网易首页 > 网易号 > 正文 申请入驻

新“SOTA”推理模型避战Qwen和R1?欧版OpenAI被喷麻了

0
分享至

文章转载于量子位(QbitAI)

作者:闻乐

“欧洲的OpenAI”Mistral AI终于发布了首款推理模型——Magistral

然而再一次遭到网友质疑:怎么又不跟最新版Qwen和DeepSeek R1 0528对比?

(此前该公司发布Ministral 3B/8B时,声称“始终优于同行”,却没有对比Qwen2.5)

在该模型发布的前几个小时,Mistral AI的CEO Arthur Mensch在接受炉边访谈时声称即将发布的Magistral能够与其他所有竞争对手相抗衡。

在官方展示的基准测试结果中,DeepSeek-R1的数据确实不是最新的(在AIME-25数学测试中,DeepSeek-R1-0528的准确率已经从旧版的70%提升至87.5%),并且比较行列里完全不见Qwen的身影。

不过,与同公司初期模型Mistral Medium 3相比,该框架在AIME-24上的准确率提升了50%。

此次Magistral发布了两种版本:

Magistral Small——24B参数的开源权重版本,可在Apache 2.0许可下自行部署。

Magistral Medium——更强大的、面向企业的版本,在Amazon SageMaker上提供。

1

专为透明推理而设计

在Magistral发布之前,Mistral AI的CEO Arthur Mensch在访谈中提到:

“从历史上看,我们看到美国的模型用英语进行推理,中国的模型更擅长用中文进行推理。”

于是,这次Magistral的一个亮点就是支持多语言推理,尤其是解决了主流模型用欧洲语言的推理效果不如本土语言的缺陷。

下面的例子展示了在Le Chat中,使用Magistral Medium的阿拉伯语提示和响应。

与通用模型不同的是,Magistral针对多步逻辑进行了微调,提升了可解释性,并在用户的语言中提供了可追溯的思考过程,能够实现大规模实时推理。

下面的例子展示了重力、摩擦和碰撞的单次物理模拟,在预览中使用的是Magistral Medium。

就好像Magistral不是黑箱预言家,而是一个能陪你「摆事实、讲道理」的智能伙伴。

并且,在Le Chat中,通过Flash Answers,Magistral Medium的token吞吐量比大多数竞争对手快10倍。

这就能够实现大规模的实时推理和用户反馈。

作为Mistral推出的首个基于纯强化学习(RL)训练的推理大模型,Magistral采用改进的Group Relative Policy Optimization(GRPO)算法。

直接通过RL训练,不依赖任何现有推理模型的蒸馏数据(如DeepSeek-R1需SFT预热)。

通过消除KL散度惩罚、动态调整探索阈值和基于组归一化的优势计算,在AIME-24数学基准上实现从26.8%到73.6%的准确率跃升。

首创异步分布式训练架构,通过Generators持续生成、Trainers异步更新的设计,配合动态批处理优化,实现高效的大规模RL训练。

还反直觉地发现纯文本RL训练可提升多模态性能(如MMMU-Pro-Vision提升12%),并验证RL对小模型同样有效(24B的Magistral Small在AIME-24准确率达70.7%)。

这些创新使Magistral在无需预训练蒸馏的情况下,以纯RL方式为LLM的强化学习训练提供了新范式。

1

One More Thing

官方没有给出Magistral与最新版Qwen和R1的对比,网友来代劳了。

从结果可以看出,Qwen 4B与该模型相近,小型的30B MoE效果更好,R1最新版就更不用说了(doge

并且,由于“欧洲的OpenAI”越来越不Open,Stability AI前CEO建议Mistral AI应该争取真正的开源来占据开源的领导地位。

参考链接:
[1]https://mistral.ai/news/magistral
[2]https://x.com/dylan522p/status/1932563462963507589
[3]https://x.com/arthurmensch/status/1932451932406415531

点个爱心,再走 吧

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
凌晨,深圳北站挤爆!网友:从来没见过这么多人

凌晨,深圳北站挤爆!网友:从来没见过这么多人

今日搞笑分享
2026-02-16 03:03:55
车内清一色大屏快看吐了!新国标拟增加汽车实体操纵件相关要求

车内清一色大屏快看吐了!新国标拟增加汽车实体操纵件相关要求

快科技
2026-02-15 17:58:07
KD说没说错?东契奇和约基奇全明星合砍2分,第二场直接不打

KD说没说错?东契奇和约基奇全明星合砍2分,第二场直接不打

懂球帝
2026-02-16 08:29:07
俄15架苏-57隐身战机全调远东,距中国不到400公里,释放何信号?

俄15架苏-57隐身战机全调远东,距中国不到400公里,释放何信号?

策前论
2026-02-14 17:57:15
从全能到挂零!杜兰特三场全勤难阻惨败,新星们太狠了

从全能到挂零!杜兰特三场全勤难阻惨败,新星们太狠了

大眼瞄世界
2026-02-16 10:12:44
4次挑衅中国!乌克兰名将:取消我同胞资格 国际奥委会是世界耻辱

4次挑衅中国!乌克兰名将:取消我同胞资格 国际奥委会是世界耻辱

念洲
2026-02-16 09:10:30
央视巨作被疯狂举报,只因这点,恨国党炸锅了!

央视巨作被疯狂举报,只因这点,恨国党炸锅了!

毛豆论道
2026-02-14 21:55:16
女子在上海浦东机场崩溃:一辈子忘不了这天!结果奇迹突现,超10万人点赞,翟女士意外走红

女子在上海浦东机场崩溃:一辈子忘不了这天!结果奇迹突现,超10万人点赞,翟女士意外走红

新民晚报
2026-02-15 12:54:21
诡异,春联上没有汉字!越南去汉字化确实很成功

诡异,春联上没有汉字!越南去汉字化确实很成功

魔都姐姐杂谈
2026-02-15 14:12:14
日媒:放书否认南京大屠杀的APA酒店老板死亡

日媒:放书否认南京大屠杀的APA酒店老板死亡

环球网资讯
2026-02-16 12:01:38
郭富城随方媛回安徽过年,女婿比岳父大两岁,身高反差太真实

郭富城随方媛回安徽过年,女婿比岳父大两岁,身高反差太真实

探索源自好奇
2026-02-16 05:40:58
演员白百何让孩子随地小便,冲上热搜!网友:我带小孩出门会随身配备塑料袋

演员白百何让孩子随地小便,冲上热搜!网友:我带小孩出门会随身配备塑料袋

台州交通广播
2026-02-15 18:00:57
中美俄卫星定位精度差距太大!美0.1米,俄1.5米,中国北斗是多少

中美俄卫星定位精度差距太大!美0.1米,俄1.5米,中国北斗是多少

来科点谱
2026-02-16 07:13:02
马斯克向全球80亿人,发出了直击灵魂的拷问! 大家这是怎么了

马斯克向全球80亿人,发出了直击灵魂的拷问! 大家这是怎么了

网络易不易
2026-02-16 10:05:18
俄罗斯遭大规模袭击

俄罗斯遭大规模袭击

环球时报国际
2026-02-16 09:29:24
港股半导体板块局部走强,兆易创新涨逾17%

港股半导体板块局部走强,兆易创新涨逾17%

证券时报
2026-02-16 10:23:07
高金素梅被查!港媒:或是一个危险的起点,台湾政治正站在十字路口

高金素梅被查!港媒:或是一个危险的起点,台湾政治正站在十字路口

海峡导报社
2026-02-16 07:42:19
那个教小米做手机的厂商,要断气了

那个教小米做手机的厂商,要断气了

蓝字计划
2026-02-14 11:40:57
中产买爆山姆年货,150元花出500元效果

中产买爆山姆年货,150元花出500元效果

金融界
2026-02-16 07:57:03
一场4-0,让阿尔特塔创造历史,四线狂飙,目标直指四冠王

一场4-0,让阿尔特塔创造历史,四线狂飙,目标直指四冠王

足球狗说
2026-02-16 05:19:38
2026-02-16 12:52:49
硅星人 incentive-icons
硅星人
硅(Si)是创造未来的基础,欢迎来到这个星球。
2868文章数 10437关注度
往期回顾 全部

科技要闻

OpenAI拿下OpenClaw之父 承诺开源绝不动摇

头条要闻

媒体:王毅当着欧美同事的面 直接点名日本现职首相

头条要闻

媒体:王毅当着欧美同事的面 直接点名日本现职首相

体育要闻

遭针对?谷爱凌炮轰国际雪联安排

娱乐要闻

好甜蜜!郭富城随方媛回安徽过年

财经要闻

2025,中国商业十大意外,黄金只排第九

汽车要闻

叫停纯屏操作 工信部拟推车内实体操作件强制国标

态度原创

本地
数码
时尚
公开课
军事航空

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

数码要闻

消息称苹果平价版MacBook不采用塑料外壳,有望3月上市

今年春天的裙子,裙摆越大越好看!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

慕安会美国角色逆转 中国议题"打满全场"

无障碍浏览 进入关怀版