网易首页 > 网易号 > 正文 申请入驻

新“SOTA”推理模型避战Qwen和R1?欧版OpenAI被喷麻了

0
分享至

闻乐 发自 凹非寺
量子位 | 公众号 QbitAI

“欧洲的OpenAI”Mistral AI终于发布了首款推理模型——Magistral

然而再一次遭到网友质疑:怎么又不跟最新版Qwen和DeepSeek R1 0528对比?

(此前该公司发布Ministral 3B/8B时,声称“始终优于同行”,却没有对比Qwen2.5)

在该模型发布的前几个小时,Mistral AI的CEO Arthur Mensch在接受炉边访谈时声称即将发布的Magistral能够与其他所有竞争对手相抗衡。

在官方展示的基准测试结果中,DeepSeek-R1的数据确实不是最新的(在AIME-25数学测试中,DeepSeek-R1-0528的准确率已经从旧版的70%提升至87.5%),并且比较行列里完全不见Qwen的身影。

不过,与同公司初期模型Mistral Medium 3相比,该框架在AIME-24上的准确率提升了50%。

此次Magistral发布了两种版本:

Magistral Small——24B参数的开源权重版本,可在Apache 2.0许可下自行部署。

Magistral Medium——更强大的、面向企业的版本,在Amazon SageMaker上提供。

专为透明推理而设计

在Magistral发布之前,Mistral AI的CEO Arthur Mensch在访谈中提到:

  • “从历史上看,我们看到美国的模型用英语进行推理,中国的模型更擅长用中文进行推理。”

于是,这次Magistral的一个亮点就是支持多语言推理,尤其是解决了主流模型用欧洲语言的推理效果不如本土语言的缺陷。

下面的例子展示了在Le Chat中,使用Magistral Medium的阿拉伯语提示和响应。

与通用模型不同的是,Magistral针对多步逻辑进行了微调,提升了可解释性,并在用户的语言中提供了可追溯的思考过程,能够实现大规模实时推理。

下面的例子展示了重力、摩擦和碰撞的单次物理模拟,在预览中使用的是Magistral Medium。

就好像Magistral不是黑箱预言家,而是一个能陪你「摆事实、讲道理」的智能伙伴。

并且,在Le Chat中,通过Flash Answers,Magistral Medium的token吞吐量比大多数竞争对手快10倍。

这就能够实现大规模的实时推理和用户反馈。

作为Mistral推出的首个基于纯强化学习(RL)训练的推理大模型,Magistral采用改进的Group Relative Policy Optimization(GRPO)算法。

直接通过RL训练,不依赖任何现有推理模型的蒸馏数据(如DeepSeek-R1需SFT预热)。

通过消除KL散度惩罚、动态调整探索阈值和基于组归一化的优势计算,在AIME-24数学基准上实现从26.8%到73.6%的准确率跃升。

首创异步分布式训练架构,通过Generators持续生成、Trainers异步更新的设计,配合动态批处理优化,实现高效的大规模RL训练。

还反直觉地发现纯文本RL训练可提升多模态性能(如MMMU-Pro-Vision提升12%),并验证RL对小模型同样有效(24B的Magistral Small在AIME-24准确率达70.7%)。

这些创新使Magistral在无需预训练蒸馏的情况下,以纯RL方式为LLM的强化学习训练提供了新范式。

One More Thing

官方没有给出Magistral与最新版Qwen和R1的对比,网友来代劳了。

从结果可以看出,Qwen 4B与该模型相近,小型的30B MoE效果更好,R1最新版就更不用说了(doge

并且,由于“欧洲的OpenAI”越来越不Open,Stability AI前CEO建议Mistral AI应该争取真正的开源来占据开源的领导地位。


[1]https://mistral.ai/news/magistral
[2]https://x.com/dylan522p/status/1932563462963507589
[3]https://x.com/arthurmensch/status/1932451932406415531

— 完 —

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
三都主:这次淘汰赛我会支持日本,但如果巴西赢球我也不难过

三都主:这次淘汰赛我会支持日本,但如果巴西赢球我也不难过

懂球帝
2026-06-29 05:23:15
最扎心的不是韩国队出局,而是遭中国网友嘲讽,韩媒:太屈辱了!

最扎心的不是韩国队出局,而是遭中国网友嘲讽,韩媒:太屈辱了!

十点街球体育
2026-06-29 13:07:44
洛杉矶举办世界裸体自行车骑行,上百人脱衣上街,挤满好奇路人

洛杉矶举办世界裸体自行车骑行,上百人脱衣上街,挤满好奇路人

译言
2026-06-29 08:51:56
中东,突发!美伊谈判,最新消息!以色列宣布:摧毁!黄金、白银直线下跌!

中东,突发!美伊谈判,最新消息!以色列宣布:摧毁!黄金、白银直线下跌!

证券时报e公司
2026-06-29 08:15:47
红利曼这回真解放了!

红利曼这回真解放了!

星火聊天下
2026-06-29 07:14:53
人口大迁徙已成定局?明后年,越来越多的人会举家流入这4座城市

人口大迁徙已成定局?明后年,越来越多的人会举家流入这4座城市

别人都叫我阿腈
2026-06-30 00:55:00
普京:俄建议乌俄双方均停止打击对方领土纵深目标

普京:俄建议乌俄双方均停止打击对方领土纵深目标

财联社
2026-06-29 05:03:07
佩泽希齐扬:伊朗在卡塔尔被冻结的120亿美元资产中,将有60亿美元解冻并还给伊朗

佩泽希齐扬:伊朗在卡塔尔被冻结的120亿美元资产中,将有60亿美元解冻并还给伊朗

政知新媒体
2026-06-29 17:19:12
糯康行刑前坦言毒贩不惧边防枪械,忌惮尘封三十年无人敢动的密令

糯康行刑前坦言毒贩不惧边防枪械,忌惮尘封三十年无人敢动的密令

唠叨说历史
2026-06-29 17:16:07
A股:大家要准备好下车了!主力已经明牌,周二将迎来更大的分化

A股:大家要准备好下车了!主力已经明牌,周二将迎来更大的分化

虎哥闲聊
2026-06-30 00:00:04
中国若退出本届亚运会

中国若退出本届亚运会

安安说
2026-06-29 10:57:08
董路透露,米卢时期国足队内分成好几个圈子,但有一人独来独往

董路透露,米卢时期国足队内分成好几个圈子,但有一人独来独往

童叔不飙车
2026-06-29 01:55:26
世界杯现形!皇马天才彻底翻车,穆里尼奥一眼看穿!

世界杯现形!皇马天才彻底翻车,穆里尼奥一眼看穿!

澜归序
2026-06-30 02:02:19
人民日报披露案情,抓捕12人,坐实《四渡》被黑

人民日报披露案情,抓捕12人,坐实《四渡》被黑

光影新天地
2026-06-29 20:00:56
74小时绝望搜救!阿根廷球星一夜家破人亡,天灾撕碎十年异乡生活

74小时绝望搜救!阿根廷球星一夜家破人亡,天灾撕碎十年异乡生活

行者聊官
2026-06-29 19:34:59
李谷一大胆开麦,揭晓宋祖英走上高位的真相,观众:原来如此!

李谷一大胆开麦,揭晓宋祖英走上高位的真相,观众:原来如此!

温读史
2026-06-29 11:35:49
67岁陆俊久违现身!执法世界杯中国第一人 受贿81万+被判5年半

67岁陆俊久违现身!执法世界杯中国第一人 受贿81万+被判5年半

念洲
2026-06-29 20:07:44
2026高考成绩公布后,张桂梅式教育被批,再次证明:父母放任不管的代价,远比想象中更残酷......

2026高考成绩公布后,张桂梅式教育被批,再次证明:父母放任不管的代价,远比想象中更残酷......

LULU生活家
2026-06-27 18:18:30
台湾问题即将突破临界点,两大迹象表明,大陆或要准备出手了?

台湾问题即将突破临界点,两大迹象表明,大陆或要准备出手了?

铭记历史呀
2026-06-29 16:49:31
赵今麦从125斤到80多斤“脱胎换骨”,自律蜕变太惊艳!

赵今麦从125斤到80多斤“脱胎换骨”,自律蜕变太惊艳!

铁锤妹妹是只猫
2026-06-29 21:57:57
2026-06-30 02:19:00
量子位 incentive-icons
量子位
追踪人工智能动态
12863文章数 176506关注度
往期回顾 全部

科技要闻

杀疯了!深圳一天出两家200亿具身智能公司

头条要闻

美从俄乌战场抽身 金灿荣:美国有个大战略目标已完成

头条要闻

美从俄乌战场抽身 金灿荣:美国有个大战略目标已完成

体育要闻

他和伊朗队,再次赢得全世界的尊重

娱乐要闻

跟风电影《给阿公的牛肉丸》开机

财经要闻

万达广场批量易主 多位投资人正式入局

汽车要闻

全新宝马iX3长轴版将于成都车展预售 四季度交付

态度原创

手机
本地
旅游
家居
艺术

手机要闻

华为nova17 Air曝光:7000mAh电池+16:10阔直屏,要搅局中端市场

本地新闻

贵州小城的新目标:举办“村超”世界杯!

旅游要闻

昆明不起眼小乡村,田里长出巨型彩绘,外地游客专程驱车百里赶来

家居要闻

传奇筑 日常诗

艺术要闻

16幅 冉茂芹小幅风景油画写生

无障碍浏览 进入关怀版