网易首页 > 网易号 > 正文 申请入驻

Mistral的首个强推理模型:拥抱开源,推理速度快10倍

0
分享至

机器之心报道

编辑:泽南

强推理终于要卷速度了。

大模型强推理赛道,又迎来一位重量级玩家。

本周二,欧洲人工智能公司 Mistral AI 发布了 Magistral,这是一个全新的大语言模型(LLM)系列,展现了强大的推理能力。它能够进行不断反思,并解决更复杂的任务。

此次发布包含两个版本:面向企业客户的大型专有模型 Magistral Medium,以及一个 24B 参数的开源版本 Magistral Small。其中开源版本使用 Apache 2.0 许可,可以自由使用、商用化;Magistral Medium 则可通过 Mistral 的 Le Chat 界面和 La Plateforme API 访问。

  • 直接使用:https://chat.mistral.ai/chat
  • 模型开源:https://huggingface.co/mistralai/Magistral-Small-2506
  • 论文:https://mistral.ai/static/research/magistral.pdf

在基准测试中,新模型取得了不错的成绩。这里主要是 Magistral 与其前身 Mistral-Medium 3 和 DeepSeek 系列的对比。Magistral Medium 在 AIME2024 上的得分为 73.6%,其中多数投票为 64%,得分为 90%。Magistral Small 的得分分别为 70.7% 和 83.3%。

新模型在一些其他高要求测试中也表现出色,包括研究生水平的问答基准测试 GPQA Diamond 和用于编程挑战的 LiveCodeBench。

Mistral 进一步展示了一些实际使用的案例。

Magistral Medium 展示了自身的编程能力,一次生成输出的代码就能模拟出重力、摩擦力。

除了通过 Benchmark 和编程等「必考题」,Magistral 模型还擅长在多种语言中保持高保真推理。它尤其适合用于英语、法语、西班牙语、德语、意大利语、阿拉伯语、俄语、中文等语言的推理。

借助 Le Chat 中的 Flash Answers,Magistral Medium 还能实现比大多数竞争对手多达 10 倍的 token 吞吐量。Mistral 称,这基本可以实现大规模的实时推理和用户反馈。

因为以上一系列特性,Mistral 认为 Magistral 非常适合需要长时间思考和更高准确度的通用任务,相比非推理类的大模型,提升更为明显。

在技术报告中,Mistral 表示 Magistral 应用了自主研发的可扩展强化学习流水线,其并非依赖现有实现和从先前模型中提炼出的强化学习痕迹,而是采用自下而上的方法,完全依赖自己的模型和基础设施。

在 Magistral 工作中研究人员发现,基于文本的强化学习能够保持甚至提升多模态理解、指令遵循和函数调用能力。

有趣的是,Magistral 的核心设计原则是使用与用户相同的语言进行推理。在未经任何处理的数学和编程问题上进行强化学习通常会导致模型在推理过程中出现混合语言。在没有语言限制的初步实验中,Mistral 工程人员也经常观察到混合英语、中文和俄语单词的输出。虽然这些输出是连贯的,但为了避免语言切换,他们在计算对话(由问题、想法、答案组成)的奖励时,首先通过删除 LaTeX 内容和代码块对这三个部分进行归一化,然后对每个部分应用 fastText 分类器。如果分类器指示所有三个部分都使用相同的语言,则会额外给予 0.1 的奖励。

这样简单的修改足以使模型能够紧密跟踪用户的语言,最大限度地减少代码切换,同时保持推理任务的性能。尽管只将原始英语问题翻译成几种语言,但我们能观察到 Magistral 模型能够成功生成任意语言的思维链、系统提示。

Mistral 进一步在系统提示中指定了格式和语言要求,如下图所示。实验发现强化学习训练对这些系统提示非常敏感。例如,系统提示中的「尽可能随意,尽可能长」部分增加了模型的熵,从而改善了模型的探索能力。

Mistral 正在把 Magistral Medium 模型应用于包括 Amazon SageMaker 在内的主流云平台,Azure AI、IBM WatsonX 和 Google Cloud Marketplace 也将紧随其后。

在使用成本方面,Mistral 把 Magistral Medium 定位为一款独特的高端产品,因此价格也是大幅上涨。

它的每百万输入 token 价格为 2 美元,每百万输出 token 是 5 美元,相比老款 Mistral Medium 3 价格大幅上涨,后者输入成本仅为 0.4 美元,输出成本为 2 美元。

然而,与外部竞争对手相比,Magistral Medium 的定价策略却显得极具竞争力。它的输入成本比 OpenAI 最新型号便宜,与 Gemini 2.5 Pro 的价格处于同一水平,输出成本也远低于这两款产品。

看起来,推理速度比竞品快 10 倍的竞争优势确实很大。

Magistral API 与其他领先 LLM 的推理成本对比。

在 Magistral 推出之后,Mistral 的目标是从此版本开始快速迭代模型。

参考内容:

https://mistral.ai/news/magistral

https://venturebeat.com/ai/mistrals-first-reasoning-model-magistral-launches-with-large-and-small-apache-2-0-version

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
想不通,为何游艇文化在中国盛行不起来?网友分享很真实,真相了

想不通,为何游艇文化在中国盛行不起来?网友分享很真实,真相了

另子维爱读史
2026-01-05 18:12:32
司晓迪事件最全瓜!檀健次私下是舔狗,林更新爱约,张一山最大方

司晓迪事件最全瓜!檀健次私下是舔狗,林更新爱约,张一山最大方

无人倾听无人倾听
2026-01-05 00:48:23
流浪猫从雪地跑进房车,旅行博主一夜涨粉,网友:和悟空一模一样

流浪猫从雪地跑进房车,旅行博主一夜涨粉,网友:和悟空一模一样

一娱三分地
2026-01-04 12:28:43
年度失望榜:用力过猛、傲慢自嗨,这些科技产品为何「塌房」?

年度失望榜:用力过猛、傲慢自嗨,这些科技产品为何「塌房」?

雷科技
2026-01-05 15:42:42
演都不演了!离婚传闻真相曝光后,冯小刚一举撕破徐帆的“体面”

演都不演了!离婚传闻真相曝光后,冯小刚一举撕破徐帆的“体面”

娱说瑜悦
2026-01-04 17:30:48
50岁阿姨一生未婚,只为寻找25年前的飞行员初恋,找到他后却哭了

50岁阿姨一生未婚,只为寻找25年前的飞行员初恋,找到他后却哭了

白云故事
2025-06-13 17:25:08
美军为什么能在委内瑞拉毫无阻碍的长驱直入

美军为什么能在委内瑞拉毫无阻碍的长驱直入

磊子讲史
2026-01-05 18:07:42
98年返乡途中,我把软卧让给抱孩子的大姐,她临下车时递来一个信封

98年返乡途中,我把软卧让给抱孩子的大姐,她临下车时递来一个信封

城事录主
2026-01-01 05:00:03
罗晋携任素汐去祈福后,唐嫣连发三文表态,婚变传闻终于真相大白

罗晋携任素汐去祈福后,唐嫣连发三文表态,婚变传闻终于真相大白

瓜汁橘长Dr
2025-12-29 11:29:56
2026住房好消息来了,住4楼以上的朋友大受益!这两类人直接吃香

2026住房好消息来了,住4楼以上的朋友大受益!这两类人直接吃香

夜深爱杂谈
2026-01-05 22:17:47
“最快女护士”辞职 知情人士:发布视频前离职手续已完成,现在每周末都可以去参加比赛了

“最快女护士”辞职 知情人士:发布视频前离职手续已完成,现在每周末都可以去参加比赛了

极目新闻
2026-01-05 18:36:17
美国活捉马杜罗,就是冲着中国来的,也给了我们收复台湾最好机会

美国活捉马杜罗,就是冲着中国来的,也给了我们收复台湾最好机会

时时有聊
2026-01-05 08:03:34
曝许家印香港大宅挖出460平地牢,潜伏15年才被发现,是为藏啥?

曝许家印香港大宅挖出460平地牢,潜伏15年才被发现,是为藏啥?

小熊侃史
2026-01-05 10:43:25
澳洲重大发现! 糖尿病患者福音其实每家都有, 比药管用!

澳洲重大发现! 糖尿病患者福音其实每家都有, 比药管用!

澳微Daily
2026-01-05 14:57:21
樊振东夺冠首度回应去留问题,一席话感动教练+队友,球迷听懂了

樊振东夺冠首度回应去留问题,一席话感动教练+队友,球迷听懂了

篮球看比赛
2026-01-05 10:50:10
段永平苦心相劝,王石终究没听进去

段永平苦心相劝,王石终究没听进去

五味财经
2026-01-05 14:00:49
广东输球揪出拖油瓶!拿858万得可怜6分,被对手打爆,赶快换了他

广东输球揪出拖油瓶!拿858万得可怜6分,被对手打爆,赶快换了他

南海浪花
2026-01-06 06:47:34
首尔大学爆发激烈冲突:教授公开认祖归宗,联合国做出意外决定

首尔大学爆发激烈冲突:教授公开认祖归宗,联合国做出意外决定

王嚾晓
2026-01-05 18:29:37
官宣离婚仅俩月,着急下一段恋情的何钰欣,揭开了猴哥仅剩的体面

官宣离婚仅俩月,着急下一段恋情的何钰欣,揭开了猴哥仅剩的体面

查尔菲的笔记
2026-01-05 17:03:13
世嘉创始人于圣诞节逝世:享年95岁

世嘉创始人于圣诞节逝世:享年95岁

游民星空
2026-01-05 21:19:08
2026-01-06 09:24:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12060文章数 142530关注度
往期回顾 全部

科技要闻

性能涨5倍!黄仁勋CES秀肌肉 下代芯片来了

头条要闻

俄代表:美国侵略委内瑞拉意味着"无法无天时代的回归"

头条要闻

俄代表:美国侵略委内瑞拉意味着"无法无天时代的回归"

体育要闻

50年最差曼联主帅!盘点阿莫林尴尬纪录

娱乐要闻

《探索新境2》王一博挑战酋长岩

财经要闻

丁一凡:中美进入相对稳定的竞争共存期

汽车要闻

海狮06EV冬季续航挑战 "电"这事比亚迪绝对玩明白了

态度原创

亲子
家居
健康
数码
公开课

亲子要闻

什么是正食症如何发现和应对

家居要闻

白色大理石 奢华现代

这些新疗法,让化疗不再那么痛苦

数码要闻

27小时x86续航王!Intel正式发布酷睿Ultra 300系列CPU:游戏性能提升77%

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版