网易首页 > 网易号 > 正文 申请入驻

Mistral开源两大编程模型!大参数模型性能超Kimi、Qwen,小参数模型PC可跑

0
分享至


智东西
编译 王欣逸
编辑 程茜

智东西12月10日消息,昨晚,法国大模型独角兽Mistral AI发布并开源编程系列模型Devstral 2,该系列分为两个不同规格的模型Devstral 2 132B和Devstral Small 2 24B。此外,Mistral还同时推出了原生CLI工具Mistral Vibe,能实现端到端的代码自动化。此次发布距Mistral 3系列模型才过去一周。


Devstral 2参数为123B,支持256K上下文窗口,可以探索代码库,并能在保持架构层面上下文理解的同时,进行跨文件协调更改;Devstral Small 2参数为24B,同样具备256K上下文窗口,支持快速推理和反馈,可以定制和本地部署,同时还支持图像输入,可应用于多模态Agents。

在SWE-bench Verified编程基准测试中,Devstral 2取得了72.2%的成绩,优于Qwen 3 coder plus、Kimi K2 Thinking等开源模型,仅次于DeepSeek V3.2;Devstral Small 2取得了68.8%的成绩,超过GPT-OOS-120B,和GLM 4.6持平;在针对实际编程任务进行的人工测试中,Devstral 2表现优于DeepSeek V3.2。基准测试结果如下:


此外,在部署上,Devstral 2至少需要四块H100级GPU,更轻量化的Devstral Small 2可以在消费级硬件上本地运行。

Mistral Vibe是一个由Devstral驱动的开源命令行编程助手,集成了文件操作、代码搜索、版本控制及命令执行等工具。

Mistral AI是一家法国创企,成立于2023年,由前DeepMind和Meta研究人员成立,专注于开源模型开发。今年9月,该公司宣布获得17亿欧元(约合人民币139.9亿元)C轮融资,估值达到117亿欧元(约合人民币962.6亿元),英伟达曾三次投资这家公司。

一、基准测试位列开源第二,和顶尖闭源还有性能差距

据Mistral官网,Devstral 2 123B支持探索代码库,能跨多个文件协调修改,还能保持上下文理解。它可以跟踪框架依赖、检测故障,并能通过修正后重试,从而解决如修复错误、改造遗留系统等复杂挑战。

该模型支持微调,可针对特定编程语言进行优化,适配大型企业代码库的需求。

不过,Devstral 2以修改版的MIT协议发布,这一协议对大企业进行了限制:月收入超过2000万美元(约合人民币1.41亿元)的公司,在未获得Mistral单独商业许可的情况下,无法使用该模型。

更轻量化的模型Devstral Small 2 24B支持快速推理、迭代反馈和定制,可本地部署,同时还支持图像输入,可应用于多模态Agents。

从基准测试来看,Devstral 2模型位列开源模型的第二名,并正赶超顶尖闭源模型。

Devstral 2在SWE-bench Verified编程基准测试中取得了72.2%的得分,Devstral Small 2取得了68%的得分,在开源模型中已经达到了领先水平,Devstral 2的得分仅次于DeepSeek V3.2。


Devstral 2系列模型的亮点在于小参数设计,其模型在关键基准测试中展现出和顶尖开源模型齐平的性能,却仅需后者几分之一的参数量。

得分只比Devstral 2高0.9%的DeepSeek V3.2,其参数大小是Devstral 2的5倍,是Devstral Small 2的28倍,而表现次于Devstral 2的Kimi K2 Thinking,其参数大小是Devstral 2的8倍,是Devstral Small 2的41倍。


不过,Devstral 2系列模型与顶尖闭源模型之间还存在差距。

人工评测结果显示,在Cline构建的任务场景中,Devstral 2相对DeepSeek V3.2优势明显,胜率为42.8%,败率为28.6%。然而,Devstral 2相对顶尖闭源模型Claude Sonnet 4.5败下阵来,胜率仅为21.4%,败率为53.1%。


二、端到端代码自动化,能进行架构级推理

Mistral Vibe是基于Devstral模型构建的开源命令行编程助手,能通过自然语言交互,接入IDE,实现对代码库的探索、修改与变更执行。


Mistral Vibe提供了一个交互式对话界面,集成了文件操作、代码搜索、版本控制及命令执行等工具。

它能自动扫描用户文件结构及Git状态,提供相关上下文信息,能理解整个代码库的架构,并进行架构级推理,此外,它还拥有智能引用、持久化历史、自动补全和可自定义主题等功能。

开发者可以通过脚本编程方式运行Mistral Vibe,启用工具执行的自动批准功能,通过简洁的config.toml配置文件管理本地模型与供应商设置,灵活控制工具权限。

结语:平衡高性能与小参数,为企业提供了低门槛解决方案

从Mistral 3到Devstral 2系列、Mistral Vibe,Mistral AI正以相当快的进击速度参与AI竞争,并在模型的高性能与轻量化间实现了平衡,从测试结果看,Devstral Small 2模型在参数仅为24B的情况下,依然优于不少开源模型,和GLM 4.6打平。

Mistral AI在公告中提到,Devstral 2系列模型专为生产级工作流打造,并被定位为下一代SOTA编程模型。尽管和顶尖闭源编程模型还有很大差距,不过,对大多数企业而言,Devstral 2和Devstral Small 2可以作为一个低门槛的初步解决方案,尤其是在和Mistral Vibe的搭配使用上,Devstral 2系列模型或将在特定的生产环节发挥作用。

来源:Mistral AI

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
彻底慌了!伊朗高层弃手机用鸡毛信,士兵露宿街头不敢回营

彻底慌了!伊朗高层弃手机用鸡毛信,士兵露宿街头不敢回营

老马拉车莫少装
2026-03-17 20:02:54
CBA焦点战今夜打响!CCTV5直播!广厦预重回第1,广东冲连胜

CBA焦点战今夜打响!CCTV5直播!广厦预重回第1,广东冲连胜

老吴说体育
2026-03-20 11:12:03
如果你敢打乌克兰,我就要轰炸莫斯科,把莫斯科炸成稀巴烂

如果你敢打乌克兰,我就要轰炸莫斯科,把莫斯科炸成稀巴烂

安安说
2026-03-20 11:02:42
谁说纤瘦演不了将军《逐玉》张凌赫减重15斤扛40斤战甲,演技封神

谁说纤瘦演不了将军《逐玉》张凌赫减重15斤扛40斤战甲,演技封神

亦暖追剧随笔
2026-03-19 12:19:13
知名打假博主,在深圳遇袭

知名打假博主,在深圳遇袭

齐鲁壹点
2026-03-19 22:28:09
江西情侣分手引爆全网!男生怒晒2.8万PPT,连私密记录都公开了

江西情侣分手引爆全网!男生怒晒2.8万PPT,连私密记录都公开了

行者聊官
2026-03-19 16:44:44
东契奇为何不在MVP讨论之列?雷迪克:因为他老跟裁判抱怨?

东契奇为何不在MVP讨论之列?雷迪克:因为他老跟裁判抱怨?

懂球帝
2026-03-20 11:15:07
聚餐砸家后续:妻子已请律师,男子依旧不死心,儿子曝更多黑料

聚餐砸家后续:妻子已请律师,男子依旧不死心,儿子曝更多黑料

奇思妙想草叶君
2026-03-19 21:37:58
王伟中包钢对阿拉善盟一工厂车间发生爆炸事故作出批示

王伟中包钢对阿拉善盟一工厂车间发生爆炸事故作出批示

界面新闻
2026-03-19 20:20:04
为什么石油是用“桶”而不是“吨”来计算?一桶油到底有多重?

为什么石油是用“桶”而不是“吨”来计算?一桶油到底有多重?

长风文史
2026-03-15 15:49:09
周总理一生中有哪些错误?

周总理一生中有哪些错误?

顾史
2026-03-19 14:58:48
全岛同时收到消息,大陆给赖清德改了称呼,郑丽文准备乘飞机离台

全岛同时收到消息,大陆给赖清德改了称呼,郑丽文准备乘飞机离台

伴史缘
2026-03-20 01:58:34
来自沙特的推演!若供应中断持续到4月下旬 油价将飙破180美元

来自沙特的推演!若供应中断持续到4月下旬 油价将飙破180美元

财联社
2026-03-20 11:37:05
人民日报推荐:有一种碳水越吃越瘦肚子

人民日报推荐:有一种碳水越吃越瘦肚子

白宸侃片
2026-03-17 18:23:09
拉里贾尼女儿在美国?反美是工作,赴美是生活!可悲的离岸忠诚!

拉里贾尼女儿在美国?反美是工作,赴美是生活!可悲的离岸忠诚!

汉唐智库
2026-03-19 10:36:12
18岁的姚晨在肯德基工作时的一张照片,那时就难掩浑身的好气质

18岁的姚晨在肯德基工作时的一张照片,那时就难掩浑身的好气质

娱你同欢
2026-03-17 16:08:28
普京等到了!7艘油轮转向印度,俄罗斯对华违约,中方早有准备

普京等到了!7艘油轮转向印度,俄罗斯对华违约,中方早有准备

天气观察站
2026-03-19 19:48:16
上海通报:一公职人员严重违纪违法被查

上海通报:一公职人员严重违纪违法被查

上观新闻
2026-03-20 12:36:03
终于来了!广东队被曝欲签下“加强版莫兰德”,徐杰迎来救世主?

终于来了!广东队被曝欲签下“加强版莫兰德”,徐杰迎来救世主?

绯雨儿
2026-03-20 12:16:08
男子赚够钱后买房车潇洒养老,仅6年突然破产:刚知老婆负债3千万

男子赚够钱后买房车潇洒养老,仅6年突然破产:刚知老婆负债3千万

嫹笔牂牂
2026-03-19 07:12:18
2026-03-20 14:08:49
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11399文章数 117003关注度
往期回顾 全部

科技要闻

新SU7只涨4千!雷军:真怕交车慢挨骂

头条要闻

美媒:若伊方所言属实 系F-35战机在实战中首次被击中

头条要闻

美媒:若伊方所言属实 系F-35战机在实战中首次被击中

体育要闻

6年前的一场悲剧,造就了“法国瓦尔迪”

娱乐要闻

蔡康永小S“康熙合体”,两人拥抱落泪

财经要闻

黄金、白银、铝、铜……大宗商品巨震

汽车要闻

体验岚图泰山L3公开上路 896线激光雷达实测如何?

态度原创

房产
教育
数码
时尚
军事航空

房产要闻

三亚安居房,悄悄爆了!

教育要闻

一定要让自己的孩子知道,三样东西不能外借

数码要闻

高通发布显卡新驱动:竟包含1993年老游戏修复!

会穿衣的女人衣服从不多买!准备好毛衣和格纹裙,减龄舒适

军事要闻

特朗普会晤高市早苗 把美国袭击伊朗比作偷袭珍珠港

无障碍浏览 进入关怀版