网易首页 > 网易号 > 正文 申请入驻

Mistral开源两大编程模型!大参数模型性能超Kimi、Qwen,小参数模型PC可跑

0
分享至

智东西12月10日消息,昨晚,法国大模型独角兽Mistral AI发布并开源编程系列模型Devstral 2,该系列分为两个不同规格的模型Devstral 2 132B和Devstral Small 2 24B。此外,Mistral还同时推出了原生CLI工具Mistral Vibe,能实现端到端的代码自动化。此次发布距Mistral 3系列模型才过去一周。

Devstral 2参数为123B,支持256K上下文窗口,可以探索代码库,并能在保持架构层面上下文理解的同时,进行跨文件协调更改;Devstral Small 2参数为24B,同样具备256K上下文窗口,支持快速推理和反馈,可以定制和本地部署,同时还支持图像输入,可应用于多模态Agents。

在SWE-bench Verified编程基准测试中,Devstral 2取得了72.2%的成绩,优于Qwen 3 coder plus、Kimi K2 Thinking等开源模型,仅次于DeepSeek V3.2;Devstral Small 2取得了68.8%的成绩,超过GPT-OOS-120B,和GLM 4.6持平;在针对实际编程任务进行的人工测试中,Devstral 2表现优于DeepSeek V3.2。基准测试结果如下:

此外,在部署上,Devstral 2至少需要四块H100级GPU,更轻量化的Devstral Small 2可以在消费级硬件上本地运行。

Mistral Vibe是一个由Devstral驱动的开源命令行编程助手,集成了文件操作、代码搜索、版本控制及命令执行等工具。

Mistral AI是一家法国创企,成立于2023年,由前DeepMind和Meta研究人员成立,专注于开源模型开发。今年9月,该公司宣布获得17亿欧元(约合人民币139.9亿元)C轮融资,估值达到117亿欧元(约合人民币962.6亿元),英伟达曾三次投资这家公司。

一、基准测试位列开源第二,和顶尖闭源还有性能差距

据Mistral官网,Devstral 2 123B支持探索代码库,能跨多个文件协调修改,还能保持上下文理解。它可以跟踪框架依赖、检测故障,并能通过修正后重试,从而解决如修复错误、改造遗留系统等复杂挑战。

该模型支持微调,可针对特定编程语言进行优化,适配大型企业代码库的需求。

不过,Devstral 2以修改版的MIT协议发布,这一协议对大企业进行了限制:月收入超过2000万美元(约合人民币1.41亿元)的公司,在未获得Mistral单独商业许可的情况下,无法使用该模型。

更轻量化的模型Devstral Small 2 24B支持快速推理、迭代反馈和定制,可本地部署,同时还支持图像输入,可应用于多模态Agents。

从基准测试来看,Devstral 2模型位列开源模型的第二名,并正赶超顶尖闭源模型。

Devstral 2在SWE-bench Verified编程基准测试中取得了72.2%的得分,Devstral Small 2取得了68%的得分,在开源模型中已经达到了领先水平,Devstral 2的得分仅次于DeepSeek V3.2。

Devstral 2系列模型的亮点在于小参数设计,其模型在关键基准测试中展现出和顶尖开源模型齐平的性能,却仅需后者几分之一的参数量。

得分只比Devstral 2高0.9%的DeepSeek V3.2,其参数大小是Devstral 2的5倍,是Devstral Small 2的28倍,而表现次于Devstral 2的Kimi K2 Thinking,其参数大小是Devstral 2的8倍,是Devstral Small 2的41倍。

不过,Devstral 2系列模型与顶尖闭源模型之间还存在差距。

人工评测结果显示,在Cline构建的任务场景中,Devstral 2相对DeepSeek V3.2优势明显,胜率为42.8%,败率为28.6%。然而,Devstral 2相对顶尖闭源模型Claude Sonnet 4.5败下阵来,胜率仅为21.4%,败率为53.1%。

二、端到端代码自动化,能进行架构级推理

Mistral Vibe是基于Devstral模型构建的开源命令行编程助手,能通过自然语言交互,接入IDE,实现对代码库的探索、修改与变更执行。

Mistral Vibe提供了一个交互式对话界面,集成了文件操作、代码搜索、版本控制及命令执行等工具。

它能自动扫描用户文件结构及Git状态,提供相关上下文信息,能理解整个代码库的架构,并进行架构级推理,此外,它还拥有智能引用、持久化历史、自动补全和可自定义主题等功能。

开发者可以通过脚本编程方式运行Mistral Vibe,启用工具执行的自动批准功能,通过简洁的config.toml配置文件管理本地模型与供应商设置,灵活控制工具权限。

结语:平衡高性能与小参数,为企业提供了低门槛解决方案

从Mistral 3到Devstral 2系列、Mistral Vibe,Mistral AI正以相当快的进击速度参与AI竞争,并在模型的高性能与轻量化间实现了平衡,从测试结果看,Devstral Small 2模型在参数仅为24B的情况下,依然优于不少开源模型,和GLM 4.6打平。

Mistral AI在公告中提到,Devstral 2系列模型专为生产级工作流打造,并被定位为下一代SOTA编程模型。尽管和顶尖闭源编程模型还有很大差距,不过,对大多数企业而言,Devstral 2和Devstral Small 2可以作为一个低门槛的初步解决方案,尤其是在和Mistral Vibe的搭配使用上,Devstral 2系列模型或将在特定的生产环节发挥作用。

来源:Mistral AI

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
过期一天就绝对不能碰的10种危险食物,第一名你可能经常舍不得扔

过期一天就绝对不能碰的10种危险食物,第一名你可能经常舍不得扔

娱乐的硬糖吖
2026-06-24 17:00:21
美机构预估委内瑞拉强震遇难人数在1万至10万;当地中国公民发声:当时地面剧烈晃动,非常恐怖,有12层居民楼倒塌;现场画面曝光

美机构预估委内瑞拉强震遇难人数在1万至10万;当地中国公民发声:当时地面剧烈晃动,非常恐怖,有12层居民楼倒塌;现场画面曝光

极目新闻
2026-06-25 11:09:12
韩红被质疑“走到哪,哪就是她的老家”,央媒报道显示,其生于西藏昌都,两岁时前往成都,后定居北京,祖籍山东德州,并非在西藏长大

韩红被质疑“走到哪,哪就是她的老家”,央媒报道显示,其生于西藏昌都,两岁时前往成都,后定居北京,祖籍山东德州,并非在西藏长大

大风新闻
2026-06-25 14:15:08
陕西男子24.4万彩礼娶妻,领证25天新娘撒谎回娘家,转身去安徽找男友;女子获刑七年半,男方仅追回5.8万

陕西男子24.4万彩礼娶妻,领证25天新娘撒谎回娘家,转身去安徽找男友;女子获刑七年半,男方仅追回5.8万

大风新闻
2026-06-25 17:57:06
委内瑞拉全国华侨华人联合总会主席:据信已有约10名华人被困,一名13岁女孩遇难

委内瑞拉全国华侨华人联合总会主席:据信已有约10名华人被困,一名13岁女孩遇难

红星新闻
2026-06-25 14:33:27
一个重卡司机换电车的纠结与烦恼

一个重卡司机换电车的纠结与烦恼

经济观察报
2026-06-25 17:26:16
981天,146场缺阵:内马尔14分钟告诉世界,什么叫“迟到的英雄”

981天,146场缺阵:内马尔14分钟告诉世界,什么叫“迟到的英雄”

新姐看世界
2026-06-25 15:41:55
佛得角门将战靴产自中国莆田,代工厂负责人:世界杯前国外客户下的紧急订单,海外售价约1500至1700元人民币,暂未在国内销售

佛得角门将战靴产自中国莆田,代工厂负责人:世界杯前国外客户下的紧急订单,海外售价约1500至1700元人民币,暂未在国内销售

大象新闻
2026-06-25 17:57:03
高考最难省份诞生!家长欲哭无泪:高考600分,却连一本都上不了

高考最难省份诞生!家长欲哭无泪:高考600分,却连一本都上不了

凯旋学长
2026-06-25 17:18:12
“走个面”再升级!网友深扒:半只脚踏入美国的人,教我们抓特务

“走个面”再升级!网友深扒:半只脚踏入美国的人,教我们抓特务

火山詩话
2026-06-25 05:08:44
博主怒批《抓特务》:整个电影都是私货堆起来的,怎么过审的?

博主怒批《抓特务》:整个电影都是私货堆起来的,怎么过审的?

小徐讲八卦
2026-06-25 16:41:12
韩红「走个热面」,《抓特务》更冷:那个装腔作势的「京圈」,终于没人拜了……

韩红「走个热面」,《抓特务》更冷:那个装腔作势的「京圈」,终于没人拜了……

家传编辑部
2026-06-25 10:00:51
广德车祸事件进展:知情人称3岁男孩“脑死亡”,36岁女司机曝光

广德车祸事件进展:知情人称3岁男孩“脑死亡”,36岁女司机曝光

老猫观点
2026-06-24 17:12:27
官方发布!四川省2026年普通高等学校艺术体育类招生录取控制分数线

官方发布!四川省2026年普通高等学校艺术体育类招生录取控制分数线

四川省教育厅
2026-06-25 19:42:58
消费实在太惨了,人都麻了

消费实在太惨了,人都麻了

七叔东山再起
2026-06-24 23:32:48
快讯!俄罗斯唯一的氦气厂没了!

快讯!俄罗斯唯一的氦气厂没了!

故事终将光明磊落
2026-06-25 08:42:24
大疆定义了 Pocket,而 Pocket 4P 定义了「口袋电影机」

大疆定义了 Pocket,而 Pocket 4P 定义了「口袋电影机」

爱范儿
2026-06-25 18:00:41
悲催!57岁领导突发脑梗离世,办公室被清空翻新,仿佛他从未出现

悲催!57岁领导突发脑梗离世,办公室被清空翻新,仿佛他从未出现

火山詩话
2026-06-25 07:53:57
莫斯科遇袭四天,俄军彻底被激怒:大桥炸断,战争拐点真的来了?

莫斯科遇袭四天,俄军彻底被激怒:大桥炸断,战争拐点真的来了?

音乐时光的娱乐
2026-06-25 12:13:37
又有纸尿裤送检后被检测出甲酰胺,涉及Babycare品牌,检测机构还在部分婴幼儿血液、尿液中检出该物质;检测机构:有一份正在复测

又有纸尿裤送检后被检测出甲酰胺,涉及Babycare品牌,检测机构还在部分婴幼儿血液、尿液中检出该物质;检测机构:有一份正在复测

大象新闻
2026-06-25 19:09:57
2026-06-25 20:40:49
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
12126文章数 117112关注度
往期回顾 全部

科技要闻

宇树机器人大降价

头条要闻

"美如家"被"如家"起诉侵权并索赔10万 酒店经营者发声

头条要闻

"美如家"被"如家"起诉侵权并索赔10万 酒店经营者发声

体育要闻

世界杯最动人一吻:我若离世 你就改嫁吧

娱乐要闻

这国产剧太装了,居然还热播第一?

财经要闻

又有纸尿裤送检后被检测出甲酰胺!

汽车要闻

东风奕派纳米06智趣版上市 指导价9.99万元起

态度原创

旅游
手机
本地
时尚
公开课

旅游要闻

中国文旅看山西丨王莽岭:太行胜境书写文旅新篇

手机要闻

一图看懂荣耀MagicOS 11液态玻璃:安卓首个 全屏通透还能自定义

本地新闻

2026世界杯全勤太难?这份保姆级攻略请收好

最高级的夏季配色,来了!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版