网易首页 > 网易号 > 正文 申请入驻

Mistral开源两大编程模型!大参数模型性能超Kimi、Qwen,小参数模型PC可跑

0
分享至


智东西
编译 王欣逸
编辑 程茜

智东西12月10日消息,昨晚,法国大模型独角兽Mistral AI发布并开源编程系列模型Devstral 2,该系列分为两个不同规格的模型Devstral 2 132B和Devstral Small 2 24B。此外,Mistral还同时推出了原生CLI工具Mistral Vibe,能实现端到端的代码自动化。此次发布距Mistral 3系列模型才过去一周。


Devstral 2参数为123B,支持256K上下文窗口,可以探索代码库,并能在保持架构层面上下文理解的同时,进行跨文件协调更改;Devstral Small 2参数为24B,同样具备256K上下文窗口,支持快速推理和反馈,可以定制和本地部署,同时还支持图像输入,可应用于多模态Agents。

在SWE-bench Verified编程基准测试中,Devstral 2取得了72.2%的成绩,优于Qwen 3 coder plus、Kimi K2 Thinking等开源模型,仅次于DeepSeek V3.2;Devstral Small 2取得了68.8%的成绩,超过GPT-OOS-120B,和GLM 4.6持平;在针对实际编程任务进行的人工测试中,Devstral 2表现优于DeepSeek V3.2。基准测试结果如下:


此外,在部署上,Devstral 2至少需要四块H100级GPU,更轻量化的Devstral Small 2可以在消费级硬件上本地运行。

Mistral Vibe是一个由Devstral驱动的开源命令行编程助手,集成了文件操作、代码搜索、版本控制及命令执行等工具。

Mistral AI是一家法国创企,成立于2023年,由前DeepMind和Meta研究人员成立,专注于开源模型开发。今年9月,该公司宣布获得17亿欧元(约合人民币139.9亿元)C轮融资,估值达到117亿欧元(约合人民币962.6亿元),英伟达曾三次投资这家公司。

一、基准测试位列开源第二,和顶尖闭源还有性能差距

据Mistral官网,Devstral 2 123B支持探索代码库,能跨多个文件协调修改,还能保持上下文理解。它可以跟踪框架依赖、检测故障,并能通过修正后重试,从而解决如修复错误、改造遗留系统等复杂挑战。

该模型支持微调,可针对特定编程语言进行优化,适配大型企业代码库的需求。

不过,Devstral 2以修改版的MIT协议发布,这一协议对大企业进行了限制:月收入超过2000万美元(约合人民币1.41亿元)的公司,在未获得Mistral单独商业许可的情况下,无法使用该模型。

更轻量化的模型Devstral Small 2 24B支持快速推理、迭代反馈和定制,可本地部署,同时还支持图像输入,可应用于多模态Agents。

从基准测试来看,Devstral 2模型位列开源模型的第二名,并正赶超顶尖闭源模型。

Devstral 2在SWE-bench Verified编程基准测试中取得了72.2%的得分,Devstral Small 2取得了68%的得分,在开源模型中已经达到了领先水平,Devstral 2的得分仅次于DeepSeek V3.2。


Devstral 2系列模型的亮点在于小参数设计,其模型在关键基准测试中展现出和顶尖开源模型齐平的性能,却仅需后者几分之一的参数量。

得分只比Devstral 2高0.9%的DeepSeek V3.2,其参数大小是Devstral 2的5倍,是Devstral Small 2的28倍,而表现次于Devstral 2的Kimi K2 Thinking,其参数大小是Devstral 2的8倍,是Devstral Small 2的41倍。


不过,Devstral 2系列模型与顶尖闭源模型之间还存在差距。

人工评测结果显示,在Cline构建的任务场景中,Devstral 2相对DeepSeek V3.2优势明显,胜率为42.8%,败率为28.6%。然而,Devstral 2相对顶尖闭源模型Claude Sonnet 4.5败下阵来,胜率仅为21.4%,败率为53.1%。


二、端到端代码自动化,能进行架构级推理

Mistral Vibe是基于Devstral模型构建的开源命令行编程助手,能通过自然语言交互,接入IDE,实现对代码库的探索、修改与变更执行。


Mistral Vibe提供了一个交互式对话界面,集成了文件操作、代码搜索、版本控制及命令执行等工具。

它能自动扫描用户文件结构及Git状态,提供相关上下文信息,能理解整个代码库的架构,并进行架构级推理,此外,它还拥有智能引用、持久化历史、自动补全和可自定义主题等功能。

开发者可以通过脚本编程方式运行Mistral Vibe,启用工具执行的自动批准功能,通过简洁的config.toml配置文件管理本地模型与供应商设置,灵活控制工具权限。

结语:平衡高性能与小参数,为企业提供了低门槛解决方案

从Mistral 3到Devstral 2系列、Mistral Vibe,Mistral AI正以相当快的进击速度参与AI竞争,并在模型的高性能与轻量化间实现了平衡,从测试结果看,Devstral Small 2模型在参数仅为24B的情况下,依然优于不少开源模型,和GLM 4.6打平。

Mistral AI在公告中提到,Devstral 2系列模型专为生产级工作流打造,并被定位为下一代SOTA编程模型。尽管和顶尖闭源编程模型还有很大差距,不过,对大多数企业而言,Devstral 2和Devstral Small 2可以作为一个低门槛的初步解决方案,尤其是在和Mistral Vibe的搭配使用上,Devstral 2系列模型或将在特定的生产环节发挥作用。

来源:Mistral AI

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
预计明日凌晨3-6点,美伊大战会正式开启,理由如下

预计明日凌晨3-6点,美伊大战会正式开启,理由如下

今日马说
2026-01-30 23:26:19
白银,暴跌!黄金,40年最大跌幅!

白银,暴跌!黄金,40年最大跌幅!

数据宝
2026-01-31 08:13:17
32-14!比雷霆还黑?约基奇31+12!掘金赢快船,一战看清5个现实

32-14!比雷霆还黑?约基奇31+12!掘金赢快船,一战看清5个现实

毒舌NBA
2026-01-31 12:26:43
杰伦格林复出狄龙背靠背27分,米神梦游8失误,残阵太阳大胜骑士

杰伦格林复出狄龙背靠背27分,米神梦游8失误,残阵太阳大胜骑士

钉钉陌上花开
2026-01-31 12:26:28
李亚鹏抽着名贵的1916,从他嘴里喷出的烟雾是对那些节衣缩食捐款给他的“盘盘”们的无情的嘲弄。

李亚鹏抽着名贵的1916,从他嘴里喷出的烟雾是对那些节衣缩食捐款给他的“盘盘”们的无情的嘲弄。

问道求真
2026-01-31 08:01:49
国际金价银价继续大幅下跌

国际金价银价继续大幅下跌

每日经济新闻
2026-01-31 07:27:27
俄罗斯石油收入大幅下降,向印度出售的石油价格下调至每桶25美元

俄罗斯石油收入大幅下降,向印度出售的石油价格下调至每桶25美元

山河路口
2026-01-30 11:54:38
张帅斩获大满贯第3冠!携手梅尔滕斯2-0胜出,7年后再夺澳网冠军

张帅斩获大满贯第3冠!携手梅尔滕斯2-0胜出,7年后再夺澳网冠军

全景体育V
2026-01-31 11:03:05
候补中央委员李红军,当选新职

候补中央委员李红军,当选新职

新京报政事儿
2026-01-31 10:37:31
94岁台积电张忠谋罕见露面,坐轮椅会见英伟达黄仁勋

94岁台积电张忠谋罕见露面,坐轮椅会见英伟达黄仁勋

IT之家
2026-01-31 10:49:12
爱泼斯坦档案终极发布:比尔·盖茨疑和俄罗斯女孩发生关系,感染性病

爱泼斯坦档案终极发布:比尔·盖茨疑和俄罗斯女孩发生关系,感染性病

大洛杉矶LA
2026-01-31 06:55:21
恭喜中国金花!2-0夺澳网冠军,奖金197万,第3座大满贯冠军到手

恭喜中国金花!2-0夺澳网冠军,奖金197万,第3座大满贯冠军到手

侃球熊弟
2026-01-31 10:46:08
乌克兰捐款平台收到大量来自中国民间机构和个人的捐款

乌克兰捐款平台收到大量来自中国民间机构和个人的捐款

深度报
2026-01-30 19:27:35
河南一男子闯入女澡堂打人,洗浴中心:他进去打他媳妇;涉事男子已被警方控制

河南一男子闯入女澡堂打人,洗浴中心:他进去打他媳妇;涉事男子已被警方控制

扬子晚报
2026-01-30 12:20:05
女子被困缅甸新园区近一年半,每天工作18小时,完不成任务就挨打,“身体和精神都快到极限了”

女子被困缅甸新园区近一年半,每天工作18小时,完不成任务就挨打,“身体和精神都快到极限了”

扬子晚报
2026-01-30 15:05:51
全球只有5位领导人被永久保留遗体,他们都是谁

全球只有5位领导人被永久保留遗体,他们都是谁

扶苏聊历史
2026-01-29 16:13:42
山东人已经把小吃车打造成末日堡垒了

山东人已经把小吃车打造成末日堡垒了

白色得季节
2026-01-31 04:32:53
苏联历史惨痛一页:事后当局立马清洗现场,匆匆掩埋遇难者遗体

苏联历史惨痛一页:事后当局立马清洗现场,匆匆掩埋遇难者遗体

云霄纪史观
2026-01-30 01:47:42
日本茨城县山林发现一具中国籍女性遗体

日本茨城县山林发现一具中国籍女性遗体

界面新闻
2026-01-31 10:24:05
别买这种“加绒裤”!央视曝光,真的有毒,穿得越久,危害越大

别买这种“加绒裤”!央视曝光,真的有毒,穿得越久,危害越大

离离言几许
2026-01-30 20:54:49
2026-01-31 12:40:49
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11160文章数 116945关注度
往期回顾 全部

科技要闻

中国车企和特斯拉的下一战,战场已定

头条要闻

盒马"错配"致顾客误食水仙中毒 赔偿方案仍未达成一致

头条要闻

盒马"错配"致顾客误食水仙中毒 赔偿方案仍未达成一致

体育要闻

“假赌黑”的子弹,还要再飞一会儿吗?

娱乐要闻

成龙入驻小红书,怼脸近照没有老年斑

财经要闻

白银,暴跌!黄金,40年最大跌幅!

汽车要闻

新款宾利欧陆GT S/GTC S官图发布 V8混动加持

态度原创

本地
手机
数码
亲子
公开课

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

手机要闻

W4单品销量Top30榜:荣耀X70封神,iPhone 17 Pro Max无人能敌

数码要闻

8K电视集体“退烧”,消息称LG停产8K面板

亲子要闻

8年导致4次流产,元凶竟是免疫系统?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版