网易首页 > 网易号 > 正文 申请入驻

Mistral开源两大编程模型!大参数模型性能超Kimi、Qwen,小参数模型PC可跑

0
分享至


智东西
编译 王欣逸
编辑 程茜

智东西12月10日消息,昨晚,法国大模型独角兽Mistral AI发布并开源编程系列模型Devstral 2,该系列分为两个不同规格的模型Devstral 2 132B和Devstral Small 2 24B。此外,Mistral还同时推出了原生CLI工具Mistral Vibe,能实现端到端的代码自动化。此次发布距Mistral 3系列模型才过去一周。


Devstral 2参数为123B,支持256K上下文窗口,可以探索代码库,并能在保持架构层面上下文理解的同时,进行跨文件协调更改;Devstral Small 2参数为24B,同样具备256K上下文窗口,支持快速推理和反馈,可以定制和本地部署,同时还支持图像输入,可应用于多模态Agents。

在SWE-bench Verified编程基准测试中,Devstral 2取得了72.2%的成绩,优于Qwen 3 coder plus、Kimi K2 Thinking等开源模型,仅次于DeepSeek V3.2;Devstral Small 2取得了68.8%的成绩,超过GPT-OOS-120B,和GLM 4.6持平;在针对实际编程任务进行的人工测试中,Devstral 2表现优于DeepSeek V3.2。基准测试结果如下:


此外,在部署上,Devstral 2至少需要四块H100级GPU,更轻量化的Devstral Small 2可以在消费级硬件上本地运行。

Mistral Vibe是一个由Devstral驱动的开源命令行编程助手,集成了文件操作、代码搜索、版本控制及命令执行等工具。

Mistral AI是一家法国创企,成立于2023年,由前DeepMind和Meta研究人员成立,专注于开源模型开发。今年9月,该公司宣布获得17亿欧元(约合人民币139.9亿元)C轮融资,估值达到117亿欧元(约合人民币962.6亿元),英伟达曾三次投资这家公司。

一、基准测试位列开源第二,和顶尖闭源还有性能差距

据Mistral官网,Devstral 2 123B支持探索代码库,能跨多个文件协调修改,还能保持上下文理解。它可以跟踪框架依赖、检测故障,并能通过修正后重试,从而解决如修复错误、改造遗留系统等复杂挑战。

该模型支持微调,可针对特定编程语言进行优化,适配大型企业代码库的需求。

不过,Devstral 2以修改版的MIT协议发布,这一协议对大企业进行了限制:月收入超过2000万美元(约合人民币1.41亿元)的公司,在未获得Mistral单独商业许可的情况下,无法使用该模型。

更轻量化的模型Devstral Small 2 24B支持快速推理、迭代反馈和定制,可本地部署,同时还支持图像输入,可应用于多模态Agents。

从基准测试来看,Devstral 2模型位列开源模型的第二名,并正赶超顶尖闭源模型。

Devstral 2在SWE-bench Verified编程基准测试中取得了72.2%的得分,Devstral Small 2取得了68%的得分,在开源模型中已经达到了领先水平,Devstral 2的得分仅次于DeepSeek V3.2。


Devstral 2系列模型的亮点在于小参数设计,其模型在关键基准测试中展现出和顶尖开源模型齐平的性能,却仅需后者几分之一的参数量。

得分只比Devstral 2高0.9%的DeepSeek V3.2,其参数大小是Devstral 2的5倍,是Devstral Small 2的28倍,而表现次于Devstral 2的Kimi K2 Thinking,其参数大小是Devstral 2的8倍,是Devstral Small 2的41倍。


不过,Devstral 2系列模型与顶尖闭源模型之间还存在差距。

人工评测结果显示,在Cline构建的任务场景中,Devstral 2相对DeepSeek V3.2优势明显,胜率为42.8%,败率为28.6%。然而,Devstral 2相对顶尖闭源模型Claude Sonnet 4.5败下阵来,胜率仅为21.4%,败率为53.1%。


二、端到端代码自动化,能进行架构级推理

Mistral Vibe是基于Devstral模型构建的开源命令行编程助手,能通过自然语言交互,接入IDE,实现对代码库的探索、修改与变更执行。


Mistral Vibe提供了一个交互式对话界面,集成了文件操作、代码搜索、版本控制及命令执行等工具。

它能自动扫描用户文件结构及Git状态,提供相关上下文信息,能理解整个代码库的架构,并进行架构级推理,此外,它还拥有智能引用、持久化历史、自动补全和可自定义主题等功能。

开发者可以通过脚本编程方式运行Mistral Vibe,启用工具执行的自动批准功能,通过简洁的config.toml配置文件管理本地模型与供应商设置,灵活控制工具权限。

结语:平衡高性能与小参数,为企业提供了低门槛解决方案

从Mistral 3到Devstral 2系列、Mistral Vibe,Mistral AI正以相当快的进击速度参与AI竞争,并在模型的高性能与轻量化间实现了平衡,从测试结果看,Devstral Small 2模型在参数仅为24B的情况下,依然优于不少开源模型,和GLM 4.6打平。

Mistral AI在公告中提到,Devstral 2系列模型专为生产级工作流打造,并被定位为下一代SOTA编程模型。尽管和顶尖闭源编程模型还有很大差距,不过,对大多数企业而言,Devstral 2和Devstral Small 2可以作为一个低门槛的初步解决方案,尤其是在和Mistral Vibe的搭配使用上,Devstral 2系列模型或将在特定的生产环节发挥作用。

来源:Mistral AI

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
用所谓的“基本盘”嘲讽人民群众,只能是搬起石头,砸自己的脚!

用所谓的“基本盘”嘲讽人民群众,只能是搬起石头,砸自己的脚!

让心灵得以栖息
2026-05-08 11:19:31
谁说垃圾堆里长不出玫瑰?19岁废品站女孩,用半年就登上了时装周

谁说垃圾堆里长不出玫瑰?19岁废品站女孩,用半年就登上了时装周

从零到一研究所
2026-05-09 14:53:43
延寿11%、多器官回春!中科院:这味常见中药改善全身机能!

延寿11%、多器官回春!中科院:这味常见中药改善全身机能!

时光派长寿观察
2026-05-08 17:08:02
美媒文章:美国面对的是已然阔步前行的中国

美媒文章:美国面对的是已然阔步前行的中国

参考消息
2026-05-10 15:38:08
特朗普访华前,日宣布以西南诸岛为中心进行演习,透露出两点信息

特朗普访华前,日宣布以西南诸岛为中心进行演习,透露出两点信息

起喜电影
2026-05-10 17:40:51
这身材真的很棒,无数人心中的完美伴侣

这身材真的很棒,无数人心中的完美伴侣

草莓解说体育
2026-05-10 18:01:41
法拉奇横空出世,英国政治正式进入“川普化”新时代

法拉奇横空出世,英国政治正式进入“川普化”新时代

壹家言
2026-05-09 16:03:04
李小冉北京豪宅太绝了!稀缺独栋复古洋房,估值8亿满是岁月质感

李小冉北京豪宅太绝了!稀缺独栋复古洋房,估值8亿满是岁月质感

观鱼听雨
2026-05-07 23:17:09
苹果和英特尔,分手六年后,又「在一起」了

苹果和英特尔,分手六年后,又「在一起」了

极客公园
2026-05-09 10:51:05
东风导弹泄密案!间谍郭万钧一家三口,全部被处以死刑

东风导弹泄密案!间谍郭万钧一家三口,全部被处以死刑

番外行
2026-03-31 08:28:28
好签?亚洲杯抽签揭晓:国足与伊朗+叙利亚同组 将战吉尔吉斯斯坦

好签?亚洲杯抽签揭晓:国足与伊朗+叙利亚同组 将战吉尔吉斯斯坦

我爱英超
2026-05-10 02:56:29
车主刚提车就裂了,张雪查完监控:质检员开除,店长罚1万,店关

车主刚提车就裂了,张雪查完监控:质检员开除,店长罚1万,店关

小娱乐悠悠
2026-05-10 11:47:14
人均奖金300万?穿这件工服相亲横着走

人均奖金300万?穿这件工服相亲横着走

中国新闻周刊
2026-05-10 13:22:10
美媒终于认清现实:中国压根不盼特朗普访华,早就不把美国放眼里

美媒终于认清现实:中国压根不盼特朗普访华,早就不把美国放眼里

起喜电影
2026-05-10 15:23:57
15亿人次“挤爆”五一,旧旅游逻辑终于“死透”了

15亿人次“挤爆”五一,旧旅游逻辑终于“死透”了

蓝鲸新闻
2026-05-10 09:45:59
奥迪高管炮轰友商:刷圈用特调车!换轮胎、改悬挂、单独写软件…

奥迪高管炮轰友商:刷圈用特调车!换轮胎、改悬挂、单独写软件…

柴狗夫斯基
2026-05-09 12:38:15
西班牙、英国宣布发现汉坦病毒疑似病例,张文宏最新发声

西班牙、英国宣布发现汉坦病毒疑似病例,张文宏最新发声

21世纪经济报道
2026-05-10 09:45:48
女人偷吃后晚上跟丈夫同房是什么体验?这位46岁出轨女人说出答案

女人偷吃后晚上跟丈夫同房是什么体验?这位46岁出轨女人说出答案

混音情感
2026-05-10 09:57:59
两连涨停!002491、002031,最新发声!多只牛股提示!

两连涨停!002491、002031,最新发声!多只牛股提示!

证券时报e公司
2026-05-10 18:11:16
皇马国家德比大名单:姆巴佩缺席!楚阿梅尼入选,巴尔韦德伤缺

皇马国家德比大名单:姆巴佩缺席!楚阿梅尼入选,巴尔韦德伤缺

懂球帝
2026-05-10 18:09:21
2026-05-10 18:51:00
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
11795文章数 117070关注度
往期回顾 全部

科技要闻

DeepSeek融资,改写所有人的估值

头条要闻

面对中方强硬态度 世界杯中国转播费从3亿美元腰斩

头条要闻

面对中方强硬态度 世界杯中国转播费从3亿美元腰斩

体育要闻

那个曾让詹姆斯抱头的兄弟,40岁从大学毕业了

娱乐要闻

大S女儿玥儿开通账号,用烟花缅怀母亲

财经要闻

白酒大逃杀

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

教育
健康
手机
亲子
公开课

教育要闻

小升初必考!梯形面积的计算技巧!

干细胞能让人“返老还童”吗

手机要闻

W18周:苹果第五,OPPO第二,vivo第三

亲子要闻

我有的是办法

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版