网易首页 > 网易号 > 正文 申请入驻

AI Coding新王登场!MiniMax M2.1拿下多语言编程SOTA

0
分享至

  • 克雷西 发自 凹非寺
    量子位 | 公众号 QbitAI

MiniMax最新旗舰级Coding & Agent模型M2.1,刚刚对外发布了。

一边是港交所聆讯通过新进展,另一边新模型还在嗖嗖嗖上新——而且还SOTA了。

这一次,它直接甩出了一份硬核成绩单,在衡量多语言软件工程能力的Multi-SWE-bench榜单中,以仅10B的激活参数拿下了49.4%的成绩,超越了Claude Sonnet 4.5等国际顶尖竞品,拿下全球SOTA。



它试图解决的,就是此前模型身上严重的“学科偏科”问题。

所谓偏科,指的是过去的模型,写写Python脚本或Web前端页面表现还可以,可一旦涉及到后端架构,亦或底层逻辑,表现往往会出现断崖式下跌。

M2.1的核心进化,就在于它终于突破了这个难题,掌握了后端的开发规范。

M2.1的发布,也证明了MiniMax在推进上市流程的同时,仍保持着高频的研发节奏。

更懂底层,10B激活参数拿下SOTA

M2.1将对工程上下文的理解,转化为了对开发工具链的深度适配。它不仅能生成代码,更能熟练配合Cursor、Claude Code等主流编程工具,在存量代码库中执行精准的修复(Fix)或重构(Refactor)。

这意味着它不再是一个只会写新功能的菜鸟,而是一个能遵循既有架构规范、进行工程级操作的熟手。

具体来说,M2.1系统性提升了Rust / Java / Golang / C++ / Kotlin / Objective-C / TypeScript / JavaScript等语言的能力。

在WebDev与AppDev上,M2.1针对业界普遍存在的移动端开发短板,显著加强了原生Android / iOS开发能力。

另外,M2.1作为率先引入Interleaved Thinking的模型系列,不仅能关注代码执行是否正确,还能同时关注模型对“复合指令约束”的整合执行能力。

使用过程中,M2.1表现出了出色的泛化性,在Claude Code、Droid(Factory AI)、Cline等各类编程工具与Agent框架中均有出色表现。

为了验证上述能力在真实环境中的表现,MiniMax还构建并开源了全新的测试基准VIBE(Visual & Interactive Benchmark for Execution in Application Development),将考核维度从纯文本扩展到了Web、仿真、Android、iOS及后端五个领域。

M2.1最终取得了88.6的平均分,综合水准逼近Claude Opus 4.5。特别是在开发环境最为复杂的Android子项上,它跑出了89.7分,这为那些试图用AI解决原生客户端难题的开发者提供了一个具备说服力的数据参考。



特点说了这么多,MiniMax M2.1面对真实的编程任务表现究竟如何,接下来就真刀真枪地试上一试。

实测MiniMax M2.1

先看第一个案例——H5小游戏开发。

为了更真实地模拟实际开发过程中的场景,我们没有一次性提完所有需求,而是将开发过程分成了三个阶段逐步进行。

我们要写的是一个“星际弹弓”游戏,第一轮的目标是搭建出最基本的游戏界面和功能。



只用不到一分钟,MiniMax M2.1就完成了HTML架构、CSS属性和JS脚本的搭建。



实际运行结果也证明,M2.1设计的代码满足了prompt当中的所有要求。



当然,这样设计出来的游戏没什么难度,我们需要在这个基础之上增加一些额外设定,这便是第二轮的任务。



M2.1会读取已有代码和新的指令,在原有基础之上进行多轮次的修改。



结果页面当中也如期出现了“黑洞”,并且通过不断刷新可以发现,黑洞的大小和位置的确都是随机产生的。



接着进行试玩检验,球的确会受到黑洞的引力吸引,并且被吸入之后游戏自动结束。



这下难度确实上来了,但是好像又太难了,这种水多加面、面多加水的需求,也是实际开发当中经常遇到的情况,所以第三个阶段就是再引入一些新机制,降低一下难度,顺便再加一下视觉特效。



对照运行结果,逐一核对提示中的三点需求,确实都满足了。



这样这个“星际弹弓”游戏的开发过程就基本完成了,不过接下来还有一道加试题,用Python把这个程序重写一遍。

M2.1理解了网页版的程序逻辑之后,抓住了所要表达的内容,并最终成功实现了从前端到Python的代码迁移。



接下来我们换一种语言,测试一下最新模型的后端开发能力。

过去的模型一直按照前端思路在写后端代码,造成的结果就是实际跑不通或者并不实用,但实测M2.1之后,感觉后端这块硬骨头确确实实被啃下来了。

正好最近量子位官网后台需要更新升级,我们就选择了主流开发语言Java,实现的功能是权限设计体系。这是每个系统必不可少的体系,也是面向Agent大规模落地,从业者认为需要重新设计的关键部件。

因为这是一项系统任务,而非小修小补,所以我们没有选择直接用提示词去生成代码,而是先让模型根据需求输出了一份设计文档,接着再根据设计文档去实现代码。



模型很快就输出了一份Markdown文档,内容非常详细,包括了权限设计需要实现哪些类。



类都包含什么方法和属性,属性的类型、方法的参数、返回值和注释……都写得很清晰。



同时还根据我的需求,把类之间的关系也写清楚了,在设计之初很好地利用了Java语言的继承特性。



最后也给出了几个数据库表设计的建议,定义好了需要哪些字段和对应属性,看下来有没有感觉比你那个不写文档的同事还好用(Doge)?



接下来我们回到和模型的对话,让它根据它自己写的设计文档,生成代码(doge)。

模型生成的速度依然很快,输出的项目包结构很清晰,分好了实体类、枚举和实现逻辑等,代码中也写清楚了注释。IDE的代码行数统计插件显示,这个小项目一共有1700多行代码,而我只花了不到一分钟时间,输入了两句话



接下来,我们又让M2.1给它配上一套UI界面。

结果非常惊喜,前面阶段所需的全部功能全都实现了。



再切换到低权限账号,能够进行的操作也匹配了一开始的设定。



总结下来呢,M2.1确实是在后端逻辑的设计上有两把刷子,能够完成一个项目从后端到前台的完整交付。

当然它在多语言支持上修炼的本领还不止如此,像Rust这样的小众语言,M2.1也进行了专门学习。

比如官方展示的案例当中,M2.1用Rust打造了CLI + TUI双模式的Linux安全审计利器,支持一键对进程、网络和SSH等关键项的底层扫描与智能风险评级。



而且针对业界普遍存在的移动端开发短板,M2.1显著加强了原生Android / iOS开发能力。

比如这个iOS桌面交互小组件,设计了“沉睡圣诞老人”点击唤醒机制,逻辑完整且具备原生级的交互动画效果。



MiniMax选择在此时发新模型,背后又有怎样的目的呢?

IPO前夕的硬核自证

在刚刚通过港交所聆讯这一微妙的时间节点,MiniMax选择发布M2.1,是一种无声的战略宣言。

外界往往因Talkie、海螺等爆款产品给这家公司贴上感性的标签,认为其长板在于语音和视频等多模态交互。

但MiniMax今年在M2、M2.1上接连发力,证明了文本模型的coding、Agent实力。

长期以来,行业内默认AI仅擅长Web前端或Python脚本等容错率高的任务,而M2.1通过对齐岗位上下文——比如真正理解Go语言的并发模型或C++的内存管理机制——打破了这一天花板。

M2.1同时也是MiniMax研发效率的一种具象化解释。招股书披露,公司成立至今仅消耗约5亿美元,便构建了全模态能力。

支撑这一效能的关键,在于其内部极高的“含AI量”——超过80%的代码已由AI完成。M2.1本质上就是这位在内部长期服役的“AI实习生”的能力外溢。

这种“内用转外售”的路径,意味着该模型在推向市场前,已经作为生产力工具支撑了385人团队的高强度迭代。

在流程高度AI化的背景下,MiniMax对AI原生组织产生了独特的理解——AI需要在更多岗位工种、更真实的生产场景中创造价值。

正是基于这种理解,才有了这个模型的诞生。

对于开发者而言,这或许比单纯的参数指标更具参考价值。

新模型展现的能力和价值,就是MiniMax最好的路演。

Talk is cheap,Show you Model~

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
林越做梦没想到,20年用心栽培的儿子,最终成了闫学晶的骄傲荣光

林越做梦没想到,20年用心栽培的儿子,最终成了闫学晶的骄傲荣光

阿雹娱乐
2026-01-05 11:39:44
大陆为何总是演习,迟迟不进攻台湾?看看金门岛战役就知道了

大陆为何总是演习,迟迟不进攻台湾?看看金门岛战役就知道了

策略述
2025-11-21 14:58:26
新加坡港吞吐量暴跌,中国50亿工程和海南布局,让其无力回天

新加坡港吞吐量暴跌,中国50亿工程和海南布局,让其无力回天

华山穹剑
2026-01-05 20:38:31
哈尔滨一栋荒废的别墅降价拍卖,拍出1715万元高价

哈尔滨一栋荒废的别墅降价拍卖,拍出1715万元高价

天天话事
2026-01-04 15:38:08
事件升级!司晓迪晒开房记录,16个男顶流被锤!内娱彻底玩完

事件升级!司晓迪晒开房记录,16个男顶流被锤!内娱彻底玩完

李橑在北漂
2026-01-05 23:29:53
中超转会动态:蓉城3名新援现身训练基地,保级队再官宣外援离队

中超转会动态:蓉城3名新援现身训练基地,保级队再官宣外援离队

中超伪球迷
2026-01-05 22:43:52
利好!多家A股公司宣布:业绩预计翻倍!

利好!多家A股公司宣布:业绩预计翻倍!

证券时报
2026-01-05 20:23:07
罗晋女儿颜值暴击!详娃娃脸蛋软萌,偏心老爸的样子萌化全网

罗晋女儿颜值暴击!详娃娃脸蛋软萌,偏心老爸的样子萌化全网

叨叨话影
2026-01-05 10:04:40
47岁梁静茹厦门开演唱会,脸肿腰粗还有双下巴,状态老到不敢认

47岁梁静茹厦门开演唱会,脸肿腰粗还有双下巴,状态老到不敢认

小咪侃娱圈
2026-01-05 10:11:16
凭什么310亿美元身家的马云,在浙江富豪榜上都只能排在第四?

凭什么310亿美元身家的马云,在浙江富豪榜上都只能排在第四?

流苏晚晴
2026-01-05 19:12:37
最高降4000元,小米正式官宣:1月5日,全品支持国补!

最高降4000元,小米正式官宣:1月5日,全品支持国补!

科技堡垒
2026-01-05 11:49:57
抖音第二总部今年启动开工建设,坐标深圳!

抖音第二总部今年启动开工建设,坐标深圳!

GA环球建筑
2026-01-06 00:06:37
天亮了?梅努姐姐公开庆祝阿莫林下课

天亮了?梅努姐姐公开庆祝阿莫林下课

球事百科吖
2026-01-06 05:03:38
美军突袭抓获马杜罗,三个细节值得关注

美军突袭抓获马杜罗,三个细节值得关注

中国能源网
2026-01-04 15:34:08
《2025年百城“盒区房”消费力报告》看见新兴城市消费力崛起

《2025年百城“盒区房”消费力报告》看见新兴城市消费力崛起

金融界
2026-01-05 11:30:04
这就是为什么体制内很少发朋友圈的原因

这就是为什么体制内很少发朋友圈的原因

夜深爱杂谈
2026-01-03 21:58:39
中国科学院院士警告称,中国论文热潮可能是一场“虚假繁荣”

中国科学院院士警告称,中国论文热潮可能是一场“虚假繁荣”

心中的麦田
2026-01-04 18:32:28
糖尿病去世的人越来越多!建议:2不喝、3不吃、1坚持,别马虎了

糖尿病去世的人越来越多!建议:2不喝、3不吃、1坚持,别马虎了

健康之光
2026-01-04 09:38:06
何炅,确认停更!

何炅,确认停更!

深圳晚报
2026-01-05 10:34:20
中日情况有变,日本急电特朗普,美驻华大使离京

中日情况有变,日本急电特朗普,美驻华大使离京

寥落如辰星
2026-01-06 04:04:44
2026-01-06 06:19:00
量子位 incentive-icons
量子位
追踪人工智能动态
11973文章数 176356关注度
往期回顾 全部

科技要闻

4100家科技企业集结赌城,CES揭开AI新战场

头条要闻

马杜罗庭审陈词:我是一个正派的人 是我们国家总统

头条要闻

马杜罗庭审陈词:我是一个正派的人 是我们国家总统

体育要闻

50年最差曼联主帅!盘点阿莫林尴尬纪录

娱乐要闻

《探索新境2》王一博挑战酋长岩

财经要闻

丁一凡:中美进入相对稳定的竞争共存期

汽车要闻

海狮06EV冬季续航挑战 "电"这事比亚迪绝对玩明白了

态度原创

时尚
家居
亲子
手机
教育

冬天穿衣其实很简单!上短下长、加点亮色,高级舒适又耐看

家居要闻

白色大理石 奢华现代

亲子要闻

氨溴索和氨溴特罗,有何区别?哪个更好?

手机要闻

1月Turbo混战,中端性能机你选哪个?

教育要闻

深圳学籍卡打印别急!3分钟轻松搞定

无障碍浏览 进入关怀版