说一个很多人可能不知道的事。
在国产大模型里,MiniMax的编程能力其实一直挺能打的。很早之前,当其他产品还在依赖单模型的代码能力时,MiniMax就用上了Agent形态的编码——不仅能输出代码,还能自动检测代码、自动测试并修复bug。
只是这家公司一直比较低调。
最近他们更新了M2.5。我看了一眼参数——激活参数量只有10B。但官方定位是:编程与Agent性能对标Claude Opus 4.6级别。
10B对标Opus?
说实话,这话要是别的模型说的,我可能直接划走了。但MiniMax在编程这个方向上确实有积累,我决定认真测一次。
方向选了游戏开发。原因很简单——游戏是编程能力的综合考场。图形渲染、状态管理、碰撞检测、AI逻辑,一个都躲不掉。做不了假。
测下来,还真做出来了几款效果不错的游戏。
第一关:太空突袭——纯代码能画出什么画面
先拿一个射击游戏试试水。
《太空突袭》是一款2.5D战争射击游戏,玩家驾驶太空战机与外星侵略者激烈空战。包含了10个精心设计的关卡,每关配备独特的BOSS,从"铁甲统领"到终极"神皇",难度逐步升级。Boss拥有不同的攻击模式——单发、双发、扩散、爆发、导弹、混沌、虚空、歼灭、启示录、神罚等等。
游戏最大的亮点就是用纯代码没有提供任何图片素材的方式,实现了不错的图形绘制效果。玩家驾驶的战机,还有敌方的战机以及关卡的boss各类子弹的形态,子弹升级之后的形态以及道具系统全都有不错的视觉表现。
游戏系统也非常丰富:五级武器升级系统、三种道具(武器、生命、护盾)、30%道具掉落率增加随机性。游戏难度并不低。
这款游戏正是使用MiniMax-M2.5模型完成开发的,基于HTML5 Canvas和原生JavaScript构建,采用模块化面向对象架构,将粒子系统、子弹管理、道具系统、玩家操控、敌人AI、BOSS行为等拆分为独立类,通过update()与draw()分离数据更新与画面渲染。
3D星空背景利用视差原理实现伪三维效果,所有游戏元素均通过Canvas API纯手工绘制,包括渐变填充、阴影光晕、坐标变换等高级渲染技术。
关卡与BOSS配置采用数据驱动设计,十种BOSS各有独特的攻击模式和绘制逻辑。碰撞检测、状态机管理、本地存储等功能一应俱全。MiniMax-M2.5能够完整解析这套复杂游戏架构,精准还原所有视觉元素与游戏机制。
第一个案例就有点超出预期。纯代码、没有任何图片素材,画面能做到这个水平——基本功扎实:
![]()
第二关:极限跑酷 3D——从2D到3D
2D射击搞定了,我想加点难度。3D呢?
极限跑酷是一款基于 Three.js 引擎开发的 3D 游戏,采用赛博朋克风格的霓虹夜景作为游戏背景。拥有完整的模块化代码架构,分为配置、初始化、游戏逻辑和样式四个文件,500+ 行代码。
核心玩法采用自动奔跑配合手动操作的方式,玩家通过方向键或 A/D 键左右移动躲避障碍,空格键跳跃跨越地形。游戏内置四种障碍物:尖刺、栏杆、岩石、木箱,以及五种道具——加速、护盾、磁铁、无敌状态、金币翻倍等。
关卡设计包含 10 个难度递进的阶段,难度随时间递增。
3D跑酷用纯前端来实现,难度和2D完全不是一个量级。Three.js的场景搭建、光影渲染、碰撞检测,都需要模型对3D图形编程有比较深的理解。M2.5处理得挺干净,赛博朋克的霓虹风格也做得有模有样。
![]()
到这里两个游戏测下来,前端基本功确认没问题。但这还只是"能打"的门槛——真正拉开差距的,是接下来这个。
第三关:三国战棋——从前端到全栈的关键一跃
前两个游戏都是纯前端。能写好前端代码的模型现在不少,但我更想知道的是:M2.5能不能跨过前端的边界?
先看基础版本。这是一款炉石传说类的战棋游戏,同时融入了三国武将的背景信息:
到这里,三国战棋还只是一个纯前端的网页游戏。
![]()
但我决定加码。
M2.5这次更新在前后端全栈开发、包括数据库开发上,都有明显的进步。所以我直接把这款游戏做了一次完整的全栈改造——加后端API,加SQLite数据库。
改造完成后,用户可以通过后端管理界面手动添加卡牌,使游戏整体的卡牌资源变得非常丰富。
![]()
填写所有信息之后,并点击添加按钮,就能够在卡牌列表中看到这张牌的信息了。后续在游戏过程中也可以抽取到这张卡牌。
![]()
在数据库中也可以正确的看到这张卡牌的信息。
![]()
整个改造过程一次就成功了,基本没有发现bug。
这个结果让我有点坐直了。
全栈改造涉及的不只是"多写几个接口"——API设计、数据库建表、前后端联调、数据一致性,任何一个环节出问题都会卡住。M2.5一把过,说明它对前后端架构的理解是完整的,不是只会写前端花架子。
这里只用三国战棋做了全栈测试。但实际上,在其他游戏中增加存档功能、排行榜永久留存功能,按这个表现来看完全可以实现。
彩蛋:社群点名小工具——换个语言试试
游戏测完了,最后换个完全不同的方向。
除了游戏之外,MiniMax-M2.5在开发其他产品上也表现得不错。我随手做了一个AI编程社群内的点名小工具。
这个工具需要在macOS上使用,但我不想做成传统的点名工具,我希望它更有趣一些。
所以我的设想是:打开产品后,有一个可以被拖拽的选区,选区确定之后点击鼠标左键,在选区内部就会出现一个红色小球,小球在做随机弧线运动之后,停留在选区内的一个点上。
这样我就可以把这个工具和微信群结合起来,使用选区选择群成员头像的区域完成点名。
这个小工具是使用苹果开发语言Swift实现的,整体的开发过程非常快。
这个case的意义不只是工具本身——从JavaScript到Swift,从Web到macOS原生应用,换了编程语言、换了平台,M2.5依然能稳定输出。模型的语言泛化能力确实不错。
这个小工具是使用的苹果开发语言实现的,整体的开发过程不超过10分钟,甚至没有安装Xcode的需要的时间长。
如果说前面的测试更多是在“结果层面”展示 MiniMax-M2.5 的能力,那么接下来,我想补充一些关于它底层技术架构上的优势——这些技术细节,才是它在编程与 Agent 能力上表现如此稳定的根本原因。
为什么能做到?聊两个关键的技术点
测完这些案例,我去研究了一下M2.5底层的技术架构。有两个点值得聊。
第一,它是为Agent而生的模型,不是后天改装的
很多模型的路径是"先训一个基座,再外挂Agent框架"。M2.5不一样,它从设计之初就采用了原生Agent RL框架。
说人话就是:它在底层就是为"多步骤、长链路的复杂任务"而设计的。
具体做法是通过引入中间层inference server,把训练推理引擎和Agent系统完全解耦。引擎只管处理token数据,Agent专注处理环境交互和上下文管理。这让M2.5可以适配国内外各类Agent框架、编程工具和开发脚手架,泛化性很强。
这也解释了为什么在测试中会有这种感受:它能稳定解析复杂的模块化结构,能跨文件理解架构,在前后端改造时也能保持一致性——因为模型本身就是按这种场景训练的。
同时,M2.5引入了过程奖励机制。不只看最终结果,整个生成过程都会被全链路监控。这对编程的意义很直接:长代码更稳定,多文件结构不容易跑偏,复杂逻辑不容易中途崩塌。
再加上工程层面的优化——比如把前缀相同的训练样本合并成前缀树,训练效率提升约40倍。这些东西普通用户看不到,但实际使用中能明显感觉到:长任务更稳,复杂任务更少出错。
第二,10B参数做到第一梯队,推理效率优势非常大
M2.5的激活参数量只有10B,在当前旗舰模型里是参数规模最小的之一。但编程与Agent性能上,确实能和Opus这个级别过招。
这意味着什么?推理速度快——官方数据支持100 TPS高吞吐量,速度达到Opus的3倍。私有化部署成本更低,显存占用更小。
说得直白一点:同级别的编程能力,更快、更省、更便宜。
对企业来说,这个优势非常实际。在Excel高阶处理、深度搜索调研、长文档摘要等高强度生产力场景中,M2.5不是玩票式支持,是冲着实际使用场景去优化的。
说说真实感受。
M2.5在编程上的表现超出了我的预期。尤其是全栈开发能力和Agent稳定性这两个方向,进步非常明显。10B参数做到这个水平,性价比没什么好挑的。
不足也有。复杂UI的设计审美和顶级旗舰模型比还有差距;特别长的任务链路中,偶尔也会出现需要纠正的理解偏差。但这些是可以持续优化的方向,不影响整体评价。
从这次测试来看,MiniMax在认真做一件事:不是做一个聊天很流畅的模型,而是做一个真正能干活的模型。
从2D到3D,从纯前端到全栈+数据库,从JavaScript到Swift——覆盖的场景不少,M2.5交出的答卷确实让我对国产模型在编程赛道上的竞争力多了不少信心。
如果你也对AI编程感兴趣,建议自己去跑一轮。测评看十篇,不如自己试一遍。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.