深度测评 MiniMax M3，能打但不贵|草图|代码|上下文|minimax

深度测评 MiniMax M3，能打但不贵

2026-06-15 18:44:32　来源: 苍何

湖北举报

分享至

这是苍何的第 548 篇原创！

大家好，我是苍何。

其实在 MiniMax M3 模型刚发布的时候就看到 Vercel CEO 发过一条帖子，说 M3 在 Next.js 的 AI Coding Agent 评测中仅次于 Opus 和 GPT5，但价格便宜了 10 倍。

当时就一直想做下测试，但后来出差加一堆的事情就没来得及，所以这篇文章也拖到现在才发。

我上来就用自己的开源项目 WeSight 里的 Claude Code 快速接入了 MiniMax M3。

刚好最近 WeSight 积了不少 issue，干脆先让 M3 试试能不能自主修复。

说一下背景，WeSight 目前有 954 个工程文件，16 万多行代码，是个真实的工程化项目，不是那种 demo 级别的玩具仓库。

配置好 M3 后，我直接把 issue 链接丢给它，开启 plan 模式，先让它分析项目代码，再想办法修复。

M3 花了一些时间获取项目上下文后，开始自行调用技能去拉 GitHub issue 信息。

这里有个小细节值得单独说。M3 拿到 Issue 后没有上来就蛮干，而是先做了任务分解，判断当前有哪些工具可用，然后定了一套降级策略，gh CLI 优先，失败走浏览器抓取，都不行再向用户要内容。这其实就是 Agent 领域里的 Plan-then-Execute 范式，先规划再执行，遇到阻塞还能自己绕路。

这种能力在简单任务里看不出差距，但任务链一旦拉长，模型会不会主动规划、能不能自己做容错，直接决定了最终产出能不能一次跑通。

而且你会发现，M3 最终选择的是浏览器抓取，而不是 gh CLI。因为这个 issue 里有附件，gh issue view 对附件和 Markdown 渲染的支持不如网页直观，M3 自己判断出来并切换了方案。

耗时 9.5 分钟后，bug 修复完成，修改 12 个文件及 2 个核心文件。

修改完代码 diff 后，完成了 449 测试用例的验证通过。

然后我还让 Codex 的 GPT 5.5 做了下 Code Review。指出了一两个小问题，我又让 M3 来修复。

经过 1 轮的 Code Review 和修改后，重新打包，发现已经修复这个 bug 了。

然后让 M3 自己推送代码到 GitHub，然后自动回复和关闭 issure。

我发现用 M3 来写代码，然后用 Claude Opus 和 GPT 5.5 来做对抗式 Code Review，效果很不错，而且还省 token 啊，性价比拉满，毕竟后两玩意太贵。

聊完 Coding Agent，咱换个赛道。

听说 M3 的 3D 效果挺猛，我顺手把它和 DeepSeek-V4-Pro 都接进了 Hermes，丢同一个 Prompt，让它们用 Three.js 各自渲染一版 3D 城市街道。

Prompt 是这个。

●●●生成一个单文件 HTML 页面，使用 Three.js（通过 CDN 引入），渲染一个 3D 可交互的城市街道场景。要求：1. 有一条可行驶车辆的沥青马路，包含车道线、斑马线；2. 马路两侧有多层建筑，建筑窗户有纹理和灯光效果；3. 人行道上有路灯、树木、长椅等街道设施；4. 有环境光和定向阳光，并开启阴影；5. 支持鼠标拖拽旋转视角（OrbitControls），滚轮缩放；6. 所有几何体和纹理必须程序化生成，不能使用外部图片资源；7. 画面要有科技感，夜晚/白天模式可切换。

先来看 MiniMax M3 的效果。

不瞒你说，M3 第一眼给我的感觉就是，交互做得到位。

昼夜联动、小车速度交互、时间、车速、雾气、昼夜四个控制按钮一个不落。左下角还贴心地放了实时 FPS、建筑数量、光源数量的状态面板。

更细的地方还在后面。

车头灯用了 SpotLight + target 做真实投射光，尾灯是 emissive 红色，建筑天线点缀着红色闪烁灯。路灯做了点光源加微闪烁，模拟那种真实路灯的不稳定感。树冠用三层球体堆叠，加了随机偏移防对称。

不过建筑细节和阴影比较粗糙，天空和夜晚效果一般，算是个小遗憾。

再来看 DeepSeek-V4-Pro 的效果。

DeepSeek-V4-Pro 这版完成度也能打。

道路、建筑、灯光、树木、长椅、霓虹牌和昼夜切换全都搭起来了，视觉氛围拉满，程序化纹理让细节加分不少。

它更偏视觉呈现，交互上相对克制，能调的参数有限。白天光照有点过曝，我翻了下代码，部分函数参数没真正用起来。

我看大家都在说 M3 的原生多模态表现不错，我测试了一个 Sketch-to-UI 的场景。

我随手画了一张电商商品详情页的草图，塞了商品图轮播、价格区、规格选择、加购按钮、详情 Tab 这些常见模块。

然后给两个模型发了同样的 Prompt。

●●●我画了一张电商商品详情页的草图，请根据这张图片生成一个可运行的单文件 HTML 页面。
要求：1. 识别草图中的所有组件和布局；2. 使用 TailwindCSS 美化，尽量还原草图结构；3. 商品图支持轮播切换，规格选择有选中状态反馈；4. 加入购物车按钮需要有交互反馈（例如点击后数量变化或提示）；5. 页面需要是响应式的；6. 所有资源内联，单文件即可运行。

MiniMax M3 的输出。

M3 对草图的理解依然在线。

商品图轮播、价格标题、规格选择、加购按钮、详情 Tab、底部推荐，全都识别到位。轮播切换、规格高亮、加购提示条这些交互也顺手补齐了。

最让我意外的是，它把我画得很潦草的背包，直接给还原成了实际效果。

这种「看懂线条 + 补全行业默认交互」的能力，做前端原型真的省心。

最后一个 case，压一压极限，超长上下文 + Agent 长任务。

我直接搬来一份 ZF 工作报告，让两个模型跑同一个多步骤的政策分析任务。

Prompt 是这个。

●●●你是一名顶级产业分析师。请对我提供的政策文件进行对比分析，重点识别与上一版本相比的新增内容、删减内容、表述变化和政策升级方向，找出真正的边际变化。随后从投资视角推演政策影响路径：**政策变化 → 行业影响 → 产业链传导 → 细分赛道 → 受益公司**，分析哪些赛道获得增量支持、哪些机会存在预期差、哪些公司可能受益最大。不要复述文件内容，而要解释政策变化背后的意图、市场容易忽略的信号以及未来可能产生的产业影响，并以图表和HTML方式呈现结论。

MiniMax M3 的输出报告。

可以看到 M3 在这个任务上的表现很不错，细节处理相当到位。

拿 2026 年和 2025 年两版报告做了逐条对比，识别出 13 个维度的边际变化，推演了完整的投资传导路径，还附带 9 张可视化图表和四层受益标的矩阵，30+ 标的逐一拆解。

从核心判断到 13 个细分维度的边际变化，5 个市场容易忽略的隐性信号，再到 12 个赛道的政策红利强度评分，最后落到风险提示和操作建议。一份能直接给投研团队参考的报告，它一次就跑出来了。

再看 DeepSeek-V4-Pro。

DeepSeek-V4-Pro 也拆得不错，速度还更快，政策边际变化对比表、产业链传导路径图、细分赛道受益热力图该有的都有。只是维度上没 M3 铺得开，一些细分赛道的深度拆解也相对浅一些。

金融长文档 + Agent 长任务这种场景，M3 在输出结构和引用规范上更稳，几百页文档多步骤提取一次跑通的概率更高。DeepSeek-V4-Pro 的优势在速度，响应更跟手。

金融场景天然就是长文档、多步推理、高频跑量，模型需要做「边际变化识别→产业链传导→细分赛道映射」，M3 的细节表现会更好一些。

所以，对于需要高频处理研报、招股书、政策文件的金融场景来说，M3 更为适合，性价比更高。

几个 case 跑完，我整体感受是，M3 和 DeepSeek-V4-Pro 各有侧重，但 M3 在多模态理解、Agent 长任务稳定性和交互细节上，确实有自己的东西。

瞅一眼官方的 OSWorld，M3 在 Computer Use、多模态这几个评测里，成绩还真不赖。

而且 M3 还是开源的。

价格这块也值得提一嘴。从 M2 到 M3，MiniMax 在定价上一直很克制，同等能力水平下基本是全球旗舰模型里最实惠的那个。对开发者来说，这意味着你可以放心地把它塞进生产环境跑量，不用一边调 API 一边心疼账单。

一边是大洋彼岸的闭源模型死贵还各种限制，一边是国内团队在卷能力卷开源，想办法让更多人用上好模型。讲真的，AI 不应该是少数人的特权，它应该是所有人的工具。

国产开源模型，是真在卷出花来了。

你跑过 M3 没？效果咋样，评论区唠唠。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.