小模型逆袭：Mistral定理证明AI击败Anthropic旗舰|数学|推理|mistral|anthropic

小模型逆袭：Mistral定理证明AI击败Anthropic旗舰

2026-07-06 02:35:41　来源: 薛定谔的BUG

北京举报

分享至

周四深夜，一位做嵌入式系统的开发者正对着测试脚本挠头——第无数次因为一个边界条件没覆盖，上线的前一晚又得重跑全量回归。手机忽然弹出一条开源动态，他扫了一眼，直接切了屏幕：Mistral发布了一个叫 Leanstral 1.5 的模型，专攻形式化定理证明，性能指标盖过了 Anthropic 的 Opus 4.6。用他的话说，“这不只是另一种聊天机器人，这是能写可验证数学证明的推理引擎。”

这一周，Mistral AI 的这枚“静默弹”并没有走“更大更强”的路子。Leanstral 1.5 只为 Lean 4 这门证明助手语言而生，直接对标 FLTEval 基准。结果很干脆：单次尝试通过率（Pass@1）达到 28.9%，相比初代版本的 21.9% 跳了一截；八次采样通过率（Pass@8）冲到 43.2%，把 Opus 4.6 的 39.6% 甩在身后。更关键的是，所有这些证明都由 Lean 4 的内核自动完成校验，逻辑链条里容不下半点想象——换句话说，这里没有模型“编故事”的空间，每一行推导要么完全正确，要么直接被机器拒绝。

为什么一群人对一个数学基准的通过率格外兴奋？因为这和写作文、画图不一样。Leanstral 干的是硬核的形式推理：指定一个定理，它输出一串从公理出发的严格推演，每一个步骤都被形式化语言锁死。就比如要证明“两个奇数的和是偶数”，模型不会输出含糊的自然语言解释，而是用 Lean 4 环环构造加法交换律、单位元等证明项，再由系统验证项的类型是否匹配。这种模式带来的零幻觉特性，恰好击中了眼下对 AI 可信性的焦虑——你可以不服模型的结论，但如果内核校验过，那就是真的。

跳出数学的小圈子，Leanstral 1.5 印证了一个更广的趋势：小体量、聚焦单一领域的模型，可以在特定任务上碾压通用大厂数倍参数量的产品。Mistral 没有堆万亿级参数，而是针对形式推理这块压缩出一套紧凑架构，效果不降反升。对于把形式验证工具（Lean、Coq、Isabelle 等）往生产级软件测试流程里推的团队来说，这个信号尤其强烈。一个能自动写出可验证证明的模型，等于给编译器提前塞了一整套自我检查能力——将来可能出现变更提交即触发形式化验证，在编译时就把低阶 bug 拦下来，而不是靠跑几十遍测试用例。

伴随模型一起放出的还有 FLTEval 评测全集的完全开源，模型权重在 Hugging Face 上随手可得，消费级显卡就能跑。Mistral 用这一套组合拳表明，开源社区拿到的不只是分数，而是可以直接复现、可迭代的工程地基。

当然，Leanstral 1.5 代替不了那些帮你写邮件的聊天机器人。但对任何在乎“可证明正确”的软件、经得起机器检验的数学，或者盯着 AI 推理底层逻辑的人来说，这个周三的发布确实值得多看两眼。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.