Mistral开源Leanstral 1.5：数学奥赛满分，代码自动揪出真实漏洞|代数|leanstral

Mistral开源Leanstral 1.5：数学奥赛满分，代码自动揪出真实漏洞

2026-07-05 02:47:42　来源: 薛定谔的BUG

北京举报

分享至

一个开源模型，拿下高中数学到奥赛难度的全部考题，顺手还能从开源库中捞出没人发现的溢出漏洞，这事真实发生了。Mistral AI近日把Leanstral 1.5放到了Hugging Face，附带免费API，用的还是Apache 2.0协议。它的专长不是聊天、不是写诗，而是对着数学证明和代码一行一行做形式化验证，在Lean 4编程语言里找逻辑裂缝。

形式化验证听起来门槛很高，说白了就是像裁判一样，用严格的逻辑规则检查每一步推导是否准确，数学证明能不能成立，软件会不会有隐藏错误。Mistral这次把这个能力全灌进了一个模型里。在数学基准miniF2F上，Leanstral 1.5直接拿了100%的正确率，题目覆盖从高中到数学奥林匹克难度。换到更考验功力的PutnamBench，672道来自Putnam数学竞赛的题目，它解出587道。抽象代数方面，FATE‑H和FATE‑X两项专门测试硕士、博士级别群论、环论任务的基准，也分别给出了87%和34%的顶尖成绩。这些数字放在一起，说明模型不是只背了题，而是在代数推理这一整套链条里跑通了。

更有意思的是代码验证那一半。虽然训练目标是数学，Leanstral 1.5在面对真实代码时照样顶用。Mistral公开的实验里，它一口气扫了57个开源仓库，从里面揪出5个此前没人发现的bug，其中一个出现在Rust的varinteger库，是个溢出问题。这类bug拖着不修，随时可能在线上环境崩出一地鸡毛。开源的模型能替开源项目自动查错，相当于给社区加了一条免费的防线。

技术路线也不复杂：中期训练、监督微调再加强化学习，把形式验证这个原本偏学术的领域，往实用方向推了一大步。对做数学研究的人，这是随时可调用的证明助手；对写关键系统的开发者，这是能跑在管线里的自动化督察。一个模型同时踩稳数学和代码两条船，还坚持开源，让人好奇接下来它还会翻出哪些藏在复杂逻辑深处的老漏洞。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.