三个模型差点被误判报废，问题出在隐藏的思考模式|调用|基准|kimi|token|人工智能模型|minimax

三个模型差点被误判报废，问题出在隐藏的思考模式

2026-05-11 11:49:26　来源: 硅屿手记

北京举报

分享至

一次基准测试，Kimi K2.5得分10%，MiniMax M2.5得分15%，Gemma 4直接报错。作者几乎要把它们踢出候选名单——结果发现问题根本不在模型，而在调用方式。

这是Vilius Vystartas在2026年5月的真实经历。他原本想测试一批新模型的代理任务能力，却花了整个上午排查"故障"。最终发现，三个模型都没坏，只是默认开启了"思考模式"，在输出答案前就耗尽了token预算。

症状：空回复与超长耗时

Kimi K2.5的表现最诡异：每次返回正好300个token，内容却全是空的。日志显示finish_reason为length——模型还没开始写答案，预算就用完了。

MiniMax M2.5更极端。某个任务跑了88分钟，吞掉98000个token，作者只能手动终止。Gemma 4则干脆拒绝服务，每个请求都返回HTTP 400错误。

根因很快锁定：这三款模型默认启用了内部思维链推理。每个请求都会先"默默思考"一轮，消耗大量token后才开始正式输出。当max_tokens设为300时，留给答案的空间已经归零。

修复：每家参数各不同

关闭思考模式的方法因模型家族而异，没有统一标准：

Kimi K2.6（注意版本已迭代）需要传入reasoning: {"effort": "none"}，这能彻底禁用内部推理，零思考token消耗。

MiniMax M2.7（同样已更新版本）用include_reasoning: false，但这只是隐藏思考过程不让用户看见，模型内部仍会烧掉约400个token。必须把max_tokens提到2000才够用。

Gemma 4的坑在模型ID命名：需要带-it后缀，26B变体还要加-a4b。参数名倒是和MiniMax一样用include_reasoning: false，但作者之前根本没走到调参数这一步，因为ID错误直接400了。

修正后成绩翻天覆地：Kimi K2.6从10%跳到75%，MiniMax M2.7从15%升到60%，Gemma 4 31B从"无法连接"直接拿下80%——全场第二。

MiniMax的隐藏实力

在它能完成的6个任务上，M2.7得分97.2%，超过Claude Sonnet 4。这是该基准测试中的单任务最高分。

但致命伤无法忽视：它40%的任务会直接失败。强制内部推理无法关闭，输出预算被提前耗尽，导致模型空转。作者的评价很直接： brilliant model you can't rely on—— brilliant model you can't rely on。

这个矛盾揭示了一个行业现实：模型能力与应用可靠性是两回事。实验室分数漂亮，不代表能塞进生产管线。

排查清单：当基准成绩异常时

finish_reason:length加上空内容，等于思考模式在吞噬预算。优先尝试reasoning: {"effort": "none"}或include_reasoning: false。

全量HTTP 400先查模型ID。后缀-it、-a4b、-preview这些变体命名很容易踩坑。

分数低但输出存在，可能是模型话太多而非答错。检查它是否无视了"只输出代码"之类的指令约束。

单个任务耗时/耗token是其他任务的50倍以上，说明该模型在这类任务上有病理性思考循环。这是数据特征，不是bug。

作者把完整结果放在benchmarks.workswithagents.dev，每晚更新。18款模型的对比数据里，藏着更多类似的调用陷阱。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

汽车要闻

手机 / 数码

房产 / 家居

三个模型差点被误判报废，问题出在隐藏的思考模式

腾讯一季度营收1964.6亿元 同比增9%

美国总统时隔9年再次访华 特朗普抵达北京

美国总统时隔9年再次访华 特朗普抵达北京

14年半，74万，何冰娇没选那条更安稳的路

白鹿掉20万粉，网友为李晨鸣不平

美国总统特朗普抵达北京

C级纯电轿跑 吉利银河"TT"申报图来了

态度原创

乾隆 “翻车” 名画刷屏！

内在自叙，无域有方

九州风神玄冰600单塔散热器新增ARGB版本，119元起

见义勇为的小工程车

腾讯一季度营收1964.6亿元同比增9%

美国总统时隔9年再次访华特朗普抵达北京

美国总统时隔9年再次访华特朗普抵达北京

C级纯电轿跑吉利银河"TT"申报图来了