网易首页 > 网易号 > 正文 申请入驻

三个模型差点被误判报废,问题出在隐藏的思考模式

0
分享至

一次基准测试,Kimi K2.5得分10%,MiniMax M2.5得分15%,Gemma 4直接报错。作者几乎要把它们踢出候选名单——结果发现问题根本不在模型,而在调用方式。

这是Vilius Vystartas在2026年5月的真实经历。他原本想测试一批新模型的代理任务能力,却花了整个上午排查"故障"。最终发现,三个模型都没坏,只是默认开启了"思考模式",在输出答案前就耗尽了token预算。


症状:空回复与超长耗时


Kimi K2.5的表现最诡异:每次返回正好300个token,内容却全是空的。日志显示finish_reason为length——模型还没开始写答案,预算就用完了。

MiniMax M2.5更极端。某个任务跑了88分钟,吞掉98000个token,作者只能手动终止。Gemma 4则干脆拒绝服务,每个请求都返回HTTP 400错误。

根因很快锁定:这三款模型默认启用了内部思维链推理。每个请求都会先"默默思考"一轮,消耗大量token后才开始正式输出。当max_tokens设为300时,留给答案的空间已经归零。

修复:每家参数各不同

关闭思考模式的方法因模型家族而异,没有统一标准:

Kimi K2.6(注意版本已迭代)需要传入reasoning: {"effort": "none"},这能彻底禁用内部推理,零思考token消耗。

MiniMax M2.7(同样已更新版本)用include_reasoning: false,但这只是隐藏思考过程不让用户看见,模型内部仍会烧掉约400个token。必须把max_tokens提到2000才够用。

Gemma 4的坑在模型ID命名:需要带-it后缀,26B变体还要加-a4b。参数名倒是和MiniMax一样用include_reasoning: false,但作者之前根本没走到调参数这一步,因为ID错误直接400了。

修正后成绩翻天覆地:Kimi K2.6从10%跳到75%,MiniMax M2.7从15%升到60%,Gemma 4 31B从"无法连接"直接拿下80%——全场第二。

MiniMax的隐藏实力


在它能完成的6个任务上,M2.7得分97.2%,超过Claude Sonnet 4。这是该基准测试中的单任务最高分。

但致命伤无法忽视:它40%的任务会直接失败。强制内部推理无法关闭,输出预算被提前耗尽,导致模型空转。作者的评价很直接: brilliant model you can't rely on—— brilliant model you can't rely on。

这个矛盾揭示了一个行业现实:模型能力与应用可靠性是两回事。实验室分数漂亮,不代表能塞进生产管线。

排查清单:当基准成绩异常时

finish_reason:length加上空内容,等于思考模式在吞噬预算。优先尝试reasoning: {"effort": "none"}或include_reasoning: false。

全量HTTP 400先查模型ID。后缀-it、-a4b、-preview这些变体命名很容易踩坑。

分数低但输出存在,可能是模型话太多而非答错。检查它是否无视了"只输出代码"之类的指令约束。

单个任务耗时/耗token是其他任务的50倍以上,说明该模型在这类任务上有病理性思考循环。这是数据特征,不是bug。

作者把完整结果放在benchmarks.workswithagents.dev,每晚更新。18款模型的对比数据里,藏着更多类似的调用陷阱。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
女子结婚不到一周,却因摩洛哥新娘视频导致离婚

女子结婚不到一周,却因摩洛哥新娘视频导致离婚

映射生活的身影
2026-05-12 12:13:28
75岁姜昆近况:与46岁单身爱女相依为命,日子过得让人羡慕

75岁姜昆近况:与46岁单身爱女相依为命,日子过得让人羡慕

娱说瑜悦
2026-04-04 15:38:01
48岁欧阳夏丹现状:离开央视,被教授邀请现身挪威,至今未婚未育

48岁欧阳夏丹现状:离开央视,被教授邀请现身挪威,至今未婚未育

白面书誏
2026-05-07 17:50:08
55岁胡兵逛山姆!身姿挺拔气场十足,满脸沧桑依旧帅气

55岁胡兵逛山姆!身姿挺拔气场十足,满脸沧桑依旧帅气

人间烟火记事本
2026-05-01 06:37:25
女演员千万别整容,看央视《主角》观众对秦海璐的评价,就懂了

女演员千万别整容,看央视《主角》观众对秦海璐的评价,就懂了

陈述影视
2026-05-11 23:58:30
夏天不建议买的5种蔬菜,不仅没营养还伤身体,菜贩自己都不吃

夏天不建议买的5种蔬菜,不仅没营养还伤身体,菜贩自己都不吃

芹姐说生活
2026-05-13 19:12:39
特朗普空中发文: 能够与众多的杰出人士,一同前往伟大的中国,是我的荣幸,民调显示:美民众对中美关系稳定发展期待值回升

特朗普空中发文: 能够与众多的杰出人士,一同前往伟大的中国,是我的荣幸,民调显示:美民众对中美关系稳定发展期待值回升

每日经济新闻
2026-05-13 18:12:05
梦百合杯,中国棋手大胜韩国,小鹿淘汰金恩持,於之莹进本赛

梦百合杯,中国棋手大胜韩国,小鹿淘汰金恩持,於之莹进本赛

月满大江流
2026-05-13 10:47:58
男生到底要不要割包皮?网友说割了干净、脱敏还持久!

男生到底要不要割包皮?网友说割了干净、脱敏还持久!

黯泉
2026-05-13 19:11:32
U17女足主帅马晓旭:朝鲜队实力很强,她们是卫冕冠军

U17女足主帅马晓旭:朝鲜队实力很强,她们是卫冕冠军

懂球帝
2026-05-13 17:31:04
食堂阿姨偷偷给贫困生多打菜,被同学举报后开除,次日接到局里电话

食堂阿姨偷偷给贫困生多打菜,被同学举报后开除,次日接到局里电话

罪案洞察者
2025-11-03 13:59:03
首架出口型歼-35亮相,买家并非巴基斯坦

首架出口型歼-35亮相,买家并非巴基斯坦

心灵的触动a
2026-05-11 06:54:26
心理学上说:如果一个人对家人不耐烦、易发火,对外人却客客气气、够温和,不是本性凉薄,根源无外乎有两点

心理学上说:如果一个人对家人不耐烦、易发火,对外人却客客气气、够温和,不是本性凉薄,根源无外乎有两点

心理观察局
2026-05-12 09:06:23
抢在接机前,特朗普随行名单又变,马斯克回归,黄仁勋被自己坑了

抢在接机前,特朗普随行名单又变,马斯克回归,黄仁勋被自己坑了

比利
2026-05-13 14:21:24
结婚3年因不孕被前夫抛弃,上司说我娶你,结婚3个月后我怀双胞胎

结婚3年因不孕被前夫抛弃,上司说我娶你,结婚3个月后我怀双胞胎

千秋文化
2026-05-13 19:40:59
35岁女子去做私处紧缩,缝针断在肉里,医生徒手掏了半小时没找着

35岁女子去做私处紧缩,缝针断在肉里,医生徒手掏了半小时没找着

离离言几许
2026-04-21 19:53:18
55岁男子每天大便两三次,最后确诊为胰腺癌!6种异常别大意

55岁男子每天大便两三次,最后确诊为胰腺癌!6种异常别大意

芹姐说生活
2026-04-17 16:16:05
大伯出狱全家没人接,我开车去接他,他偷偷塞我一张卡说有1200万

大伯出狱全家没人接,我开车去接他,他偷偷塞我一张卡说有1200万

千秋文化
2026-05-09 20:08:48
东营市小清河管理服务中心七级职员贾志伟接受纪律审查和监察调查

东营市小清河管理服务中心七级职员贾志伟接受纪律审查和监察调查

闪电新闻
2026-05-13 14:11:18
80岁不管存款多少,记得提前给自己准备4样东西,建议了解

80岁不管存款多少,记得提前给自己准备4样东西,建议了解

小谈食刻美食
2026-04-27 07:57:04
2026-05-13 21:23:00
硅屿手记
硅屿手记
有态度网友ytd
4053文章数 22关注度
往期回顾 全部

科技要闻

腾讯一季度营收1964.6亿元 同比增9%

头条要闻

美国总统时隔9年再次访华 特朗普抵达北京

头条要闻

美国总统时隔9年再次访华 特朗普抵达北京

体育要闻

14年半,74万,何冰娇没选那条更安稳的路

娱乐要闻

白鹿掉20万粉,网友为李晨鸣不平

财经要闻

美国总统特朗普抵达北京

汽车要闻

C级纯电轿跑 吉利银河"TT"申报图来了

态度原创

艺术
家居
数码
亲子
公开课

艺术要闻

乾隆 “翻车” 名画刷屏!

家居要闻

内在自叙,无域有方

数码要闻

九州风神玄冰600单塔散热器新增ARGB版本,119元起

亲子要闻

见义勇为的小工程车

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版