网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

三个模型差点被误判报废，问题出在"思考模式"

2026-05-11 11:17:34　来源: 硅屿手记

北京举报

0

分享至

一次基准测试，三个模型得分不到15%。Kimi K2.5只有10%，MiniMax M2.5勉强15%，Gemma 4更是每次调用都返回HTTP 400错误。我差点把它们从候选名单里划掉，标记为"故障模型"。

但它们没坏。坏的是我的调用方式。

这篇文章记录了我踩过的坑，以及你在给自己的智能体系统选型时，如何避免同样的时间浪费。

空回复与超时：异常现象复盘

Kimi K2.5的10%得分是怎么来的？每次返回恰好300个token的空白内容。finish_reason显示为"length"——模型还没开始输出可见答案，token预算就已经耗尽。

MiniMax M2.5的情况类似，但更严重。某个任务跑了88分钟，消耗98000个token后，我被迫手动终止。Gemma 4则干脆拒绝所有请求，每次返回HTTP 400。

三个不同厂商的模型，三种不同的故障表现，根源却完全相同。

默认开启的"思考模式"

这些模型出厂即启用内部思维链推理。每个请求都会先静默"思考"，消耗大量token，然后才生成可见输出。当max_tokens设置为300时，思考过程就把额度吃光了，留给实际答案的空间为零。

问题在于，关闭这个功能的参数名称，三家各不相同：

Kimi K2.6需要设置reasoning: {"effort": "none"}，这会完全禁用内部推理，推理token归零。

MiniMax M2.7使用include_reasoning: false，但这只是隐藏思考过程不让用户看见，模型内部仍会消耗约400个token。必须把max_tokens提升到2000才够用。

Gemma 4同样用include_reasoning: false，但还要注意模型ID的格式——需要加-it后缀，26B变体还要加-a4b。

这些细节分散在各家的文档角落，没有统一标准。

修正后的排名逆转

调整参数后，成绩完全改观。Kimi K2.6从10%跃升至75%。MiniMax M2.7从15%提升到60%。Gemma 4 31B从"无法连接"变成80%——在所有18个测试模型中排名第二。

最意外的是MiniMax的隐藏实力。在它成功完成的6个任务上，M2.7得分97.2%，超过Claude Sonnet 4。这个模型在能正常输出时，表现是基准测试中的最佳水平。

但致命缺陷也在这里：它有40%的任务失败率。强制性的内部推理无法关闭，输出预算被提前耗尽，导致答案难产。这是一个 brilliance 与 reliability 无法兼得的案例—— brilliant model you can't rely on，作者如此评价。

四个自查信号

如果你的基准测试结果看起来不对劲，按以下顺序排查：

第一，finish_reason为"length"且内容为空。这是思考模式在吞噬token预算的信号。尝试reasoning: {"effort": "none"}或include_reasoning: false。

第二，全部HTTP 400错误。检查模型ID是否缺少后缀，-it、-a4b、-preview等变体标识容易被忽略。

第三，得分异常低但有实际输出。模型可能不是错了，而是话太多。检查它是否无视了"只输出代码"之类的指令。

第四，某个任务消耗量是其他的50倍。这说明该模型在这类任务上陷入了病态思考循环。这是有价值的数据，不是bug——记录下来，避开这个组合即可。

文档缺口与选型成本

作者为此浪费了一个上午调试参数，而这些信息本该出现在官方文档的显眼位置。对于正在为自己构建智能体技术栈的团队，这个教训很直接：先看推理配置，再跑完整基准。

完整测试结果覆盖18个模型，每日更新，地址见benchmarks.workswithagents.dev。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

拒绝大力出奇迹，PRISM框架让dLLM也能高效Test-Time Scaling

机器之心Pro 2026-05-11 14:28:29
0 跟贴 0
OpenClaw终于长出手和眼！Peter正式发布Peekaboo v3，一日三更

新智元 2026-05-11 18:33:09
199 跟贴 199

Agent评测的下半场：为什么需要一个「活的」Benchmark？

新智元 2026-05-11 13:08:40
0 跟贴 0

13年不写代码，5天花200美元重建400万美元产品——YC掌门人是怎么做到的？

华尔街见闻官方 2026-05-11 10:52:07
14 跟贴 14
字节砍掉30%的AI项目？背后的真假与焦虑

钛媒体APP 2026-05-11 18:15:28
43 跟贴 43

豆包付费是字节整理Agent生态的开始

钛媒体APP 2026-05-11 17:00:17
0 跟贴 0

1美元Token撬动4800美元收益!百万美元级基准,最赚钱Agent出现了

机器之心Pro 2026-03-10 10:06:03
0 跟贴 0
Suno不再是唯一答案，企业开始选择这个国产AI音乐

机器之心Pro 2026-05-11 14:24:35
1 跟贴 1

别再把长文切碎了，HiLight让AI直接在原文里划重点

机器之心Pro 2026-05-11 10:39:41
0 跟贴 0
破案不靠推理，全靠罪犯自露马脚

雨沫剪影 2026-05-11 08:01:07
1 跟贴 1
普惠XA103自适应发动机达成关键就绪节点

看航空 2026-05-11 17:11:19
1 跟贴 1
别卷推理了！当前大模型 STEM 短板在视觉感知，代码才是破局关键

机器之心Pro 2026-05-11 11:53:59
0 跟贴 0
估值200亿美元？快手是否会分拆可灵AI

华尔街见闻官方 2026-05-11 21:35:41
0 跟贴 0
宝通科技拿下AniShort海外独家代理权 AIGC工具与Token出海双线突破

财联社 2026-05-11 10:48:04
0 跟贴 0
中国AI 2.0：应用为先，变现为王

华尔街见闻官方 2026-05-11 16:15:09
4 跟贴 4
清华硕士智力测验仅25分，智商中下却学业事业双优，真相发人深省

今朝牛马 2026-05-11 22:19:48
1 跟贴 1
特斯拉Model Y成首款通过美国全新驾驶辅助安全基准的车型

cnBeta.COM 2026-05-09 15:25:02
17 跟贴 17
清华女硕士参与瑞文推理智力测验100分仅得25分，这是什么情况？

之乎者也小鱼儿 2026-05-11 12:18:35
3 跟贴 3
游戏AI如何下棋：从Minimax到Alpha-Beta剪枝

硬核玩家2哈 2026-05-11 11:52:47
0 跟贴 0
乌海采石场、破碎筛分线粉尘治理难？袋式除尘器选型+安装是关键

恭贺发财 2026-05-11 13:30:11
0 跟贴 0
从参数到外观：汽车行业的最后一场竞争

基地边缘BaseEdge 2026-05-08 17:48:10
1 跟贴 1
一汽修店主只修特斯拉：其他新能源车三电不修怕被告

第一财经资讯 2026-05-11 16:52:11
46509 跟贴 46509
歼-35出口型亮相，第一个用户究竟是谁，改造生产三年不算慢

陈虎点兵 2026-05-10 21:37:40
1 跟贴 1
叙利亚重新接入全球支付系统刷卡机“吐出”小票现场爆发掌声

海外网 2026-05-11 13:40:32
883 跟贴 883
开店选址真实案例，搞一个天桥呗，瞬间打破平衡！

皮球看生活 2026-05-10 08:58:13
0 跟贴 0
女生晒出男友每次给自己饮料前，都会先撕一个小标记再拧开

乐活咔嚓 2026-05-11 09:36:28
4 跟贴 4
ChatGPT、豆包集体翻车：AI没有价值观，只有「求生欲」

雷科技 2026-05-11 21:18:29
16 跟贴 16
Forza Horizon 6提前泄露，官方反手封禁7973年

雾野寻踪2 2026-05-11 23:25:36
0 跟贴 0
为避税老人把房过户给孙子，不料导致亲情决裂

看看新闻Knews 2026-05-11 17:44:08
465 跟贴 465
战斗机如何用航炮击沉潜艇？演示二战飞机反潜航炮战术模型

老周说趣 2026-05-10 09:44:15
0 跟贴 0
价格战背后，是用户不再替车企的高端梦买单

近代风云传 2026-05-11 06:10:59
1 跟贴 1
奢侈品牌MIU MIU多款产品被指也有“限购区”，杭州多个街道地址无法下单

澎湃新闻 2026-05-11 10:22:28
5377 跟贴 5377
王励勤总结世乒赛：男队阵容不是最强但最拼，女队经受对手超水平发挥考验，点赞孙颖莎王楚钦力挽狂澜

红网 2026-05-11 11:59:00
895 跟贴 895
留学生展示中国技术，外国教授当场看呆了，全球网友热评

峰攀登者 2026-05-11 17:47:26
0 跟贴 0
大学生驱车1300公里，送校友回家奔丧：自费5200多元，事后收到很多转账均婉拒

潇湘晨报 2026-05-11 16:50:57
524 跟贴 524
茶颜悦色，装不下去了

中国新闻周刊 2026-05-07 22:15:57
299 跟贴 299
吴宜泽：能进攻时我从来不会防守为此付出过很多代价

环球网资讯 2026-05-11 13:26:15
261 跟贴 261
漂亮国就业情报分析

黄先生斜杠青年 2026-05-10 00:12:12
0 跟贴 0
下个月的苹果 WWDC，假如 iCloud 变成 iClaw......?

爱范儿 2026-05-11 18:15:10
0 跟贴 0
比利时将向乌克兰提供全部F-16战机

参考消息 2026-05-11 14:37:08
1486 跟贴 1486

国际足联被曝愿作出“重大让步”：官员正飞往中国，争取让央视购买今年世界杯的电视转播权，并提出将报价降低50%以上

国际足联被曝愿作出“重大让步”：官员正飞往中国，争取让央视购买今年世界杯的电视转播权，并提出将报价降低50%以上

大风新闻

2026-05-11 15:12:02

曝华为“白嫖”开源团队技术方案？踢了开发者跟第三方公司合作

曝华为“白嫖”开源团队技术方案？踢了开发者跟第三方公司合作

爆角追踪

2026-05-11 09:54:53

见证历史！飙升！

中国基金报

2026-05-11 12:17:41

决定了！拒绝禁赛文班亚马！谢谢你，NBA！

决定了！拒绝禁赛文班亚马！谢谢你，NBA！

篮球实战宝典

2026-05-12 01:04:41

5月11日尾盘主力抢筹！十只个股被疯狂抄底

5月11日尾盘主力抢筹！十只个股被疯狂抄底

风风顺

2026-05-12 03:05:04

九寨沟实行“双向检票”？工作人员：出园检票并非新政策，一直严禁沟内住宿

九寨沟实行“双向检票”？工作人员：出园检票并非新政策，一直严禁沟内住宿

上游新闻

2026-05-11 15:40:24

SK海力士中国员工，奖金不到韩国人的5%！

SK海力士中国员工，奖金不到韩国人的5%！

中国半导体论坛

2026-05-11 19:55:34

随着韩国0-1惜败，女足亚洲杯四强已经诞生2席

随着韩国0-1惜败，女足亚洲杯四强已经诞生2席

俯身冲顶

2026-05-11 17:00:08

江苏警方回应“一辆黑色轿车装警灯喷涂110标识”：目前已拆除恢复原样，并对相关人员依法处理

江苏警方回应“一辆黑色轿车装警灯喷涂110标识”：目前已拆除恢复原样，并对相关人员依法处理

大象新闻

2026-05-12 00:46:10

从今天起，中国不再需要日本道歉！这觉醒，来自3500万亡魂的重量

从今天起，中国不再需要日本道歉！这觉醒，来自3500万亡魂的重量

爱意随风起呀

2026-05-12 03:40:13

夯爆了！上海最新宣布：延迟3个月！每天10万人涌入，已曝光10亿流量↗️

夯爆了！上海最新宣布：延迟3个月！每天10万人涌入，已曝光10亿流量↗️

上海约饭局

2026-05-11 18:53:41

歌手黄霄云演出后两次晕倒确诊耳石症！连夜赶路连唱9首，工作室强制停工

歌手黄霄云演出后两次晕倒确诊耳石症！连夜赶路连唱9首，工作室强制停工

TVB的四小花

2026-05-11 13:59:18

2000吨飞絮惹众怒，一斧子全砍了认错？专家：三大代价承受不起

2000吨飞絮惹众怒，一斧子全砍了认错？专家：三大代价承受不起

小兰聊历史

2026-04-26 11:37:23

97年和女同事出差，宾馆只剩一间房她白我一眼：你敢乱动我就报警

97年和女同事出差，宾馆只剩一间房她白我一眼：你敢乱动我就报警

千秋文化

2026-05-08 10:18:54

村民被眼镜王蛇咬伤打13支血清专家：我国尚无专门血清，可用抗银环蛇毒血清加抗眼镜蛇毒血清

村民被眼镜王蛇咬伤打13支血清专家：我国尚无专门血清，可用抗银环蛇毒血清加抗眼镜蛇毒血清

封面新闻

2026-05-11 19:00:03

朱丹自曝痛到当场求饶！要求立即终止，称“不要钱也要结束”

朱丹自曝痛到当场求饶！要求立即终止，称“不要钱也要结束”

鲁中晨报

2026-05-11 15:42:15

我要被武汉大学笑死了

林中木白

2026-05-10 20:13:05

美国突曝海量UFO文件！中国三大经典UFO事件：萧山机场真相颠覆！

美国突曝海量UFO文件！中国三大经典UFO事件：萧山机场真相颠覆！

大稻网络科技

2026-05-09 09:29:34

SK海力士“潜入”A股带飞相关企业 “20cm”涨停

SK海力士“潜入”A股带飞相关企业 “20cm”涨停

每日经济新闻

2026-05-11 17:33:34

SK海力士出手在A股市场“小试牛刀”，这支股票“20cm”涨停，股价再创新高，总市值约272亿元

SK海力士出手在A股市场“小试牛刀”，这支股票“20cm”涨停，股价再创新高，总市值约272亿元

每日经济新闻

2026-05-11 19:10:12

有态度网友ytd

3923文章数 21关注度

往期回顾全部

科技要闻

黄仁勋：你们赶上了一代人一次的大机会

头条要闻

母女二人一年用水量高达400多吨警方发现背后隐情

头条要闻

母女二人一年用水量高达400多吨警方发现背后隐情

体育要闻

梁靖崑：可能是最后一届了，想让大家记住这个我

娱乐要闻

“孕妇坠崖案”王暖暖称被霸凌协商解约

财经要闻

宗馥莉罢免销售负责人部分业务将外包

汽车要闻

吉利银河“TT”申报图曝光电动尾翼+激光雷达

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

亲子

旅游

公开课

军事航空

家居要闻

多元生活此处无声

亲子要闻

蒙眼吹钱挑战亲子互动游戏

旅游要闻

打卡同色系风景带火城市微旅行

公开课

李玫瑾：为什么性格比能力更重要？

军事要闻

特朗普：伊朗的回应“完全不可接受”

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版