网易首页 > 网易号 > 正文 申请入驻

三个模型差点被误判报废,问题出在"思考模式"

0
分享至

一次基准测试,三个模型得分不到15%。Kimi K2.5只有10%,MiniMax M2.5勉强15%,Gemma 4更是每次调用都返回HTTP 400错误。我差点把它们从候选名单里划掉,标记为"故障模型"。

但它们没坏。坏的是我的调用方式。


这篇文章记录了我踩过的坑,以及你在给自己的智能体系统选型时,如何避免同样的时间浪费。


空回复与超时:异常现象复盘

Kimi K2.5的10%得分是怎么来的?每次返回恰好300个token的空白内容。finish_reason显示为"length"——模型还没开始输出可见答案,token预算就已经耗尽。

MiniMax M2.5的情况类似,但更严重。某个任务跑了88分钟,消耗98000个token后,我被迫手动终止。Gemma 4则干脆拒绝所有请求,每次返回HTTP 400。

三个不同厂商的模型,三种不同的故障表现,根源却完全相同。

默认开启的"思考模式"

这些模型出厂即启用内部思维链推理。每个请求都会先静默"思考",消耗大量token,然后才生成可见输出。当max_tokens设置为300时,思考过程就把额度吃光了,留给实际答案的空间为零。

问题在于,关闭这个功能的参数名称,三家各不相同:

Kimi K2.6需要设置reasoning: {"effort": "none"},这会完全禁用内部推理,推理token归零。

MiniMax M2.7使用include_reasoning: false,但这只是隐藏思考过程不让用户看见,模型内部仍会消耗约400个token。必须把max_tokens提升到2000才够用。

Gemma 4同样用include_reasoning: false,但还要注意模型ID的格式——需要加-it后缀,26B变体还要加-a4b。

这些细节分散在各家的文档角落,没有统一标准。

修正后的排名逆转


调整参数后,成绩完全改观。Kimi K2.6从10%跃升至75%。MiniMax M2.7从15%提升到60%。Gemma 4 31B从"无法连接"变成80%——在所有18个测试模型中排名第二。

最意外的是MiniMax的隐藏实力。在它成功完成的6个任务上,M2.7得分97.2%,超过Claude Sonnet 4。这个模型在能正常输出时,表现是基准测试中的最佳水平。

但致命缺陷也在这里:它有40%的任务失败率。强制性的内部推理无法关闭,输出预算被提前耗尽,导致答案难产。这是一个 brilliance 与 reliability 无法兼得的案例—— brilliant model you can't rely on,作者如此评价。

四个自查信号

如果你的基准测试结果看起来不对劲,按以下顺序排查:

第一,finish_reason为"length"且内容为空。这是思考模式在吞噬token预算的信号。尝试reasoning: {"effort": "none"}或include_reasoning: false。

第二,全部HTTP 400错误。检查模型ID是否缺少后缀,-it、-a4b、-preview等变体标识容易被忽略。

第三,得分异常低但有实际输出。模型可能不是错了,而是话太多。检查它是否无视了"只输出代码"之类的指令。

第四,某个任务消耗量是其他的50倍。这说明该模型在这类任务上陷入了病态思考循环。这是有价值的数据,不是bug——记录下来,避开这个组合即可。

文档缺口与选型成本

作者为此浪费了一个上午调试参数,而这些信息本该出现在官方文档的显眼位置。对于正在为自己构建智能体技术栈的团队,这个教训很直接:先看推理配置,再跑完整基准。

完整测试结果覆盖18个模型,每日更新,地址见benchmarks.workswithagents.dev。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
国际足联被曝愿作出“重大让步”:官员正飞往中国,争取让央视购买今年世界杯的电视转播权,并提出将报价降低50%以上

国际足联被曝愿作出“重大让步”:官员正飞往中国,争取让央视购买今年世界杯的电视转播权,并提出将报价降低50%以上

大风新闻
2026-05-11 15:12:02
曝华为“白嫖”开源团队技术方案?踢了开发者跟第三方公司合作

曝华为“白嫖”开源团队技术方案?踢了开发者跟第三方公司合作

爆角追踪
2026-05-11 09:54:53
见证历史!飙升!

见证历史!飙升!

中国基金报
2026-05-11 12:17:41
决定了!拒绝禁赛文班亚马!谢谢你,NBA!

决定了!拒绝禁赛文班亚马!谢谢你,NBA!

篮球实战宝典
2026-05-12 01:04:41
5月11日尾盘主力抢筹!十只个股被疯狂抄底

5月11日尾盘主力抢筹!十只个股被疯狂抄底

风风顺
2026-05-12 03:05:04
九寨沟实行“双向检票”?工作人员:出园检票并非新政策,一直严禁沟内住宿

九寨沟实行“双向检票”?工作人员:出园检票并非新政策,一直严禁沟内住宿

上游新闻
2026-05-11 15:40:24
SK海力士中国员工,奖金不到韩国人的5%!

SK海力士中国员工,奖金不到韩国人的5%!

中国半导体论坛
2026-05-11 19:55:34
随着韩国0-1惜败,女足亚洲杯四强已经诞生2席

随着韩国0-1惜败,女足亚洲杯四强已经诞生2席

俯身冲顶
2026-05-11 17:00:08
江苏警方回应“一辆黑色轿车装警灯喷涂110标识”:目前已拆除恢复原样,并对相关人员依法处理

江苏警方回应“一辆黑色轿车装警灯喷涂110标识”:目前已拆除恢复原样,并对相关人员依法处理

大象新闻
2026-05-12 00:46:10
从今天起,中国不再需要日本道歉!这觉醒,来自3500万亡魂的重量

从今天起,中国不再需要日本道歉!这觉醒,来自3500万亡魂的重量

爱意随风起呀
2026-05-12 03:40:13
夯爆了!上海最新宣布:延迟3个月!每天10万人涌入,已曝光10亿流量↗️

夯爆了!上海最新宣布:延迟3个月!每天10万人涌入,已曝光10亿流量↗️

上海约饭局
2026-05-11 18:53:41
歌手黄霄云演出后两次晕倒确诊耳石症!连夜赶路连唱9首,工作室强制停工

歌手黄霄云演出后两次晕倒确诊耳石症!连夜赶路连唱9首,工作室强制停工

TVB的四小花
2026-05-11 13:59:18
2000吨飞絮惹众怒,一斧子全砍了认错?专家:三大代价承受不起

2000吨飞絮惹众怒,一斧子全砍了认错?专家:三大代价承受不起

小兰聊历史
2026-04-26 11:37:23
97年和女同事出差,宾馆只剩一间房她白我一眼:你敢乱动我就报警

97年和女同事出差,宾馆只剩一间房她白我一眼:你敢乱动我就报警

千秋文化
2026-05-08 10:18:54
村民被眼镜王蛇咬伤打13支血清 专家:我国尚无专门血清,可用抗银环蛇毒血清加抗眼镜蛇毒血清

村民被眼镜王蛇咬伤打13支血清 专家:我国尚无专门血清,可用抗银环蛇毒血清加抗眼镜蛇毒血清

封面新闻
2026-05-11 19:00:03
朱丹自曝痛到当场求饶!要求立即终止,称“不要钱也要结束”

朱丹自曝痛到当场求饶!要求立即终止,称“不要钱也要结束”

鲁中晨报
2026-05-11 15:42:15
我要被武汉大学笑死了

我要被武汉大学笑死了

林中木白
2026-05-10 20:13:05
美国突曝海量UFO文件!中国三大经典UFO事件:萧山机场真相颠覆!

美国突曝海量UFO文件!中国三大经典UFO事件:萧山机场真相颠覆!

大稻网络科技
2026-05-09 09:29:34
SK海力士“潜入”A股 带飞相关企业 “20cm”涨停

SK海力士“潜入”A股 带飞相关企业 “20cm”涨停

每日经济新闻
2026-05-11 17:33:34
SK海力士出手在A股市场“小试牛刀”,这支股票“20cm”涨停,股价再创新高,总市值约272亿元

SK海力士出手在A股市场“小试牛刀”,这支股票“20cm”涨停,股价再创新高,总市值约272亿元

每日经济新闻
2026-05-11 19:10:12
2026-05-12 07:36:49
硅屿手记
硅屿手记
有态度网友ytd
3923文章数 21关注度
往期回顾 全部

科技要闻

黄仁勋:你们赶上了一代人一次的大机会

头条要闻

母女二人一年用水量高达400多吨 警方发现背后隐情

头条要闻

母女二人一年用水量高达400多吨 警方发现背后隐情

体育要闻

梁靖崑:可能是最后一届了,想让大家记住这个我

娱乐要闻

“孕妇坠崖案”王暖暖称被霸凌协商解约

财经要闻

宗馥莉罢免销售负责人 部分业务将外包

汽车要闻

吉利银河“TT”申报图曝光 电动尾翼+激光雷达

态度原创

家居
亲子
旅游
公开课
军事航空

家居要闻

多元生活 此处无声

亲子要闻

蒙眼吹钱挑战亲子互动游戏

旅游要闻

打卡同色系风景 带火城市微旅行

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普:伊朗的回应“完全不可接受”

无障碍浏览 进入关怀版