网易首页 > 网易号 > 正文 申请入驻

LLM把简单任务复杂化,Karpathy无语:有些任务无需那么多思考

0
分享至



机器之心报道

编辑:冷猫

随着推理大模型和思维链的出现与普及,大模型具备了「深度思考」的能力,不同任务的泛用性得到了很大的提高。

借助思维链,大模型能够对任务进行深入分析,完成任务规划与拆解,从而胜任长周期、复杂度高的工作。同时,我们也能更直观地了解模型的推理与分析过程,从中发现执行环节中的问题,并有针对性地调整指令,以更高效地完成目标。

可以说,有了「深度思考」的推理模型,才有了现在拥有多种辅助功能与自主能力的 AI 智能体。

但现在的大模型渐渐有些偏科了。为了构建应用能力更强的智能体,对长周期的复杂任务能力的追求已经影响到了大模型的推理模式。

不知道大家在平常使用 AI 工具的时候有没有发现,打开了深度思考后,一些简单的任务也需要很多的思考,展示了非常冗长的思维链,而不打开深度思考的时候,又很难准确的得到想要的回复。

这种现象越来越明显了,尤其是当大模型进入工作流(例如编码工作)的时候,其负面效应就更加显著。

这不,AI 领域的大牛 Andrej Karpathy 也感觉到不对劲,发了长文推来指出这个令人无语的现象。



Karpathy 说,「LLM 在默认状态下正变得比我日常使用需求更具『自主代理(Agentic)』倾向,甚至有些超出了我的平均使用场景」。

最明显的的确是编码任务,模型现在往往会进行较长时间的推理,倾向于在整个代码库中列出并搜索(grep)文件,会反复进行网络搜索,对一些在开发中、且明显并不完整的代码里极少出现的边缘情况过度分析、过度思考,甚至在非常简单的查询中,也常常需要几分钟后才返回结果。

尤其是在简单的任务中,比如在运行脚本前快速检查索引错误或其他低级错误,根本不需要如此复杂的任务分析和代码处理。

因此 Karpathy 不得不经常打断 LLM,并用类似这样的指令限制它:「停,你想得太多了。只看这一份文件。不要用任何工具。不要过度设计。

这带来了很多麻烦,不仅是在编码任务,我们发现日常使用 LLM 工具时候的类似打断情况也越来越多了。

简单拿刚发布几天的 GPT-5 举个例子,发布时 OpenAI 显然意识到深度思考的问题,所以他们强调 GPT-5 是一个集成模型,也就是说,你用它的时候不需要在不同模型之间切换,它会自己决定何时需要深入思考。

但这个问题显然没有这么简单。记得当时 GPT-4o 模型的图像编辑生成功能很好用,但在更新到新模型后就不太一样了。

我们给了 GPT-5 这个指令:「去除图中文字,把这张图变得高清一些,机器人的脸看起来更温和一些」,希望它能够调用图像编辑的功能。

但结果它就开始进行「深度思考」了:



经过了 38 秒的思考,它考虑了很多细节,但仍然未能开始使用图像生成功能,导致不得不打断它的任务进程。

或许这也是用户们无比怀念 GPT-4o 的原因之一。

正如 Karpathy 指出的,随着默认模式逐渐向这种「超深度思考」的高代理化状态靠拢,我们反而更需要一个相反的选项—— 一种更直接有效的方式去表达或传达我的意图和任务的紧迫程度,从「快速看一眼」到「花 30 分钟彻底确认后再回来」都能精确指定。

网友们也苦「过度思考」久矣,甚至为此回到了最朴素的使用方法。





对于这件事,Karpathy觉得罪魁祸首似乎是大模型「在长周期任务上进行了大量基准测试优化」,为了在基准测试上得到更好的成绩,LLM的思考就更倾向于长周期的复杂任务的实现,因此影响了普通任务的响应。



他指出了两种情境:

1. 我招呼同事过来看我屏幕上打开的一个文件,问他「这样对吗?」

2. 我让某人坐在桌前,他们有 2 个小时来作答。这是一场考试, 风险很高。题目是「这样对吗?」

人类协作者能很自然地区分情境 1 和情境 2。但 LLM 并不知道你问的是 1 还是 2,而随着时间推移、基准测试的不断「极限化」,它会越来越倾向于假设你问的是情境 2。

这指出了大模型过度思考,复杂化任务的可能原因,大模型的发展不能完全以基准测试分数作为追求。

关于大模型的「过度思考」,有相关经历和想法欢迎在评论区分享。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
重磅:莫斯科遇袭大面积停电!乌克兰海马斯导弹齐射

重磅:莫斯科遇袭大面积停电!乌克兰海马斯导弹齐射

项鹏飞
2026-01-19 19:48:15
盘点史上最震撼的十大对联,皆是精妙绝伦的千古绝对,哪个最妙?

盘点史上最震撼的十大对联,皆是精妙绝伦的千古绝对,哪个最妙?

长风文史
2026-01-14 11:36:27
随着巴萨爆大冷门1-2,马竞1-0,西甲最新积分榜出炉

随着巴萨爆大冷门1-2,马竞1-0,西甲最新积分榜出炉

侧身凌空斩
2026-01-19 06:15:56
殷桃两套大片美出圈!深V性感与浅蓝清新切换,46岁身材状态绝了

殷桃两套大片美出圈!深V性感与浅蓝清新切换,46岁身材状态绝了

章眽八卦
2025-12-20 12:29:42
西贝回应人民日报评论

西贝回应人民日报评论

澎湃新闻
2026-01-19 22:57:14
山西超市龙头陷挤兑风波后,国资入场接手,美特好15家门店将改姓开业

山西超市龙头陷挤兑风波后,国资入场接手,美特好15家门店将改姓开业

时代财经
2026-01-16 21:46:10
“00后”男子在旅馆房间内掐死球馆助教抢得2万余元赌博,被执行死刑

“00后”男子在旅馆房间内掐死球馆助教抢得2万余元赌博,被执行死刑

红星新闻
2026-01-19 16:22:23
吴磊封神级维权:零证据造谣?24小时送白珊珊造谣者见法官!

吴磊封神级维权:零证据造谣?24小时送白珊珊造谣者见法官!

生命之泉的奥秘
2026-01-19 22:28:06
伊朗总统称攻击最高领袖致全面战争

伊朗总统称攻击最高领袖致全面战争

财联社
2026-01-18 23:48:01
蒋介石评价我军十大元帅:朱德是唯一帅才,刘伯承战术在国内一绝

蒋介石评价我军十大元帅:朱德是唯一帅才,刘伯承战术在国内一绝

浩渺青史
2026-01-19 17:07:21
10首唐诗的巅峰之作,结尾一句皆是神来之笔,惊艳千年

10首唐诗的巅峰之作,结尾一句皆是神来之笔,惊艳千年

长风文史
2026-01-01 12:02:39
特朗普:现在是时候行动了

特朗普:现在是时候行动了

澎湃新闻
2026-01-19 16:13:25
贾国龙“发疯”,原来是为了这一刻

贾国龙“发疯”,原来是为了这一刻

葱哥说
2026-01-19 21:10:50
这是嫌命长吗?哈梅内伊嘲讽川普:援助还在路上吗?

这是嫌命长吗?哈梅内伊嘲讽川普:援助还在路上吗?

史政先锋
2026-01-18 13:34:46
字节跳动“扣子”官宣2.0品牌升级

字节跳动“扣子”官宣2.0品牌升级

IT之家
2026-01-19 19:34:43
历史首人!詹姆斯常规赛+季后赛迎51000分里程碑 基本后无来者

历史首人!詹姆斯常规赛+季后赛迎51000分里程碑 基本后无来者

醉卧浮生
2026-01-19 11:53:12
还是得认命!75岁意外摔倒、分不清人的刘晓庆,终要败在年龄上了

还是得认命!75岁意外摔倒、分不清人的刘晓庆,终要败在年龄上了

甜柠聊史
2025-12-03 15:14:30
赵露思助阵王鹤棣演唱会“抢镜了”,2套造型酷帅灵动,惊艳全场

赵露思助阵王鹤棣演唱会“抢镜了”,2套造型酷帅灵动,惊艳全场

明星私服穿搭daily
2026-01-19 08:47:58
简直不敢相信,莫言竟将日本侵华战争比作“兄弟争夺家产”

简直不敢相信,莫言竟将日本侵华战争比作“兄弟争夺家产”

雪中风车
2026-01-18 17:08:39
10年狂飙30倍!安踏少帅操掌舵,这匹“黑马”一年闷声卖出100亿

10年狂飙30倍!安踏少帅操掌舵,这匹“黑马”一年闷声卖出100亿

品牌观察官
2026-01-19 16:24:37
2026-01-19 23:32:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12147文章数 142546关注度
往期回顾 全部

科技要闻

这一仗必须赢!马斯克死磕芯片"9个月一更"

头条要闻

李亚鹏前妻:为孩子父亲点赞 多年笨拙的坚守很不容易

头条要闻

李亚鹏前妻:为孩子父亲点赞 多年笨拙的坚守很不容易

体育要闻

错失英超冠军奖牌,他却在德甲成为传奇

娱乐要闻

吴磊起诉白珊珊诽谤,白珊珊称被盗号

财经要闻

公章争夺 家族反目 双星为何从顶端跌落?

汽车要闻

徐军:冲击百万销量,零跑一直很清醒

态度原创

旅游
房产
游戏
数码
公开课

旅游要闻

什刹海后海冰场明日营业,仅支持现场购票

房产要闻

中旅・三亚蓝湾发布会揭秘自贸港好房子高阶形态

生化5谢娃演员加盟《古墓丽影天灾》:反派就是她?

数码要闻

269元 小米首款140W桌面充电站正式开售:8口合一 支持华为、苹果快充

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版