网易首页 > 网易号 > 正文 申请入驻

AI连续剧!从「错觉」到「错觉的错觉」再到「错觉的错觉的错觉」

0
分享至

闻乐 发自 凹非寺
量子位 | 公众号 QbitAI

苹果团队一篇论文,现已升级成AI圈“论文连续剧”。

《思维的错觉》:大模型推理会崩溃。

《思维的错觉的错觉》:大模型崩溃是错觉。

《思维的错觉的错觉的错觉》:大模型还是会崩溃。

起初,苹果团队发了一篇论文炮轰所有大模型推理都是假象,遇到高复杂度长推理问题时都会崩溃,即使给他们足够的时间和计算资源。

这篇文章引起了广泛关注,有人支持也有人质疑。

在质疑的人中,有一位网友与Claude Opus“合作”写了一篇长达5页的文章,来说明大模型这种明显的崩溃是人为因素造成的。

没多久,第三篇文章也来了,这篇综合了前两篇的观点,赞同大模型崩溃是实验设计不合理这一人为因素造成的,但也强调模型在非常长的逐步执行中仍然会出错,尽管方法有所改进,但脆弱性依然存在。

也就是说,大模型在推理过程中还是会崩溃。

基于上次的经验,网友猜测第三篇文章的第一作者或许是Gemini Pro~

让我们来看看这部“连续剧”到底在“演”什么。

大模型推理到底会不会崩溃

最新的这篇文章对前两篇内容进行了双重审视,得出的结论是:你俩说的都有道理。

认同第二篇的三个关键修正
原研究的观点是:当题目难度超过临界点时,大模型推理会崩溃。

苹果的原研究是通过设计4类谜题环境(汉诺塔、跳棋交换、过河问题、积木世界),系统观察模型在不同复杂度下的行为变化。

他们进行了大量实验,对比“会思考”和“不思考”的模型组合。

发现在低复杂度任务中,那些“不思考”标准语言模型实际上表现得更好。

随着任务难度进入中等水平,“会思考”的推理模型开始显现优势。

当问题复杂度继续增加并超过某个临界点时,无论是推理模型还是标准模型都会经历完全的性能崩溃,准确率直线下降至零,甚至会减少思考token。

比如汉诺塔问题,在超过大约8个盘后,标准模型和推理模型都崩溃到0%,推理模型的输出token甚至更少,这表明当前的思维链扩展在较小深度之外就失效了。

第二篇认为这里面有三个测试瑕疵,token预算限制、评估误判、以及谜题设计的数学不可解性。

于是,作者进行了模型重新验证。

  • 替代表示法的有效性:当要求模型以Lua函数等紧凑形式输出汉诺塔解法时(而非枚举所有步骤),测试模型(如Claude-3.7-Sonnet、Gemini 2.5)在N=15时仍能保持高准确率,且token消耗远低于上下文限制(<5000token),证明模型具备递归算法理解能力,失败源于格式约束而非推理缺陷。
  • 复杂度指标的误用:原研究以 “组合深度”(最小移动步数)衡量复杂度,但汉诺塔虽需指数级步数,每步决策复杂度仅为O(1),而积木世界因涉及最优解搜索(NP难问题),实际难度更高。模型在长序列汉诺塔问题中的表现优于短序列积木问题,印证了 “解长度≠计算复杂度” 的观点。

结论就是,原研究的 “崩溃” 本质上是实验设计对模型输出限制、谜题不可解性和复杂度误判的综合结果,而非LRMs(推理模型)的根本性推理局限。

最新的第三篇认同了第二篇的三个关键修正。

大模型在面对高复杂度长推理时还是避免不了“崩溃”

虽然认为第二篇的反驳有道理,但该作者又指出:

第二篇的实验测试的是算法知识检索与代码生成,而非原实验的 “连续执行与状态追踪”。

模型可能因训练数据包含汉诺塔算法而成功生成函数,但无法证明其能无错执行3万余步(如N=15的32767步)。

也就是说,虽然汉诺塔每步规则很简单,但模型仍可能因中间步骤误差累积导致失败。

原研究中,即使向模型提供算法提示,它仍表现为崩溃,暗示瓶颈在于执行保真度而非解法发现。

简单来说就是,虽然token限制是直接原因,但模型在长序列任务中的失败反映了 “持续高保真执行” 的内在缺陷。

并且,模型在接近 “崩溃点” 时会提前减少推理投入(如推理token数下降),这一现象无法仅用token限制解释。

也就是说,即使修正了测试设计并提供了足够的输出空间,模型一旦将逐步计划扩展到数千步,仍然会开始失去对计划的追踪。

因此,这位作者认为大模型在维持非常长的推理链方面仍然存在真正的弱点。

这或许需要后续的研究跟进。

One More Thing

目前,这部“连续剧”已经发展到了第三集,有些网友看热闹不嫌事儿大,表示想快进到第四集!

你认为第四集会是什么剧情呢?

参考链接:
[1]https://x.com/rohanpaul_ai/status/1930968053027578199
[2]https://x.com/rohanpaul_ai/status/1933296859730301353
[3]https://x.com/rohanpaul_ai/status/1935746720144544157

— 完 —

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
上海宣布在闵行建设“火箭星城” 目标打造千亿元商业航天产业 2027年完成可重复使用火箭全产业链布局 2030年建成具有全球影响力的航天产业高地

上海宣布在闵行建设“火箭星城” 目标打造千亿元商业航天产业 2027年完成可重复使用火箭全产业链布局 2030年建成具有全球影响力的航天产业高地

每日经济新闻
2026-01-29 23:31:28
奥迪只卖10万了?多地奥迪4S店被曝闭店跑路!

奥迪只卖10万了?多地奥迪4S店被曝闭店跑路!

小南看车
2026-01-28 15:55:33
斯塔默尝试中餐后,王毅选择在京接待另一贵宾,中英分歧被摆上桌

斯塔默尝试中餐后,王毅选择在京接待另一贵宾,中英分歧被摆上桌

策前论
2026-01-29 17:23:41
开年首月,中央纪委打7虎

开年首月,中央纪委打7虎

上观新闻
2026-01-29 22:19:09
删除了?北京国安“人在做,天在看”的回应已不可见

删除了?北京国安“人在做,天在看”的回应已不可见

懂球帝
2026-01-29 15:21:31
出卖信任的刀,最终刺向了谁?汇丰银行为孟晚舟事件付出惊人代价

出卖信任的刀,最终刺向了谁?汇丰银行为孟晚舟事件付出惊人代价

来科点谱
2026-01-29 08:56:35
重磅打虎!孙绍骋被查

重磅打虎!孙绍骋被查

新京报政事儿
2026-01-29 18:15:03
网友在福建农村偶遇15层自建房,惊叹“一家人给自己盖了个小区”,住户:近10年前家族合建,四世同堂住了百余人

网友在福建农村偶遇15层自建房,惊叹“一家人给自己盖了个小区”,住户:近10年前家族合建,四世同堂住了百余人

极目新闻
2026-01-29 18:23:50
站在中国领土上,英国首相一句话震动欧洲,美国直接对中国摊牌了

站在中国领土上,英国首相一句话震动欧洲,美国直接对中国摊牌了

梁讯
2026-01-29 18:26:25
国产固态电池量产加速!数千万新能源车主,恐成最大“接盘侠”?

国产固态电池量产加速!数千万新能源车主,恐成最大“接盘侠”?

胖福的小木屋
2026-01-28 10:43:40
郑州失联6天女孩已死亡!哥哥悲痛发声 原因曝光,知情人透露更多

郑州失联6天女孩已死亡!哥哥悲痛发声 原因曝光,知情人透露更多

行走的知识库
2026-01-29 13:30:15
“直到大熊猫离开,才体会到失去有多可怕”,日媒关注:“大熊猫失落症”或冲击当地经济

“直到大熊猫离开,才体会到失去有多可怕”,日媒关注:“大熊猫失落症”或冲击当地经济

环球网资讯
2026-01-29 18:19:15
"换心风波"仅1个月,李连杰小心思藏不住,“撕碎”了自己的体面

"换心风波"仅1个月,李连杰小心思藏不住,“撕碎”了自己的体面

青橘罐头
2026-01-29 20:04:53
关键时刻,伊朗接收俄罗斯装备!哈梅内伊政治顾问:一旦美方采取军事行动,将打击以色列!中国代表发声

关键时刻,伊朗接收俄罗斯装备!哈梅内伊政治顾问:一旦美方采取军事行动,将打击以色列!中国代表发声

每日经济新闻
2026-01-29 18:00:08
中国将对英国免签!

中国将对英国免签!

环球旅讯
2026-01-30 00:08:21
7换1!炸裂交易方案出炉,两届MVP加盟湖人,联手东詹?

7换1!炸裂交易方案出炉,两届MVP加盟湖人,联手东詹?

弄月公子
2026-01-30 08:24:35
2026年重磅新车已在路上,等等党赢麻了

2026年重磅新车已在路上,等等党赢麻了

TechWeb
2026-01-28 09:40:10
新西兰决定:拒绝特朗普

新西兰决定:拒绝特朗普

扬子晚报
2026-01-30 07:26:20
美国第一次做出了妥协,悄悄归还了油轮,马杜罗彻底失去军方拥护

美国第一次做出了妥协,悄悄归还了油轮,马杜罗彻底失去军方拥护

文雅笔墨
2026-01-30 02:58:25
挣再多钱有什么用,61岁崔培军如今的现状,给所有企业家提了醒

挣再多钱有什么用,61岁崔培军如今的现状,给所有企业家提了醒

揽星河的笔记
2026-01-29 18:52:42
2026-01-30 09:00:49
量子位 incentive-icons
量子位
追踪人工智能动态
12082文章数 176368关注度
往期回顾 全部

科技要闻

周亚辉的AI新赌局:国内太卷 出海另起炉灶

头条要闻

牛弹琴:沾满同胞鲜血的罪人被执行死刑 中国干得漂亮

头条要闻

牛弹琴:沾满同胞鲜血的罪人被执行死刑 中国干得漂亮

体育要闻

詹姆斯哭了!骑士视频致敬41岁超巨

娱乐要闻

曝金晨涉嫌交通肇事逃逸 本人尚未回应

财经要闻

黄金"发疯"众生相:投资端"大口吃肉"

汽车要闻

车长超5米还带后轮转向 比亚迪海豹08/海狮08将亮相

态度原创

艺术
数码
手机
公开课
军事航空

艺术要闻

广州这座“寿桃花”建筑,让王健林掏了1个亿!

数码要闻

曜越推出TR300机箱:可选实木格栅前板款,支持扩展6" LCD屏

手机要闻

小米Turbo 5 Max仅售2499,核心配件成本就超定价,太良心了!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

中方被指支持俄生产武器 外交部回应

无障碍浏览 进入关怀版