网易首页 > 网易号 > 正文 申请入驻

正确答案 ≠ 正确推理,CoT 或成大模型推理能力停滞的「罪魁祸首」?

0
分享至

该研究认为,GPT-4o、Claude Opus 等模型的推理能力未明显超越 GPT-4。

编译丨陈为锐

编辑丨陈彩娴

从 ChatGPT 发布以来,大语言模型就引发了市场和科研领域的巨大的关注,其中绝大部分兴奋都源于大模型的涌现特性:它们似乎能够回忆训练中的信息,编写代码,并且进行逻辑推理。人们期望大模型能借助推理能力在会计、编程等领域拓展专业知识、减少重复性任务,为未来的职业生活提供协助。

但从现有的大模型推理能力评估来看,这些基准虽然涵盖自然语言处理、推理、编码和数学能力等多个领域,各类排行榜也聚焦于模型在特定任务上超越当前 SOTA 水平的表现,多关注答案正确性而非推理步骤的准确性。

为此,在一篇名为“Large Language Models’ Reasoning Stalls: An Investigation into the Capabilities of Frontier Models”的论文中,研究人员 Lachlan McGinness、Peter Baumgartner 等提出一项纵向研究,追求更加全面地衡量大模型的推理能力。

研究根据截至 2023 年 12 月和 2024 年 8 月表现最好的大模型在 PRONTOQA 逻辑推理基准上的表现,对大模型的推理能力进行了评估,测试的 SOTA 模型包括 GPT3.5 Turbo、GPT-4 和 GPT-4o、Gemini-Pro、Claude 3 Opus 和 Llama3.1 405B。

论文地址:https://arxiv.org/abs/2505.19676

1

正确答案≠正确推理

当前多数模型推理能力评估聚焦于大模型在各类基准测试中的答案准确性,如自然语言处理、推理、数学能力等领域的任务,却忽视推理步骤的正确性,且未充分考虑结果的不确定性:模型可能通过 “记忆猜测” 等捷径而非逻辑推导得出结论,导致单一的准确率无法全面衡量其推理能力。

在推理策略方面,自动定理证明(ATP)领域的自底向上(正向链)、自顶向下(反向链)等策略已被用于提升推理效率,但大模型能否通过上下文学习有效应用这些策略仍需验证。

此外,现有研究多聚焦单一时间点的模型对比,缺乏对同一基准上模型能力随时间变化的纵向分析,例如 GPT-4 到 GPT4-o 的推理能力是否实质性提升等。

为了从多维度评估大模型推理能力的真实表现,研究人员围绕大模型在 ATP 推理策略下的能力评估展开,通过多维度实验设计、自动化数据解析与统计分析,系统探究模型推理的准确性与过程忠实性。

具体来看,研究选取 2023 年 12 月与 2024 年 8 月的前沿模型,包括 OpenAI 的 GPT-3.5 Turbo、GPT-4、GPT4-o,Google 的 Gemini-Pro,Anthropic 的 Claude 3 Opus(经验证优于 Claude 3.5 Sonnet),以及 Meta 的 Llama3.1 405B,使用 PRONTOQA 逻辑推理基准进行测试。

PRONTOQA 基准以问题生成器形式发布,避免了数据污染问题,且支持通过生成任意数量的问题进行统计分析和不确定性测量,同时该基准不常被用作评估指标,可降低模型过拟合的可能性,为评估大模型的推理过程提供了可靠场景。

实验设计 6 种提示策略:基准(Normal)、零样本链思维(Zero-shot CoT)、单样本链思维(One-shot CoT)、自底向上推理策略(Bottom Up)、自顶向下推理策略(Top Down)及魔术集转换策略(Magic Set Transformation),每种策略对每个模型进行 1800 次调用(3 种推理步骤 ×100 次 / 步骤 ×6 种提示),确保数据量充足。

2

模型推理能力发展停滞

研究结果显示,实验选取的大模型的推理能力提升陷入停滞,GPT-4o、Claude Opus 等前沿模型在多数实验条件下的表现未显著超越 2023 年的 GPT-4,前者的进步主要归因于提示词工程与自动应用思维链(CoT)进行训练,而非模型架构或训练数据的实质性改进。

所有模型在自底向上推理策略下准确率最高且最能忠实遵循推理步骤,综合表现最佳;自顶向下和魔术集转换策略因复杂度较高,模型难以有效执行,表现较差。

从实验数据来看,不同模型在遵循推理策略的能力上存在显著差异,如 Claude Opus 因规则与事实顺序颠倒导致自底向上策略忠实度低;诸如魔术集转换等复杂策略执行一致性普遍偏低,说明大模型对结构化推理流程的理解仍有限。

此外,通过皮尔逊相关系数分析发现,正确推理步骤的完整性和顺序忠实性与答案正确性仅存在低正相关性,Claude Opus 的 “正确答案” 与 “完整推理步骤” 相关性仅为 0.14,说明大模型可能通过记忆或猜测而非逻辑推理得出结论,推理过程的可靠性有限。

且 2024 年模型在基准条件下的 token 使用量显著增加,GPT-4o 的完成 token 数为 300.0,Claude Opus 为 316.3,远超 2023 年 GPT-4 的 1.8,表明其已被训练为默认启用 CoT 推理,而 Llama3.1 405B 因未使用隐藏提示,推理步骤完整性较低,基准条件下推理步骤完整性仅为 0.73±0.09,也进一步验证了 prompt 工程对模型表现的影响。

综合实验数据,2023 至 2024 年间大模型推理能力的提升主要可以归因于提示工程(如内置 CoT),而非模型架构优化,新模型在复杂推理场景中并未超越 GPT-4,自底向上策略因逻辑清晰、易于遵循,成为大模型最有效的推理方式,而自顶向下与魔法集转换策略因复杂度高,应用受限。

大模型推理能力出现停滞现象,提升已进入瓶颈期,进步主要依赖提示工程而非模型自主推理能力的突破,而自底向上策略虽为最优实践,但模型仍缺乏可靠的逻辑链条生成能力。

更多内容,点击下方关注:

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
世卫组织推荐的肌肉不流失四大黄金法则,照着做,准没错

世卫组织推荐的肌肉不流失四大黄金法则,照着做,准没错

观星赏月
2026-06-18 15:29:58
洪秀柱直言敲打:既然不愿扛起统一大旗,何必身居国民党主席之位

洪秀柱直言敲打:既然不愿扛起统一大旗,何必身居国民党主席之位

谁将主宰未来
2026-06-21 09:57:43
为何延迟退休最近突然“没声了”?不是暂停,背后4大难题制约

为何延迟退休最近突然“没声了”?不是暂停,背后4大难题制约

芳姐侃社会
2026-06-20 18:26:43
虎扑老哥看世界杯大破防:原来美国球场修得真不赖

虎扑老哥看世界杯大破防:原来美国球场修得真不赖

影视情报室
2026-06-21 00:33:51
ICU工作24年的北大博士坦言自己不鸡娃原因!让所有家长警醒

ICU工作24年的北大博士坦言自己不鸡娃原因!让所有家长警醒

菁妈育儿
2026-06-21 09:39:39
后勤绞杀封锁正把克里米亚从普京的战略资产变成压垮他的稻草

后勤绞杀封锁正把克里米亚从普京的战略资产变成压垮他的稻草

刘耘博士
2026-06-19 08:42:41
重庆95后女生拍下火山灰中的纸鹦鹉螺,捧回全球摄影大奖

重庆95后女生拍下火山灰中的纸鹦鹉螺,捧回全球摄影大奖

陌上桃花开的
2026-06-15 22:58:40
苹果这三家直营店将在今天永久关闭!

苹果这三家直营店将在今天永久关闭!

XCiOS俱乐部
2026-06-21 07:45:57
“听不懂英语装懂”?高市早苗夸张表情引日网热议;日媒:高市“献媚外交”引反噬

“听不懂英语装懂”?高市早苗夸张表情引日网热议;日媒:高市“献媚外交”引反噬

环球网资讯
2026-06-21 13:12:26
向佑发抖音了,39岁 没带团队,就自己对着镜头切蛋糕。全家福照片

向佑发抖音了,39岁 没带团队,就自己对着镜头切蛋糕。全家福照片

陈意小可爱
2026-06-21 01:42:36
爆冷不到24小时,土耳其两大噩耗传来,全队淘汰主帅成头号罪人

爆冷不到24小时,土耳其两大噩耗传来,全队淘汰主帅成头号罪人

阿伧说事
2026-06-20 21:54:12
完美!顶级冠军拼图,马刺速度交易!

完美!顶级冠军拼图,马刺速度交易!

体育新角度
2026-06-21 11:42:25
如何调整?突尼斯1-5惨败后换帅+半场0-2日本 本场输球就提前出局

如何调整?突尼斯1-5惨败后换帅+半场0-2日本 本场输球就提前出局

砚底沉香
2026-06-21 13:05:29
发动机能换,龙骨换不了

发动机能换,龙骨换不了

大鱼jun讲世界
2026-06-17 22:15:03
“处长、副处长”改“科长、副科长”,江苏多地调整

“处长、副处长”改“科长、副科长”,江苏多地调整

澎湃新闻
2026-06-20 12:00:03
英格兰名宿罗伊·基恩批评世界杯英格兰太太团穿球衣太过招摇,嘲讽“她们中大多数一年后就会分手”,有...

英格兰名宿罗伊·基恩批评世界杯英格兰太太团穿球衣太过招摇,嘲讽“她们中大多数一年后就会分手”,有...

星Xin辰大海
2026-06-20 14:20:05
东风-17发射过程清晰公开,美国仰望但已非主力

东风-17发射过程清晰公开,美国仰望但已非主力

走进事件的中心
2026-06-21 10:50:00
20寸行李箱不能免费登机了!人民网发文详解

20寸行李箱不能免费登机了!人民网发文详解

快科技
2026-06-20 11:39:12
金价6月21日,大家要有心理准备了,下周,金价或将重现15年历史

金价6月21日,大家要有心理准备了,下周,金价或将重现15年历史

生活新鲜市
2026-06-21 03:31:54
《抓特务》第一波真实口碑出炉!现场观众打分和评价“一针见血”

《抓特务》第一波真实口碑出炉!现场观众打分和评价“一针见血”

八卦南风
2026-06-18 19:21:54
2026-06-21 14:04:49
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7380文章数 20758关注度
往期回顾 全部

科技要闻

马斯克拿下7800亿元天价薪酬 2028年可兑现

头条要闻

外国知名学者:当今世界只有四个大国

头条要闻

外国知名学者:当今世界只有四个大国

体育要闻

德国的超级替补,10年前还在工厂上班

娱乐要闻

李乃文带妻子法国购物,2人5个孩子!

财经要闻

蔚来的“暗战”时刻

汽车要闻

惊出冷汗!重庆实测奥迪A5L,华为智驾这波操作绝了…

态度原创

游戏
亲子
房产
教育
数码

没玩抓紧了!EA宣布48小时后关停这款《战地》游戏

亲子要闻

4岁女儿去参加比赛,凌晨4点就起来化妆,爸爸直心疼女儿

房产要闻

商业清零式退潮,大量住宅登场!三亚又要大规模调规!

教育要闻

爆笑作业:这些学生作业真的很难绷住!

数码要闻

字节跳动Pico全新头显曝光:酷似Vision Pro + Galaxy XR

无障碍浏览 进入关怀版