网易首页 > 网易号 > 正文 申请入驻

基础推理范式促使语言模型实现域外泛化

0
分享至

Fundamental Reasoning Paradigms Induce Out-of-Domain Generalization in Language Models

基础推理范式促使语言模型实现域外泛化

https://www.arxiv.org/pdf/2602.08658


摘要

演绎、归纳和溯因是基本的推理范式,也是人类逻辑思维的核心。尽管提升大语言模型的推理能力已吸引大量研究关注,但这些基本范式能在多大程度上诱导模型产生泛化能力,尚未得到系统性的探索。在本研究中,我们揭示了这些核心范式之间的相互作用如何影响大语言模型的推理行为。为此,我们首先从符号化任务中收集了一个新的推理轨迹数据集,每个轨迹对应三种基本范式之一,以抽象掉具体的世界知识。接着,我们研究了将这些技能有效注入大语言模型的方法。我们实验了一系列方法,包括简单的微调,以及增加模型深度或将密集模型转换为混合专家模型的更复杂方法。我们全面评估了这些诱导后的模型在现实领域外的任务上的表现,这些任务完全以自然语言表述且包含现实世界知识。结果显示,我们的方法在不同现实任务上均取得了强大的泛化能力,带来了显著的性能提升(高达14.60)。

1 引言

演绎、归纳和溯因是基本的推理范式,构成了人类逻辑推理的基石(Frankfurt, 1958; Salmon, 1994)。演绎根据规则和观察推断结论。归纳基于前提和观察中的模式提炼规则。溯因则是在给定一组规则的情况下,推断出解释某个观察的最合理假设。这些范式对于理解和提升大语言模型的推理能力起着至关重要的作用(Dougrez-Lewis 等,2025;Tan 等,2025;Hu 等,2025)。

先前的研究常常混淆归纳、演绎和溯因,忽视了它们各自在提升大语言模型推理能力方面的具体作用(Zheng 等,2025;Hu 等,2025)。虽然 Tan 等人(2025)通过微调单独诱导演绎技能以提升模型的领域外泛化能力,但他们忽略了归纳和溯因。此外,常见做法是使用混杂了世界知识与推理的数据来提升大语言模型的推理能力(Hu 等,2025;Guha 等,2025;DeepSeek-AI,2025),这使得性能提升究竟源于真正的推理能力还是事实记忆变得模糊不清。因此,两个主要问题仍未得到探索:(1)截然不同的演绎、归纳和溯因技能在多大程度上能提升通用推理能力;(2)诱导这些能力最有效的方法是什么?

为了回答这些问题,我们首先对 Hu 等人(2025)提出的一个程序生成的符号推理数据集进行了扩充,加入了来自教师大语言模型的推理轨迹。该数据集包含各种任务,每个任务都针对三种基本范式之一,同时将推理与世界知识相剥离。然而,该数据集最初只包含问题和答案,没有相关的推理轨迹。这些轨迹可以作为独立于世界知识的推理模式的示例。随后,我们向学生大语言模型注入基本的推理能力,研究演绎、归纳和溯因各自的影响及其相互作用。我们首次系统地评估了超越标准微调的一系列诱导方法,包括通过扩展增加模型深度(Wu 等,2024),以有效吸收新的推理能力;以及通过升级循环将标准大语言模型转换为混合专家模型,以扩展模型容量,同时避免现有信息与新注入信息之间的干扰

(Komatsuzaki 等,2023)。最后,我们在两个模型系列上,对诱导后的模型进行了全面的评估,包括领域内(即相同的符号任务上)和领域外(其余的符号任务以及需要现实世界知识的现实任务上)的表现(见图 1)。我们的贡献如下:


  • 我们收集并发布了一个新的用于演绎、归纳和溯因的符号推理数据集。该数据集总共包含约 17K 个符号问题,并附带了由两个来自不同系列的教师大语言模型生成的超过 160K 条推理轨迹。

  • 我们证明,向较小的学生大语言模型注入与世界知识解耦的基本推理技能,能使其在不同诱导方法和模型系列上,于现实的领域外任务中取得显著的性能提升(高达 14.60)。

  • 我们发现,演绎能力普遍为各个模型带来最高的领域外性能提升。我们还观察到了强烈的跨范式性能提升,这表明即使是孤立的单个基本推理技能也能惠及大语言模型的整体推理能力。另一方面,最有效的诱导方法因模型而异,其中升级循环方法在整体上取得了最佳效果。

2 相关工作

在大语言模型中激发推理能力大型推理模型在训练后阶段整合了逐步推理的过程(Olmo 等,2025)。近期研究探索了基本推理范式如何影响大语言模型推理的有效性。Zheng 等人(2025)评估了不同的逻辑推理范式,但仅比较了归纳推理与溯因及演绎的结合,缺乏对单个基本推理范式的理解。Hu 等人(2025)分别让大语言模型专精于演绎、归纳和溯因推理,随后合并生成的模型,将所有推理范式混杂在一起。这使得难以厘清每个基本推理范式单独对性能产生的影响。因此,我们通过教师大语言模型收集的推理轨迹,分别学习每个特定的基本推理范式。这种方法首次为更清晰、细致地理解它们对大语言模型推理的影响提供了可能。

合成推理轨迹大语言模型的推理在训练后阶段需要大规模的轨迹数据(Liu 等,2024;Yang 等,2025)。然而,人工整理的推理数据常常包含噪声(Morishita 等,2024),且难以规模化(Sun 等,2024)。因此,越来越多的工作使用来自教师模型的合成推理轨迹来训练学生模型(DeepSeek-AI,2025;Olmo 等,2025)。虽然这些轨迹在通用领域(Guha 等,2025)和专业领域(Yu 等,2024;Zhao 等,2025;Yu 等,2025)带来了显著的性能提升,但轨迹中包含了世界知识,这使得难以分离出基本推理能力的改进。Tan 等人(2025)使用符号推理轨迹来解耦世界知识,但他们的研究只专注于演绎推理,未探索其他基本推理范式。

3 基础推理数据

我们的目标是研究向大语言模型注入三种基础推理类型(演绎、归纳和溯因)所产生的影响。为此,我们需要相应的推理轨迹。

3.1 符号推理任务
我们丰富了由 Hu 等人(2025)开发的一个现有基础推理数据集。我们选择这个数据集是因为它是公开可用的,包含 3,600 个演绎问题、4,500 个归纳问题和 9,000 个溯因问题及其答案,但没有附带对我们的研究至关重要的推理轨迹。该数据是基于三个符号任务通过程序生成的(图 2)。


演绎。该任务包含布尔可满足性问题,要求找出满足给定公式的变量的真值。所有问题都保证是可满足的。原始问题单独列出公式,未使用合取范式,这是一种将布尔公式写为子句合取的标准形式,其中每个子句是变量或其否定形式的析取。我们的初步实验表明,这会给大语言模型造成混淆。此外,原始答案以纯文本形式呈现,这使自动评估复杂化。因此,我们将原始公式修改为合取范式,并用 JSON 格式表示答案,以便收集推理轨迹。

归纳。此任务要求模型预测给定数字序列中的下一个数字,代表了一种基本的归纳推理形式。数字序列由涉及加法、减法或乘法的重复模式构成。我们直接使用原始的输入-输出对,未作任何修改。

溯因。该任务使用逻辑公式和已知原子,这些原子具有隐藏的真值。目标是通过检查是否存在与目标相关的公式,首先从原子中识别所有可达目标。模型需要运用溯因推理,从假设的结论(即目标为真)反向推导,假设出最可能的前提集(前件的真值)。然而,原始任务说明并未阐明已知原子不一定等同于真原子,这导致大语言模型产生误解。此外,尽管要求大语言模型识别相关前提并回溯已知原子的真值,但原始答案仅检查目标的可达性。这种过度简化使得模型仅仅检查目标是否出现在前提中。为了克服这些局限性,我们保留了原始公式,但修改了任务说明和答案,使用 Prolog(Wielemaker 等,2012)来搜索能够使可达目标为真的已知原子的可能真值。附录 A 的表 3 展示了我们设计的溯因任务与原任务的对比。


3.2 推理轨迹采样

数据划分。对于每种任务类型,我们分别使用 100 个问答对进行测试,100 个用于开发,其余全部用于训练。我们仅为训练集收集推理轨迹。每个问答对及其轨迹只会出现在其中一个数据划分中。

教师模型。我们使用两个广泛使用的开源权重大语言模型来采样推理轨迹:Qwen3-30B-Instruct (Yang 等,2025) 和 Llama-3.3-70B-Instruct (Grattafiori 等,2024)。

采样。在零样本设置下,将问题输入教师大语言模型(提示词见附录 A)。对于每个问题,我们使用不同的随机种子采样五个响应。我们将生成的最大令牌数设置为 10,000,以确保轨迹能够推导出结论。我们排除了字数少于 20 的响应,因为如此短的文本不太可能包含有效的推理轨迹。对于 Qwen 模型,这导致过滤掉了 554 条演绎轨迹、2,430 条归纳轨迹和 19,872 条溯因轨迹。然而,Llama 模型没有任何轨迹被过滤掉。我们发现,Qwen 被过滤的响应要么是空的,要么是包含随机令牌的字符串,这可能是由于模型困惑而产生的。由于自动验证文本推理轨迹的逻辑一致性仍然是一个开放性问题,并且大语言模型更多是从结构而非内容中学习 (Li 等,2025a),我们没有过滤掉更多的轨迹。

最终的训练集包含约 16,000 个问题,以及分别由 Llama 和 Qwen 教师模型生成的约 82,000 条和 60,000 条轨迹。表 1 显示了详细的统计数据。我们注意到,Qwen 生成的轨迹比 Llama 更长,尤其是在归纳和溯因任务上(平均长度是 Llama 的四倍)。我们进一步观察到,Qwen 倾向于在其推理步骤中重复问题中的公式和序列。它还经常使用表格来总结其响应,并生成许多特殊令牌,例如 “ ”、“ ”。这很可能是由于其在工具调用方面的后训练所致。


4 注入基础推理技能

我们尝试了多种注入方法,从标准的微调到引入模型结构变更的更复杂的方法。

全参数微调。首先,我们简单地通过在收集到的推理轨迹上进行下一个令牌预测来更新所有模型参数,类似于 Tan 等人 (2025) 的做法。


模型扩展。LoRA 的低秩约束虽然高效,但在领域适应方面存在局限性(Biderman 等,2024;Pletenev 等,2025)。模型扩展(Wu 等,2024;Cao 等,2025)通过在预训练大语言模型中插入额外的层来增加模型容量。通过仅更新新层,扩展方法保留了原有的参数化知识。它还能更好地获取新的语言知识(Choudhury 等,2025;Lee 等,2025)和适应领域(Hoffmann 等,2025;Lim 等,2025)。我们使用 LLaMAPro(Wu 等,2024)进行模型扩展,将基础模型划分为多个层组,并在每个组之上插入新层。新层通过复制相应基础层的权重进行初始化,并将注意力机制和 MLP 的输出投影矩阵设置为零。

模型升级循环。升级循环(Komatsuzaki 等,2023;Nakamura 等,2025)通过将多层感知器块扩展为多个专家多层感知器,将稠密的 Transformer 层转换为混合专家层。在推理过程中,由路由网络选择专家。该方法已成功应用于多语言(Zhou 等,2025;Zhang 等,2025)和领域适应(Li 等,2025b)。与扩展模型深度的扩展方法相比,升级循环是一种高效的宽度扩展方法。我们采用稀疏升级循环(Komatsuzaki 等,2023),因为它不需要为路由网络进行额外训练(Gritsch 等,2025),也无需在混合专家结构之外添加额外模块(Zhou 等,2025)。稀疏升级循环通过复制原始预训练多层感知器的权重来初始化新的专家多层感知器,而路由网络则是随机初始化的。

5 实验设置

5.1 训练设置
为了研究每种基础推理范式如何影响推理行为,我们分别使用演绎、归纳和溯因推理轨迹对大语言模型进行单独训练。作为对比,我们还将所有三种推理类型一起(即混合)注入大语言模型,以评估它们是否能提供互补的归纳偏置。

5.2 模型与基线
我们使用两个学生模型:具有 32 层的 Llama-3.1-8B-Instruct(Grattafiori 等,2024);以及具有 36 层的 Qwen3-8B(Yang 等,2025)。
我们将注入方法与(1)微调前的学生模型(原始版本);(2)用于收集轨迹的教师模型(§3.2)进行比较。

5.3 实现细节
为了公平比较,除全参数微调外,我们保持所有注入后模型的参数规模相近,仅更新新增的参数。我们将 LoRA 应用于学生模型的所有线性层,其中 Llama-3.1-8B-Instruct 的秩设置为 1,024,Qwen3-8B 的秩设置为 512。对于模型扩展,我们将每个学生模型划分为四个层组,每个组中插入三个新层。我们遵循 Fedus 等人(2022)的做法,通过为每个奇数编号的稠密层添加一个专家多层感知器,将其升级循环为混合专家层。
更多细节详见附录 B。

5.4 评估
符号领域内。我们在与训练所用推理类型相对应的测试集(§3.2)上进行评估(例如,在归纳任务上训练和测试)。当在混合数据集上训练时,所有三种推理类型的测试集都属于领域内。

符号领域外。为了测试符号泛化能力,我们在训练期间未见的符号任务上进行评估(例如,用溯因任务训练,用演绎任务测试)。
现实领域外。我们包含以下现实领域外数据集:True Detective(Del 和 Fishel,2023)包含侦探谜题,形式为多项选择题;αNLI(Zhao 等,2023)包含在给定语境下最可能解释的多项选择题;WinoWhy(Zhang 等,2020)包含对 Winograd 挑战赛(Levesque 等,2012)中问题的解释,旨在区分合理的理由与相似但错误的理由;FOLIO(Han 等,2024)包含自然语言的逻辑推理问题。模型需在给定上下文(一组一阶逻辑公式)下,预测一个陈述为真、假或不确定;RECV(Dougrez-Lewis 等,2025)包含来自 Twitter 和 Wikipedia 的断言,需要运用演绎或溯因推理来确定其真伪。
指标。我们报告最终答案的准确率,由 Qwen3-30B-Instruct 进行评判。根据(Haldar 和 Hockenmaier,2025)近期的分析,我们采用此评判模型,该分析表明该模型在连贯性、一致性和相关性方面比具有竞争力的替代方案(包括 Llama-3 和 Deepseek-R1(DeepSeek-AI,2025))更为稳健。

6 结果

图 3 和图 4 分别展示了模型在符号任务和现实任务上的性能。附录 D 的表 4 和表 5 显示了完整结果和标准差。





6.1 符号任务

领域内:专项训练带来最大提升。图 3 主对角线上的子图及最后一列代表了领域内设置,即训练与测试的范式相匹配。在六种情景(2 个学生模型 × 3 种符号任务)中的五种里,经过专项注入的模型显著优于原始学生模型。我们发现,注入演绎能力带来的提升最大(例如,Llama-3.1-8B 通过模型扩展提升了 56.00,而 Qwen-3-8B 通过升级循环提升了 12.33)。归纳能力次之(全参数微调提升 46.00,升级循环提升 9.67),而注入溯因能力带来的相对提升最小(LoRA 提升 41.66,升级循环提升 10.67)。演绎能力提升更大的一个可能解释是 Transformer 架构具有适合演绎的结构(Aggarwal 等,2025)。值得注意的是,混合设置(即在所有三种范式的混合数据上训练大语言模型)提供了一种有竞争力的注入策略。虽然混合设置并未产生由单范式专项模型所获得的最大领域内性能提升,但在八种情况(2 个教师 × 4 种注入方法)中的六种里,它在所有符号任务上的表现仍优于原始 Qwen-3-8B 模型。

领域外:范式间的非对称迁移。转向分析图 3 中的其他子图,我们考察领域外泛化能力,即用一种范式训练的模型在其他范式任务上进行测试。我们观察到一种明显的效能顺序:演绎 > 归纳 > 溯因。演绎能力的提升能强力迁移到其他任务。在每种范式涉及的 16 种符号任务情景中,演绎能力的提升在 12 种情景中发生了迁移,其中分别有 9 次提升了归纳和溯因任务。相比之下,归纳能力的迁移效果中等(在 7 种情景中伴随提升出现),而溯因能力的迁移效果很差,仅在 4 种情景中有益于演绎任务,在 5 种情景中有益于归纳任务。例如,当通过升级循环注入 Qwen-3-8B 时,演绎能力产生了最具迁移性的提升(归纳:73.00,溯因:34.67)。归纳能力实现了中等程度的迁移,表现出非对称的泛化(演绎:89.00,溯因:11.00)。相比之下,注入溯因能力并未提供可比的提升(演绎:74.67,归纳:62.00)。这些结果表明基础推理范式之间的迁移是非对称的。虽然溯因最难学习(领域内提升最低),但演绎能力是最具可迁移性的技能,是推理能力的通用供体。

注入方法:容量扩展 vs. 高效适配。观察不同的注入方法,我们发现最有效的方法因模型而异,尽管升级循环通常能带来更稳健的提升。对于 Qwen3-8B,升级循环在不同范式上始终带来最高的提升(例如,演绎提升 12.33,归纳提升 9.67,溯因提升 10.67)。相比之下,Llama-3.1-8B 受益于多种多样的注入方法。模型扩展使其在演绎任务上达到峰值提升(56.00),而全参数微调在归纳任务上表现最佳(46.00)。虽然 LoRA 是一种有竞争力的高效替代方案,并意外地在溯因任务上取得了最佳提升(41.66),但它总体上落后于扩展容量的方法(如升级循环),这表明基础推理技能受益于结构适配所提供的额外容量。

更强的教师模型带来更高的学生模型性能。Qwen-3-30B 在符号任务上的表现大幅优于 Llama-3.3-70B(演绎:82.00 对比 33.00,归纳:81.00 对比 55.33,溯因:74.33 对比 16.00)。两个学生大语言模型在符号任务上都更多地受益于更强的 Qwen 教师模型。例如,Qwen3-8B 使用 Llama 教师模型时,在大多数情况(43/48)下导致性能下降。当改用 Qwen 教师模型后,其演绎性能显著提升(通过演绎注入的升级循环达到 92.00),甚至超越了教师模型本身(82.00)。在演绎任务上的这种提升在不同注入范式下(除溯因外)均有观察到,进一步佐证了范式间的非对称迁移。教师模型之间的性能差异凸显了推理轨迹的质量对于符号泛化至关重要。

6.2 现实任务

演绎 > 归纳 > 溯因。我们观察到,在符号实验(§6.1)中确立的效能顺序在现实任务中依然存在。如图 4 所示,注入演绎能力为现实领域外任务带来了最强的性能。例如,当使用来自 Llama 教师模型的轨迹时,Qwen-3-8B 和 Llama-3.1-8B 都在注入演绎能力时达到了最高的平均性能(分别通过升级循环达到 70.14,通过模型扩展达到 58.70)。注入归纳能力带来的性能略低(升级循环 69.49,模型扩展 57.58),而注入溯因能力带来的提升则更为有限(升级循环 69.34,全参数微调 56.79)。与符号任务上的表现相反,混合策略的效果逊于任何一种单范式方法(升级循环 69.04,模型扩展 56.07)。我们推测,与符号任务不同,现实任务的结构化程度较低,这导致混合设置稀释了单范式(尤其是演绎)提供的强归纳偏置。

无知识注入能够超越教师模型。注入与世界知识相解耦的推理范式,使学生大语言模型即使在现实任务中也能超越其教师模型。例如,当使用 Llama 教师模型(RECV: 77.07)训练 Llama 学生模型(RECV: 71.98)时,16 个注入后模型(四种注入范式 × 四种注入方法)中有 13 个优于教师模型,通过溯因全参数微调最高达到 81.73。引人注目的是,即使学生模型初始表现优于教师模型,这种提升依然可见。例如,当使用 Qwen 教师模型(αNLI: 75.77)训练 Qwen 学生模型(αNLI: 81.26)时,学生模型在多数情况(13/16)下表现更好,通过归纳升级循环最高达到 84.24。这种提升在不同教师-学生组合的任务中均有观察到。我们将这些提升归因于无知识的符号轨迹。教师模型通过符号结构向学生模型传递了更好的基础推理技能,避免了现实任务中普遍存在的世界知识内容偏差。

跨范式迁移:溯因悖论。注入与现实任务相对应的推理范式并不总能带来最佳性能。这在那些高度依赖溯因的现实任务中表现得很明显。对于 True Detective 任务,在演绎任务上进行训练为 Llama-3.1-8B 和 Qwen3-8B 都带来了最佳性能(分别为 26.18 和 44.50)。相比之下,在溯因任务上训练的表现最差(21.47 和 38.57)。类似模式也出现在 αNLI 任务上,注入归纳能力(79.73/85.76)始终优于注入溯因能力(77.37/82.73)。由于溯因本身难以学习,模型更多地受益于通过演绎或归纳获得的、具有迁移性的逻辑。

任务特定的增益集中性。领域外泛化的提升高度集中于特定任务。与原始模型相比,在 αNLI(64 种情况中有 50 种获得提升)和 Folio(64 种情况中有 41 种获得提升)上的增益更大。然而,这些增益的来源因教师模型系列而异。Llama 教师模型在 RECV 任务上更有效(32 种情况中有 28 种获得提升),而 Qwen 教师模型在此任务上表现挣扎(32 种情况中仅 16 种获得提升),但在 WinoWhy 任务上表现更好(提升的情况从 5 种增加到 13 种)。这表明,虽然训练范式决定了领域外效果,但教师模型决定了哪些任务能从迁移中受益。

学生模型从同系列的教师模型中学习效果更好。虽然符号任务无论模型系列如何都受益于更强的 Qwen 教师模型,但现实领域外泛化在教师和学生属于同一模型系列时提升更大,这与我们在符号任务(§6.1)中的发现相悖。例如,当为 Llama-3.1-8B 注入演绎能力时,在现实任务上取得最佳性能的是使用 Llama 教师模型(58.70),而非 Qwen 教师模型(54.79)。在为学生模型注入演绎或归纳能力时,这种模式在两个学生模型上均保持一致。我们推测,现实任务对跨系列蒸馏中固有的风格不匹配更为敏感。这与先前关于跨模型轨迹不匹配的研究(Wen 等,2025)一致,表明最小化教师和学生之间的分布偏移比教师的能力更为关键。

注入方法:与符号任务一致。我们观察到与符号领域(§6.1)相似的模式:虽然最有效的注入方法因模型而异,但升级循环总体上提供了更稳健的改进。在所有八种设置(两种教师模型 × 四种注入范式)中,升级循环后的 Qwen-3-8B 在七种情况下取得了最高的现实任务性能。例如,当使用 Llama 教师模型时,升级循环在所有范式下都为 Qwen-3-8B 带来了最佳的现实任务性能(演绎:70.14,归纳:69.49,溯因:69.34,混合:69.04)。相比之下,Llama-3.1-8B 受益于多样化的注入方法(即全参数微调、LoRA、模型扩展)。这一观察结果表明,当应用相同的注入方法时,符号任务和现实任务上的领域外泛化具有一致性。此外,升级循环的优越性能进一步说明,更复杂的注入方法优于当前使用更简单的全参数微调的实践,即 Tan 等人(2025)的方法。

7 定性分析

表 2 展示了使用不同注入方法的推理行为示例。在案例 1 中,原始 Llama 模型和经过演绎全参数微调的 Llama 模型都失败了,它们过早地消解了认知上的不确定性,通过隐含的假设得出了一个确定的结论。相比之下,经过演绎模型扩展的 Llama 模型成功了,因为它保留了由选言前提产生的不确定性。这表明,通过注入方法引入的更强结构约束支持了逻辑有效性,防止在条件不足的现实推理问题上得出过于自信的结论。


在案例 2 中,原始 Qwen 模型和经过溯因升级循环的 Qwen 模型都失败了,它们优先考虑世界知识而非逻辑推理,修改了看似不合理的前提,并覆盖了给定的逻辑规则。相反,经过演绎升级循环的 Qwen 模型成功了,因为它严格遵守所述前提,并应用逻辑规则,而不考虑内容。这种行为与溯因和演绎的内在本质相符。溯因侧重于探索一组规则下最合理的观察,因此鼓励对前提进行重新解释。相比之下,演绎从规则和观察中推导结论,内在地促进了对前提的忠实。这进一步强调了注入与世界知识解耦的推理范式如何减少内容偏差,从而在现实任务上产生更稳健的推理泛化能力。我们还在附录 F 中包含了对符号任务的详细分析。

8 结论与启示

我们系统地研究了注入基础推理类型(即演绎、归纳和溯因)如何塑造大语言模型推理的泛化能力。通过在与世界知识相解耦的推理轨迹上进行训练,我们分离出每种范式的影响。我们评估了一系列注入方法,从标准微调到容量扩展方法(如模型扩展和升级循环)。我们的结果表明,无知识注入能带来显著且可迁移的领域外增益。演绎是最稳健的范式,而升级循环提供了最大的整体改进,使学生大语言模型能够获得结构性的归纳偏置,甚至在现实任务上超越其教师模型。未来的工作将扩展此框架,并探索在不稀释各自贡献的前提下组合多种推理范式的基本原则。

局限性

鉴于推理数据集的可用性和多样性,所有数据和评估均使用英语。我们承认,基础推理的语言表达和底层认知策略可能因语言而异,这是未来研究的一个有趣方向。

此外,虽然可以生成许多不同的符号任务来代表三种基础推理范式,但本研究分别为演绎、归纳和溯因探索了一个代表性的任务。事实上,我们关注的是基础范式与注入方法之间的相互作用,优先考虑分析的深度,而非详尽覆盖所有符号推理任务。虽然我们发现所提出的任务足以诱导出强大的领域外泛化能力,但未来的研究可以探究不同符号数据对性能和泛化能力的潜在影响。

原文链接:https://www.arxiv.org/pdf/2602.08658

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
说实话,王菲今年唱的歌不是不好听,也不是听不懂,而是难度太高

说实话,王菲今年唱的歌不是不好听,也不是听不懂,而是难度太高

小染说台球
2026-02-17 12:33:20
中国学者在英国偶然间的发现,揭开了杨秀清为何被洪秀全轻易诛杀的缘由

中国学者在英国偶然间的发现,揭开了杨秀清为何被洪秀全轻易诛杀的缘由

老杉说历史
2026-02-15 16:07:21
她58岁仍是干净之身,至今没谈过恋爱,除非是最爱不然不会献身

她58岁仍是干净之身,至今没谈过恋爱,除非是最爱不然不会献身

小熊侃史
2026-02-15 07:30:10
金银价格,下行压力加剧

金银价格,下行压力加剧

新浪财经
2026-02-17 21:01:23
心梗与做家务有关?医生提醒:60岁以后,做家务时要注意这几点

心梗与做家务有关?医生提醒:60岁以后,做家务时要注意这几点

医学科普汇
2026-02-11 06:30:11
突然火了,压岁钱给多少合适?网友:这做法可全国推广

突然火了,压岁钱给多少合适?网友:这做法可全国推广

环球网资讯
2026-02-16 19:38:17
易梦玲一双金灿灿的大灯,明艳晃眼

易梦玲一双金灿灿的大灯,明艳晃眼

吃瓜党二号头目
2026-02-13 08:13:30
租个“对象”回家过年

租个“对象”回家过年

经济观察报
2026-02-16 16:34:16
小米下滑36%创纪录!2026年1月手机份额汇总

小米下滑36%创纪录!2026年1月手机份额汇总

小柱解说游戏
2026-02-17 03:26:36
杨丞琳除夕晒照,和李荣浩亲自下厨,井柏然刘雯好像也和他们一起

杨丞琳除夕晒照,和李荣浩亲自下厨,井柏然刘雯好像也和他们一起

陈意小可爱
2026-02-17 10:26:29
中国向全球宣布:又一张国家名片诞生!该技术全世界只有中国拥有

中国向全球宣布:又一张国家名片诞生!该技术全世界只有中国拥有

杰丝聊古今
2026-01-17 01:29:32
深夜全球资产大跌!纳指跌超1%,黄金、白银齐跌,比特币跌破6.7万美元,美伊谈判传来最新消息丨美股开盘

深夜全球资产大跌!纳指跌超1%,黄金、白银齐跌,比特币跌破6.7万美元,美伊谈判传来最新消息丨美股开盘

每日经济新闻
2026-02-17 23:55:04
人过七十,还有这五种“欲望”,恭喜你,还很年轻!

人过七十,还有这五种“欲望”,恭喜你,还很年轻!

萧狡科普解说
2026-01-31 17:23:41
孽缘出现,上天都给过你哪些提示?网友:男友来,家里的鱼全死了

孽缘出现,上天都给过你哪些提示?网友:男友来,家里的鱼全死了

另子维爱读史
2026-01-24 21:25:10
世体:短短4天连丢两冠主动权,如今巴萨已经问题百出

世体:短短4天连丢两冠主动权,如今巴萨已经问题百出

懂球帝
2026-02-17 15:59:04
研究发现:促进肠胃蠕动最好的运动,竟不是久坐不动和饭后散步?

研究发现:促进肠胃蠕动最好的运动,竟不是久坐不动和饭后散步?

医哥聊健康
2026-02-16 21:35:04
赖清德说:如果有人欣然接受九二共识,表示他是中国人。

赖清德说:如果有人欣然接受九二共识,表示他是中国人。

百态人间
2026-02-07 15:42:05
摘取4金5银9铜,日本军团创冬奥境外最佳战绩,有望突破天花板

摘取4金5银9铜,日本军团创冬奥境外最佳战绩,有望突破天花板

全眼看体育
2026-02-17 11:26:45
长得漂亮却坏事做尽,3次入狱,被摘除4处器官的她,如今过得怎样

长得漂亮却坏事做尽,3次入狱,被摘除4处器官的她,如今过得怎样

涵豆说娱
2026-01-27 11:31:50
订婚时新郎长相普通,新娘颜值爆表却望着他移不开眼:生理性喜欢

订婚时新郎长相普通,新娘颜值爆表却望着他移不开眼:生理性喜欢

梅子的小情绪
2026-01-16 21:09:56
2026-02-18 04:16:49
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1226文章数 18关注度
往期回顾 全部

教育要闻

中考改革落地:禁止偏题怪题,严控跨区掐尖,优质高中指标下沉

头条要闻

夺银被问丢金 谷爱凌回击外媒“很荒谬”

头条要闻

夺银被问丢金 谷爱凌回击外媒“很荒谬”

体育要闻

谷爱凌:'不小心"拿到了银牌 祝大家马年大吉

娱乐要闻

春节档电影首波口碑出炉!

财经要闻

大年初一,这三件事很不寻常

科技要闻

春晚这些机器人是怎样做到的?

汽车要闻

问界M6更多信息:乾崑智驾ADS4.0+鸿蒙座舱5.0

态度原创

数码
教育
时尚
本地
军事航空

数码要闻

艾湃电竞推出YOGA 360一体式水冷散热器,799元

教育要闻

马跃新春|南师附中、金陵中学、一中、中华、十三中.....南京校长书记拜年合集!

今年春天最流行的4组配色,过年穿时髦又高级!

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

军事要闻

美国国务卿鲁比奥发表农历新年祝福

无障碍浏览 进入关怀版