FinChain团队：首个金融符号化推理基准测试|正确性

分享至

2025年6月，来自阿联酋穆罕默德·本·扎耶德人工智能大学(MBZUAI)、保加利亚索非亚大学、法国Quantsquare、美国康奈尔大学以及印度IIT德里的国际研究团队联合发布了一项开创性研究——FinChain：金融领域首个可验证的符号化思维链推理基准测试。这项研究以预印本形式发表于arXiv（arXiv:2506.02515），旨在解决现有金融领域语言模型在多步推理能力评估方面的重大缺口。

想象一下，你的理财顾问在帮你做投资决策时，需要一步步计算复杂的财务数据。如果他只告诉你最终结果，而不解释计算过程，你会信任这个建议吗？这正是现今金融人工智能面临的核心问题——它们能给出答案，但难以展示可靠的推理过程。

在金融决策中，错误可能代价高昂。以往的金融问答数据集如FinQA和ConvFinQA主要关注最终答案的准确性，却忽略了中间推理步骤的评估。就好像只看学生的最终答案，而不检查他们的解题过程，这无法全面评估模型的实际推理能力。

研究团队创建了FinChain，这是一个全新的金融推理基准测试，涵盖12个金融领域的54个主题，每个主题包含5个参数化模板（两个简单级别、两个中级和一个高级）。这些模板可以生成无数不同的金融问题，每个问题都配有完整的、可执行的Python代码，用于验证推理链的每一步骤。

简单来说，FinChain就像一本详细的金融推理"食谱书"，不仅告诉你最终菜肴（答案）应该是什么样，还详细记录了每一步烹饪过程（推理步骤）。这样，我们就能评判模型是真的掌握了金融推理的"烹饪技巧"，还是只是幸运地猜对了最终"菜肴"。

研究团队还创建了一个名为ChainEval的评估指标，同时评估最终答案的正确性和中间推理步骤的一致性。通过对30个大型语言模型的测试，他们发现即使是最先进的模型在处理复杂的金融推理任务时仍有很大的提升空间。

让我们一起深入探索这个金融推理的新基准，看看它如何改变我们评估和改进金融人工智能的方式。

一、理解现有金融推理评估的局限

在智能手机导航中，你不仅希望知道最终目的地，还想知道每个转弯、每条路段的具体指引。同样，在金融分析中，单纯得到最终结果远远不够，我们需要了解每一步计算和推理是如何进行的。

现有的金融推理数据集如FinQA和ConvFinQA主要关注最终的数值答案，而不要求模型明确生成或证明中间推理步骤。虽然某些例子可能包含中间操作的痕迹（类似于推理步骤），但这些既不全面，也没有经过严格构建以反映金融分析的标准。特别是，它们缺乏完整、可验证的推理链表示，而这对金融决策的透明度和问责制至关重要。

研究者指出，这些基准测试提供的诊断价值有限：它们既不能可靠地揭示模型推理在哪里成功或失败，也不能区分真正的多步推理和浅层模式匹配。就像一个学生可能通过记忆答案而非理解解题方法获得高分，我们需要更严格的测试来评估模型是否真正理解了金融推理的过程。

在数学推理领域，GSM-Symbolic（由Mirzadeh等人于2024年提出）引入的符号化模板范式已成为广泛采用的方法。该方法重新模板化了GSM8K中的100个数学问题，提供明确的中间步骤和最终答案。研究团队采用了类似的模板策略，但是完全从头开始为金融领域构建数据集。

如图1所示，每个符号化模板编码了一个参数化的金融问题（例如复利计算），包含可变的命名实体和数值输入。每个模板都配有可执行的Python代码，用于计算中间步骤和最终结果。这种设计支持可扩展、无污染地生成一致的示例，既可用于训练也可用于评估。

二、FinChain：构建全面的金融推理基准

金融领域包含各种不同的领域，每个领域涉及不同的利益相关者和下游目标。因此，必须以模板化的方式设计数据集，以支持特定领域的评估。

研究团队构建了一个精细的金融分类系统（图2），涵盖12个高级领域（如公司金融、可持续金融、加密货币等），每个领域包含不同的主题，总计54个主题。这种分层结构构成了现有数据集中最详细的金融推理任务分类。

对于每个主题，研究者开发了五个参数化模板（两个简单、两个中级、一个高级），根据符号推理复杂性和所需领域知识的不同而变化。例如，在简单级别，一个模板可能只需要计算简单的复利；而在高级级别，可能需要结合多种金融概念进行分析，如同时考虑通货膨胀、税收和风险调整等因素。

每个模板化实例包括：

1. 场景卡片：描述主题、难度级别和采样输入（例如，"贴现现金流估值，高级"）。

2. 可执行的Python推理步骤链：基于特定领域的方程和概念。由于链中的每个操作都是明确且可执行的，这个基准支持完全的机器可验证性：模型输出中任何虚构、跳过或错误的步骤都可以被自动检测。

这与现有数据集如FinQA和ConvFinQA形成鲜明对比，后者只监督最终答案。就像检查学生解题过程的老师，FinChain关注每一步的正确性，而不仅仅是最终结果。

数据创建过程首先确定和定义金融领域，这一步骤参考了已建立的文献（如Bodie等人2025年的著作）并由金融专家指导。通过这个过程，研究团队确定了12个不同的金融领域。为了在每个领域内生成主题，他们从文献中提取相关段落，并使用领域名称作为提示，让ChatGPT提取候选金融主题。然后，金融专家筛选和完善这些输出，最终得到54个金融主题，平均每个领域4.5个主题。

研究团队还实施了严格的质量控制流程，包括初始模板生成后的理智检查和专家验证。在理智检查阶段，他们处理了几个常见问题：跨国不一致性、精度不匹配和输入规范不完整。在专家检查阶段，他们使用另一个大型语言模型（Claude）评估每个问题-解决方案模板的合理性，并将标记为潜在有缺陷的模板升级给金融专家进行最终判断。

三、ChainEval：评估推理链的新方法

想象一下，你在评判一场烹饪比赛。你不仅要尝尝最终菜肴的味道，还要观察厨师是否按照正确的步骤和技巧准备食材、调味和烹饪。同样，评估金融推理模型时，我们需要检查最终答案和中间推理步骤是否都正确。

研究团队提出了ChainEval，一个评估框架，从两个方面评估模型输出：最终答案正确性和推理步骤一致性。这种逐步语义对齐方法受到先前关于推理一致性工作的启发（Lyu等人2023年；Golovneva等人2023年），但研究团队通过明确建模中间结果的验证，通过步骤-答案匹配来扩展它。此外，与主要评估文本一致性的先前工作不同，他们的框架还验证最终数值答案，确保对模型性能的全面视图，同时评估推理忠实性和最终任务保真度。

ChainEval的工作原理如下：

首先，定义标准解决方案S*和预测解决方案S分别为m和n个步骤的序列： S* = (s*?, ..., s*?), S = (s?, ..., s?)

其中s*?和s?表示S*和S中的单个步骤。同时定义函数StepRes(·)，提取每个步骤计算的中间结果。

然后，通过两个组件测量推理忠实性：

1. 步骤语义相似性：使用句子编码器Enc(·)嵌入每个步骤，计算标准步骤和预测步骤对(s*?, s?)之间的余弦相似度，得到分数SS(·)∈[0,1]。

2. 步骤答案匹配：评估中间步骤s*?和s?计算的结果是否一致。引入函数AM(·)，允许对数值结果有小的容差（设为5%），以考虑数值舍入传播的误差。

当一对步骤的语义相似度超过阈值，且对应的中间结果一致时，这对步骤被认为是对齐的。基于此，计算步骤级别的召回率和精确率，最终计算步骤F1分数，这是步骤级别精确率和召回率的调和平均值。

最后，通过检查预测解决方案中最后一步的结果是否与标准解决方案的最后一步一致，评估最终答案的正确性。

这种全面的评估方法不仅检查模型是否得到了正确的最终答案，还验证它是否按照正确的推理路径得到了答案，这对金融领域尤为重要，因为在这里，过程的透明度和可审计性往往与结果本身一样重要。

四、大规模模型评估与发现

研究团队对30个大型语言模型进行了全面评估，使用了2,700个测试用例（54个主题×5个模板×10个实例）。所有模型都在一致的解码配置下进行评估：温度=0.7，top-p=0.95，最大令牌限制为4,096。他们使用了提出的ChainEval指标作为评估最终答案正确性和中间推理步骤一致性的主要指标。

评估的模型分为六类：

1. 通用模型：作为领域无关的强基线，包括GPT-4.1、GPT-4o mini、LLaMA 3系列、Mistral、Mixtral等。

2. 通用推理模型：专为广泛多步推理任务训练或微调的模型，如o3-mini、DeepSeek-R1系列、Qwen3等。

3. 金融微调模型：通过指令调整或在金融语料库上继续预训练而适应的模型，如Finance-LLM、FinanceConnect等。

4. 金融推理模型：专为金融多步推理设计的模型，如Fino1和FinR1。

5. 数学模型：在数学中心语料库上微调的模型，如Mathstral和Qwen2.5 Math。

6. 数学推理模型：在数学中擅长逐步问题解决的模型，如WizardMath和MetaMath。

表1展示了模型在FinChain上的综合评估结果，包括ChainEval的四个组成部分：最终答案正确性(FAC)、步骤精确率/召回率/F1，以及ROUGE和BERTScore评分。

整体而言，通用模型如LLaMA 3.3 (70B) Instruct和GPT-4.1在准确性和一致性方面表现领先。这些模型也表现出适度的方差，表明它们不仅具有高性能，还能在各种金融场景中稳健地泛化。关键的是，结果凸显了模型大小与推理能力之间的强相关性。较大的模型始终优于较小的模型，即使后者经过领域特定数据的明确训练，这表明领域暴露本身是不够的；稳健的推理性能还取决于处理符号和多跳推理的足够模型容量。

开源模型如Qwen3 (8B)尽管规模较小，也表现出竞争力，这可能归因于其在最新版本中增强的推理能力。金融推理模型，如Fin-R1表现出合理的符号对齐，但在最终答案准确性方面表现不佳。

研究团队还分析了模型在不同金融领域的表现（图3）。对于非推理模型，结构化和定量领域如个人金融和加密金融表现出较高的准确率。这些领域往往需要直接计算或熟悉的术语，通用和数学调优模型能够较好地处理。相比之下，风险管理和可持续金融等领域表现明显下降，这可能是因为它们需要多步逻辑、含糊场景或难以符号化编码的监管细微差别。

对于推理模型，在传统上具有挑战性的领域如金融比率和公司金融表现更强，表明这些模型在处理多步符号结构方面有所改进。然而，即使是推理模型在可持续金融和并购领域仍表现相对较弱，这需要细微的理解和特定领域的推理策略。

研究团队还评估了模型在不同难度级别下的鲁棒性（图4）。所有模型在复杂性增加时都表现出性能下降，突显了执行更长金融推理链的难度。其中，LLaMA 3.3 (70B) Instruct因其强大的绝对性能和渐进下降而脱颖而出，表明其在组合泛化方面表现更好。相比之下，较小的模型如Fin-R1 (7B)下降更为严重，表明在推理深度增加时难以保持推理连贯性。

最后，研究团队测试了在模板中改变实体名称和数值对模型推理性能的影响。较大模型如GPT-4.1在所有设置中保持一致的性能，反映出对名称和值输入的强大抽象能力。然而，较小的模型表现出不同的敏感性。例如，o3-mini在仅改变值时比仅改变名称时获得更高的准确率，GPT-4o-mini也表现出轻微的不稳定性，在不同条件下性能略有变化。

五、结论与未来展望

谈到金融人工智能的未来，FinChain代表了一个重要的里程碑。它不仅是一个评估工具，更是一面镜子，揭示了当前最先进模型在处理复杂金融推理时的真实能力和局限性。

归根结底，FinChain为我们提供了一种全新的方式来评估金融语言模型：不仅看它们能否得出正确答案，还要看它们是否通过正确的思考过程得出这些答案。这就像不仅评判厨师做出的菜肴，还要评判他们的烹饪技巧和方法。

研究发现，即使是最强大的模型在处理复杂的多步金融推理时仍有相当大的提升空间。这提醒我们，尽管人工智能在金融领域取得了令人印象深刻的进展，但真正掌握专业金融推理的能力仍然是一个进行中的挑战。

特别值得注意的是，模型大小似乎是决定推理能力的关键因素。较大的通用模型往往优于专门为金融领域训练的较小模型，这表明仅仅接触领域知识是不够的；模型还需要足够的容量来处理复杂的符号推理。

展望未来，研究团队计划扩展FinChain以支持多语言和区域特定场景，并探索逐步推理轨迹如何增强模型生成答案的可信度和事实性，特别是在真实文档的长篇金融问答中。这条研究路线可能有助于将符号金融推理与事实验证结合起来，支持更强大、更可解释的金融AI系统。

对于普通人来说，这项研究意味着未来的金融AI工具可能不仅会告诉你"应该投资什么"，还会清晰地解释"为什么"和"如何"得出这些建议。这种透明度对于建立信任至关重要，尤其是在金融这样高风险的领域。

如果你对这项研究感兴趣，可以通过GitHub（https://github.com/mbzuai-nlp/finchain）访问所有FinChain的模板和评估指标。这是一个开源项目，旨在推动金融AI的透明度和可靠性向前发展。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.