约翰斯·霍普金斯大学让大模型挑战真实法律推理，结果令人警醒|翻译|法条

分享至

这项由约翰斯·霍普金斯大学与巴黎综合理工学院电信巴黎分校联合开展的研究，以预印本形式于2026年4月6日发布在arXiv平台，论文编号为arXiv:2604.04443。研究团队围绕大语言模型在真实法律与政策场景中的推理能力展开了系统性评估，其核心成果是一个名为DeonticBench的新型测试基准。

每当我们谈到"人工智能能不能替代律师或税务顾问"，支持者往往会举出AI在律师资格考试或标准化测试中的亮眼表现。但考试题目和真实法律工作之间，存在一道深深的鸿沟。现实中的法律推理不是选择正确答案那么简单，而更像是在一座迷宫里按图索骥：你手里拿着一份密密麻麻的法规文件，面对一个具体的人的具体处境，必须一条条核对规定、排除例外、计算数字，最终给出一个有据可查、经得起追问的结论。

研究团队正是抓住了这个痛点。他们构建了一个包含6232个真实任务的测试集，横跨美国联邦税法、航空行李政策、美国移民行政裁决以及各州住房法律四个领域。这四个领域有一个共同特点：它们都充满了"如果……那么……除非……"式的条件嵌套，稍有疏漏就可能得出错误结论，而错误的后果往往不是无关紧要的小事，而是真金白银的罚款、被拒之门外的签证申请或者被驱逐的租户。

更关键的是，研究团队不仅仅测试AI能否给出正确答案，他们还探索了一种更严格的"可追溯"解题方式：让AI把法规和案件事实翻译成可以在电脑上实际运行的Prolog逻辑程序，由程序给出最终答案。这就好比不仅要求学生写出答案，还要展示完整的运算过程，并且这个过程必须严格正确、一步都不能错。测试结果对当前最强大的AI模型而言相当严峻，最好的模型在最难的子集上也只答对了不到一半的题目，而且增加"思考时间"也并不总能带来改善。

一、法律推理为什么难？从"背法条"到"懂法律"的天壤之别

理解这项研究的核心，得先明白一件事：知道一条法律规定的文字，和能够把这条规定正确地应用到千变万化的具体情况中，是两回事。

以联邦税法为例。法律条文规定，已婚纳税人如果符合"幸存配偶"身份，可以适用某个税率档次。但判断某人是否是"幸存配偶"，需要确认其配偶去世的年份、该纳税人是否再婚、家里是否有符合条件的受抚养人、房子是否由该纳税人维持……这些条件每一个都有精确的定义，而且可能相互影响。一个真实案例里，还会夹杂着雇佣农业工人的情况，这又触发了联邦失业保险税的计算。要把所有这些因素都正确地识别出来，准确地应用到具体的人身上，并最终算出一个精确到美元的税额，需要的不仅仅是"知道"这些规则，而是系统、严密地"运用"它们。

研究团队把这种推理能力称为"义务推理"（deontic reasoning），意思是推理关于"义务、许可和禁止"的问题。日常语言里，"你必须申报所有收入""你可以申请此类豁免""你不得在未申请许可的情况下驱逐租客"这类表述，正是义务推理的对象。现有的AI测试大多聚焦于数学题或百科知识，而DeonticBench专门针对这种在真实高风险场景下、依据明确规则进行的推理，是目前这一方向上规模最大的公开基准。

相比已有的类似测试集，DeonticBench有几个显著的不同之处。其一，规模更大，6232个任务约是此前最接近的同类测试集RuleArena的七倍以上。其二，领域更真实，四个领域都是普通人可能真实遭遇的场景，而非人工合成的逻辑题。其三，每个任务都配有一套经过人工验证的参考Prolog程序，这既可以作为AI学习的"标准答案"，也可以用来分析AI犯错的具体原因。

二、四个考场，四种为难

DeonticBench的四个领域各有侧重，像是四种不同难度和类型的法律考场。

联邦税法部分沿用了一个叫SARA的已有数据集，并做了重要改进。原始版本里，税法规则已经提前编写成Prolog背景程序，AI只需要应用；而在DeonticBench里，AI必须从头根据自然语言写成的法律条文生成完整的Prolog程序，这更接近真实的工作情景。这部分分为两类题目：一类要求计算具体的税额（SARA Numeric），另一类要求判断某个关于税法的陈述是"与法条相符"还是"与法条矛盾"（SARA Binary）。

航空行李政策部分来自另一个已有数据集RuleArena，考的是数值计算能力。给定一位乘客的舱位级别、行李的数量和尺寸重量，以及具体的航空公司政策，AI需要算出旅客总共应该支付多少费用。听起来不复杂，但当行李既超重又超尺寸，还要考虑商务舱免费托运额度和最优化选择时，正确答案的获取需要严格按照规则一步步推算。

住房法律部分来自一个法律检索领域的研究，包含了五千多个二元问答题，每题都基于具体州的住房法规。模型必须理解条文、识别相关规定，并给出是或否的判断。这部分的挑战在于：不同州的法律各不相同，而且题目往往需要从多条法规中综合推断，而不是直接照搬某一条文。

最值得关注的是全新构建的移民行政裁决部分（USCIS-AAO）。研究团队从美国公民及移民服务局行政上诉办公室公开发布的2022至2025年裁决文件中筛选出6483份有效案例，最终经过分层抽样和人工平衡，形成包含242个案例的数据集，其中"裁决接受"和"裁决驳回"各121个。每个案例由法律依据、分析论证和最终裁定三部分构成，研究团队特别用AI辅助提取了不含法律分析结论的"纯事实叙述"，确保AI在解题时无法从案例文本中直接"偷看"答案。这个新数据集要求模型综合运用多重法律标准，判断一次移民申请上诉应当被接受还是驳回。

三、Prolog这把"验证之尺"是什么

在深入理解测试结果之前，有必要介绍一下Prolog这种工具，因为它在这项研究中扮演了关键角色。

Prolog是一种逻辑编程语言，诞生于1970年代。与Python或Java那种按步骤告诉计算机"先做这个再做那个"的语言不同，Prolog的工作方式更像是数学推导：你告诉程序一些事实和规则，然后提出一个问题，程序会自动推导出答案。举个例子，你告诉程序"所有哺乳动物都是温血动物"，"狗是哺乳动物"，然后问"狗是温血动物吗"，程序会自动回答"是"。

把这个逻辑扩展到法律推理，就是：把法律条文翻译成"如果……那么……"形式的规则，把案件事实翻译成具体的事实陈述，然后向程序提问，由程序严格按照规则推导出结论。这种方式有两个显著优点：其一，答案是由逻辑推导得出的，每一步都有据可查；其二，只要规则和事实被正确翻译，结论就一定正确。这就好比用计算器算账，只要你输入的数字和公式都对，结果就不会错。

DeonticBench的独特之处在于为每一个任务配备了经过人工验证的参考Prolog程序。研究团队用OpenAI的o3模型为每个任务生成Prolog代码，由SWI-Prolog解释器验证能否正确运行并得到正确答案，对失败的案例给一次重试机会，再失败则丢弃。生成的代码还要经过人工验证，检查以下几点：规则覆盖是否完整、案件事实是否准确无泄露、代码能否正常运行，以及答案是否与标准答案一致。这套流程产出的参考程序，既是评测标准，也是供模型学习的训练素材。

正是因为有了这套可以实际运行的程序，研究团队能够对AI的错误进行精细的解剖分析，而不只是知道"答对了还是答错了"。

四、"最难的那批题"与评测方法

在整个DeonticBench中，最让研究团队引以为豪的是一批精心筛选的"难题子集"（hard set）。这批题目的产生方式颇有意思：首先让三个最强的前沿模型——OpenAI o3、GPT-5.2和Claude 4.5 Sonnet——各对每道题目进行两次尝试，只要其中任何一次失败，这道题就被标记为"潜在难题"；然后经过人工审核，去掉其中本身有歧义或表述不清的问题，保留真正有挑战性的那些。最终，这批难题被分成两部分：一部分放入评测集，另一部分放回训练集，确保评测时模型看到的都是没练习过的题目。

之所以强调难题子集，是因为随着AI能力不断提升，很多原本"有挑战性"的基准已经接近饱和，成绩差异越来越小，很难区分模型的真实水平。把精力集中在少量真正棘手的题目上，既省钱又更能说明问题。

评测中，每道题目会被模型回答多次（税法和移民题各4次，行李和住房题各3次），通过对这些答案进行统计分析来估计模型的稳定性，并给出带有置信区间的成绩。评分标准方面，数值计算类题目（税额和行李费）允许1美元的误差，二元判断题（法条符合还是矛盾、申请接受还是驳回、是还是否）使用宏平均F1分数，确保即使类别不均衡也能公平评估。

五、三种解题策略：直接回答、零样本和少样本

每个模型都以三种方式面对题目，分别对应三种解题策略，犹如三种不同的备考方式。

最直接的方式是让模型仅凭思维链推理给出最终答案，不生成任何Prolog程序。这就像让考生直接给出答案，不需要写出演算过程。这种方式最简洁，但也最不透明，出错了也难以追究原因。

第二种方式是"零样本Prolog生成"：给模型看法规文本和案件事实，让它从头生成一个完整的Prolog程序，然后实际运行这个程序来得到答案，整个过程没有任何示例可以参考。这像是给考生一份题目和一本规则手册，然后要求他们用这本手册写出一套可以在计算机上运行的推理机器。

第三种方式是"少样本Prolog生成"：在上述基础上，额外提供几个已经写好的示例程序，供模型参考和模仿。这是其中门槛最高的一种，因为生成的程序必须能实际运行、能调用正确的法律条款，并且输出正确的结论。

六、成绩单：最强大模型也只答对不到一半

研究团队一共测试了八个通用大语言模型，包括GPT-4.1、GPT-5.1、GPT-5.2、O3、Claude 4.5 Sonnet、Gemini 2.5 Flash、Kimi K2 Instruct以及Qwen3-235B，另外还有三个专门的代码生成模型。测试结果在难题子集上颇为惨淡。

以最直观的数值来看：在税法数值计算（SARA Numeric）这道"算算Alice今年要交多少税"的题目上，o3在零样本Prolog生成策略下取得了44.4%的准确率，这是所有模型和所有策略中的最高分；而GPT-5.1在零样本策略下也达到了44%。在住房法律判断题（Housing）上，GPT-4.1和GPT-5.1的少样本策略分别达到了46.6和46.8的宏平均F1，同样是各自的最高水平。换句话说，即便是当今最强大的模型，在这些真实法律推理任务的难题部分，成功率也仅仅勉强接近一半。

还有一些现象令人深思。o3在行李费计算题的少样本策略下表现惊人，达到了90.8%的准确率，但在税法数值计算的同样策略下只有15.2%。这说明模型的能力是高度任务特定的，擅长处理一种结构的规则计算，不代表在另一种同样基于规则的任务上也会表现良好。

更有趣的是不同策略之间的巨大差距。以Qwen3-235B为例，在税法数值计算上，少样本策略只有0.7%，几乎完全失效；零样本策略稍好一点，也只有8.7%；但切换到直接回答策略（不生成Prolog），成绩跳升至32.1%。类似的情况在Kimi K2上也出现了：在税法二元判断题上，直接回答策略取得了68.4的F1，是该模型该领域的最高水平。这说明不同模型对不同提示方式有截然不同的敏感度，没有一种策略能在所有模型和所有领域上都取得最好的效果。

开源模型与前沿闭源模型之间的差距也相当明显。开源模型在少样本和零样本Prolog生成策略上普遍表现较差，而且对提示方式更为敏感，成绩波动更大。在二元判断题上，这种差距有所收窄，直接回答策略能让开源模型取得相对有竞争力的分数，但在需要精确计算的数值题上，开源模型依然明显落后。

还有一个关于"更多思考"是否有帮助的专项测试值得一提。研究团队对o3、GPT-5.1、GPT-5.2等支持调节思考深度的模型，分别在低、中、高三个推理强度下测试了税法数值计算题，结果发现增加推理强度并不能稳定提升成绩，有时甚至出现负面效果。这意味着，靠让模型"想得更久"来解决这类问题，并非可靠的策略。

七、把错误放到显微镜下：四种犯错方式

因为每个任务都有参考Prolog程序，研究团队得以对GPT-5.1、GPT-5.2和o3在难题上的失败案例进行逐一分析，将错误归入四个类别。

第一类错误是"选错法条"：模型应用了错误的法律条款、错误的子条款，或者在行李费计算中查错了费率表。这类错误在住房法律题中占据压倒性优势，少样本策略下高达96.8%的失败案例属于这一类；零样本策略下也有93.5%。在移民行政裁决题中，零样本策略的失败案例中有77.3%属于选错法条。这说明，在需要从大量条文中识别最相关规定的任务上，模型的检索和对应能力是最大的瓶颈。

第二类错误是"事实编码失误"：法条找对了，但案件中的具体信息没有被正确提取和编码。比如，婚姻状况、抚养关系、行李类型等事实细节被错误地表示。这类错误在税法任务中尤为突出，在税法数值计算的零样本策略下，52%的失败案例属于这一类。

第三类错误是"数值计算错误"：法条找对了，事实也提取正确了，但在具体的数学运算上出了差错，比如超出限额的计算、行李数量最优化选择等。行李费计算任务的少样本策略下，100%的失败案例都属于这一类，零样本策略下也有75%。这说明即便规则和事实都对了，精确的算术运算对模型来说仍然是一道难关。

第四类错误是"程序实现缺陷"：Prolog代码本身在语法或运行时出现了低级错误，与推理逻辑无关。这类错误在移民行政裁决题的少样本和零样本策略下各占42.3%和22.7%，说明这个领域的任务对代码生成质量的要求也特别高。

由此可以得出一个重要判断：不同领域的问题有不同的瓶颈，不存在一个能一次性解决所有问题的通用改进方案。要提升住房法律题的成绩，关键是改善规则检索和匹配；要提升税法题的成绩，关键是改善信息提取；要提升行李费计算题的成绩，关键是改善数值计算的可靠性。

八、能通过训练弥补差距吗？

研究团队还尝试了通过训练来改善模型在这类任务上的表现，选择的基础模型是Qwen2.5-32B-Instruct，这是一个性能均衡的开源模型。训练方式包括三种：监督微调（SFT）、直接偏好优化（DPO）和一种改进版的强化学习方法（Dr. GRPO）。

监督微调的原理是让模型反复看正确的Prolog程序，学习如何从法规文本生成正确的代码。DPO则是在此基础上，同时给模型看"好的答案"和"差的答案"，让模型学会区分和偏向正确解法。Dr. GRPO是一种强化学习方法，通过让模型生成多个答案，然后用实际运行结果作为奖励信号来引导模型改进：如果生成的程序能正确运行并给出正确答案，给满分奖励；如果代码无法运行但使用了正确的谓词结构，给一个小额部分奖励；其他情况得零分。

训练确实带来了改进，特别是在二元判断类任务上。以移民行政裁决题为例，基础模型在少样本策略下只有10.3分，经过SFT训练后提升到35分，再加上DPO后提升到45.7分。这说明训练对模型的分类判断能力有明显帮助。

然而，税法数值计算题几乎没有从任何训练方式中受益，所有方法在所有策略下都维持在个位数水平。这个强烈的对比说明，精确的规则计算是一个比分类判断困难得多的问题，当前的训练方法还不能可靠地解决它。

强化学习方法虽然在某些任务上（如航空行李和税法二元判断）达到了最好成绩，比如GRPO+DPO+SFT在行李费计算上达到了60.4，在税法二元判断上达到了54.0，但这些提升并不稳定，跨任务表现参差不齐。更值得注意的是，训练之后的模型对提示方式依然高度敏感：行李费计算最好用少样本策略，但移民行政裁决最好用直接回答策略，这种对提示方式的依赖性在训练前后并没有得到根本改变。

九、专门代码模型表现如何？

研究团队还额外测试了三个专门针对代码生成优化的模型：GPT-5.2-Codex、Qwen3-Coder-Next以及Qwen3-Coder-480B。

GPT-5.2-Codex的表现最为突出，在行李费计算的少样本策略下达到了95.5%的惊人准确率，在税法数值计算的零样本策略下也达到了45.8%，是所有模型中的最高分之一。然而，它的表现同样对提示方式极为敏感，而且置信区间很宽，说明结果的稳定性存疑。

Qwen系列代码模型则在许多设置下几乎完全失效，给出零分或接近零分的成绩，说明这些模型在生成符合法律推理需要的Prolog代码方面存在严重困难。研究团队指出，尽管这些模型具备强大的通用代码生成能力，但将这种能力迁移到高度特定的法律逻辑推理场景，仍然是一个尚未解决的难题，而且细微的提示变化就可能导致灾难性的失败。

由此可见，DeonticBench揭示了一个值得警惕的现象：在标准编程任务上表现卓越的代码模型，并不能自然地转化为可靠的法律推理工具，两者所需的能力有实质性差异。

归根结底，这项研究用扎实的数据回答了一个每个人都可能关心的问题：当AI说它能"帮你处理法律事务"时，它真正擅长的是什么，又在哪里力不从心？答案是清醒而具体的：即便是当今最强大的模型，在真实法律推理的困难情况下，正确率也只能勉强达到五成上下。错误的来源是多样的，有时是找错了法条，有时是提取事实出了偏差，有时是数学算错了，有时干脆就是代码写出了低级错误。通过训练可以有所改善，但改善幅度有限，而且进展不均衡。

DeonticBench的价值不在于给AI打了一个低分，而在于它清晰地揭示了"哪里出了问题"以及"问题各不相同"。这对于真正想要改进AI在法律、税务、政策领域应用的研究者和开发者而言，提供了一张有用的路线图。研究团队明确提醒，他们发布这个基准纯粹用于研究和评估，模型的输出不应被视为专业的法律、税务或政策建议，任何真实的高风险决策都应有人类专业人士的监督。

对于普通读者而言，这项研究传递了一个实际而有用的信息：AI在法律和政策问题上目前仍然不够可靠，特别是当问题比较复杂、需要多条规则交叉应用时，出错的概率相当高。用AI来快速了解法规的大致内容，可能是有帮助的；但真正依赖AI给出一个精确的法律结论——比如你今年到底该交多少税，或者你的签证申请能否被接受——风险依然很高。

这项研究的完整内容可通过arXiv平台以论文编号arXiv:2604.04443查阅。

Q&A

Q1：DeonticBench测试的是AI的什么能力，和普通AI测试有什么不同？

A：DeonticBench专门测试AI在真实法律和政策场景下按照明确规则进行推理的能力，覆盖美国税法、航空行李政策、移民行政裁决和住房法律四个领域。与大多数只考数学或百科知识的AI测试不同，DeonticBench要求模型在长篇法规文本和具体案件事实之间建立精确对应，还可选择把推理过程转化为可实际运行的Prolog逻辑程序，这让出错的地方得以被精确追踪和分析。

Q2：DeonticBench的测试结果中，当前最强的AI大概能答对多少题？

A：在最难的题目子集上，成绩最好的情况是OpenAI o3在税法数值计算的零样本Prolog策略下达到44.4%的准确率，GPT-4.1和GPT-5.1在住房法律判断题上达到约46.6到46.8的宏平均F1分数。换句话说，即便是当今最顶尖的模型，在这些真实法律推理难题上也只能答对不到一半，而且不同任务和提示方式之间的成绩波动很大。

Q3：DeonticBench为什么要用Prolog语言来验证AI的推理过程？

A：Prolog是一种逻辑编程语言，可以把法律规则和案件事实翻译成计算机可以严格推导的程序，由此得到的答案每一步都有明确依据。用Prolog验证有两个好处：一是答案由逻辑推导产生，不是凭感觉猜测，可靠性高；二是当程序运行失败或答案错误时，研究者能精确定位是法条选错了、事实提取有偏差、数值计算出错了，还是纯粹的代码语法问题，从而找到有针对性的改进方向，而不是只知道"答错了"。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.