特约文章丨法律大模型评估指标和测评方法|正确性|有效性

分享至

文 / 许建峰，刘程远，况琨，何浩，孙常龙，李宝善，魏斌，杨力，金耀辉，吴飞

摘要：

为了全面、准确地评价法律大模型在司法场景中的真实表现，本文提出了一套全面、系统、实用的法律大模型评估指标和测评方法，涉及到多个真实的司法任务，考察法律大模型处理真实任务的能力，旨在推动法律大模型的研发、测评工作，促进法律人工智能发展和推进智能化法律教育。

关键词：

法律大模型；评估指标；测评方法

在习近平总书记关于网络强国的重要思想指引下，我国政法智能化建设蓬勃发展，法律人工智能技术在政法各部门服务人民群众、服务社会治理、服务公正司法、服务队伍建设中得到广泛应用，取得显著成效。法律人工智能是人工智能技术发展的重要方向。自然语言理解在法律人工智能应用中具有关键作用。大语言模型促进了自然语言理解技术的新突破，也为法律人工智能发展提供了重大机遇。面对众多科研团队和企业相继推出法律大模型的蓬勃发展形势，通过一套较为全面、系统、实用的评估指标和测评方法，指引和推动法律大模型的研发、测评工作，是业界的共同呼声和迫切需求。应法律大模型技术发展需要，本文描述了法律大模型的能力体系，提出了法律大模型的评估指标和测评方法，旨在促进法律人工智能和智能化法律教育的发展，为法治中国和平安中国建设作出应有的贡献。

1 能力体系

法律大模型1能够基于通用和法律专业知识的学

习、训练成果，实现多种智能化能力，支持各类司法任务。法律大模型智能服务能力应包含语言理解、内容生成、知识问答和逻辑推理四大模块，12项能力，具体框架如图1所示

图 1 法律大模型智能服务能力框架

1.1 语言理解

语言理解能够根据给定的法律文本数据，正确理解各部分内容的语义，以及上下文之间的联系，包括但不限于支持以下任务。

（1）法律文书检查

法律文书检查能够对给定法律文书中的字词、句子、标点、表述、语法等进行正确性和规范性检查，并对其中的错误进行纠正。

（2）案件要素抽取

案件要素抽取能够对给定法律文书、证据文件等内容进行案件相关要素的提取，包括但不限于当事人身份、诉辩陈述、关联特征、事实认定、争议焦点、裁判说理、法律适用、裁判结果等。

（3）法律文书摘要

法律文书摘要能够对给定法律文书的内容进行归纳和总结，按照指定模板格式要求形成精炼准确的内容摘要。

1.2 内容生成

内容生成能够根据给定的法律文本数据，生成不同风格、版式、结构的法律文本内容，包括但不限于支持以下任务。

（1）法律文书生成

法律文书生成能够根据给定的法律诉求和案情信息文件，生成符合相应格式规范的法律文书，包括但不限于起诉状、案件受理通知、答辩状、裁判文书等。

（2）办案报告生成

办案报告生成能够根据给定的案情信息文件，生成符合相应模板格式要求的办案报告，包括但不限于调查报告、侦查报告、审查报告、审理报告等。

（3）结构化文本生成

结构化文本生成能够根据给定的法律文书和案情报告文件，按照用户及系统使用要求，生成各种

结构化的法律文本，包括但不限于 Excel2文本生成、Markdown3文本生成、JSON4文本生成等。

1.3 知识问答

知识问答能够根据用户输入的提问信息，实现对用户法律问题的系统性和连贯性解答，包括但不限于支持以下任务。

（1）法律法规问答

法律法规问答能够根据用户提出的法律法规问题和案情事实描述，推荐提供相应的法律法规条文。

（2）案件咨询问答

案件咨询问答能够根据用户提出的案情事实和法律诉求，推荐提供于法有据的法律观点、类似案例和对策建议。

（3）司法程序问答

司法程序问答能够根据用户提出的案情事实和法律诉求，提供符合法律规定的司法程序及相关流程和步骤规定。

1.4 逻辑推理

逻辑推理能够根据给定信息和用户多轮提示5，在准确理解完整信息的基础上，分析、判断、归纳其中相关要素，发现要素之间的逻辑关系，形成符合用户要求的推理结果，包括但不限于支持下述任务。

（1）证据链分析

证据链分析能够根据用户或司法信息系统6提供的证据文件和不同案由的证据标准，分析推断证据的真实性、合法性、关联性，支持构建案件的完整证据链。

（2）案情事实分析

案情事实分析能够根据用户或司法信息系统提供的案件事实描述和相关证据文件，依照法律法规，分析推断案情事实的真实性、全面性和细致性。

（3）司法决策推理

司法决策推理能够根据用户或司法信息系统提供的案件事实描述、证据文件和诉请要求，依照法律法规，分析推断案件事实、争议焦点和法律适用，并在此基础上提供辅助决策建议。

2 评估指标

评估指标为估计和评价法律大模型提供基本的指标参考。

2.1 基本构成

法律大模型的评估指标体系分为两个层级，其中一级指标包括功能指标、性能指标、安全性指标和质量指标4项内容，二级评估指标是对各项一级评估指标的分解细化。两级指标体系框架，如图2所示。

图 2 法律大模型评估指标体系框架

2.2 功能指标及计算方法

功能指标主要反映法律大模型支持实现各项智能化法律辅助任务的功能是否存在。

2.2.1 功能指标内容

法律大模型的功能指标主要包括语言理解、内容生成、知识问答、逻辑推理4个类型，具体包括法律文书检查、案件要素抽取、法律文书摘要、法律文书生成、办案报告生成、结构化文本生成、法律法规问答、案件咨询问答、司法程序问答、证据链分析、案情事实分析、司法决策推理 12 项功能。法律大模型具有的其他功能，可以参照纳入指标体系。

2.2.2 功能指标数计算方法

法律大模型功能指标数的具体计算公式为

其中Ci表示 i个功能是否存在，存在则为1；否则为0。

2.3 性能指标及计算方法

性能指标主要衡量法律大模型支持实现相应智能化法律辅助任务的性能水平。

2.3.1 性能指标内容

法律大模型的主要性能指标包括衡量精准程度的F1、衡量时间特性的首字响应时间、处理效率和并发路数、衡量输出信息综合效能的正确性、完整度、相关度和有效性共8项指标。

2.3.2 性能指标计算方法

（1）F1

F1是对常见的分类、抽取、纠错等机器学习任务的准确性评估指标，由精确率P和召回率R联合计算，具体计算公式为

其中，TP表示预测正确的正样本的数量；FP表示预测为正样本，但实际是负样本的数量；FN表示预测为负样本，但实际是正样本的数量

（2）首字响应时间

首字响应时间是指从用户发送问题结束到用户接收、到法律大模型服务器返回第一个字所需的响应时间，具体计算公式为

其中，Tf表示首字响应时间，单位为ms；Ts表示用户发送问题的时间，单位为 ms；Tr 表示用户收到服务器返回第一个字的时间，单位为 ms。首字响应时间的评价分数7分为6级，满分为5 分。

（3）处理效率

处理效率是指法律大模型系统单位时间内所能

处理的 token8数量，具体计算公式为

其中，Es表示处理效率，单位为tokens/s；Es表示用户与系统连接次数，单位为tokens；Tc表示用户与系统连接时间，单位为s。处理效率的评价分数9分为6级，满分为5分。

（4）并发路数

并发路数指法律大模型系统可以同时处理请求的最大数量。并发路数的评价分数10Cc 分为6级，满分为5分。

（5）正确性

正确性指标表征法律大模型生成回复内容真实正确的程度。正确性的评价分数11分为6级，满分为5分。

（6）完整度

完整度指标表征法律大模型能够依据用户输入信息回答提供输出信息种类的完整程度。完整度的

评价分数12分为6级，满分为5分。

（7）相关度

相关度指标表征法律大模型依据用户一系列相关输入信息回答的输出信息之间的相关程度。相关度的评价分数13分为6级，满分为5分。

（8）有效性

有效性指标表征法律大模型针对用户输入信息生成回复内容的有用程度。有效性的评价分数14分为6级，满分为5分。

2.4 安全性指标及计算方法

安全性指标主要反映法律大模型支持实现各项智能化法律辅助任务时影响社会和个人安全的程度。

2.4.1 安全性指标内容

按照国家法律法规、社会道德伦理和《最高人民法院关于规范和加强人工智能司法应用的意见》、国家互联网信息办公室等部门发布的《生成式人工智能服务管理暂行办法》要求，参考《通用认知智能大模型评测体系》，法律大模型的安全性指标包括敏感话题、排斥成见、非法竞争、权益侵害、隐私安全、恶意抨击、违法违纪、人身危害、心理危害、负向价值10项内容。

2.4.2 安全性指标计算方法

安全性指标15用于判定法律大模型回答内容是否

安全。计算安全性指标需要统计是否有禁止项内容，以及问题项内容占比率。

（1）禁止项内容的统计方式

统计每个安全类别集合中有无标记为“禁止”的内容，具体计算公式为

其中H表示每一安全类别中有无人工标记为2（禁止）的内容，只要有一项标记为2，则H值为1；否则为0。

（2）问题项内容占比率的统计方式

统计每个安全类别集合中标记为1（问题项）的数量，分别计算每个安全类别的问题项内容占比率，具体计算公式为

其中，H表示每一类安全类别中人工标记为1（问题项）的数量；N表示每一类安全测试集的结果数量。

2.5 质量指标及计算方法

质量指标主要反映法律大模型支持实现各项智能化法律辅助任务时的稳定可靠程度。

2.5.1 质量指标内容

法律大模型质量指标包括GB/T42584—2023《信息化项目综合绩效评估规范》中4.3.2可靠性和 4.3.3可维护性两项内容。

2.5.2 质量指标计算方法

（1）可靠性统计公式为

其中，T表示时间；F表示时间T内法律大模型出现的故障次数。

本文中所述故障皆为由于被测系统自身原因导致1min 及以上时间无返回结果的情形。

（2）可维护性统计公式为

其中，N为纳入统计的法律大模型故障次数；ti为第i次故障出现后的系统恢复时间。如果N=0, 则MTBR=0。

3 测评方法

测评方法基于评估指标体系，针对不同任务从功能、性能、安全性、质量四个方面，为法律大模型测评提供指标选择和权重设置等方法参考。评估时需要全面展现各分项得分和综合评估分数。

3.1 功能测评

针对法律大模型的特定任务功能，准备符合相应任务需求的测试数据集，将其输入被测对象，检查被测对象能否输出满足任务功能特征的输出信息，若满足，则Ci为1；不满足则Ci为 0。Ci表示第i个功能的测评值。参考式（1），功能测评的总分为

3.2 性能测评

针对每一个特定任务，选择若干合适的性能评估指标，向法律大模型施加相应的测试数据集，依据输出信息计算估计每一指标的测评结果，对所有结果加权求和，获得该项任务的性能测评结果。

3.2.1 法律文书检查

以法律文书（如起诉书、判决书、答辩状等）的文本文件及相关任务提示指令作为测试数据集，检查测评法律大模型输出的文书内容的错误提示和纠错建议，检查范围包括字词、句子、标点、表述、语法等的正确性、规范性以及纠错建议的合理性。评估指标选用式（2）~（4）、正确性和完整度指标，测评得分计算公式为

Q2.1=0.6×F1+0.4×（s1+s2）/（2×5）

其中s1和s2分别为正确性和完整度指标得分16。

3.2.2 案件要素抽取

以法律文书、证据文件等卷宗的文件及相关任务提示作为测试数据集，抽取案件要素（例如当事人身份信息、案件特征、争议焦点等）。评估指标选用公式（2）~（4）和完整度指标，测评得分计算公式为

Q2.2=0.5×F1+0.5×s2 /5

其中 s2 为完整度指标得分17。

3.2.3 法律文本摘要

以法律文书的内容及相关任务提示作为测试数据集，生成内容摘要。计算法律文本摘要分数选用式（2）~（4）、正确性和完整度指标，测试得分计算公式为

Q2.3= × F1+（1- ）×（s1+s2）/（2×5）

其中，为示性函数，法律文本摘要任务可为分类任务或生成任务，如果为分类任务，则 =1；否则=0。s1、s2 分别表示生成的法律文本摘要和标签文本摘要的正确性和完整度18。

3.2.4 法律文书生成

以诉求和案情信息文件文本内容及相关任务提示作为测试数据集，生成相关法律文书（如起诉状、案件受理通知、答辩状、裁判文书等）。法律文书生成评估指标选用式（2）~（4）、正确性、完整度和相关度指标，测评得分计算公式为

Q2.4=0.3×F1+0.7×（s1+s2+s3）/（3×5）

其中s1、s2、s3分别表示正确性、完整度和相关度的5分制分数19。

3.2.5 办案报告生成

以案情信息文件内容及相关任务提示作为测试数据集，生成办案报告。办案报告生成评估指标为正确性、完整度和相关度指标，测评得分计算公式为

Q2.5=（s1+s2+s3）/（3×5）

其中s1、s2、s3分别表示正确性、完整度和相关度的5分制分数20。

3.2.6 结构化文本生成

以法律文书和案情报告文本内容及相关任务提示作为测试数据集，抽取结构化的文本信息（例如Excel 生成、Markdown 生成、JSON 生成）。结构化文本生成评估指标选用式（2）~（4）和完整度指标，测评得分计算公式为

Q2.6=0.5×F1+0.5×s2/5

其中s2为完整度指标得分21。

3.2.7 法律法规问答

以用户提出的法律问题和案情事实描述及相关任务提示作为测试数据集，回答相应的法律法规，计算分数时，需要考虑回答的法律法规是否正确，以及法律法规的来源是否真实。评估指标选用正确性、完整度、相关度和有效性，具体公式为

Q2.7=（s1+s2+s3+s4）/（4×5）

其中s1、s2、s3、s4 分别表示正确性、完整度、相关度和有效性的 5 分制分数22。

3.2.8 案件咨询问答

以用户提出的案情事实和法律诉求及相关任务提示为测试数据集，回答法律观点、相似案例和对策建议。计算案件咨询问答的分数需要考虑输出的法律观点是否正确，相似案例是否与用户咨询的案情相关，对策建议是否能为用户提供有效帮助。评估指标选用正确性、完整度、相关度和有效性指标，具体计算公式为

Q2.8=（s1+s2+s3+s4）/（4×5）

其中s1、s2、s3、s4分别为正确性、完整度、相关度和有效性的 5 分制分数23。

3.2.9 司法程序问答

以司法程序问题及相关任务提示为测试数据集，生成司法处置程序及相关办理规定。计算司法程序问答的分数需要考虑司法程序和相关办理规定的正确性、对用户所提问题的针对性。评估指标选用正确性、完整度、相关度和有效性指标 , 测评得分计算公式为

Q2.9=（s1+s2+s3+s4）/（4×5）

其中s1、s2、s3、s4分别表示正确性、完整度、相关度和有效性的5分制分数24。

3.2.10 证据链分析

以用户提供的证据文件、不同案由的证据标准，以及相关任务提示作为测试数据集，生成证据链的分析推理结果。评估指标选用正确性、完整度和相关度指标，测评得分计算公式为

Q2.10=（s1+s2+s3）/（3×5）

其中s1、s2、s3分别为正确性、完整度和相关度的5分制分数25。

3.2.11 案情事实分析

以用户提供的案件事实描述、相关证据文件，以及相关任务提示作为测试数据集，生成案情事实分析推理结果。评估指标选用正确性、完整度和相关度指标，计算公式为

Q2.11=（s1+s2+s3）/（3×5）

其中s1、s2、s3分别为正确性、完整度和相关度的5分制分数26。

3.2.12 司法决策推理

以用户提供的案件事实描述、证据文件和诉请要求，以及相关任务提示作为测试数据集，生成案件事实、争议焦点、法律适用和辅助决策等分析推理建议。评估指标选用正确性、完整度和相关度指标，测评得分计算公式为

Q2.12=（s1+s2+s3）/（3×5）

其中s1、s2、s3分别为正确性、完整度和相关度的5分制分数27。

3.2.13 时间性能

时间性能由首字响应时间、处理效率和并发路数综合体现，其评估指标选用式（5）、式（6）和并发路数评价指标。应准备有针对性的测试数据集和环境条件，施加于法律大模型，获得各项测评指标，得分计算公式为

Q2.13=（0.5×Tf +0.4×Es+0.1×Cc）/5

其中Tf、Es、Cc分别为5分制的首字响应时间的分数、处理效率、并发路数的评分。

3.2.14 性能综合分数

计算性能综合分数具体公式为

其中 Ci参考式（1），表示功能分数，每项任务的权重计算公式为

3.3 安全性测评

根据不同任务特点和敏感话题、排斥成见、非法竞争、权益侵害、隐私安全、恶意抨击、违法违纪、人身危害、心理危害、负向价值 10 项影响安全的内容，准备有针对性的测试数据集，施加于法律大模型，人工分析各项输出结果，判断是否属于禁止项内容、问题项内容和无问题项内容，最后按照式（7）和式（8）计算有关安全性指标。安全禁止项评分为

Q3.1=1-F

问题项内容占比率评分为

Q3.1=1-Pf

最终安全性指标计算公式为

Q3=Q3.1×Q3.2

3.4 质量测评

安排足够长的测试时间，考查法律大模型在被测试时段出现的故障次数和每一次故障的恢复时间，分别按照式（9）和式（10）统计可靠性指标 MTBF和可维护性指标MTBR。

3.4.1 可靠性指标评分方法

按照式（9）给出的 MTBF 计算相应的可靠性指标评分 Q4.128。

3.4.2 可维护性指标评分方法

按照式（10）给出的 MTBR 计算相应的可维护性指标评分：

其中 MTBR 单位为 min，如果 MTBR>10 min 则按10 min 计算。

3.4.3 质量评估总得分

Q4=0.7×Q4.1+0.3×Q4.2

3.4.4 综合评估方法

通过各分项指标得分，可获得法律大模型最后总得分为

Q=100.0×Q2×Q3×Q4

综合评估得分是性能得分（Q2）、安全性得分（Q3）和质量得分（Q4）的综合体现，而功能得分（Q1）已在 Q2 的计算中得到体现。

4对教育的意义

研究法律大模型评估指标和测评方法，不仅有助于直接帮助针对法律大模型的研究和探索，也间接为法律教育的智能化提供了有力引擎。法律大模型可用于法律知识普及、法律教育辅助等，从各个方面参与法律教育和现代化的、智能化的法律教学，法律大模型评估指标和测评方法也为如何更好地研究法律智能教育提供了评价准则。

5 结束语

大语言模型促进了自然语言理解技术的新突破，也为法律人工智能发展提供了重大机遇。为了促进法律人工智能和智能化法律教育的发展，本文从法律大模型测评角度出发，描述了法律大模型的能力体系，提出了法律大模型的评估指标和测评方法。

（参考文献略）

1针对用户法律需求，基于用户输入的文件和提示（prompt）进行语言理解、内容生成、知识问答和逻辑推理等服务的大规模语言模型。

2基于 Excel 软件定义格式存储的电子表格文件，用于储存字符串、数字或其他类型等数据。

3基于轻量级标记语言 Markdown 标准编写的纯文本格式文档。

4基于轻量级资料交换格式 JSON（JavaScript Object Notation）编写的纯文本格式文档，其内容由属性和值所组成。

5利用自然语言指导或激发人工智能模型完成特定任务的短语或句子，基于提示词可对预训练模型微调，形成了称为“预

训练 - 提示 - 预测”（pretrain-prompt-predict）的机器学习范式。

6对司法业务流程中的各类信息进行数字化处理的信息系统。

7https://github.com/liuchengyuan123/AppendixOfCAAIPaper/blob/main/附录.md#（首字响应时间）。

8一个用于区分不同实体或概念的唯一标识符,可以是一个单词、数字或其他类型的数据，用以表示一个具体的对象或概念。

9https://github.com/liuchengyuan123/AppendixOfCAAIPaper/blob/main/附录.md#（处理效率）。

10https://github.com/liuchengyuan123/AppendixOfCAAIPaper/blob/main/附录.md#（并发路数）。

11https://github.com/liuchengyuan123/AppendixOfCAAIPaper/blob/main/附录.md#（正确性）。

12https://github.com/liuchengyuan123/AppendixOfCAAIPaper/blob/main/附录.md#（完整度）。

13https://github.com/liuchengyuan123/AppendixOfCAAIPaper/blob/main/附录.md#（相关度）。

14https://github.com/liuchengyuan123/AppendixOfCAAIPaper/blob/main/附录.md#（有效性）。

15https://github.com/liuchengyuan123/AppendixOfCAAIPaper/blob/main/附录.md#（附录 2 安全性指标判定准则）。

16https://github.com/liuchengyuan123/AppendixOfCAAIPaper/blob/main/附录.md#（法律文书检查）。

17https://github.com/liuchengyuan123/AppendixOfCAAIPaper/blob/main/附录.md#（案件要素抽取）。

18https://github.com/liuchengyuan123/AppendixOfCAAIPaper/blob/main/附录.md#（法律文本摘要）。

19https://github.com/liuchengyuan123/AppendixOfCAAIPaper/blob/main/附录.md#（法律文书生成）。

20https://github.com/liuchengyuan123/AppendixOfCAAIPaper/blob/main/附录.md#（办案报告生成）。

21https://github.com/liuchengyuan123/AppendixOfCAAIPaper/blob/main/附录.md#（结构化文本生成）。

22https://github.com/liuchengyuan123/AppendixOfCAAIPaper/blob/main/附录.md#（法律法规问答）。

23https://github.com/liuchengyuan123/AppendixOfCAAIPaper/blob/main/附录.md#（案件咨询问答）。

24https://github.com/liuchengyuan123/AppendixOfCAAIPaper/blob/main/附录.md#（司法程序问答）。

25https://github.com/liuchengyuan123/AppendixOfCAAIPaper/blob/main/附录.md#（证据链分析）。

26https://github.com/liuchengyuan123/AppendixOfCAAIPaper/blob/main/附录.md#（案情事实分析）。

27https://github.com/liuchengyuan123/AppendixOfCAAIPaper/blob/main/附录.md#（司法决策推理）。

28https://github.com/liuchengyuan123/AppendixOfCAAIPaper/blob/main/附录.md#（附录 4 可靠性指标评分准则）。

许建峰

上海交通大学特聘教授。长期从事大规模信息系统顶层设计和系统集成工作，研究兴趣主要包括信息建模与度量及其在计算机和信息系统体系工程中的应用。

选自《中国人工智能学会通讯》

2024年第14卷第2期

科研新范式：All-in-One下的基础模型专题

扫描加入我们
获取更多学会资源

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

特约文章丨法律大模型评估指标和测评方法