《人民检察》2021年1月(下半月)第2期
机器学习算法在法律文书
制作繁简分流中的运用
——以危险驾驶案件审查报告自动生成技术为视角
(缪成* 汪迎兵** 李宝善***)
*安徽省人民检察院检察信息技术部主任助理,安徽省人民检察院智能语音与人工智能联合实验室研究员,安徽省检察业务专家;
**安徽大学法学院讲师,博士研究生;
**安徽省人民检察院智能语音与人工智能联合实验室研究员。
【关键词】
繁简分流;危险驾驶罪;文书自动生成;机器学习算法
【摘要】
刑事案件的数量增加迫使检察机关刑事检察部门采取繁简分流的工作机制,通过“简案快办,疑案精办”,将有限的司法资源集中到重大、疑难、复杂案件上,力求提高案件办理质量,提升司法公信力。以深度学习为代表的新一代人工智能机器学习算法,在辅助检察机关实现法律文书自动生成方面有着独特的应用价值,本文以危险驾驶案件审查报告自动生成为视角,从繁简分流机制的法理和现实基础出发,结合安徽省基层检察机关刑检部门的试点经验,总结出适应检察机关繁简分流机制,以规模化大批量快速准确生成表格式审查报告为核心的的机器学习算法适用经验。
2018年10月刑诉法修改后,完善了刑事案件认罪认罚从宽制度,增加了对速裁程序的规定,总结了2014年和2016年全国人大常委会授权两高在18个城市展开的试点经验,正式构建了以速裁程序、简易程序、普通程序三大类刑事案件诉讼程序为核心的多层次的刑事诉讼程序,以期通过多元化的诉讼程序设置,科学分流不同难度的刑事案件,合理配置司法资源。安徽省检察机关利用国家综合性科学中心、高科技产业集群、中国声谷等产业集群优势,依托高检院智慧检务创新研究院下设的智能语音与人工智能联合实验室平台,着力于检察法律文书的制作规范化和自动化,深度适用要素抽取、命名实体识别等机器学习算法,探索检察环节刑事案件法律文书繁简分流的基层司法实践。
一、繁简分流机制在检察法律文书制作环节的现实需求
检察机关的繁简分流机制是指在刑事案件的诉讼程序中,遵循司法规律,科学调配和高效运用司法资源,依法快速办理简单刑事案件,严格规范办理复杂刑事案件,在当前刑事案件数量居高不下的背景下,将有限的司法资源向重大复杂疑难等案件倾斜[1],力争做到简案快办,繁案精办,在公正与效率并重原则的指导之下,努力以较小的司法成本取得较好的法律效果。繁简分流机制在内容上可以分为案件种类分流、办案流程分流、办案组织分流、法律文书分流四个方面。其中,法律文书的繁简分流是繁简分流机制的重要组成部分,也是最为复杂,对现代科学技术依赖性更为密切的部分。
(一)传统法律文书制作中存在的问题
繁简分流改革之前,检察机关法律文书繁简不分、结构僵化的现象比较严重,需要说理的没有充分深入说理,不需要深入说理的也得“八股式”地列举理由,导致“该繁者不繁,该简者不简”[2],不利于司法资源的优化配置。基层一线办案的员额检察官制作案件审查报告过程中,需要阅读证据材料和法律文书,对大量证据材料进行审查、摘录和分析,从繁杂的卷宗中发现细微的疑点和不规范的证据瑕疵,花费了大量的时间和精力。但是,一份篇幅动辄上万字审查报告,其中大量的是摘录的案件证据和笔录,其中真正用来陈述检察官心证,进行说理的不过寥寥数页。刑事法律文书繁简不分,成为近年来影响检察机关内部诉讼程序繁简分流机制的重要制肘。
(二)法律文书繁简分流的目标要求
2016年出台的《最高人民法院关于进一步推进案件繁简分流优化司法资源配置的若干意见》中要求:“推行裁判文书繁简分流。根据法院审级、案件类型、庭审情况等对裁判文书的体例结构及说理进行繁简分流。......简单案件可以使用令状式、要素式、表格式等简式裁判文书,简化说理。当庭宣判的案件,裁判文书可以适当简化。”[3]从《意见》中可以看出,刑事法律文书的繁简分流应当朝着两个方向努力:一是加强疑难复杂案件的文书说理。对于疑难复杂案件,法律文书的制作应当符合制式文书规范,进行充分说理,将检察官对于事实证据的采信和心证的过程予以合理阐述,从而提高司法机关的司法公信力;二是简化速裁案件的格式。简易案件、速裁案件一般都是案件事实没有太大争议,犯罪嫌疑人(被告人)认罪伏法,或者是当事人之间达成谅解的轻微刑事案件,只要司法机关办理案件的结果符合实体法和程序法的规定,就可以让涉案当事人信服,让社会矛盾得以化解,所以,在“简案快办”的流程中无需在文书中进行复杂的心证说理,做到处理结果准确即可。
在现阶段,基层检察机关的法律文书繁简分流改革的重点是简化文书格式,主要体现在速裁和简易程序中法律文书的制作、审批、生成的过程简洁和高速流转。
(三)法律文书繁简分流的科技诉求
繁简分流机制离不开科技的支撑,2016 年,《国家信息化发展战略纲要》将“智慧法院”和“科技强检”建设提升到国家战略层面,明确提出提高案件办理各个环节的信息化水平,为法律人工智能的发展奠定了政策基础。2017 年 7 月,国务院发布的《新一代人工智能发展规划》中提出“促进人工智能在证据收集、案例分析、法律文件阅读与分析中的应用,实现法院审判体系和审判能力智能化。”在这种人工智能高度融入司法的背景下,安徽省检察机关依托人工智能联合实验室平台,提出对于某一类罪的简易、速裁案件,其审查报告由机器通过人工智能技术,将碎片化的证据要素进行提取,将制式文书格式中需要的信息与证据审查过程中抽取的信息进行比较关联,将信息自动填充到文书模板当中,一键生成文书。
在审查起诉环节中,经过繁简分流,对高发频发的大量简单案件由机器来进行自然语言识别,使用已经成熟的表格式的文书模板,采用要素定点嵌入的方式,完成表格式、要素式的高度简化文书制作,进而节省检察官在速裁案件和简易案件中的精力投入,可以让检察官有更为充裕的时间来对疑难复杂案件的司法文书进行撰写、分析、说理和共情。
二、法律文书自动生成中的几种主流机器学习算法介绍
机器学习所研究的主要内容,是关于计算机从数据中产生“模型”的算法,即“学习算法”(learning algorithm),即通过一系列的经验数据(也称为标注数据)训练输出模型,面对新的数据时,进行预测(predict)给出结果[1]。机器学习从发展历程角度可以分为传统机器学习和深度学习,传统机器学习算法主要有逻辑回归、支持向量机、条件随机场、决策树等。传统机器学习算法需要基于人工经验将数据特征化,再进行特征组合输入到学习算法中训练输出模型,但对于一些复杂的问题,传统机器学习算法难以总结全部有效特征,很难将特征量化为计算机语言。深度学习(Deep Learning, DL)是基于多层神经网络的特征学习算法,通过构建多隐层的模型和海量训练数据,来学习更有用的特征,从而最终提升模型性能(见图1)。
▲图1 机器学习本质示意图
近年来,随着人工智能“革命”的爆发,深度学习的研究与应用在自然语言处理领域产生了诸多突破性的成果,自然语言处理(NLP)作为人工智能中认知智能的核心技术发展迅速,涉及教育、医疗、金融、司法等多个领域,在司法领域主流的任务包括文本分类、命名实体识别、关键要素抽取等。
(一)文本分类算法
文本分类算法(Text Classification),是计算机对文本集合按照事先定义好的类别体系进行自动分类标记的技术,在司法领域主要用于罪名分类,特定犯罪情节识别等。文本分类算法的核心在于类别之间定义的区分度以及数据集内容对类别的敏感度。在由机器进行罪名分类的算法实践中,抢夺罪和抢劫罪,绑架罪与敲诈勒索罪之间往往容易产生错误识别,主要是由于此罪和彼罪之间存在着比较细微的构成要件差别,数据集难以准确区分。对于文本算法来说,提取足以区分类别间的特征相较于构建模型结构本身来说更为重要。目前主流的文本特征提取的方法主要基于深度学习,常见的网络结构有CNN-BiLSTM(双向长短时记忆网络)和BERT,这些网络结构都可以基于简单的词索引提取高维且带上下文语义的向量,结合人工标注的数据拟合各个网络层的参数,得到从输入到输出的复合函数,即可完成文本分类模型的训练过程。
(二)命名实体识别算法
命名实体识别算法(Named Entity Recognition,NER),是指通过序列标注的方法,识别一个文本序列中的实体是从第Pi个字到Pj个字,常见的实体类别一般包括人名、地名、机构名、时间、日期。NER通常包括实体边界识别和确定实体类别,其中确定词边界与分词方法一致,确定实体类别的过程中与分词方法相互影响,确保一个较长机构名,例如“最高人民检察院”不会被分开。目前主流完成NER的网络结构是CNN-BiLSTM-CRF,其中CNN与BiLSTM与在文本分类的作用一样,用以提取文本中高维且包含上下文语义信息的特征,之后接上CRF层,用于在整个序列上学习最优的实体标签序列。模型通过以下公式计算最优标注序列(见图2),其中y为待预测序列,A矩阵是标签转移概率,P矩阵是BiLSTM的预测。
图2 最优标注序列计算公式
(三)要素抽取算法
要素抽取算法是基于NER技术基础之上的信息抽取(Information Extraction,IE)技术,即从指定文本序列中找到人们关心的信息及其所在的文本子序列。目前研究要素抽取技术的算法主要分为三类:(1)基于人工总结规则的匹配算法;(2)基于传统序列标注模型的深度学习算法;(3)基于Encoder-Decoder(编码-解码)模型框架的深度学习算法。
1.人工规则匹配的算法在司法领域主要适用于文书版式及结构相对固定的文书,例如起诉意见书、起诉书、裁判文书等。主要的方法是基于数据集分析文本特点,总结待抽取要素标签所在文本位置及前后的说法,写成正则表达式或文法表达式的方式,进行匹配。例如,起诉意见书关于嫌疑人信息的描述:“犯罪嫌疑人张三,男,19XX年XXX日生,出生地:XXXXX,身份证号XXXXXXXXXXXXXXX,汉族,初中文化……”版式及句式基本固定,则可通过简单正则表达式“犯罪嫌疑人(.*{2-4}),$”进行匹配抽取嫌疑人姓名,其中表达式含义为:抽取“犯罪嫌疑人”后面 2-4 个汉字并以逗号作为结尾。
2.序列标注模型算法主要适用于结构相对发散,但基本可收敛的文书要素抽取,例如对裁判文书中罪名及判决结果的抽取。其算法原理是基于人工已标注标签子序列的数据,学习数据中相同标签上下文语义是否存在相近,从而发现机器敏感的一些序列,进而对测试集进行标签文本子序列识别与抽取。以实体抽取任务为例,对于“地点”类实体,其可搭配的说法虽然较多,但从词性、句法等角度分析,基本收敛,基于足量训练语料即可发现这种规律,习得序列标注模型。
3.在司法领域要素抽取算法中应用比较广泛的是基于Encoder-Decoder模型框架的深度学习算法。即对于法律文书的要素抽取,定义为近似机器从篇章中找到标签答案的阅读理解任务。例如,对于讯问笔录中对于“作案经过”的抽取,近似给机器一份笔录,让其回答:“嫌疑人的作案经过是什么?”机器从笔录中找到答案最可能字符的开始位置与结束位置,从而给出回答。基于阅读理解模型进行司法文书要素抽取采用的网络结构为R-Net[1],采用交互的形式,捕获原文与问题之间的交互信息,其中原文和问题都采用词与字两种编码的方式,可以更深层次捕获内部各字词之间的交互信息。其中 Attention 层采用注意力机制,对原文中每个词,计算其关于问题的注意力分布,使得答案位置的预测更加准确。值得一提是,在使用阅读理解模型对笔录或其他证据进行要素抽取时,会出现一些原文中无相应标签(即一些问题无答案)以及原文中存在多处相同标签(即一些问题有多答案)的问题,因此在做模型输出的时候需要包含多目标预测,不光要基于问题对原文每个词预测答案开始与结束的概率,还要预测出无答案的概率,最终结合一些后处理,得到符合概率门限的一个或多个词序列作为最终答案。
三、危险驾驶案件审查报告自动生成的司法实践
近年来,安徽省部分地区的危险驾驶案件数量高居不下,危险驾驶案件占全部审查起诉案件的件数比例,从2017年的25%左右迅速增长到近30%以上,个别地区甚至达到50%左右。大量的案件数量占据了基层检察机关宝贵的员额检察官数量和办案时间,亟待采取“繁简分流”的方式来提高办案效率。从基层检察机关的办案实践来看,绝大多数危险驾驶案件属于犯罪事实清楚,证据标准明确,证据种类固定的速裁类案件,员额检察官审查起诉的内容比较简单,比较适合使用以要素填充的表格式法律文书,符合“简案快办”的繁简分流要求。综合上述因素,我们在安徽省选择了电子卷宗质量较好的若干基层检察院作为试点,在危险驾驶案件中使用机器学习算法来帮助员额检察官自动生成表格式的案件审查报告。
危险驾驶案件审查报告自动生成,适用的是NLP领域自然语言生成(Natural Language Generating, NLG)技术,主流的方法包括抽取填充式和摘要生成式两种方法,前者是对目标文档结构单元(句子、段落等)进行评价,固化一些句子、段落等,形成模板,然后对动态的结构单元转换为抽取填充的任务,从原文中抽取关键语句填充;后者是利用自然语言理解技术对原始文本进行语法、语义分析,对信息进行融合,生成新的摘要句子[1]。基于安徽省检察机关已经在统一办案系统中推广使用表格式审查报告,因此我们主要使用抽取填充式方案(见图3),即首先以办案系统数据库中的危险驾驶案件审查报告为样例,从中挖掘分析得出相对普适的审查报告模板,固化文书描述语句,再结合检察业务专家人工经验分析,确定待填充内容的来源,定义文书要素抽取任务需求;第三步是基于电子卷宗编目结果,从指定文书中抽取关键信息;最后,结合模板及抽取到的信息自动生成审查报告。
图3 审查报告自动生成方案
(一)审查报告的模板确认
危险驾驶案件审查报告通用模板的内容,采用数据挖掘分析的方式,基于大量检察官撰写的规范审查报告,结合安徽省检察院出台的速裁案件审查报告模板,对审查报告的主要段落进行分解,主要包括:1.犯罪嫌疑人及其他诉讼参与人的基本情况,2.发、破案经过,三、侦查机关认定的犯罪事实与意见等。段落分解后,再对段落中的每一小段进行分解,直到分解到句子。由此得到以下集合:
其中D表示审查报告文档集合,P表示审查报告段落,S表示段落中句子。审查报告集合按照以上层级进行分解后,分别从每一份报告中取出段落,再对属于相同段落中的句子集合采用频繁集挖掘,即基于统计分析方法发现常见的字、词、句,得出某一段落中统计频率最高的句子,最后经过检察业务专家的确认,得到该段落的句子描述模板,以此类推,得到整个段落及整个审查报告的模板。
(二)审查报告的内容信息抽取
确定通用审查报告的模板后,采用信息填充的方式生成审查报告的关键就在于文书要素抽取任务的定义以及要素抽取的效果。以审查报告中“强制措施情况”段落的生成为例,该段落确定的模板描述入下:犯罪嫌疑人<姓名>因涉嫌危险驾驶罪,于<刑事拘留时间>被<公安局>刑事拘留,于<取保候审时间>被<公安局>取保候审。其中括号内的内容为案情相关的信息,即需要通过要素抽取技术从相关证据文书中提取。结合办案经验,可以确定<姓名>应从嫌疑人《户籍信息》中提取,<刑事拘留时间>和<公安局>可从《拘留证》中提取,<取保候审时间>可以从《取保候审决定书》中提取。按照以上思路,可以总结出危险驾驶案件审查报告模板中所有与案情相关的内容及其文书来源(见表1),从而定义出文书要素抽取任务,再使用前文提到的三种要素抽取算法,进行法律文书要素抽取。
表1 危险驾驶审查报告模板解析样例
通过对审查报告模板的解析,危险驾驶案件的审查报告共需从13类常见文书证据中抽取信息以生成审查报告中必要的内容,待抽取信息的文书证据包括《起诉意见书》、《归案经过》、《户籍信息》、《拘留通知书》、《取保候审决定书》、《酒精检测检验报告》等。由于危险驾驶案件的案情比较简单,证据种类比较固定,依据检察官办案经验,可梳理出危险驾驶案件常见待审查的点以及与证据的关系。结合醉驾案情审查点的剖析,机器从卷宗中查找相关证据并通过要素抽取的方式提取其中关键信息进行内容分析,进而进行相关情节的认定及相关内容的生成。例如,机器检测到卷宗材料中存在《道路交通事故责任认定书》,则可推测在危险驾驶案件中存在交通事故,就会尝试去查找《110接警单》、《受案登记表》等文书材料进行案件来源审查,还会查找《赔偿协议书》、《谅解书》等文书来审查犯罪嫌疑人在发生事故后的表现。此外,对于作为危险驾驶案件中的关键证据《司法鉴定报告》的信息提取,不只提取鉴定报告中嫌疑人的血液酒精含量,同时会对证据的合法性做自动的审查预警,如鉴定报告中采用的鉴定标准是否是GA/T1073-2013,是否有2名鉴定人员签名等。
上述基于人机耦合总结的审查报告模板,结合要素抽取算法的收集的信息,可完成审查报告中大部分内容的直接抽取填充生成。但是,审查报告中证据分析部分,会因为不同的证据分布导致不同的分析内容。经过对前述13种法律文书随机挑选的300份测试集进行测试,在相同标签体量下,文书信息抽取效果偏差控制在在3%以内。例如犯罪嫌疑人是否有前科,是否受到刑事或行政处罚,内容的表述及所需要引用的证据都会存在差异,此类前科信息就需要结合多份证据进行提取、分析,是文书自动生成中的难点。而犯罪嫌疑人血液酒精含量,则可以通过司法鉴定报告进行直接抽取,此类固定审查点的内容生成则相对简单。上述两种情况都还需要与员额检察官的司法办案知识与经验相结合,让机器学习算法逐步掌握危险驾驶案件的审查思路,更为准确地生成审查报告。
(三)审查报告机器自动生成的办案流程
在过去的办案流程中,危险驾驶案件由案管部门直接分案到员额检察官的办案系统中,由员额检察官完成从阅卷到提审,再到制作法律文书的全部审查起诉流程。在机器学习算法介入办案流程后,文书自动生成技术不再要求员额检察官全程参与,而是先由检察官助理或者书记员来操作软件,在机器自动生成法律文书后,再批量交由员额检察官进行文书内容的复核审查把关。这种流程更为符合繁简分流机制改革后的“简案快办”要求,方便对大量的简易案件进行快速批量处理[2];同时,也符合检察机关人员分类管理改革后员额检察官、检察官助理、书记员各司其职的职能分工要求。(见图4)
图4 机器学习算法对审查起诉流程的改造
在安徽省基层检察机关一线适用的过程中,危险驾驶案件审查报告自动生成的适用流程为:案件电子卷宗PDF上传——结合审查知识查找证据文书——关键证据内容信息的提取——关键证据的自动审查——将关键证据的审查结果提示给检察官——生成审查报告初稿。经过在基层检察院一线办案部门的实践,一件侦查卷宗在200页以内的危险驾驶案件,从整本卷宗的PDF文件输入机器到审查报告的生成,整个过程的时间控制在10分钟以内,相对于之前员额检察官自己的阅卷、摘录、打字、编辑过程,可以节省出80%的审查起诉时间。
以安徽省某基层检察院办案数据为例,2019年全年由4名员额检察官办理危险驾驶案件320件,若采用机器学习算法的辅助自动生成文书技术,可将原来的1个小时左右的审查报告制作时间缩短到10分钟,全年320件危险驾驶案件的审查报告总体制作时间可以从原来的19200分钟减少为3200分钟,相当于给每个员额检察官全年节省出8个工作日。同时,为了适应一些案情特殊,情节复杂的危险驾驶案件的办理,在自动生成审查报告后,机器还在审查报告中提供了与电子卷宗原始证据的链接,员额检察官只需要点击链接,就可以立刻显示文书内容相关联的证据,方便员额检察官快速核对修改。
结 语
国务院发布的《新一代人工智能发展规划》中提出“促进人工智能在证据收集、案例分析、法律文件阅读与分析中的应用。”在这种人工智能高度融入司法的背景下,安徽省检察机关在落实繁简分流机制改革的过程中,率先开展法律文书的繁简分流改革,借助人工智能和机器学习算法,对高发、频发的大量简单案件由机器来进行自然语言识别,完成表格式、要素式的高度简化文书制作,进而节省检察官在速裁案件和简易案件中的精力投入,让检察官有更为充裕的时间来对疑难复杂案件的司法文书进行撰写、分析、说理和共情。通过繁简分流改革,安徽省检察机关在部分试点基层检察院建立相对清晰明确的速裁办案组,对于大量的简易、速裁案件,使用基于机器学习的的文书自动生成功能,通过自然语言识别技术,将侦查卷宗中的碎片化的要素进行提取,快速自动生成文书。同时,通过文书自动生成算法的适用标准和适用规范,反过来倒逼检察机关的刑检部门改变那些与司法体制改革精神不符的办案流程,实现人工智能技术对司法领域的“流程重塑”和“规则重塑”,真正实现技术理性对于司法理性的深刻改造。
注:为方便阅读,已省略原文注释
安徽检察新媒体出品
审核丨吴贻伙
来源丨《人民检察》
文字丨缪成、汪迎兵、李宝善
编辑丨李昂
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.