网易首页 > 网易号 > 正文 申请入驻

基于深度神经网络的中文命名实体识别

0
分享至


江西地名研究

关注我们,获取更多地名资讯

摘要:由于中文词语缺乏明确的边界和大小写特征,单字在不同词语下的意思也不尽相同,较于英文,中文命名实体识别显得更加困难。该文利用词向量的特点,提出了一种用于深度学习框架的字词联合方法,将字特征和词特征统一地结合起来,它弥补了词特征分词错误蔓延和字典稀疏的不足,也改善了字特征因固定窗口大小导致的上下文缺失。在词特征中加入词性信息后,进一步提高了系统的性能。在1998年《人民日报》语料上的实验结果表明,该方法达到了良好的效果,在地名、人名、机构名识别任务上分别提高1.6%、8%、3%,加入词性特征的字词联合方法的F1值可以达到96.8%、94.6%、88.6%。

关键词:命名实体识别;深度学习;神经网络;机器学习;词性

1 引言

命名实体识别(named entity recognition,NER)是自然语言处理(natural language processing,NLP)的一项基础任务,它的重要作用是从文本中准确地识别出人名、地名、机构名、时间、货币等信息,为机器翻译、自动文摘、主题发现、主题跟踪等高级NLP任务提供实用的信息。最初的NER主要采用的是基于规则的识别,通过领域专家和语言学者手工制定有效规则,识别出命名实体。这样的方法仅适用于简单的识别系统,对于复杂的NER,要求规则之间不能产生冲突,因此制定规则会消耗人们大量的时间和精力,且领域迁移性欠佳。因此,随着技术的发展,越来越多的人们采用机器学习的方法来完成NER任务。

近年来,研究者们把NER任务规约为一种序列标注任务,对于每一个输入的字,判断其标签类别,根据最终的类别标签判定命名实体的边界和类型。例如,在“SBEIO”策略中,S表示这个字本身就是一个命名实体,B表示该字是命名实体的开始,I表示该字位于命名实体的中间位置,E表示命名实体的结尾,O表示该字不属于命名实体的一部分。序列标注任务有许多适用的机器学习方法,例如,隐马尔科夫模型(hidden markov models,HMM)、最大熵马尔科夫模型(maximum entropy markovmodels,MEMM)、条件随机场(conditional ran-dom fields,CRF)等。这些学习方法需要研究者手工提取有效的语法特征,设定模型的模板进行识别,因此特征模板的选择直接影响NER的结果。Zhou和Su提出使用四种不同的特征去提高HMM在NER的性能。Borthwick等利用了MEMM和额外的知识集合,例如姓氏集,提高了NER标注的准确性。Lafferty等提出CRF用于模式识别和机器学习,后来McCallum和Li提出了特征感应的方法和Viterbi方法,用于寻找最优NER序列。在中文NER领域,存在着一些问题,例如系统的自适应性不强、网页数据复杂、简称机构名识别困难。陈钰枫提出使用双语对齐信息来提高NER性能和双语对齐结果,可以有效提高中文NER的自适应性。邱泉清提出使用CRF模型对微博数据进行命名实体识别,利用知识库和合适的特征模板,取得了良好的效果。本文使用深度神经网络进行NER,可以提高系统的召回率,有效提升系统的自适应性。

机器学习方法需要提取文本特征,如何高效地表示文本的语法和语义特征,是NLP领域亟需解决的问题。近几年,word2vec的提出吸引了无数NLP爱好者的目光。它可以将词语表示成一个固定长度的低维向量,这个向量被认为具有一定的潜在语义信息,近似词语之间具有一定的向量相似性,词向量之间还可以进行加减操作,获得词语之间的语义联系,例如等式“国王—男+女=王后”成立。因此,使用词向量作为输入特征,可以更自然地展示语言的潜在信息,而且不需要手工设置特征模板,对于NER的识别具有一定的积极意义。可以把词向量作为深度神经网络的输入,执行许多NLP任务。深度神经网络是一个用于挖掘潜在有用特征的多层神经网络,网络的每一层的输出是该语句的一种抽象表示,层级越高,表示的信息越抽象。语言本身就是一种抽象的表达,因此采用基于词向量的特征表示,利用深度神经网络进行命名实体识别,可以有效地提高NER的性能。

相较于西方语言如英语的NER,中文命名实体识别显得更加困难,因为中文词语没有明确的边界信息和首字大小写信息。因此,分词错误的漫延和信息缺失会大大降低NER的准确率。中文的字和词都具有其特定的语义信息,相同的字组成不同顺序的词语之间的语义可能差别很大,而且由于词典的不完备性,识别过程中会出现很多的未登录词造成识别的错误,自然地,基于字的命名实体识别方法被提出。但是,基于字的NER也有其自身的局限性。一方面,由于窗口大小的限制,导致无法获得更多的有用信息;另一方面,中文词语具有其特殊的含义,字也有它本身的意义,仅使用字的NER系统无法高效关联出字词之间的联系。因此,我们考虑使用字词结合的方法进行NER。词性是词语的重要属性,词性可以表达更加抽象的词语特征,因此在NER中加入词性特征可以为系统提供更多的有用信息,帮助分类算法进行分歧判断。因此,我们提出将词性信息加入特征向量中,该方法可进一步提高中文命名实体识别系统的性能。

本文的主要工作如下:(1)我们提出将深度神经网络应用于中文命名实体识别,该方法可有效提高中文NER的性能;(2)我们利用字向量、词向量的特点,提出了将字词联合的方法用于深度神经网络的中文NER系统;(3)我们方便地在深度神经网络中加入了词性信息,进一步提高了系统的识别性能。

本文的组织结构如下:第一节介绍了引言及相关工作;第二节主要介绍了深度神经网络的结构和训练方法,详细介绍了字向量、词向量和字词结合向量三种输入特征的表示;第三节对比了不同窗口大小和隐藏节点个数情况下,在字向量、词向量和字词联合向量作为输入特征时,DNN在中文NER上的实验结果;最后一节是本文的结论。

2 深度神经网络

命名实体识别任务可以被抽象为输入的每一个字进行“SBEIO”标签预测的问题。传统的标注方法是人工选择一组适合该任务的特征模板,标注结果的好坏依赖于特征模板的质量。因此,研究者需要学习和掌握语言学知识和领域常识,这会消耗大量的时间、财力和精力。Collobert等提出了一种深度神经网络(deep neural network,DNN)结构,普遍适用于许多NLP标注任务。DNN可以训练一套低维词向量用于词语的特征表示,它不再需要人工设计一个特殊的特征模板,最重要的是词语的向量之间具有潜在的语义关系,因此使用词向量可以提高任务的召回率。除此之外,DNN可以很方便的加入额外的特征信息。所以,我们选择深度神经网络结构进行中文NER任务。

DNN是一个多层的神经网络,它的结构如图1所示。第一层是输入层,它主要负责将输入窗口的字或者词进行词向量的映射,所有出现在字典中的字或者词都有一个固定长度的低维向量,这些向量被存放在Lookup表中,当输入窗口产生新的字词后,输入层将对这些字词进行向量映射,将其按顺序进行组合,获得该窗口下的窗口向量,窗口向量作为DNN第二层的输入。第二层是一个标准的神经网络,它具有两个线性层和一个位于中间的非线性层。第三层是采用Viterbi算法实现的输出层,它主要负责对输入的句子进行最优标签序列的搜索。


2.1 词向量特征

我们定义一个字典DC和一个词典DW,所有字向量均保存在字向量矩阵中,所有的词向量均保存在词向量矩阵中,其中和分别表示每个字向量和词向量的维度,|DC|和|DW|分别表示字典和词典的大小。

给定一个中文句子c[1:n],这个句子由n个字组成,经过分词以后,这个句子可以被分为m个词语。我们使用映射函数和,如式(1)、式(2)所示 。


其中的第列。是在字典中的字典序,是在词典中的词典序。

2.1.1 字特征

假定中文句子c[1:n],首先我们抽取每个字的特征向量作为深度神经网络的输入。对每一个字,最简单的方法是直接使用作为的输入特征,但是每个字的上下文对于这个字所表达的意义具有重要的作用,因此应该尽可能地使用上下文为提供更多的信息。由于句子的长短不一,为了适应不同长度的句子,使用滑动窗口的方式进行字特征的提取是合理的。

我们定义字窗口大小为,然后按照从左到右的顺序滑动窗口,对于每一个字,它的输入特征定义为:


如果出现字不在字典中的情况或者超边界,我们将其映射为一个固定的向量,在实验中我们为每一维数值均设定相同的归一化向量。

字特征向量作为神经网络模型的输入,需要经过两次线性变换和一次非线性变换g(·)抽取特征。我们采用sigmoid函数作为非线性变换的抽取函数:


假设NER的标签种类用表示,则神经网络的输出是一个||维的向量。例如,使用“SBEIO”策略则输出层包含五个节点。这个输出向量表示对滑动窗口中字,预测每个标签的概率。我们可以对每个字按照如式(5)进行概率预测。


其中,和

是训练参数,是预设定的隐藏层的节点数。

2.1.2 词特征

类似字特征,我们定义词特征窗口为,对于词,它的输入特征可以简单定义为:


词向量的表示还有一个优点,就是可以方便的添加新的特征。例如,对于词语可以添加词性特征,对于单字可以添加姓氏特征等。由于命名实体的构成依赖于外部语言环境,词性信息可以很好地对词语进行抽象,进一步发现语句的结构联系,所以我们在词特征中加入词性信息,进一步提高NER的性能。

我们定义词性标注集合为POS,现定义一个单位方阵,当词被标记为时,其对应的词性序为k,的词性向量表示为,它是一个One-hot向量,向量第k值为1,其余全部为0。其映射函数如式(7)所示。

给定某个中文语句由m个词w[1:m]组成,词性标注序列为ps[1:m]。那么,词特征可以被定义为:


带词性的词特征被定义为每个词向量及其词性one-hot向量的拼接,然后首尾相接组成词特征。


2.1.3 字词结合特征

我们选择字词结合的向量主要基于以下两个原因:(1)基于字的NER不能够理解中文汉字的意义,例如“中国”和“印度尼西亚”在仅使用字窗口的情况下,因为窗口限制及字长差异,是无法进行联系扩展并将其正确地识别为地名的;(2)基于词的NER强依赖于分词结果的质量和词典的完备程度,如果分词出现错误会直接影响NER的结果。另外,因为不存在于词典中的词语会被映射为一个特殊的向量,意味着这个词语本身不能够提供任何信息,极有可能造成词语的误判断。因此,我们选择字词结合的方式进行NER,二者之间可以进行有效的互补,从而提高NER系统的识别性能。

设定一种字词映射关系:


结合的邻近字和的上下文,定义字窗口和词窗口大小分别为ωᶜ和,从左至右滑动输入窗口,对于每个字,它的字词联合输入特征定义为:


加入词性特征以后的字词联合特征如图2所示,针对“上”字,抽取的5窗口的字特征如图左所示,因为“上”是“上海”的一部分,所以词特征方面是以“上海”为中心的,其窗口的词语如图右所示,关于词性特征,以“上海”是名词为例,词性信息在/n位置显示的是1,其他部分均为0。经过将字特征和词特征进行连接,共同作为“上”的输入特征,进入神经网络进行处理,该输入特征的定义为:


假设标签集合为T,神经网络的输出为|T|维向量,用于指示输入字的标签概率。它的预测函数可以定义为:


其中,为训练参数,H为隐藏节点个数。

2.2 语句评分

NER的标注结果取决于两个数值,一是神经网络输出层的输出概率,二是标签的转移概率转移概率。表示的是从第i∈T个标签转移到第j∈T个标签的概率,例如B标签后面接E标签的概率要远大于接S标签的概率。对于不会发生的转移,可以采用设置其转移概率为很小的负数来进行简化计算。对于可能出现的转移情况,可以采用随机初始化或者平均初始化其转移概率。最后可以采用Vertibi算法计算最优标签路径。

对于一个给定的句子c[1:n],神经网络为每一个字输出一个标签概率向量,则对该句子输出层是一个标签概率矩阵,其中表示的是第i个字标记为标签tᵢ的概率,其计算方法如式(12)。给定句子c[1:n],标注的标签t[1:n],将标签概率和转移概率联合,表示的是整个句子标注得分,该得分定义为:


因此,我们选择最优标签序列,即使得s(c[1:n],t[1:n],θ)最大的似然估计,最优序列定义如下:

使用Viterbi算法可以快速计算出句子的最优标签序列。

2.3 梯度下降训练模型

该模型的训练参数为θ=,可以选择梯度下降法,对训练集合中的每个训练样本(c,t)进行迭代训练,最大化句子的概率。参数的更新操作如下:

其中,λ是训练速度,P(·)是神经网络最终的输出分数,t和c分别表示的是标签序列t[1:n]和输入文本c[1:n]的简写。P(t|c,θ)表示的是给定句子c标记为序列t的条件概率,我们需要对它进行归一化处理,主要采用softmax方法进行归一化。


其中TP表示的是给定句子c,所有可能的标签序列集合。它的对数似然可以表示为:


随着句子长度的增加,|TP|会迅速增长,虽然计算一次可行路径的耗时是线性的,但是计算所有可行路径却是指数级的。因此我们选用Zheng提出的加速算法,对模型进行更新。

3 实验

我们共进行了三组实验进行人名、地名、机构名的识别,第一组实验的目的是对DNN参数进行选择,第二组实验是对比字向量、词向量和字词结合向量的NER性能,第三组实验是比较加入词性特征后的系统识别性能。

第一组实验选用的是1998年《人民日报》语料1月(RMRB-98-1)的数据,选择前75%共14860句的数据作为开发训练集,剩余作为开发验证集。第二组实验选用的数据集是1998年《人民日报》语料(RMRB-98)1月至6月的数据,选取80%共100000句的数据作为训练集,其余部分作为测试集。第三组实验的数据与第二组相同,我们加入一级词性、二级词性特征后,观察识别的F1值的变化情况。除此之外,使用word2vec对新浪新闻5个季度635MB的数据进行无监督训练,非线性函数选取的是tanh函数,生成字向量和词向量,分词工具使用的是无字典的ICTCLAS。

实验采用C++编程,运行服务器配置为2.05 GHz AMD Opteron(TM)CPU和8GB内存,软件使用的是Linux操作系统和g++编译器。实验的评测方法是F1值、准确率、召回率。

3.1 DNN参数实验

我们使用RMRB-98-1作为开发集,对参数的选择进行实验分析。对于人名(PERSON)、地名(LOCA)、机构名(ORGAN)三种识别任务,分别采用字特征(CHAR)、词特征(WORD)、字词联合(CH—WO)特征进行实验,对比在不同窗口大小和不同隐藏层节点的情况下F值的变化情况,实验结果如图2、图3所示。



从图2可以看出,当窗口大小在3~5时,系统的识别效果较好。我们可以观察到如下现象:字词结合系统对于大部分识别任务是窗口大小不敏感的,在小窗口下也可以达到很好的效果;人名任务的最优窗口大小为5,因为中文人名一般都小于5并且这样的窗口大小可以带来一部分信息;当窗口大于5时,由于过拟合的原因,机构名的识别准确率急速下降。从图3可以观察到,当隐藏节点足够多时,系统的性能不再受到很大影响,而且隐藏节点数目越多系统运行越缓慢。因此,在余下的实验中,我们设定了300个隐藏节点。

3.2 字词法合向量对比实验

字向量、词向量、字词结合向量对比实验的数据集为RMRB-98,参数设定如表1所示,实验结果如表2所示。



对于地名和机构名任务,词向量的结果优于字向量,这主要是因为词向量更能表达词语的潜在语义关系。中文句子是由许多词语组成的,相同的字的不同组合,语句中词语意思也可能不相同,而且字特征的窗口受到限制,因此NER的结果普遍不如词向量。但是对于人名识别任务,由于词典稀疏问题,词向量方法中人名会被影射成一个特殊向量,降低了识别效果,而且人名更关注于姓氏和语句结构,因此使用字向量效果更好。

字特征和词特征都有其自身的局限性,因此当使用字词结合向量后,三类任务的取值均有较大提升,对地名、人名、机构名的提升度分别达到了1.6%、8%、3%。

3.3 结合词性特征对比实验

使用DNN结构可以轻松地加入额外的特征信息。例如,当我们加入了词性特征以后,系统的性能有了很大的提高。我们分别对比了不增加词性信息(no-pos)、增加一级词性标注(1-pos)、增加二级词性标注(2-pos)的实验结果。实验中的词性使用《现代汉语语料库加工——词语切分与词性标注规范》中的词性标注符号。其中一级词性有25个,二级词性有39个,如表3所示。实验结果如表4所示。我们和现阶段较好的NER模型——Hybrid Mod-el(HM)进行了实验对比,HM模型使用的训练数据和测试数据与本文方法相同,实验结果显示:加入词性标注的字词联合模型可以超越HM的识别性能,在地名、人名和机构名的识别上,F1值可以达到96.8%、94.6%、88.6%。尤其需要指出的是,本文的方法有效提高了地名、人名和机构名识别任务的召回率,加入2-pos后系统性能提升明显。其中在人名F1值方面我们的模型不如HM好,主要原因是HM进行了人名的细分,它针对不同国家的人名训练了不同的模型并进行混合,而我们的模型是不区分国家人名的,所以我们的结果略差于HM模型。与此同时,我们还使用了CRF模型与本文方法进行比较,实验结果表明,加入2-pos后的系统在地名和人名识别方面表现出色,但机构名识别方面准确率不如CRF高,这可能是由于机构名构成复杂,神经网络语言模型只利用了局部信息而没有利用全局信息导致的。



4 结论与展望

本文介绍了用于中文命名实体识别的深度神经网络,提出了字词结合方法,有效地弥补了单字识别和单词识别的不足,加入词性特征后的识别系统性能更加鲁棒。实验对比了字向量、词向量和字词结合向量在中文NER上的结果,字词结合方法对中文NER有较大提升。目前,跟命名实体相关的专用特征还没有加入到系统中,我们下一步将考虑加入姓氏集、地区特征集等相关特征,进一步观察该方法的系统性能。

作者:张海楠,伍大勇,刘悦,程学旗

来源:《中文信息学报》2017年第4期

选稿:耿 曈

编辑:贺雨婷

校对:欧阳莉艳

审订:杜佳玲

责编:耿 曈

(由于版面内容有限,文章注释内容请参照原文)



微信扫码加入

中国地名研究交流群

QQ扫码加入

江西地名研究交流群

欢迎来稿!欢迎交流!

转载请注明来源:“江西地名研究”微信公众号

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
特朗普说要夺岛,结果丹麦又蠢又坏,干的事情让人无语

特朗普说要夺岛,结果丹麦又蠢又坏,干的事情让人无语

说历史的老牢
2026-01-19 13:56:04
5%增长 vs 体感寒冬:消失的万亿去哪了?

5%增长 vs 体感寒冬:消失的万亿去哪了?

美第奇效应
2026-01-20 07:08:27
特朗普回应马克龙不加入和平委员会

特朗普回应马克龙不加入和平委员会

界面新闻
2026-01-20 13:26:11
极致震撼!“牢A”揭露美国把R头做成“糖霜苹果”悬挂示众

极致震撼!“牢A”揭露美国把R头做成“糖霜苹果”悬挂示众

魔都囡
2026-01-20 10:11:41
底层老百姓戾气越来越重了

底层老百姓戾气越来越重了

放牛娃的遐想
2026-01-20 08:21:18
接受捐款仅2天,官媒对李亚鹏用了特殊称呼,这次,没给他留体面

接受捐款仅2天,官媒对李亚鹏用了特殊称呼,这次,没给他留体面

阿纂看事
2026-01-20 13:12:13
“治港败类”曾荫权:治理香港7年,为何却在卸任后,获刑20个月

“治港败类”曾荫权:治理香港7年,为何却在卸任后,获刑20个月

卷史
2025-09-15 11:50:59
库里19分11助攻勇士浇灭热火4连胜,巴特勒17分4板伤退替补66分

库里19分11助攻勇士浇灭热火4连胜,巴特勒17分4板伤退替补66分

湖人崛起
2026-01-20 13:26:30
金正恩罢免朝鲜内阁副总理杨胜虎,公开批评其“不适合现在的位置”

金正恩罢免朝鲜内阁副总理杨胜虎,公开批评其“不适合现在的位置”

红星新闻
2026-01-20 13:03:37
“斩杀线”:美国民生的残酷真相

“斩杀线”:美国民生的残酷真相

新华社
2026-01-19 22:23:50
上海人注意!接到这个来电,立即挂断!也别回拨↗

上海人注意!接到这个来电,立即挂断!也别回拨↗

上观新闻
2026-01-20 13:04:03
早大开除8名中国籍学生,803名考生TOEIC成绩被判无效!史上最大规模作弊震惊日本!

早大开除8名中国籍学生,803名考生TOEIC成绩被判无效!史上最大规模作弊震惊日本!

东京新青年
2026-01-19 18:50:50
断崖式下跌!中国人突然不爱喝酒了?真相太扎心!

断崖式下跌!中国人突然不爱喝酒了?真相太扎心!

达文西看世界
2026-01-18 20:56:11
上海炒股大赛冠军的箴言:如果手里只有10万,不妨死磕"七大口诀"

上海炒股大赛冠军的箴言:如果手里只有10万,不妨死磕"七大口诀"

一方聊市
2026-01-19 13:13:48
重庆马拉松一跑友在赛道上倒地离世,离全马终点不到200米,他在圈内被称为大神,一周前刚在厦门“破三”

重庆马拉松一跑友在赛道上倒地离世,离全马终点不到200米,他在圈内被称为大神,一周前刚在厦门“破三”

极目新闻
2026-01-20 15:52:23
浙江丽水学院附中党总支书记应之宁凌晨因公牺牲,年仅52岁

浙江丽水学院附中党总支书记应之宁凌晨因公牺牲,年仅52岁

澎湃新闻
2026-01-19 22:06:27
特朗普发登上格陵兰岛图片:手拿美国国旗,旁边指示牌上写着“格陵兰岛2026年成为美国领土”

特朗普发登上格陵兰岛图片:手拿美国国旗,旁边指示牌上写着“格陵兰岛2026年成为美国领土”

鲁中晨报
2026-01-20 15:43:30
浙江省委常委王文序,已任杭州市政协党组书记

浙江省委常委王文序,已任杭州市政协党组书记

新京报政事儿
2026-01-19 23:13:27
一楼拒交电梯费被告上法庭,败诉后,这张缴费单成了整栋楼的噩梦

一楼拒交电梯费被告上法庭,败诉后,这张缴费单成了整栋楼的噩梦

垛垛糖
2026-01-17 20:25:21
巴特勒右膝伤退引热议!两大医学专家初判相同:前交叉韧带损伤

巴特勒右膝伤退引热议!两大医学专家初判相同:前交叉韧带损伤

罗说NBA
2026-01-20 13:19:46
2026-01-20 16:35:00
江西地名研究 incentive-icons
江西地名研究
分享地名研究信息、行业资讯。
3191文章数 300关注度
往期回顾 全部

科技要闻

去年预亏60亿后再投百亿 两大车企紧抱华为

头条要闻

特朗普:格陵兰岛非常重要 北约若离开了美国啥也不是

头条要闻

特朗普:格陵兰岛非常重要 北约若离开了美国啥也不是

体育要闻

新的时代!东契奇首夺全明星票王 詹姆斯落选首发

娱乐要闻

贝克汉姆长子发文决裂:全家都在演戏

财经要闻

财政部:财政总体支出力度"只增不减"

汽车要闻

奇瑞张贵兵:墨甲不做秀技术的企业 只做痛点终结者

态度原创

手机
家居
教育
时尚
房产

手机要闻

曝小米18系列将实现“全员满配”:搭载潜望长焦与3D超声波指纹

家居要闻

隽永之章 清雅无尘

教育要闻

刷到就是要进复试啊啊啊超高频口语真题满分答案

码住抄作业!春节见人不翻车就靠这8样!

房产要闻

中旅・三亚蓝湾发布会揭秘自贸港好房子高阶形态

无障碍浏览 进入关怀版