网易首页 > 网易号 > 正文 申请入驻

基于深度神经网络的中文命名实体识别

0
分享至


江西地名研究

关注我们,获取更多地名资讯

摘要:由于中文词语缺乏明确的边界和大小写特征,单字在不同词语下的意思也不尽相同,较于英文,中文命名实体识别显得更加困难。该文利用词向量的特点,提出了一种用于深度学习框架的字词联合方法,将字特征和词特征统一地结合起来,它弥补了词特征分词错误蔓延和字典稀疏的不足,也改善了字特征因固定窗口大小导致的上下文缺失。在词特征中加入词性信息后,进一步提高了系统的性能。在1998年《人民日报》语料上的实验结果表明,该方法达到了良好的效果,在地名、人名、机构名识别任务上分别提高1.6%、8%、3%,加入词性特征的字词联合方法的F1值可以达到96.8%、94.6%、88.6%。

关键词:命名实体识别;深度学习;神经网络;机器学习;词性

1 引言

命名实体识别(named entity recognition,NER)是自然语言处理(natural language processing,NLP)的一项基础任务,它的重要作用是从文本中准确地识别出人名、地名、机构名、时间、货币等信息,为机器翻译、自动文摘、主题发现、主题跟踪等高级NLP任务提供实用的信息。最初的NER主要采用的是基于规则的识别,通过领域专家和语言学者手工制定有效规则,识别出命名实体。这样的方法仅适用于简单的识别系统,对于复杂的NER,要求规则之间不能产生冲突,因此制定规则会消耗人们大量的时间和精力,且领域迁移性欠佳。因此,随着技术的发展,越来越多的人们采用机器学习的方法来完成NER任务。

近年来,研究者们把NER任务规约为一种序列标注任务,对于每一个输入的字,判断其标签类别,根据最终的类别标签判定命名实体的边界和类型。例如,在“SBEIO”策略中,S表示这个字本身就是一个命名实体,B表示该字是命名实体的开始,I表示该字位于命名实体的中间位置,E表示命名实体的结尾,O表示该字不属于命名实体的一部分。序列标注任务有许多适用的机器学习方法,例如,隐马尔科夫模型(hidden markov models,HMM)、最大熵马尔科夫模型(maximum entropy markovmodels,MEMM)、条件随机场(conditional ran-dom fields,CRF)等。这些学习方法需要研究者手工提取有效的语法特征,设定模型的模板进行识别,因此特征模板的选择直接影响NER的结果。Zhou和Su提出使用四种不同的特征去提高HMM在NER的性能。Borthwick等利用了MEMM和额外的知识集合,例如姓氏集,提高了NER标注的准确性。Lafferty等提出CRF用于模式识别和机器学习,后来McCallum和Li提出了特征感应的方法和Viterbi方法,用于寻找最优NER序列。在中文NER领域,存在着一些问题,例如系统的自适应性不强、网页数据复杂、简称机构名识别困难。陈钰枫提出使用双语对齐信息来提高NER性能和双语对齐结果,可以有效提高中文NER的自适应性。邱泉清提出使用CRF模型对微博数据进行命名实体识别,利用知识库和合适的特征模板,取得了良好的效果。本文使用深度神经网络进行NER,可以提高系统的召回率,有效提升系统的自适应性。

机器学习方法需要提取文本特征,如何高效地表示文本的语法和语义特征,是NLP领域亟需解决的问题。近几年,word2vec的提出吸引了无数NLP爱好者的目光。它可以将词语表示成一个固定长度的低维向量,这个向量被认为具有一定的潜在语义信息,近似词语之间具有一定的向量相似性,词向量之间还可以进行加减操作,获得词语之间的语义联系,例如等式“国王—男+女=王后”成立。因此,使用词向量作为输入特征,可以更自然地展示语言的潜在信息,而且不需要手工设置特征模板,对于NER的识别具有一定的积极意义。可以把词向量作为深度神经网络的输入,执行许多NLP任务。深度神经网络是一个用于挖掘潜在有用特征的多层神经网络,网络的每一层的输出是该语句的一种抽象表示,层级越高,表示的信息越抽象。语言本身就是一种抽象的表达,因此采用基于词向量的特征表示,利用深度神经网络进行命名实体识别,可以有效地提高NER的性能。

相较于西方语言如英语的NER,中文命名实体识别显得更加困难,因为中文词语没有明确的边界信息和首字大小写信息。因此,分词错误的漫延和信息缺失会大大降低NER的准确率。中文的字和词都具有其特定的语义信息,相同的字组成不同顺序的词语之间的语义可能差别很大,而且由于词典的不完备性,识别过程中会出现很多的未登录词造成识别的错误,自然地,基于字的命名实体识别方法被提出。但是,基于字的NER也有其自身的局限性。一方面,由于窗口大小的限制,导致无法获得更多的有用信息;另一方面,中文词语具有其特殊的含义,字也有它本身的意义,仅使用字的NER系统无法高效关联出字词之间的联系。因此,我们考虑使用字词结合的方法进行NER。词性是词语的重要属性,词性可以表达更加抽象的词语特征,因此在NER中加入词性特征可以为系统提供更多的有用信息,帮助分类算法进行分歧判断。因此,我们提出将词性信息加入特征向量中,该方法可进一步提高中文命名实体识别系统的性能。

本文的主要工作如下:(1)我们提出将深度神经网络应用于中文命名实体识别,该方法可有效提高中文NER的性能;(2)我们利用字向量、词向量的特点,提出了将字词联合的方法用于深度神经网络的中文NER系统;(3)我们方便地在深度神经网络中加入了词性信息,进一步提高了系统的识别性能。

本文的组织结构如下:第一节介绍了引言及相关工作;第二节主要介绍了深度神经网络的结构和训练方法,详细介绍了字向量、词向量和字词结合向量三种输入特征的表示;第三节对比了不同窗口大小和隐藏节点个数情况下,在字向量、词向量和字词联合向量作为输入特征时,DNN在中文NER上的实验结果;最后一节是本文的结论。

2 深度神经网络

命名实体识别任务可以被抽象为输入的每一个字进行“SBEIO”标签预测的问题。传统的标注方法是人工选择一组适合该任务的特征模板,标注结果的好坏依赖于特征模板的质量。因此,研究者需要学习和掌握语言学知识和领域常识,这会消耗大量的时间、财力和精力。Collobert等提出了一种深度神经网络(deep neural network,DNN)结构,普遍适用于许多NLP标注任务。DNN可以训练一套低维词向量用于词语的特征表示,它不再需要人工设计一个特殊的特征模板,最重要的是词语的向量之间具有潜在的语义关系,因此使用词向量可以提高任务的召回率。除此之外,DNN可以很方便的加入额外的特征信息。所以,我们选择深度神经网络结构进行中文NER任务。

DNN是一个多层的神经网络,它的结构如图1所示。第一层是输入层,它主要负责将输入窗口的字或者词进行词向量的映射,所有出现在字典中的字或者词都有一个固定长度的低维向量,这些向量被存放在Lookup表中,当输入窗口产生新的字词后,输入层将对这些字词进行向量映射,将其按顺序进行组合,获得该窗口下的窗口向量,窗口向量作为DNN第二层的输入。第二层是一个标准的神经网络,它具有两个线性层和一个位于中间的非线性层。第三层是采用Viterbi算法实现的输出层,它主要负责对输入的句子进行最优标签序列的搜索。


2.1 词向量特征

我们定义一个字典DC和一个词典DW,所有字向量均保存在字向量矩阵中,所有的词向量均保存在词向量矩阵中,其中和分别表示每个字向量和词向量的维度,|DC|和|DW|分别表示字典和词典的大小。

给定一个中文句子c[1:n],这个句子由n个字组成,经过分词以后,这个句子可以被分为m个词语。我们使用映射函数和,如式(1)、式(2)所示 。


其中的第列。是在字典中的字典序,是在词典中的词典序。

2.1.1 字特征

假定中文句子c[1:n],首先我们抽取每个字的特征向量作为深度神经网络的输入。对每一个字,最简单的方法是直接使用作为的输入特征,但是每个字的上下文对于这个字所表达的意义具有重要的作用,因此应该尽可能地使用上下文为提供更多的信息。由于句子的长短不一,为了适应不同长度的句子,使用滑动窗口的方式进行字特征的提取是合理的。

我们定义字窗口大小为,然后按照从左到右的顺序滑动窗口,对于每一个字,它的输入特征定义为:


如果出现字不在字典中的情况或者超边界,我们将其映射为一个固定的向量,在实验中我们为每一维数值均设定相同的归一化向量。

字特征向量作为神经网络模型的输入,需要经过两次线性变换和一次非线性变换g(·)抽取特征。我们采用sigmoid函数作为非线性变换的抽取函数:


假设NER的标签种类用表示,则神经网络的输出是一个||维的向量。例如,使用“SBEIO”策略则输出层包含五个节点。这个输出向量表示对滑动窗口中字,预测每个标签的概率。我们可以对每个字按照如式(5)进行概率预测。


其中,和

是训练参数,是预设定的隐藏层的节点数。

2.1.2 词特征

类似字特征,我们定义词特征窗口为,对于词,它的输入特征可以简单定义为:


词向量的表示还有一个优点,就是可以方便的添加新的特征。例如,对于词语可以添加词性特征,对于单字可以添加姓氏特征等。由于命名实体的构成依赖于外部语言环境,词性信息可以很好地对词语进行抽象,进一步发现语句的结构联系,所以我们在词特征中加入词性信息,进一步提高NER的性能。

我们定义词性标注集合为POS,现定义一个单位方阵,当词被标记为时,其对应的词性序为k,的词性向量表示为,它是一个One-hot向量,向量第k值为1,其余全部为0。其映射函数如式(7)所示。

给定某个中文语句由m个词w[1:m]组成,词性标注序列为ps[1:m]。那么,词特征可以被定义为:


带词性的词特征被定义为每个词向量及其词性one-hot向量的拼接,然后首尾相接组成词特征。


2.1.3 字词结合特征

我们选择字词结合的向量主要基于以下两个原因:(1)基于字的NER不能够理解中文汉字的意义,例如“中国”和“印度尼西亚”在仅使用字窗口的情况下,因为窗口限制及字长差异,是无法进行联系扩展并将其正确地识别为地名的;(2)基于词的NER强依赖于分词结果的质量和词典的完备程度,如果分词出现错误会直接影响NER的结果。另外,因为不存在于词典中的词语会被映射为一个特殊的向量,意味着这个词语本身不能够提供任何信息,极有可能造成词语的误判断。因此,我们选择字词结合的方式进行NER,二者之间可以进行有效的互补,从而提高NER系统的识别性能。

设定一种字词映射关系:


结合的邻近字和的上下文,定义字窗口和词窗口大小分别为ωᶜ和,从左至右滑动输入窗口,对于每个字,它的字词联合输入特征定义为:


加入词性特征以后的字词联合特征如图2所示,针对“上”字,抽取的5窗口的字特征如图左所示,因为“上”是“上海”的一部分,所以词特征方面是以“上海”为中心的,其窗口的词语如图右所示,关于词性特征,以“上海”是名词为例,词性信息在/n位置显示的是1,其他部分均为0。经过将字特征和词特征进行连接,共同作为“上”的输入特征,进入神经网络进行处理,该输入特征的定义为:


假设标签集合为T,神经网络的输出为|T|维向量,用于指示输入字的标签概率。它的预测函数可以定义为:


其中,为训练参数,H为隐藏节点个数。

2.2 语句评分

NER的标注结果取决于两个数值,一是神经网络输出层的输出概率,二是标签的转移概率转移概率。表示的是从第i∈T个标签转移到第j∈T个标签的概率,例如B标签后面接E标签的概率要远大于接S标签的概率。对于不会发生的转移,可以采用设置其转移概率为很小的负数来进行简化计算。对于可能出现的转移情况,可以采用随机初始化或者平均初始化其转移概率。最后可以采用Vertibi算法计算最优标签路径。

对于一个给定的句子c[1:n],神经网络为每一个字输出一个标签概率向量,则对该句子输出层是一个标签概率矩阵,其中表示的是第i个字标记为标签tᵢ的概率,其计算方法如式(12)。给定句子c[1:n],标注的标签t[1:n],将标签概率和转移概率联合,表示的是整个句子标注得分,该得分定义为:


因此,我们选择最优标签序列,即使得s(c[1:n],t[1:n],θ)最大的似然估计,最优序列定义如下:

使用Viterbi算法可以快速计算出句子的最优标签序列。

2.3 梯度下降训练模型

该模型的训练参数为θ=,可以选择梯度下降法,对训练集合中的每个训练样本(c,t)进行迭代训练,最大化句子的概率。参数的更新操作如下:

其中,λ是训练速度,P(·)是神经网络最终的输出分数,t和c分别表示的是标签序列t[1:n]和输入文本c[1:n]的简写。P(t|c,θ)表示的是给定句子c标记为序列t的条件概率,我们需要对它进行归一化处理,主要采用softmax方法进行归一化。


其中TP表示的是给定句子c,所有可能的标签序列集合。它的对数似然可以表示为:


随着句子长度的增加,|TP|会迅速增长,虽然计算一次可行路径的耗时是线性的,但是计算所有可行路径却是指数级的。因此我们选用Zheng提出的加速算法,对模型进行更新。

3 实验

我们共进行了三组实验进行人名、地名、机构名的识别,第一组实验的目的是对DNN参数进行选择,第二组实验是对比字向量、词向量和字词结合向量的NER性能,第三组实验是比较加入词性特征后的系统识别性能。

第一组实验选用的是1998年《人民日报》语料1月(RMRB-98-1)的数据,选择前75%共14860句的数据作为开发训练集,剩余作为开发验证集。第二组实验选用的数据集是1998年《人民日报》语料(RMRB-98)1月至6月的数据,选取80%共100000句的数据作为训练集,其余部分作为测试集。第三组实验的数据与第二组相同,我们加入一级词性、二级词性特征后,观察识别的F1值的变化情况。除此之外,使用word2vec对新浪新闻5个季度635MB的数据进行无监督训练,非线性函数选取的是tanh函数,生成字向量和词向量,分词工具使用的是无字典的ICTCLAS。

实验采用C++编程,运行服务器配置为2.05 GHz AMD Opteron(TM)CPU和8GB内存,软件使用的是Linux操作系统和g++编译器。实验的评测方法是F1值、准确率、召回率。

3.1 DNN参数实验

我们使用RMRB-98-1作为开发集,对参数的选择进行实验分析。对于人名(PERSON)、地名(LOCA)、机构名(ORGAN)三种识别任务,分别采用字特征(CHAR)、词特征(WORD)、字词联合(CH—WO)特征进行实验,对比在不同窗口大小和不同隐藏层节点的情况下F值的变化情况,实验结果如图2、图3所示。



从图2可以看出,当窗口大小在3~5时,系统的识别效果较好。我们可以观察到如下现象:字词结合系统对于大部分识别任务是窗口大小不敏感的,在小窗口下也可以达到很好的效果;人名任务的最优窗口大小为5,因为中文人名一般都小于5并且这样的窗口大小可以带来一部分信息;当窗口大于5时,由于过拟合的原因,机构名的识别准确率急速下降。从图3可以观察到,当隐藏节点足够多时,系统的性能不再受到很大影响,而且隐藏节点数目越多系统运行越缓慢。因此,在余下的实验中,我们设定了300个隐藏节点。

3.2 字词法合向量对比实验

字向量、词向量、字词结合向量对比实验的数据集为RMRB-98,参数设定如表1所示,实验结果如表2所示。



对于地名和机构名任务,词向量的结果优于字向量,这主要是因为词向量更能表达词语的潜在语义关系。中文句子是由许多词语组成的,相同的字的不同组合,语句中词语意思也可能不相同,而且字特征的窗口受到限制,因此NER的结果普遍不如词向量。但是对于人名识别任务,由于词典稀疏问题,词向量方法中人名会被影射成一个特殊向量,降低了识别效果,而且人名更关注于姓氏和语句结构,因此使用字向量效果更好。

字特征和词特征都有其自身的局限性,因此当使用字词结合向量后,三类任务的取值均有较大提升,对地名、人名、机构名的提升度分别达到了1.6%、8%、3%。

3.3 结合词性特征对比实验

使用DNN结构可以轻松地加入额外的特征信息。例如,当我们加入了词性特征以后,系统的性能有了很大的提高。我们分别对比了不增加词性信息(no-pos)、增加一级词性标注(1-pos)、增加二级词性标注(2-pos)的实验结果。实验中的词性使用《现代汉语语料库加工——词语切分与词性标注规范》中的词性标注符号。其中一级词性有25个,二级词性有39个,如表3所示。实验结果如表4所示。我们和现阶段较好的NER模型——Hybrid Mod-el(HM)进行了实验对比,HM模型使用的训练数据和测试数据与本文方法相同,实验结果显示:加入词性标注的字词联合模型可以超越HM的识别性能,在地名、人名和机构名的识别上,F1值可以达到96.8%、94.6%、88.6%。尤其需要指出的是,本文的方法有效提高了地名、人名和机构名识别任务的召回率,加入2-pos后系统性能提升明显。其中在人名F1值方面我们的模型不如HM好,主要原因是HM进行了人名的细分,它针对不同国家的人名训练了不同的模型并进行混合,而我们的模型是不区分国家人名的,所以我们的结果略差于HM模型。与此同时,我们还使用了CRF模型与本文方法进行比较,实验结果表明,加入2-pos后的系统在地名和人名识别方面表现出色,但机构名识别方面准确率不如CRF高,这可能是由于机构名构成复杂,神经网络语言模型只利用了局部信息而没有利用全局信息导致的。



4 结论与展望

本文介绍了用于中文命名实体识别的深度神经网络,提出了字词结合方法,有效地弥补了单字识别和单词识别的不足,加入词性特征后的识别系统性能更加鲁棒。实验对比了字向量、词向量和字词结合向量在中文NER上的结果,字词结合方法对中文NER有较大提升。目前,跟命名实体相关的专用特征还没有加入到系统中,我们下一步将考虑加入姓氏集、地区特征集等相关特征,进一步观察该方法的系统性能。

作者:张海楠,伍大勇,刘悦,程学旗

来源:《中文信息学报》2017年第4期

选稿:耿 曈

编辑:贺雨婷

校对:欧阳莉艳

审订:杜佳玲

责编:耿 曈

(由于版面内容有限,文章注释内容请参照原文)



微信扫码加入

中国地名研究交流群

QQ扫码加入

江西地名研究交流群

欢迎来稿!欢迎交流!

转载请注明来源:“江西地名研究”微信公众号

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
不回头了?富士康决定转移3000亿产能,外媒:郭台铭把饭碗端走了

不回头了?富士康决定转移3000亿产能,外媒:郭台铭把饭碗端走了

混沌录
2025-10-22 21:54:06
只打29分钟,火箭队找到杜兰特使用方式 弱化1号位 谢泼德4记三分

只打29分钟,火箭队找到杜兰特使用方式 弱化1号位 谢泼德4记三分

替补席看球
2025-11-02 10:22:36
大反转!特朗普先说要打委内瑞拉,转头就不认了,媒体曝猛料

大反转!特朗普先说要打委内瑞拉,转头就不认了,媒体曝猛料

娱乐小可爱蛙
2025-11-02 14:52:02
美军上将大胆预言:解放军的统一之战,会以这个名义打响第一枪?

美军上将大胆预言:解放军的统一之战,会以这个名义打响第一枪?

健身狂人
2025-10-27 01:01:13
冒充职业球员?皇马18岁天才90分钟5数据挂零 被批:有阿隆索裸照

冒充职业球员?皇马18岁天才90分钟5数据挂零 被批:有阿隆索裸照

风过乡
2025-11-02 07:37:18
最新!金股名单来了

最新!金股名单来了

中国基金报
2025-11-02 12:50:11
瓦科留泰山的难度有点大,年龄是主要原因,彭啸下赛季可当主力了

瓦科留泰山的难度有点大,年龄是主要原因,彭啸下赛季可当主力了

新新自圆其说说体育
2025-11-02 14:33:18
男人老了的标志是什么?网友:一天三次变成一天一次,逃避义务

男人老了的标志是什么?网友:一天三次变成一天一次,逃避义务

带你感受人间冷暖
2025-10-30 00:05:13
长沙店铺外墙坍塌致2名女孩惨死!网友哭诉:她在趴那里一动不动

长沙店铺外墙坍塌致2名女孩惨死!网友哭诉:她在趴那里一动不动

火山诗话
2025-11-02 07:17:45
我是县财政局长,初恋调任县委书记,她将我调到落后的镇任镇书记

我是县财政局长,初恋调任县委书记,她将我调到落后的镇任镇书记

秋风专栏
2025-10-07 11:12:43
开卖秒售罄!价格飙涨近7倍,网友:根本抢不到

开卖秒售罄!价格飙涨近7倍,网友:根本抢不到

大象新闻
2025-10-31 16:30:06
苹果 Pro 新品来了,真的很强

苹果 Pro 新品来了,真的很强

科技堡垒
2025-11-01 10:37:01
特讯!俄军高层通告全球:在红军城地区围困乌军31个营,罕见措辞引发全球高度关注

特讯!俄军高层通告全球:在红军城地区围困乌军31个营,罕见措辞引发全球高度关注

音乐时光的娱乐
2025-10-31 11:30:21
48岁曾黎回老家种地!满脸褶头发花白断崖衰老,徒手摘黄瓜像农妇

48岁曾黎回老家种地!满脸褶头发花白断崖衰老,徒手摘黄瓜像农妇

心静物娱
2025-11-02 10:23:42
巴菲特,大赚134亿美元!

巴菲特,大赚134亿美元!

鲁中晨报
2025-11-02 10:55:03
蓝营台南选情起风了,“谢龙介唯一接班人”宣布参选,恩师站台

蓝营台南选情起风了,“谢龙介唯一接班人”宣布参选,恩师站台

新时光点滴
2025-11-02 15:10:32
坐稳国民党主席位子后,郑丽文摊牌:两岸不回归和平,其他都别谈

坐稳国民党主席位子后,郑丽文摊牌:两岸不回归和平,其他都别谈

牛锅巴小钒
2025-11-02 14:46:49
在家突发心梗别乱来!医生教你黄金5分钟自救法,关键能保命

在家突发心梗别乱来!医生教你黄金5分钟自救法,关键能保命

袁医生课堂
2025-10-31 18:50:24
蒋介石临终前,为何让宋美龄连夜出逃?蒋介石日记揭开内幕

蒋介石临终前,为何让宋美龄连夜出逃?蒋介石日记揭开内幕

红色先驱
2025-10-19 18:05:03
都别做梦了!哪怕两岸和平统一,台湾也不可能让解放军在台驻军

都别做梦了!哪怕两岸和平统一,台湾也不可能让解放军在台驻军

王楔晓
2025-11-01 20:02:28
2025-11-02 16:44:50
江西地名研究 incentive-icons
江西地名研究
分享地名研究信息、行业资讯。
3032文章数 294关注度
往期回顾 全部

科技要闻

10月零跑突破7万辆,小鹏、蔚来超4万辆

头条要闻

小区因千万接口费欠款致600户居民3年未供暖 多方回应

头条要闻

小区因千万接口费欠款致600户居民3年未供暖 多方回应

体育要闻

这个日本人,凭啥值3.25亿美元?

娱乐要闻

陈道明被王家卫说他是阴阳同体的极品

财经要闻

段永平捐了1500万元茅台股票!本人回应

汽车要闻

神龙汽车推出“发动机终身质保”政策

态度原创

亲子
教育
健康
艺术
公开课

亲子要闻

好奇少年儿童百科,有意思的百科全书

教育要闻

初中竞赛题:同学们以为简单,答对的寥寥无几

核磁VS肌骨超声,谁更胜一筹?

艺术要闻

他是清华大学校名题写者,拒绝宋美龄求婚,被誉为“民国颜真卿”

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版