【技术实现步骤摘要】
融合词汇和句法信息的中文命名实体识别方法及系统
[0001]本专利技术涉及自然语言处理的信息抽取领域,特别是指一种融合词汇和句法信息的中文命名实体识别方法及系统。
技术介绍
[0002]名实体识别(Named entity recognition,NER)旨在识别文本中的实体并将其分为不同的类别如:人名、地名、机构名等。NER是NLP中的一项重要任务,已广泛应用于关系抽取、问答、机器翻译、知识库构建等领域,因此NER的研究和突破具有十分重要的意义。
[0003]而中文与英文的命名实体识别又有所不同,英文中每一个词都可以表达完整的语义信息;而在中文中,大多数情况只有一个词或短语才能表达完整的意思,且中文不存在明显的词汇边界符和首字母大写等特征,使得实体边界识别较为困难。但词语实体边界通常与实体边界相同,所以词语边界信息在中文命名实体识别(Chinese named entity recognition,CNER)上起着重要作用。
[0004]面对词语边界识别困难的问题,可以通过引入外部特征来解决。在这些特征中,词汇信息和句法信息等都有重要的意义,能够帮助CNER模型找到对应的实体。现有CNER模型中使用外部特征时,极少进行区分和处理,而特征中的噪声可能会影响模型的性能。因此,寻找一种合适的方法将外部特征信息整合到CNER模型上仍然是一个难题。大多数情况下,人们希望CNER模型可以包含多种额外特征。因此,需要对设计一种有效的机制来对这些特征加权组合,限制噪声信息。
[0005]同时,现有的Soft ...
【技术保护点】
【技术特征摘要】
1.一种融合词汇和句法信息的中文命名实体识别方法,其特征在于,包括:步骤1、将原始输入文本映射为字向量,使用改进后的词集匹配算法引入外部词汇信息,并整合在每个字的输入表示中;步骤2、根据字的输入表示,利用双向LSTM抽取上下文信息;步骤3、使用NLP工具从原始输入文本中获取词性标签和句法成分,并且使用健值记忆网络构造句法向量,再通过门控机制对上下文向量与句法向量进行加权融合,获得特征向量;步骤4、将特征向量输入标签预测层的CRF中,实现中文命名实体识别。2.根据权利要求1所述的融合词汇和句法信息的中文命名实体识别方法,其特征在于,所述步骤1,具体包括:步骤1.1,将输入的文本视为一个句子,用序列表示为x=(x1,x2,..,x
n
);其中,x
i
表示在长度为n的句子x中第i个字;为了更好的利用词汇信息,将每个字匹配字典的结果分为如下“BIES”四个词集:(1)词集B(x
i
)包含所有在x上以x
i
开头的词语;(2)词集I(x
i
)包含所有在x上x
i
为中间的词语;(3)词集E(x
i
)包含所有在x以x
i
为结尾的词语;(4)词集S(x
i
)包含所有x
i
为单字的词语;步骤1.2,得到每个字对应的“BIES”词集后,将每个词集压缩为一个固定维数的向量;改进的词集匹配算法包含静态词集算法和动态词集算法,静态词集算法为了保证计算效率,使用词语出现的频率来代表对应的权重,单个词集的静态词集向量计算方法如下:其中,表示词在语料库中出现的次数;表示词集T出现词语的总次数;表示将词语映射为词向量;T表示“BIES”四个词集中的一个;表示字x
i
对应词集T的向量表示;为了更好的保留信息,将四个静态词集表示为一个整体,通过拼接整合成一个固定维度的向量:其中,τ
i
表示字x
i
对应的静态词集向量;动态词集算法使用注意力机制来衡量字符和匹配词之间的信息,计算不同匹配词的注意力权重,增强有用的词汇并抑制作用不明显的词汇,如下:如下:如下:其中,表示将词语映射为词向量;q是与维度相同的训练向量;为通过注意力机制得到的词语注意力分数;为归一化后的词语注意力权重;表示单个
词集的动态词集向量;m表示字x
i
对应词集T匹配到的词语个数;通过注意力权重进行加权求和得到动态词集向量,将四个动态词集表示为一个整体并压缩为一个固定维度的向量:其中,Aτ
i
表示为字x
i
对应的动态词集向量;步骤1.3,为了充分考虑两个词集中每个词语的重要性,对对动态词集向量和静态词集向量动态加权组合;使用评估函数θ
i
来衡量静态词集向量和动态词集向量对实体识别任务的作用:θ
i
=σ(W
θ1
.τ
i
+W
θ2
.Aτ
i
+b
θ
)其中,W
θ1
、W
θ2
是可训练矩阵;b
θ
是偏置项;将字向量、静态词集向量τ
i
和动态词集向量Aτ
i
组合在一起,作为最终包含外部词汇信息的输入表示:其中,表示字x
i
的最终向量表示;l是向量维度与匹配的1向量;e
x
表示将字x
i
转为对应的字向量;*表示点乘计算;表示向量拼接。3.根据权利要求2所述的融合词汇和句法信息的中文命名实体识别方法,其特征在于,所述步骤2,具体包括:序列编码层采用双向LSTM来获取每个字的上下文向量,所述双向LSTM为前向LSTM和反向LSTM的结合;使用表示i时刻前向LSTM的隐藏层状态,使用表示i时刻反向LSTM的隐藏层状态;通过拼接相对应的前向和反向LSTM状态,获得最终的上下文向量4.根据权利要求3所述的融合词汇和句法信息的中文命名实体识别方法,其特征在于,所述步骤3,具体包括:步骤3.1,使用Stanford CoreNLP工具对原始文本进行分词,并使用Berkely Neural...
【专利技术属性】
技术研发人员:李弼程,刘其龙,张敏,皮慧娟,王华珍,王成,
申请(专利权)人:华侨大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。