当前位置: 首页 > 专利查询>华侨大学专利>正文

融合词汇和句法信息的中文命名实体识别方法及系统技术方案

技术编号:34347156 阅读:20 留言:0更新日期:2022-07-31 05:01
本发明专利技术公开一种融合词汇和句法信息的中文命名实体识别方法及系统,包括以下步骤:步骤1、将原始输入文本映射为字向量,使用改进后的词集匹配算法引入外部词汇信息,并整合在每个字的输入表示中;步骤2、根据字的输入表示,利用双向LSTM抽取上下文信息;步骤3、使用NLP工具从原始输入文本中获取词性标签和句法成分,并且使用健值记忆网络构造句法向量,再通过门控机制对上下文向量与句法向量进行加权融合,获得特征向量;步骤4、将特征向量输入标签预测层的CRF中,实现中文命名实体识别。本发明专利技术能够解决中文命名实体中实体边界信息不足的问题和融合输入文本的句法信息。的问题和融合输入文本的句法信息。的问题和融合输入文本的句法信息。

【技术实现步骤摘要】
融合词汇和句法信息的中文命名实体识别方法及系统


[0001]本专利技术涉及自然语言处理的信息抽取领域,特别是指一种融合词汇和句法信息的中文命名实体识别方法及系统。

技术介绍

[0002]名实体识别(Named entity recognition,NER)旨在识别文本中的实体并将其分为不同的类别如:人名、地名、机构名等。NER是NLP中的一项重要任务,已广泛应用于关系抽取、问答、机器翻译、知识库构建等领域,因此NER的研究和突破具有十分重要的意义。
[0003]而中文与英文的命名实体识别又有所不同,英文中每一个词都可以表达完整的语义信息;而在中文中,大多数情况只有一个词或短语才能表达完整的意思,且中文不存在明显的词汇边界符和首字母大写等特征,使得实体边界识别较为困难。但词语实体边界通常与实体边界相同,所以词语边界信息在中文命名实体识别(Chinese named entity recognition,CNER)上起着重要作用。
[0004]面对词语边界识别困难的问题,可以通过引入外部特征来解决。在这些特征中,词汇信息和句法信息等都有重要的意义,能够帮助CNER模型找到对应的实体。现有CNER模型中使用外部特征时,极少进行区分和处理,而特征中的噪声可能会影响模型的性能。因此,寻找一种合适的方法将外部特征信息整合到CNER模型上仍然是一个难题。大多数情况下,人们希望CNER模型可以包含多种额外特征。因此,需要对设计一种有效的机制来对这些特征加权组合,限制噪声信息。
[0005]同时,现有的SoftLexion词集匹配方法依赖于数据集中的静态词频统计,以词频来衡量不同词语对中文命名实体识别任务的作用。考虑到不同数据集规模大小不同,在小规模数据集上存在着词频过低的问题,词频在有些时候不能较好的反映出词语的重要性。因此,可以寻找一种较为合理的方法,来合理衡量词集中词语的权重。

技术实现思路

[0006]本专利技术的主要目的在于克服现有技术中的上述缺陷,提出一种融合词汇和句法信息的中文命名实体识别方法及系统,对词汇(lexical)、句法(Syntactic)信息进行融合(fusion)(简称为LSF

CNER模型),具体为将外部词汇信息和输入文本的句法信息使用门控单元进行融合,并且在模型中引入注意力机制,构建中文命名实体识别模型,有望提高中文命名实体识别的准确率。本专利技术主要解决的问题体现在以下两个方面:一方面,将输入文本序列的每个字进行改进后的词集匹配算法,将匹配完成后的静态词集向量和动态词集向量以及最初的字向量进行拼接,从而在字向量中融入外部词汇信息,可以解决中文文本词语边界特征不足的问题。另一方面,使用NLP工具抽取输入文本的句法信息,通过门控机制和双向LSTM抽取的上下文向量进行整合,丰富了特征向量的表示,融合了更深层次的句法信息。
[0007]本专利技术采用如下技术方案:
[0008]一方面,一种融合词汇和句法信息的中文命名实体识别方法,包括:
[0009]步骤1、将原始输入文本映射为字向量,使用改进后的词集匹配算法引入外部词汇信息,并整合在每个字的输入表示中;
[0010]步骤2、根据字的输入表示,利用双向LSTM抽取上下文信息;
[0011]步骤3、使用NLP工具从原始输入文本中获取词性标签和句法成分,并且使用健值记忆网络构造句法向量,再通过门控机制对上下文向量与句法向量进行加权融合,获得特征向量;
[0012]步骤4、将特征向量输入标签预测层的CRF中,实现中文命名实体识别。
[0013]优选的,所述步骤1,具体包括:
[0014]步骤1.1,将输入的文本视为一个句子,用序列表示为x=(x1,x2,..,x
n
);其中,x
i
表示在长度为n的句子x中第i个字;为了更好的利用词汇信息,将每个字匹配字典的结果分为如下“BIES”四个词集:
[0015](1)词集B(x
i
)包含所有在x上以x
i
开头的词语;
[0016](2)词集I(x
i
)包含所有在x上x
i
为中间的词语;
[0017](3)词集E(x
i
)包含所有在x以x
i
为结尾的词语;
[0018](4)词集S(x
i
)包含所有x
i
为单字的词语;
[0019]步骤1.2,得到每个字对应的“BIES”词集后,将每个词集压缩为一个固定维数的向量;改进的词集匹配算法包含静态词集算法和动态词集算法,静态词集算法为了保证计算效率,使用词语出现的频率来代表对应的权重,单个词集的静态词集向量计算方法如下:
[0020][0021]其中,表示词在语料库中出现的次数;表示词集T出现词语的总次数;表示将词语映射为词向量;T表示“BIES”四个词集中的一个;表示字x
i
对应词集T的向量表示;
[0022]为了更好的保留信息,将四个静态词集表示为一个整体,通过拼接整合成一个固定维度的向量:
[0023][0024]其中,τ
i
表示字x
i
对应的静态词集向量;
[0025]动态词集算法使用注意力机制来衡量字符和匹配词之间的信息,计算不同匹配词的注意力权重,增强有用的词汇并抑制作用不明显的词汇,如下:
[0026][0027][0028][0029]其中,表示将词语映射为词向量;q是与维度相同的训练向量;为通过注意力机制得到的词语注意力分数;为归一化后的词语注意力权重;表示单个词集的动态词集向量;m表示字x
i
对应词集T匹配到的词语个数;
[0030]通过注意力权重进行加权求和得到动态词集向量,将四个动态词集表示为一个整体并压缩为一个固定维度的向量:
[0031][0032]其中,Aτ
i
表示为字x
i
对应的动态词集向量;
[0033]步骤1.3,为了充分考虑两个词集中每个词语的重要性,对对动态词集向量和静态词集向量动态加权组合;使用评估函数来衡量静态词集向量和动态词集向量对实体识别任务的作用:
[0034][0035]其中,是可训练矩阵;是偏置项;
[0036]将字向量、静态词集向量τ
i
和动态词集向量Aτ
i
组合在一起,作为最终包含外部词汇信息的输入表示:
[0037][0038]其中,表示字x
i
的最终向量表示;l是向量维度与匹配的1向量;e
x
表示将字x
i
转为对应的字向量;*表示点乘计算;表示向量拼接;
[0039]优选的,所述步骤2,具体包括:
[0040]序列编码层采用双向LSTM来获取每个字的上下文向量,所述双向LSTM为前向LSTM和反向LSTM的结合;使用表示i时刻前向LS本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种融合词汇和句法信息的中文命名实体识别方法,其特征在于,包括:步骤1、将原始输入文本映射为字向量,使用改进后的词集匹配算法引入外部词汇信息,并整合在每个字的输入表示中;步骤2、根据字的输入表示,利用双向LSTM抽取上下文信息;步骤3、使用NLP工具从原始输入文本中获取词性标签和句法成分,并且使用健值记忆网络构造句法向量,再通过门控机制对上下文向量与句法向量进行加权融合,获得特征向量;步骤4、将特征向量输入标签预测层的CRF中,实现中文命名实体识别。2.根据权利要求1所述的融合词汇和句法信息的中文命名实体识别方法,其特征在于,所述步骤1,具体包括:步骤1.1,将输入的文本视为一个句子,用序列表示为x=(x1,x2,..,x
n
);其中,x
i
表示在长度为n的句子x中第i个字;为了更好的利用词汇信息,将每个字匹配字典的结果分为如下“BIES”四个词集:(1)词集B(x
i
)包含所有在x上以x
i
开头的词语;(2)词集I(x
i
)包含所有在x上x
i
为中间的词语;(3)词集E(x
i
)包含所有在x以x
i
为结尾的词语;(4)词集S(x
i
)包含所有x
i
为单字的词语;步骤1.2,得到每个字对应的“BIES”词集后,将每个词集压缩为一个固定维数的向量;改进的词集匹配算法包含静态词集算法和动态词集算法,静态词集算法为了保证计算效率,使用词语出现的频率来代表对应的权重,单个词集的静态词集向量计算方法如下:其中,表示词在语料库中出现的次数;表示词集T出现词语的总次数;表示将词语映射为词向量;T表示“BIES”四个词集中的一个;表示字x
i
对应词集T的向量表示;为了更好的保留信息,将四个静态词集表示为一个整体,通过拼接整合成一个固定维度的向量:其中,τ
i
表示字x
i
对应的静态词集向量;动态词集算法使用注意力机制来衡量字符和匹配词之间的信息,计算不同匹配词的注意力权重,增强有用的词汇并抑制作用不明显的词汇,如下:如下:如下:其中,表示将词语映射为词向量;q是与维度相同的训练向量;为通过注意力机制得到的词语注意力分数;为归一化后的词语注意力权重;表示单个
词集的动态词集向量;m表示字x
i
对应词集T匹配到的词语个数;通过注意力权重进行加权求和得到动态词集向量,将四个动态词集表示为一个整体并压缩为一个固定维度的向量:其中,Aτ
i
表示为字x
i
对应的动态词集向量;步骤1.3,为了充分考虑两个词集中每个词语的重要性,对对动态词集向量和静态词集向量动态加权组合;使用评估函数θ
i
来衡量静态词集向量和动态词集向量对实体识别任务的作用:θ
i
=σ(W
θ1

i
+W
θ2
.Aτ
i
+b
θ
)其中,W
θ1
、W
θ2
是可训练矩阵;b
θ
是偏置项;将字向量、静态词集向量τ
i
和动态词集向量Aτ
i
组合在一起,作为最终包含外部词汇信息的输入表示:其中,表示字x
i
的最终向量表示;l是向量维度与匹配的1向量;e
x
表示将字x
i
转为对应的字向量;*表示点乘计算;表示向量拼接。3.根据权利要求2所述的融合词汇和句法信息的中文命名实体识别方法,其特征在于,所述步骤2,具体包括:序列编码层采用双向LSTM来获取每个字的上下文向量,所述双向LSTM为前向LSTM和反向LSTM的结合;使用表示i时刻前向LSTM的隐藏层状态,使用表示i时刻反向LSTM的隐藏层状态;通过拼接相对应的前向和反向LSTM状态,获得最终的上下文向量4.根据权利要求3所述的融合词汇和句法信息的中文命名实体识别方法,其特征在于,所述步骤3,具体包括:步骤3.1,使用Stanford CoreNLP工具对原始文本进行分词,并使用Berkely Neural...

【专利技术属性】
技术研发人员:李弼程刘其龙张敏皮慧娟王华珍王成
申请(专利权)人:华侨大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1