一种实体识别方法及装置制造方法及图纸

技术编号:36506171 阅读:12 留言:0更新日期:2023-02-01 15:31
本发明专利技术公开了一种实体识别方法及装置,通过对不同尺度的输入文本序列进行语义编码,然后融合这些语义编码向量,有助于实体识别模型捕获不同尺度的特征,从而提升生成器获得的目标文本的质量;通过生成树结构遍历路径顺序的目标文本,可以使实体识别模型识别扁平实体、嵌套实体和不连续实体等三类实体结构;通过构建实体字典,然后使用文本匹配算法对输入文本进行匹配得到文本中包含的实体,可以避免实体识别模型无法识别低频实体;能够不依赖规则、字典以及高质量特征,并同时识别扁平实体、嵌套实体和不连续实体这三种实体。套实体和不连续实体这三种实体。套实体和不连续实体这三种实体。

【技术实现步骤摘要】
一种实体识别方法及装置


[0001]本专利技术涉及自然语言处理
,尤其涉及一种实体识别方法及装置。

技术介绍

[0002]近年来,随着互联网的快速发展,积累了大量丰富的文本数据,然而这却给人带来了巨大的挑战:如何快速准确的抽取出文本中具有特定意义的文本块。为了解决该挑战,自然语言处理领域提出了实体识别任务。实体识别的主要功能是识别出文本中的具有特定意义的实体,在特定领域根据需求识别出实体类别。例如在医疗领域,实体识别主要识别患者的姓名、症状、身体部位以及治疗方法等。
[0003]实体按照在文本中出现的结构可以分为:扁平实体、嵌套实体和不连续实体。扁平实体即在文本中是连续且不包含其它实体,嵌套实体即在实体中同时还包含另一个实体,不连续实体即在文本中是不连续的。
[0004]命名实体识别方法主要包括基于规则和词典的方法、基于传统机器学习的方法和基于深度学习的方法。基于规则和字典的方法过度依赖初始数据库的建立,只能识别字典和规则范围内的实体,导致应用领域过于片面。传统机器学习的方法是基于大规模标记数据集,主要采用监督学习方法识别实体。但是传统监督学习方法需要花费大量时间进行设计特征,而这些特征决定模型的性能。基于深度学习方法依靠其强大的数据挖掘能力,最大化的减少了手工构建特征的成本,在实体识别任务中取得了成功的应用。基于深度学习主要包括基于序列标注的方法和基于span的方法,前者只能识别扁平实体,后者可以同时识别扁平实体和嵌套实体。
[0005]综上所述,现有的方法要么依赖规则和字典,要么依赖高质量的特征,同时还没有一种统一的方法可以同时识别扁平实体、嵌套实体和不连续实体这三种实体。

技术实现思路

[0006]本专利技术的目的在于提供一种实体识别方法及装置,用于解决现有技术方案中存在的依赖规则、字典以及高质量特征的问题,并提供一种解决方法同时识别扁平实体、嵌套实体和不连续实体这三种实体。
[0007]本专利技术通过以下技术方案来实现上述目的:
[0008]一种实体识别方法及装置,包括以下步骤:
[0009]步骤1,获取待识别的输入文本,并对输入文本进行预处理;
[0010]步骤2,将预处理后的输入文本作为实体识别模型编码器的输入进行编码,得到输入文本的语义编码向量序列;
[0011]步骤3,将语义编码向量序列作为实体识别模型生成器的输入,生成目标文本;
[0012]步骤4,对目标文本进行解析得到第一目标实体识别结果;
[0013]步骤5,根据预设的实体字典,使用文本匹配算法对输入文本进行匹配得到第二目标实体识别结果;
[0014]步骤6,融合第一目标实体识别结果和第二目标实体识别结果,得到最终的实体识别结果。
[0015]进一步方案为,所述步骤1中,对输入文本进行包括但不限于去除特殊符号、半全角转换和简繁体转换等预处理操作;
[0016]对预处理后的输入文本序列化,包括按字序列化、按词序列化以及使用WordPiece算法序列化。
[0017]进一步方案为,所述步骤2中,使用双向LSTM、双向GRU、卷积神经网络以及BERT等模型对字序列、词序列以及WordPiece算法序列后的输入文本编码得到对应的语义编码向量序列;
[0018]转化字序列和词序列等对应的语义编码向量序列,向WordPiece算法序列对应的语义编码向量序列对齐,得到序列长度一致的语义编码向量序列;
[0019]使用包括但不限于均值、求和法、最大值以及拼接等方法对对齐后的语义编码向量序列进行融合得到最终的语义编码向量序列。
[0020]在上述过程中,通过对不同尺度的输入文本序列进行语义编码,然后融合这些语义编码向量,有助于实体识别模型捕获不同尺度的特征,从而提升生成器获得的目标文本的质量。
[0021]进一步方案为,所述步骤3中,所述实体识别模型生成器包括:双向LSTM、双向GRU、卷积神经网络以及BERT等模型;所述目标文本为输入文本中所有实体按照出现顺序所构建的树的遍历路径。
[0022]在上述过程中,通过生成树结构遍历路径顺序的目标文本,可以使实体识别模型识别扁平实体、嵌套实体和不连续实体等三类实体结构。
[0023]进一步方案为,所述步骤4中,根据目标文本重构树结构;
[0024]遍历树结构,保留根节点到叶子结点的所有路径作为第一目标实体识别结果。
[0025]进一步方案为,所述步骤5中,遍历预设的实体字典中每一个实体,使用字符串文本匹配算法判断实体是否在输入文本中,如果在输入文本中,则把实体实体存入第二目标实体识别结果中。
[0026]在上述过程中,通过构建实体字典,然后使用文本匹配算法对输入文本进行匹配得到文本中包含的实体,可以避免实体识别模型无法识别低频实体。
[0027]进一步方案为,所述步骤6中,遍历第一目标实体识别结果中的每一个实体,如果实体不在第二目标实体识别结果且不是第二目标实体识别结果中实体的子串,则把实体存入第三目标实体识别结果中;如果实体不在第二目标实体识别结果且是第二目标实体识别结果中实体的子串,则删除该实体;如果实体在第二目标实体识别结果中,则把实体存入第三目标实体识别结果中。最后,第三目标实体识别结果作为最终的实体识别结果。
[0028]本专利技术另一方面公开了一种实体识别装置,包括:
[0029]数据处理模块,获取待识别的输入文本,并对输入文本进行预处理;
[0030]实体识别生成模块,用于得到输入文本的语义编码向量序列,然后使用实体识别模型生成器生成目标文本,最终对目标文本进行解析得到第一目标实体识别结果;
[0031]实体识别匹配模块,用于使用文本匹配算法对输入文本进行匹配得到第二目标实体识别结果;
[0032]实体识别融合模块,用于融合第一目标实体识别结果和第二目标实体识别结果。
[0033]本专利技术的有益效果在于:
[0034]本专利技术的一种实体识别方法及装置,通过对不同尺度的输入文本序列进行语义编码,然后融合这些语义编码向量,有助于实体识别模型捕获不同尺度的特征,从而提升生成器获得的目标文本的质量;通过生成树结构遍历路径顺序的目标文本,可以使实体识别模型识别扁平实体、嵌套实体和不连续实体等三类实体结构;通过构建实体字典,然后使用文本匹配算法对输入文本进行匹配得到文本中包含的实体,可以避免实体识别模型无法识别低频实体;能够不依赖规则、字典以及高质量特征,并同时识别扁平实体、嵌套实体和不连续实体这三种实体。
附图说明
[0035]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例或现有技术描述中所需要实用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0036]图1为本专利技术实体识别方法流程图;
[0037]图2为本专利技术中的实体识别装置结构框图;<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种实体识别方法,其特征在于,包括以下步骤:步骤1,获取待识别的输入文本,并对输入文本进行预处理;步骤2,将预处理后的输入文本作为实体识别模型编码器的输入进行编码,得到输入文本的语义编码向量序列;步骤3,将语义编码向量序列作为实体识别模型生成器的输入,生成目标文本;步骤4,对目标文本进行解析得到第一目标实体识别结果;步骤5,根据预设的实体字典,使用文本匹配算法对输入文本进行匹配得到第二目标实体识别结果;步骤6,融合第一目标实体识别结果和第二目标实体识别结果,得到最终的实体识别结果。2.如权利要求1所述的一种实体识别方法,其特征在于,所述步骤1中,对输入文本进行包括但不限于去除特殊符号、半全角转换和简繁体转换等预处理操作;对预处理后的输入文本序列化,包括按字序列化、按词序列化以及使用WordPiece算法序列化。3.如权利要求1所述的一种实体识别方法,其特征在于,所述步骤2中,使用双向LSTM、双向GRU、卷积神经网络以及BERT等模型对字序列、词序列以及WordPiece算法序列后的输入文本编码得到对应的语义编码向量序列;转化字序列和词序列等对应的语义编码向量序列,向WordPiece算法序列对应的语义编码向量序列对齐,得到序列长度一致的语义编码向量序列;使用包括但不限于均值、求和法、最大值以及拼接等方法对对齐后的语义编码向量序列进行融合得到最终的语义编码向量序列。4.如权利要求1所述的一种实体识别方法,其特征在于,所述步骤3中,所述实体识别模型生成器包括:双向LSTM、双向GR...

【专利技术属性】
技术研发人员:周兴发杨兰谭斌饶璐孙锐展华益
申请(专利权)人:四川长虹电子控股集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1