一种实体识别方法及装置制造方法及图纸

技术编号：36506171 阅读：12 留言：0更新日期：2023-02-01 15:31

本发明专利技术公开了一种实体识别方法及装置，通过对不同尺度的输入文本序列进行语义编码，然后融合这些语义编码向量，有助于实体识别模型捕获不同尺度的特征，从而提升生成器获得的目标文本的质量；通过生成树结构遍历路径顺序的目标文本，可以使实体识别模型识别扁平实体、嵌套实体和不连续实体等三类实体结构；通过构建实体字典，然后使用文本匹配算法对输入文本进行匹配得到文本中包含的实体，可以避免实体识别模型无法识别低频实体；能够不依赖规则、字典以及高质量特征，并同时识别扁平实体、嵌套实体和不连续实体这三种实体。套实体和不连续实体这三种实体。套实体和不连续实体这三种实体。

全部详细技术资料下载

【技术实现步骤摘要】
一种实体识别方法及装置

[0001]本专利技术涉及自然语言处理
，尤其涉及一种实体识别方法及装置。

技术介绍

[0002]近年来，随着互联网的快速发展，积累了大量丰富的文本数据，然而这却给人带来了巨大的挑战：如何快速准确的抽取出文本中具有特定意义的文本块。为了解决该挑战，自然语言处理领域提出了实体识别任务。实体识别的主要功能是识别出文本中的具有特定意义的实体，在特定领域根据需求识别出实体类别。例如在医疗领域，实体识别主要识别患者的姓名、症状、身体部位以及治疗方法等。
[0003]实体按照在文本中出现的结构可以分为：扁平实体、嵌套实体和不连续实体。扁平实体即在文本中是连续且不包含其它实体，嵌套实体即在实体中同时还包含另一个实体，不连续实体即在文本中是不连续的。
[0004]命名实体识别方法主要包括基于规则和词典的方法、基于传统机器学习的方法和基于深度学习的方法。基于规则和字典的方法过度依赖初始数据库的建立，只能识别字典和规则范围内的实体，导致应用领域过于片面。传统机器学习的方法是基于大规模标记数据集，主要采用监督学习方法识别实体。但是传统监督学习方法需要花费大量时间进行设计特征，而这些特征决定模型的性能。基于深度学习方法依靠其强大的数据挖掘能力，最大化的减少了手工构建特征的成本，在实体识别任务中取得了成功的应用。基于深度学习主要包括基于序列标注的方法和基于span的方法，前者只能识别扁平实体，后者可以同时识别扁平实体和嵌套实体。
[0005]综上所述，现有的方法要么依赖规则和字典，要么依赖...

【技术保护点】

【技术特征摘要】
1.一种实体识别方法，其特征在于，包括以下步骤：步骤1，获取待识别的输入文本，并对输入文本进行预处理；步骤2，将预处理后的输入文本作为实体识别模型编码器的输入进行编码，得到输入文本的语义编码向量序列；步骤3，将语义编码向量序列作为实体识别模型生成器的输入，生成目标文本；步骤4，对目标文本进行解析得到第一目标实体识别结果；步骤5，根据预设的实体字典，使用文本匹配算法对输入文本进行匹配得到第二目标实体识别结果；步骤6，融合第一目标实体识别结果和第二目标实体识别结果，得到最终的实体识别结果。2.如权利要求1所述的一种实体识别方法，其特征在于，所述步骤1中，对输入文本进行包括但不限于去除特殊符号、半全角转换和简繁体转换等预处理操作；对预处理后的输入文本序列化，包括按字序列化、按词序列化以及使用WordPiece算法序列化。3.如权利要求1所述的一种实体识别方法，其特征在于，所述步骤2中，使用双向LSTM、双向GRU、卷积神经网络以及BERT等模型对字序列、词序列以及WordPiece算法序列后的输入文本编码得到对应的语义编码向量序列；转化字序列和词序列等对应的语义编码向量序列，向WordPiece算法序列对应的语义编码向量序列对齐，得到序列长度一致的语义编码向量序列；使用包括但不限于均值、求和法、最大值以及拼接等方法对对齐后的语义编码向量序列进行融合得到最终的语义编码向量序列。4.如权利要求1所述的一种实体识别方法，其特征在于，所述步骤3中，所述实体识别模型生成器包括：双向LSTM、双向GR...

【专利技术属性】
技术研发人员：周兴发，杨兰，谭斌，饶璐，孙锐，展华益，
申请(专利权)人：四川长虹电子控股集团有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人