命名实体识别方法、装置、设备及存储介质制造方法及图纸

技术编号:35175684 阅读:17 留言:0更新日期:2022-10-12 17:42
本申请公开了一种命名实体识别方法、装置、设备及存储介质,该方法包括:获取待识别文本;将待识别文本输入到训练好的实体识别模型进行识别处理,得到待识别文本的输出结果,输出结果包括待识别文本中的实体类型和实体词文本;获取实体词文本特征预设参考项并基于实体词文本特征预设参考项对输出结果进行修正处理,得到待识别文本的识别结果,实体词文本特征预设参考项用于表征待识别文本中实体词前后文本特征。该技术方案通过实体词文本特征预设参考项对输出结果进行修正处理,结合了待识别文本中实体词前后文本特征,进而精准地对于一个语句中存在两个相同文本实体词的情况进行识别,使得能够对待识别文本的命名实体识别的准确度更高。别的准确度更高。别的准确度更高。

【技术实现步骤摘要】
命名实体识别方法、装置、设备及存储介质


[0001]本专利技术一般涉及机器学习
,具体涉及一种命名实体识别方法、装置、设备及存储介质。

技术介绍

[0002]随着人工智能算法技术的不断发展,命名实体识别(Named Entity Recognition,NER)任务已经越来越多地应用到各个不同领域中。其中,命名实体识别,是用于识别文本中具体特定意义的实体的类型和位置,从而为文本中的各个文本添加NER标签。
[0003]目前,相关技术中采用命名实体识别模型并结合词典修正的方式来实现命名实体识别并输出结果。然而,对于一个文本语句中存在两个文本内容相同但实体类型不同的实体情况,采用该方案会仅得到一个实体类型的结果,导致得到识别结果准确度低。

技术实现思路

[0004]鉴于现有技术中的上述缺陷或不足,期望提供一种命名实体识别方法、装置、设备及存储介质。
[0005]第一方面,本申请实施例提供了一种命名实体识别方法,该方法包括:获取待识别文本;将所述待识别文本输入到训练好的实体识别模型进行识别处理,得到所述待识别文本的输出结果,所述输出结果包括所述待识别文本中的实体类型和实体词文本;获取实体词文本特征预设参考项并基于所述实体词文本特征预设参考项对所述输出结果进行修正处理,得到所述待识别文本的识别结果,所述实体词文本特征预设参考项用于表征所述待识别文本中实体词前后文本特征。
[0006]在其中一个实施例中,基于所述实体词文本特征预设参考项对所述输出结果进行修正处理,得到所述待识别文本的识别结果,包括:采用预设词典对所述实体词文本进行修正处理,得到中间结果,所述预设词典包括与所述待识别文本相对应的标准领域分词词典和词频分词词典;基于所述中间结果和待识别文本中实体词前后文本特征,对所述实体类型进行修正处理,得到所述待识别文本的识别结果。
[0007]在其中一个实施例中,基于所述中间结果和待识别文本中实体词前后文本特征,对所述实体类型进行修正处理,得到所述待识别文本的识别结果,包括:基于所述待识别文本中实体词前后文本特征,确定特征标识和前后文本特征与所述实体词文本之间的结构关系;根据所述特征标识、前后文本特征与所述实体词文本之间的结构关系和所述中间结果,对所述实体类型进行修正处理,得到所述待识别文本的识别结果。
[0008]在其中一个实施例中,采用预设词典对所述实体词文本进行修正处理,得到中间结果,包括:
按照所述词频分词词典中不同词语的出现频率,对所述实体词文本进行修正;根据所述标准领域分词词典,选择多种待确认分词方式中的一种该方式作为中间结果。
[0009]在其中一个实施例中,将所述待识别文本输入到实体识别模型进行识别处理,得到所述待识别文本的输出结果,包括:将所述待识别文本输入实体识别模型,通过向量化处理模块得到所述待识别文本的特征向量;将所述特征向量通过特征提取模块进行特征提取,得到所述待识别样本的属性信息,所述属性信息包括待识别样本的词性和语言结构;基于所述待识别样本的属性信息,通过识别模块进行处理,得到所述待识别文本的输出结果。
[0010]在其中一个实施例中,基于所述待识别样本的属性信息,通过识别模块进行处理,得到所述待识别文本的输出结果,包括:将所述待识别样本的属性信息通过所述识别模块中的全连接层进行处理,得到全连接向量;采用激活函数对所述全连接向量进行处理,得到所述待识别样本的预测结果集合,所述预测结果集合包括多个标签种类;将多个所述预测结果集合中相同标签种类对应的概率值的最大值作为所述待识别文本的输出结果。
[0011]在其中一个实施例中,所述实体识别模型的训练过程包括:获取历史文本数据,将所述历史文本数据分为训练集和验证集;利用所述训练集对待构建的实体识别模型进行训练,得到待验证的实体识别模型;利用所述验证集中对所述待验证的实体识别模型,按照损失函数最小化对所述待验证的实体识别模型进行优化处理,得到实体识别模型。
[0012]第二方面,本申请提供了一种命名实体识别装置,该装置包括:获取模块,用于获取待识别文本;识别模块,用于将所述待识别文本输入到训练好的实体识别模型进行识别处理,得到所述待识别文本的输出结果,所述输出结果包括所述待识别文本中的实体类型和实体词文本;修正模块,用于获取实体词文本特征预设参考项并基于所述实体词文本特征预设参考项对所述输出结果进行修正处理,得到所述待识别文本的识别结果,所述实体词文本特征预设参考项用于表征所述待识别文本中实体词前后文本特征。
[0013]第三方面,本申请实施例提供一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,该处理器执行该程序时实现如上述第一方面的命名实体识别方法。
[0014]第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序用于实现如上第一方面的命名实体识别方法。
[0015]本申请实施例中提供的命名实体识别方法、装置、设备及存储介质,通过获取待识
别文本,将待识别文本输入到训练好的实体识别模型进行识别处理,得到待识别文本的输出结果,该输出结果包括待识别文本中的实体类型和实体词文本,然后获取实体词文本特征预设参考项并基于实体词文本特征预设参考项对输出结果进行修正处理,得到待识别文本的识别结果,该实体词文本特征预设参考项用于表征待识别文本中实体词前后文本特征。与现有技术相比,该技术方案一方面,由于通过训练好的实体识别模型进行识别处理,得到输出结果,从而为后续修正处理提供了全面且准确的指导信息,另一方面,通过实体词文本特征预设参考项对输出结果进行修正处理,结合了待识别文本中实体词前后文本特征,进而精准地对于一个语句中存在两个相同文本实体词的情况进行识别,使得能够对待识别文本的命名实体识别的准确度更高。
附图说明
[0016]通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:图1为本申请实施例提供的命名实体识别的应用系统的系统架构图;图2为本申请实施例提供的命名实体识别方法的流程示意图;图3为本申请实施例提供的命名实体识别的结构示意图;图4为本申请实施例提供的确定待识别文本的识别结果的方法示意图;图5为本申请实施例提供的训练实体识别模型方法的流程示意图;图6为本申请实施例提供的命名实体识别装置的结构示意图;图7为本申请另一实施例提供的命名实体识别装置的结构示意图;图8为本申请实施例示出的一种计算机设备的结构示意图。
具体实施方式
[0017]下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关专利技术,而非对该专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与专利技术相关的部分。
[0018]需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。为了便于理解,下面对本申请实施例涉及的一些技术术语进行本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种命名实体识别方法,其特征在于,包括:获取待识别文本;将所述待识别文本输入到训练好的实体识别模型进行识别处理,得到所述待识别文本的输出结果,所述输出结果包括所述待识别文本中的实体类型和实体词文本;获取实体词文本特征预设参考项并基于所述实体词文本特征预设参考项对所述输出结果进行修正处理,得到所述待识别文本的识别结果,所述实体词文本特征预设参考项用于表征所述待识别文本中实体词前后文本特征。2.根据权利要求1所述的方法,其特征在于,基于所述实体词文本特征预设参考项对所述输出结果进行修正处理,得到所述待识别文本的识别结果,包括:采用预设词典对所述实体词文本进行修正处理,得到中间结果,所述预设词典包括与所述待识别文本相对应的标准领域分词词典和词频分词词典;基于所述中间结果和待识别文本中实体词前后文本特征,对所述实体类型进行修正处理,得到所述待识别文本的识别结果。3.根据权利要求2所述的方法,其特征在于,基于所述中间结果和待识别文本中实体词前后文本特征,对所述实体类型进行修正处理,得到所述待识别文本的识别结果,包括:基于所述待识别文本中实体词前后文本特征,确定特征标识和前后文本特征与所述实体词文本之间的结构关系;根据所述特征标识、前后文本特征与所述实体词文本之间的结构关系和所述中间结果,对所述实体类型进行修正处理,得到所述待识别文本的识别结果。4.根据权利要求2所述的方法,其特征在于,采用预设词典对所述实体词文本进行修正处理,得到中间结果,包括:按照所述词频分词词典中不同词语的出现频率,对所述实体词文本进行修正;根据所述标准领域分词词典,选择多种待确认分词方式中的一种该方式作为中间结果。5.根据权利要求1所述的方法,其特征在于,将所述待识别文本输入到实体识别模型进行识别处理,得到所述待识别文本的输出结果,包括:将所述待识别文本输入实体识别模型,通过向量化处理模块得到所述待识别文本的特征向量;将所述特征向量通过特征提取模块进行特征提取,得到待识别样本的属性信息,所述...

【专利技术属性】
技术研发人员:杨强
申请(专利权)人:深圳市人马互动科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1