命名实体识别方法和装置、电子设备及存储介质制造方法及图纸

技术编号:38143450 阅读:14 留言:0更新日期:2023-07-08 09:59
本申请实施例提供了一种命名实体识别方法和装置、电子设备及存储介质,属于人工智能技术领域。该方法包括:获取具有字符标签和样本类别标签的样本文本;将样本文本输入至预设的原始实体识别模型;根据初始编码层对样本字符进行编码,得到字符向量;根据初始位置识别层对字符向量进行位置识别,得到初始位置标签;根据初始实体识别层对样本文本进行命名实体识别,得到识别实体和识别实体的初始识别类别标签;根据初始识别类别标签、初始位置标签、字符标签、样本类别标签对原始实体识别模型进行参数调整,得到目标实体识别模型;根据目标实体识别模型对获取的待识别文本进行命名实体识别。本申请实施例能够提高实体识别的准确度。度。度。

【技术实现步骤摘要】
命名实体识别方法和装置、电子设备及存储介质


[0001]本申请涉及人工智能
,尤其涉及一种命名实体识别方法和装置、电子设备及存储介质。

技术介绍

[0002]命名实体识别(Named Entity Recognition,NER)是指识别文本中具有特定意义的实体,如日期、地名等。根据实体对应的文本片段在文本中的位置,实体类别包括扁平类、嵌套类、非连续类。相关技术中,只能对文本中任一种或两种实体类别进行识别,从而影响了命名实体识别的准确性。因此,如何提高命名实体识别的准确性成了亟待解决的技术问题。

技术实现思路

[0003]本申请实施例的主要目的在于提出一种命名实体识别方法和装置、电子设备及存储介质,旨在命名实体识别的准确性。
[0004]为实现上述目的,本申请实施例的第一方面提出了一种命名实体识别方法,所述方法包括:
[0005]获取具有字符标签和样本类别标签的样本文本;其中,所述样本文本包括样本字符和样本实体,所述字符标签用于表示所述样本字符的字符类别,所述字符类别包括以下至少一种:首字符类、尾字符类、中间字符类、过渡字符类、非实体类;所述样本类别标签用于表示所述样本实体的实体类别,所述实体类别包括以下任一种:扁平类、嵌套类、非连续类;
[0006]将所述样本文本输入至预设的原始实体识别模型;其中,所述原始实体识别模型包括初始编码层、初始位置识别层、初始实体识别层;
[0007]根据所述初始编码层对所述样本字符进行编码,得到字符向量;
[0008]根据所述初始位置识别层对所述字符向量进行位置识别,得到初始位置标签;其中,所述初始位置标签用于表示所述样本字符的字符类别;
[0009]根据所述初始实体识别层对所述样本文本进行命名实体识别,得到识别实体和所述识别实体的初始识别类别标签;其中,所述初始识别类别标签用于表示所述识别实体的实体类别;
[0010]根据所述初始识别类别标签、所述初始位置标签、所述字符标签、所述样本类别标签对所述原始实体识别模型进行参数调整,得到目标实体识别模型;
[0011]根据所述目标实体识别模型对获取的待识别文本进行命名实体识别。
[0012]在一些实施例,所述样本文本还包括样本非实体;
[0013]所述根据所述初始识别类别标签、所述初始位置标签、所述字符标签、所述样本类别标签对所述原始实体识别模型进行参数调整,得到目标实体识别模型,包括:
[0014]根据所述样本实体和所述样本非实体得到对比损失数据;
[0015]根据所述初始位置标签和所述字符标签得到位置损失数据;
[0016]根据所述初始识别类别标签和所述样本类别标签得到类别损失数据;
[0017]根据所述对比损失数据、所述位置损失数据、所述类别损失数据对所述原始实体识别模型进行参数调整,得到所述目标实体识别模型。
[0018]在一些实施例,所述初始位置识别层包括第一分类器、第二分类器、第三分类器、第四分类器和第五分类器;
[0019]所述根据所述初始位置识别层对所述字符向量进行位置识别,得到初始位置标签,包括:
[0020]根据所述第一分类器对所述字符向量进行首字符位置识别,得到第一识别结果;
[0021]根据所述第二分类器对所述字符向量进行尾字符位置识别,得到第二识别结果;
[0022]根据所述第三分类器对所述字符向量进行中间字符位置识别,得到第三识别结果;
[0023]根据所述第四分类器对所述字符向量进行过渡字符位置识别,得到第四识别结果;
[0024]根据所述第五分类器对所述字符向量进行非实体位置识别,得到第五识别结果;
[0025]根据所述第一识别结果、所述第二识别结果、所述第三识别结果、所述第四识别结果、所述第五识别结果得到所述初始位置标签。
[0026]在一些实施例,所述根据所述初始实体识别层对所述样本文本进行命名实体识别,得到识别实体和所述识别实体的初始识别类别标签,包括:
[0027]根据所述初始实体识别层对所述样本文本进行命名实体识别,得到所述识别实体;
[0028]根据所述识别实体对所述样本字符进行筛选,得到目标字符;
[0029]将所述目标字符对应的字符向量作为目标向量,对所述目标向量进行均值处理,得到平均数据;
[0030]对所述平均数据进行归一化处理,得到所述初始识别类别标签。
[0031]在一些实施例,所述根据所述初始实体识别层对所述样本文本进行命名实体识别,得到识别实体和所述识别实体的初始识别类别标签,包括:
[0032]根据所述初始实体识别层对所述样本文本进行命名实体识别,得到所述识别实体;
[0033]根据所述识别实体构建实体索引集合,从所述实体索引集合中得到目标向量;
[0034]对所述目标向量进行均值处理,得到平均数据;
[0035]对所述平均数据进行归一化处理,得到所述初始识别类别标签。
[0036]在一些实施例,所述根据所述样本实体和所述样本非实体得到对比损失数据,包括:
[0037]对所述样本实体进行组合,得到实体对数据;
[0038]根据所述实体对数据得到第一向量数据;
[0039]根据所述样本非实体得到第二向量数据;
[0040]根据所述第一向量数据和所述第二向量数据得到对比损失数据。
[0041]在一些实施例,所述目标实体识别模型包括目标编码层、目标位置识别层、目标实
体识别层;
[0042]所述根据所述目标实体识别模型对获取的待识别文本进行命名实体识别,包括:
[0043]获取所述待识别文本;其中,所述待识别文本包括待识别字符;
[0044]根据所述目标编码层对所述待识别字符进行编码,得到目标向量;
[0045]根据所述目标位置识别层对所述目标向量进行位置识别,得到目标位置标签;
[0046]将所述目标位置标签、所述目标向量输入至所述目标实体识别层进行命名实体识别,得到目标实体和目标识别类别标签。其中,所述目标识别类别标签用于表示所述目标实体的实体类别。
[0047]为实现上述目的,本申请实施例的第二方面提出了一种命名实体识别装置,所述装置包括:
[0048]文本获取模块,用于获取具有字符标签和样本类别标签的样本文本;其中,所述样本文本包括样本字符和样本实体,所述字符标签用于表示所述样本字符的字符类别,所述字符类别包括以下至少一种:首字符类、尾字符类、中间字符类、过渡字符类、非实体类;所述样本类别标签用于表示所述样本实体的实体类别,所述实体类别包括以下任一种:扁平类、嵌套类、非连续类;
[0049]输入模块,用于将所述样本文本输入至预设的原始实体识别模型;其中,所述原始实体识别模型包括初始编码层、初始位置识别层、初始实体识别层;
[0050]编码模块,用于根据所述初始编码层对所述样本字符进行编码,得到字符向量;
...

【技术保护点】

【技术特征摘要】
1.一种命名实体识别方法,其特征在于,所述方法包括:获取具有字符标签和样本类别标签的样本文本;其中,所述样本文本包括样本字符和样本实体,所述字符标签用于表示所述样本字符的字符类别,所述字符类别包括以下至少一种:首字符类、尾字符类、中间字符类、过渡字符类、非实体类;所述样本类别标签用于表示所述样本实体的实体类别,所述实体类别包括以下任一种:扁平类、嵌套类、非连续类;将所述样本文本输入至预设的原始实体识别模型;其中,所述原始实体识别模型包括初始编码层、初始位置识别层、初始实体识别层;根据所述初始编码层对所述样本字符进行编码,得到字符向量;根据所述初始位置识别层对所述字符向量进行位置识别,得到初始位置标签;其中,所述初始位置标签用于表示所述样本字符的字符类别;根据所述初始实体识别层对所述样本文本进行命名实体识别,得到识别实体和所述识别实体的初始识别类别标签;其中,所述初始识别类别标签用于表示所述识别实体的实体类别;根据所述初始识别类别标签、所述初始位置标签、所述字符标签、所述样本类别标签对所述原始实体识别模型进行参数调整,得到目标实体识别模型;根据所述目标实体识别模型对获取的待识别文本进行命名实体识别。2.根据权利要求1所述的方法,其特征在于,所述样本文本还包括样本非实体;所述根据所述初始识别类别标签、所述初始位置标签、所述字符标签、所述样本类别标签对所述原始实体识别模型进行参数调整,得到目标实体识别模型,包括:根据所述样本实体和所述样本非实体得到对比损失数据;根据所述初始位置标签和所述字符标签得到位置损失数据;根据所述初始识别类别标签和所述样本类别标签得到类别损失数据;根据所述对比损失数据、所述位置损失数据、所述类别损失数据对所述原始实体识别模型进行参数调整,得到所述目标实体识别模型。3.根据权利要求1所述的方法,其特征在于,所述初始位置识别层包括第一分类器、第二分类器、第三分类器、第四分类器和第五分类器;所述根据所述初始位置识别层对所述字符向量进行位置识别,得到初始位置标签,包括:根据所述第一分类器对所述字符向量进行首字符位置识别,得到第一识别结果;根据所述第二分类器对所述字符向量进行尾字符位置识别,得到第二识别结果;根据所述第三分类器对所述字符向量进行中间字符位置识别,得到第三识别结果;根据所述第四分类器对所述字符向量进行过渡字符位置识别,得到第四识别结果;根据所述第五分类器对所述字符向量进行非实体位置识别,得到第五识别结果;根据所述第一识别结果、所述第二识别结果、所述第三识别结果、所述第四识别结果、所述第五识别结果得到所述初始位置标签。4.根据权利要求1所述的方法,其特征在于,所述根据所述初始实体识别层对所述样本文本进行命名实体识别,得到识别实体和所述识别实体的初始识别类别标签,包括:根据所述初始实体识别层对所述样本文本进行命名实体识别,得到所述识别实体;根据所述识别实体对所述样本字符进行筛选,得到目标字符;
将所述目标字符对应的字符向量作为目标向量,对所述目标向量进行均值处理,得到平均数据;对所述平均数据进行归一化处理,得到所述初始识别类别标签。5.根据权利要求1所述的方法,其...

【专利技术属性】
技术研发人员:陈焕坤王伟曾志贤张黔顾伟正张兴
申请(专利权)人:华润数字科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1