本公开的实施例涉及用于命名实体识别的方法、设备和存储介质,涉及信息处理领域。根据该方法,生成与命名实体集相关联的字符向量集和词语向量集;生成包括查询词中的多个字符和多个第一词语的第一序列;基于命名实体集、字符向量集和词语向量集,生成第二序列,所述第二序列包括多个字符编码结果和多个第一词语编码结果;基于双向长短期记忆网络和第二序列,生成第一语义特征序列;对第一序列中的两两元素进行相对位置编码,以生成多个相对位置编码结果;基于第一语义特征序列、多个相对位置编码结果和自注意力网络,生成第二语义特征序列;以及基于第二语义特征序列和条件随机场网络,确定多个命名实体标签。由此,能够提高实体识别准确度。体识别准确度。体识别准确度。
【技术实现步骤摘要】
用于命名实体识别的方法、电子设备和存储介质
[0001]本公开的实施例总体涉及信息处理领域,具体涉及用于命名实体识别的方法、电子设备和计算机存储介质。
技术介绍
[0002]命名实体识别(NER)是初步且重要的自然语言处理(NLP)中的任务,NER任务的主要目的是从非结构化文本中识别人的名字,地点,组织和日期等作为实体。产品名称、品牌等是工业领域非常重要的实体,提取产品名称等实体对于工业界的搜索、推荐、排序等场景或算法优化很有帮忙。
[0003]目前中文实体识别模型主要通过使用字符级特征和扩充语料数据的方式优化识别效果;对于MRO(Maintenance、Repair、Operation)行业语料数据较少,通用模型存在过大或过小的问题,从而使得识别效果不佳。
技术实现思路
[0004]提供了一种用于命名实体识别的方法、电子设备以及计算机存储介质,能够提高命名实体识别准确度。
[0005]根据本公开的第一方面,提供了一种用于命名实体识别的方法。该方法包括:生成与命名实体集相关联的字符向量集和词语向量集;生成包括查询词中的多个字符和多个第一词语的第一序列;基于命名实体集、字符向量集和词语向量集,生成第二序列,第二序列包括与多个字符相关联的多个字符编码结果和与多个第一词语相关联的多个第一词语编码结果;基于双向长短期记忆网络和第二序列,生成第一语义特征序列,第一语义特征序列包括与所述多个字符相关联的多个语义特征和与多个第一词语相关联的多个语义特征;对第一序列中的两两元素进行相对位置编码,以生成多个相对位置编码结果;基于第一语义特征序列、多个相对位置编码结果和自注意力网络,生成第二语义特征序列,第二语义特征序列包括多个自注意力特征;以及基于第二语义特征序列、残差层和条件随机场网络,确定与查询词相关联的多个命名实体标签。
[0006]根据本公开的第二方面,提供了一种电子设备。该电子设备包括:至少一个处理器,以及与至少一个处理器通信连接的存储器,其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行根据第一方面所述的方法。
[0007]在本公开的第三方面中,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现根据本公开的第一方面的方法。
[0008]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0009]结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标注表示相同或相似的元素。
[0010]图1是根据本公开的实施例的信息处理环境100的示意图。
[0011]图2是根据本公开的实施例的用于命名实体识别的方法200的示意图。
[0012]图3是根据本公开的实施例的用于生成多个字符编码结果的方法300的示意图。
[0013]图4是根据本公开的实施例的用于对第一序列中的两两元素进行相对位置编码的方法400的示意图。
[0014]图5是根据本公开的实施例的命名实体识别模型500的示意框图。
[0015]图6是用来实现本公开实施例的用于命名实体识别的方法的电子设备的框图。
具体实施方式
[0016]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0017]在本文中使用的术语“包括”及其变形表示开放性包括,即“包括但不限于”。除非特别申明,术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
[0018]如上所述,MRO行业语料数据较少,通用模型存在过大或过小的问题,从而使得命名实体识别效果不佳。
[0019]为了至少部分地解决上述问题以及其他潜在问题中的一个或者多个,本公开的示例实施例提出了一种用于命名实体识别的方案。在该方案中,生成与命名实体集相关联的字符向量集和词语向量集;生成包括查询词中的多个字符和多个第一词语的第一序列;基于命名实体集、字符向量集和词语向量集,生成第二序列,第二序列包括与多个字符相关联的多个字符编码结果和与多个第一词语相关联的多个第一词语编码结果;基于双向长短期记忆网络和第二序列,生成第一语义特征序列,第一语义特征序列包括与所述多个字符相关联的多个语义特征和与多个第一词语相关联的多个语义特征;对第一序列中的两两元素进行相对位置编码,以生成多个相对位置编码结果;基于第一语义特征序列、多个相对位置编码结果和自注意力网络,生成第二语义特征序列,第二语义特征序列包括多个自注意力特征;以及基于第二语义特征序列、残差层和条件随机场网络,确定与查询词相关联的多个命名实体标签。以此方式,能够融合字符级特征、词语级特征、字符和/或词语之间的相对位置特征等多个特征,提高命名实体识别的准确率。
[0020]在下文中,将结合附图更详细地描述本方案的具体示例。
[0021]图1示出了根据本公开的实施例的信息处理环境100的示例的示意图。信息处理环境100可以包括计算设备110、命名实体集120、查询词130和多个命名实体标签140。
[0022]计算设备110例如包括但不限于个人计算机、台式计算机、膝上型计算机、平板计
算机、服务器计算机、多处理器系统、大型计算机、包括上述系统或设备中的任意一个的分布式计算环境等。在一些实施例中,计算设备110可以具有一个或多个处理单元,包括诸如图像处理单元GPU、现场可编程门阵列FPGA和专用集成电路ASIC等的专用处理单元以及诸如中央处理单元CPU的通用处理单元。
[0023]命名实体集120可以包括多个命名实体,命名实体例如包括但不限于产品标识、品牌标识等。命名实体集120例如可以是基于从网络获取的商品数据或者历史商品数据中提取的。此外,命名实体集120中的命名实体例如可以经过BMSE标注体系进行标注。
[0024]计算设备110用于生成与命名实体集120相关联的字符向量集和词语向量集;生成包括查询词130中的多个字符和多个第一词语的第一序列;基于命名实体集120、字符向量集和词语向量集,生成第二序列,第二序列包括与多个字符相关联的多个字符编码结果和与多个第一词语相关联的多个第一词语编码结果;基于双向长短期记忆网络和第二序列,生成第一语义特征序列,第一语义特征序列包括与所述多个字符相关联的多个语义特征和与多个第一词语相关联的多个语义特征本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种用于命名实体识别的方法,包括:生成与命名实体集相关联的字符向量集和词语向量集;生成包括查询词中的多个字符和多个第一词语的第一序列;基于所述命名实体集、所述字符向量集和所述词语向量集,生成第二序列,所述第二序列包括与所述多个字符相关联的多个字符编码结果和与所述多个第一词语相关联的多个第一词语编码结果;基于双向长短期记忆网络和所述第二序列,生成第一语义特征序列,所述第一语义特征序列包括与所述多个字符相关联的多个语义特征和与所述多个第一词语相关联的多个语义特征;对所述第一序列中的两两元素进行相对位置编码,以生成多个相对位置编码结果;基于所述第一语义特征序列、所述多个相对位置编码结果和自注意力网络,生成第二语义特征序列,所述第二语义特征序列包括多个自注意力特征;以及基于所述第二语义特征序列、残差层和条件随机场网络,确定与所述查询词相关联的多个命名实体标签。2.根据权利要求1所述的方法,其中生成所述多个字符编码结果包括对于所述多个字符中的每个字符执行以下步骤:在所述命名实体集中确定含有所述字符的多个第二词语;确定所述多个第二词语在所述命名实体集中的多个频次;在所述词语向量集中确定与所述多个第二词语相关联的多个词语向量;基于所述多个词语向量和所述多个频次,生成多个第二词语编码结果;在所述字符向量集中确定与所述字符相关联的字符向量;以及基于所述多个第二词语编码结果和所述字符向量,生成与所述字符相关联的字符编码结果。3.根据权利要求2所述的方法,其中所述多个第二词语包括:以所关联字符开始的第二词语子集、以所关联字符结束的第二词语子集、所关联字符位于内部的第二词语子集以及所关联字符单独成词的第二词语子集。4.根据权利要求3所述的方法,其中生成所述多个第二词语编码结果包括对于所述多个第二词语中的每个第二词语子集执行以下步骤:生成所述多个频次之和;以及基于所述第二词语子集的频次子集、所述多个频次之和以及与所述第二词语子集相关联的词语向量子集,生成与所述第二词语相关联的第二词语编码结果。5.根据权利要求2所述的方法,其中生成所述字符编码结果包括:将所述多个第二词语编码结果进行拼接,以生成拼接结果;以及将所述拼接结果和所...
【专利技术属性】
技术研发人员:闫华星,郭相林,郑学坤,
申请(专利权)人:震坤行网络技术南京有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。