应用于文本细粒度实体分类的特征表示方法及相关设备技术

技术编号:35827243 阅读:11 留言:0更新日期:2022-12-03 13:54
本申请提供一种应用于文本细粒度实体分类的特征表示方法及相关设备。能够确定目标文本的字符中的实体提及,将实体提及放回至上下文字符中,进而得到上下文字符表示,并利用上下文表征模型对其进行张量确定处理,得到上下文张量信息,再通过注意力机制对上下文张量信息进行计算处理,这样得到的上下文特征能够具备上下文的特点,能够在上下文特征中将实体提及与上下文的联系一起包含在内,使得后续进行细粒度实体分类时,得到的分类结果更加精确,进一步提高细粒度实体分类的效果。进一步提高细粒度实体分类的效果。进一步提高细粒度实体分类的效果。

【技术实现步骤摘要】
应用于文本细粒度实体分类的特征表示方法及相关设备


[0001]本申请涉及语义处理
,尤其涉及一种应用于文本细粒度实体分类的特征表示方法及相关设备。

技术介绍

[0002]细粒度实体分类任务赋予文本中的实体以细粒度类别,能够通过类别信息为实体提供丰富的语义信息,在关系抽取、实体链接、问答系统等下游任务中发挥重要作用。
[0003]由于实体在句子中的长度和位置是不统一的,无法直接计算实体在上下文中的表示,现有的细粒度实体分类模型将实体提及与其上下文分别进行处理和特征表示,割裂了实体与其上下文之间的语义关联。

技术实现思路

[0004]有鉴于此,本申请的目的在于提出一种应用于文本细粒度实体分类的特征表示方法及相关设备,应以解决或部分解决上述技术问题。
[0005]基于上述目的,本申请的第一方面提供了一种应用于文本细粒度实体分类的特征表示方法,包括:
[0006]对目标文本进行字符表示;
[0007]确定所述字符中的实体提及以及所述实体提及对应的上下文字符,将所述实体提及放回至所述上下文字符中得到上下文字符表示;
[0008]将所述上下文字符表示输入至上下文表征模型中,进行张量确定处理,得到上下文张量信息,对所述上下文张量信息进行计算处理得到所述目标文本的上下文特征,其中,所述上下文表征模型是利用训练样本对神经网络进行训练得到的。
[0009]基于同一个专利技术构思,本申请的第二方面提出了一种应用于文本细粒度实体分类的特征表示装置,包括:
[0010]字符表示模块,被配置为对目标文本进行字符表示;
[0011]上下文表示模块,被配置为确定所述字符中的实体提及以及所述实体提及对应的上下文字符,将所述实体提及放回至所述上下文字符中得到上下文字符表示;
[0012]模型处理模块,被配置为将所述上下文字符表示输入至上下文表征模型中,进行张量确定处理,得到上下文张量信息,对所述上下文张量信息进行计算处理得到所述目标文本的上下文特征,其中,所述上下文表征模型是利用训练样本对神经网络进行训练得到的。
[0013]基于同一个专利技术构思,本申请的第三方面提出了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面所述的方法。
[0014]从上面所述可以看出,本申请提供的应用于文本细粒度实体分类的特征表示方法及相关设备,能够确定目标文本的字符中的实体提及,将实体提及放回至上下文字符中,进
而得到上下文字符表示,并利用上下文表征模型对其进行张量确定处理,得到上下文张量信息,再通过注意力机制对上下文张量信息进行计算处理,这样得到的上下文特征能够具备上下文的特点,能够在上下文特征中将实体提及与上下文的联系一起包含在内,使得后续进行细粒度实体分类时,得到的分类结果更加精确,进一步提高细粒度实体分类的效果。
附图说明
[0015]为了更清楚地说明本申请或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0016]图1为传统的细粒度实体分类模型的处理示意图;
[0017]图2A为本申请实施例的应用于文本细粒度实体分类的特征表示方法的流程图;
[0018]图2B为传统的上下文表示示意图;
[0019]图2C为本申请实施例的实体放回上下文的特征表示示意图;
[0020]图2D为本申请实施例的基于FastText+BILSTM和基于BERT的上下文表征模型比较示意图;
[0021]图2E为本申请实施例的有注意力机制的上下文表征模型的处理示意图;
[0022]图2F为本申请实施例的不同众包数据比例训练集的模型在测试集上的表现示意图;
[0023]图2G为本申请实施例的不同模块组合的模型在测试集上的表现示意图;
[0024]图2H为本申请实施例的方案与CFET结果比较表格图;
[0025]图2I为本申请实施例的方案与CFET对于不同粒度实体类别的分解结果的比较表格图;
[0026]图3为本申请实施例的应用于文本细粒度实体分类的特征表示装置的结构示意图;
[0027]图4为本申请实施例的电子设备的结构示意图。
具体实施方式
[0028]为使本申请的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本申请进一步详细说明。
[0029]需要说明的是,除非另外定义,本申请实施例使用的技术术语或者科学术语应当为本申请所属领域内具有一般技能的人士所理解的通常意义。本申请实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
[0030]基于
技术介绍
,下面对本申请的相关技术进行进一步描述:
[0031]实体是指文本中有特定意义的对象,根据实体类别的不同粒度,学术界存在命名实体识别(Name Entity Recognition,NER)与细粒度实体分类(Fine

grained Entity Typing,FGET)两个任务。NER是指从文本中找出实体的位置并给出实体的类别,面向的是数量较少的粗粒度的类别,比如人物、地点和组织机构等;FGET则是在给定实体及其位置的情况下,依据上下文赋予实体提及一个或多个实体类别,其目标类别粒度通常更加细致,而且类别之间会形成一棵类别树(例如/人/政治家、/人/明星等),因此对实体的刻画也更加精确;NER和FGET都需要通过上下文预测实体的类别,区别在于NER任务中实体及其位置是需要预测和输出的,而FGET任务中实体及其位置已经给定的。表1以人民日报的一句语料为例,从任务的输入输出两方面比较了NER与FGET任务的异同。
[0032]表1
[0033][0034]2018年,Choi等提出英文超细粒度实体分类任务UFET(Ultra

Fine Entity Typing)及其数据集,包含9个大类别,121个细类别,以及10201个超细粒度类别。在此之前,实体分类任务中类别数最多的FIGER数据集也只有113个类别。相对于英文来说,中文的FGET任务起步较晚,2020年,Lee等参照UFET的构建方式,提出了第一个中文的细粒度实体分类任务CFET(Chinese Fine

grai本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种应用于文本细粒度实体分类的特征表示方法,其特征在于,包括:对目标文本进行字符表示;确定所述字符中的实体提及以及所述实体提及对应的上下文字符,将所述实体提及放回至所述上下文字符中得到上下文字符表示;将所述上下文字符表示输入至上下文表征模型中,进行张量确定处理,得到上下文张量信息,对所述上下文张量信息进行计算处理得到所述目标文本的上下文特征,其中,所述上下文表征模型是利用训练样本对神经网络进行训练得到的。2.根据权利要求1所述的方法,其特征在于,所述上下文表征模型包括:Fast Text文本分类模型和BILSTM双向长短记忆模型,并在所述BILSTM双向长短记忆模型的后面的增加注意力机制;所述对目标文本进行字符表示,包括:利用Fast Text对所述目标文本进行静态字符表示;所述将所述上下文字符表示输入至上下文表征模型中,进行张量确定处理,得到上下文张量信息,对所述上下文张量信息进行计算处理得到所述目标文本的上下文特征,包括:所述上下文字符表示为静态字符表示,将所述上下文字符表示输入至BILSTM中进行上下文编码处理,获取所述实体提及在上下文的动态表示,得到所述上下文张量信息;利用注意力机制对所述上下文张量信息进行计算处理,得到所述目标文本的上下文特征。3.根据权利要求2所述的方法,其特征在于,所述利用注意力机制对所述上下文张量信息进行计算处理,得到所述目标文本的上下文特征,包括:利用torch.cumsum函数对所述上下文张量信息沿着所述目标文本的上下文的维度进行累加求和,得到与所述上下文张量信息同尺寸的张量S
i
,公式为:其中,S
i
为上下文张量信息C中前i个的和,C
k
为上下文张量信息C中第k个值,i和k均为正整数,k∈i;确定S
i
中的尾部数量T的累计张量值S
T
,以及S
i
中的头部数量H的累计张量值S
H
,以及C中头部数量H的累计张量值C
H
,计算所述目标文本的上下文特征V
C
,公式为:4.根据权利要求1所述的方法,其特征在于,所述上下文表征模型包括:BERT模型;所述将所述上下文字符表示输入至上下文表征模型中,进行张量确定处理,得到...

【专利技术属性】
技术研发人员:郭延明刘盼雷军老松杨李国辉尹晓晴
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1