一种实体识别方法及装置制造方法及图纸

技术编号:37679634 阅读:15 留言:0更新日期:2023-05-26 04:46
本发明专利技术提供了一种实体识别方法及装置,所述实体识别方法对输入文本执行字符嵌入,为每个字符生成唯一的向量表示;通过枚举输入序列中的跨度单元,确定文本中潜在的实体区域以及相应的上下文区域;使用图卷积网络和多头注意力层对潜在实体区域和上下文区域联合建模;联合建模的结果经由分类器判断该潜在实体区域的实体类别。本发明专利技术的实体识别方法能够高效且准确的从非结构化序列文本中识别出所包含的实体信息。本发明专利技术在识别文本中字符序列是否为实体时,不仅考虑了该序列自身的语义信息,而且充分建模了由剩余字符构成的上下文信息,有效提高了实体识别的精度。效提高了实体识别的精度。效提高了实体识别的精度。

【技术实现步骤摘要】
一种实体识别方法及装置


[0001]本专利技术涉及自然语言处理
,具体来说,涉及一种实体识别方法及装置。

技术介绍

[0002]自然文本通常以非结构化的序列形式被传播与记录,这些文本中存在着大量诸如人名、地名、组织和机构等表达具体概念的实体信息,如图1所示。快速准确的识别非结构化序列文本中的实体信息是构建问答系统和推荐系统的关键技术之一。
[0003]非结构化序列文本中的实体识别最为复杂,需要同时考虑句法、语义和语境等特征,传统基于规则的信息抽取方法难以满足非结构化序列文本的实体识别需求。人类虽然可以通过阅读获取非结构化序列文本中的实体信息,但海量数据的实体识别工作非人力所能及。

技术实现思路

[0004]针对相关技术中的上述技术问题,本专利技术提出了一种实体识别方法,包括如下步骤:S1,对输入文本进行字符嵌入,为每个字符生成唯一的向量表示以获取输入文本的向量序列;S2,通过枚举输入文本向量序列中的跨度单元,获取所述输入文本的跨度集合;S3,将所述跨度集合输入双向图卷积生成跨度区域的语义特征向量;S4,将所述语义特征向量 输入双向长短期记忆网络获取上下文信息;S5,将所述上下文信息 进行非线性变换获取跨度单元语义特征和语境特征的联合建模结果;S6,将所示联合建模的结果输入分类器获取实体类别。
[0005]具体的,所述步骤S1包括:S11,随机初始化一个特征矩阵作为字符的嵌入矩阵,其中是字符表的长度,代表每个字符的嵌入维度;S12,对输入文本中的每个字符根据其在字符表中的id从特征矩阵中索引出各自的向量表示。
[0006]具体的,所述步骤S3包括:S31,将链式结构的跨度序列重构为图结构;
S32,构造双向图卷积层聚合图中各节点特征;S33,将特征图中的各节点累加求平均,计算跨度单元的语义特征表示。
[0007]具体的,所述步骤S4包括:S41,使用特征向量替换原始输入向量序列中跨度单元的向量序列,即变为;S42,构造双向长短期记忆网络建模的序列特征;S43,基于自注意力机制聚合序列中跨度特征与语境特征之间存在的依赖关系,计算公式如下:,其中,是维度为的参数矩阵,softmax为归一化指数函数;是跨度单元的特征向量,维度为;是双向长短期记忆网络的状态特征向量构成的特征矩阵,维度为;作为跨度语义特征和上下文语境特征的联合建模输出,该向量维度为。
[0008]具体的,所述步骤S5包括:S51,重复l次步骤S4,对语义特征和语境特征深度建模,其输出特征向量表示为;S52,将特征向量最为输入,经过下式输出该跨度单元的语义特征和语境特征的联合建模结果。
[0009]第二方面,本专利技术的另一实施例公开了一种实体识别装置,包括如下单元:输入文本向量生成单元,用于对输入文本进行字符嵌入,为每个字符生成唯一的向量表示以获取输入文本的向量序列;输入文本的跨度集合生成单元,用于通过枚举输入文本向量序列中的跨度单元,获取所述输入文本的跨度集合;语义特征向量生成单元,用于将所述跨度集合输入双向图卷积生成跨度区域的语义特征向量;上下文信息生成单元,用于将所述语义特征向量 输入双向长短期记忆网络获取上下文信息;
语义特征和语境特征的联合建模结果生成单元,用于将所述上下文信息进行非线性变换获取跨度单元语义特征和语境特征的联合建模结果;实体获取单元,用于将所示联合建模的结果 输入分类器获取实体类别。
[0010]具体的,所述输入文本向量生成单元包括:嵌入矩阵初始化单元,用于随机初始化一个特征矩阵作为字符的嵌入矩阵,其中是字符表的长度,代表每个字符的嵌入维度;向量生成单元,用于对输入文本中的每个字符根据其在字符表中的id从特征矩阵中索引出各自的向量表示。
[0011]具体的,所述语义特征向量生成单元包括:图结构重构单元,用于将链式结构的跨度序列重构为图结构;双向图卷积构造单元,用于构造双向图卷积层聚合图中各节点特征;语义特征表示计算单元,用于将特征图中的各节点累加求平均,计算跨度单元的语义特征表示。
[0012]具体的,所述上下文信息生成单元包括:第一向量替换单元,用于使用特征向量替换原始输入向量序列中跨度单元的向量序列,即变为;双向长短期记忆网络构造单元,用于构造双向长短期记忆网络建模的序列特征;第一联合建模单元,用于基于自注意力机制聚合序列中跨度特征与语境特征之间存在的依赖关系,计算公式如下:,其中,是维度为的参数矩阵,softmax为归一化指数函数;是跨度单元的特征向量,维度为;是双向长短期记忆网络的状态特征向量构成的特征矩阵,维度为;作为跨度语义特征和上下文语境特征的联合建模输出,该向量维度为。
[0013]具体的,所述语义特征和语境特征的联合建模结果生成单元包括:第一执行单元,用于重复执行l次上下文信息生成单元,对语义特征和语境特征深度建模,其输出特征向量表示为;
第二建模单元,用于将特征向量最为输入,经过下式输出该跨度单元的语义特征和语境特征的联合建模结果。
[0014]第三方面,本专利技术的另一个实施例公开了一种非易失性存储器,所述非易失性存储器上存储有指令,所述指令被处理器执行时,用于实现上述的一种实体识别方法。
[0015]本专利技术的实体识别方法,对输入文本执行字符嵌入,为每个字符生成唯一的向量表示;通过枚举输入序列中的跨度单元,确定文本中潜在的实体区域以及相应的上下文区域;使用图卷积网络和多头注意力层对潜在实体区域和上下文区域联合建模;联合建模的结果经由分类器判断该潜在实体区域的实体类别。本专利技术的实体识别方法能够高效且准确的从非结构化序列文本中识别出所包含的实体信息。本专利技术在识别文本中字符序列是否为实体时,不仅考虑了该序列自身的语义信息,而且充分建模了由剩余字符构成的上下文信息,有效提高了实体识别的精度。本专利技术通过枚举的方式,考虑文本中所有的字符子序列为潜在实体,可以很好的识别文本中重叠的实体信息。
附图说明
[0016]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0017]图1是本专利技术实施例提供的非结构化的文本示意图;图2是本专利技术实施例提供的一种实体识别方法流程图;图3是本专利技术实施例提供的文本嵌入过程示意图;图4是本专利技术实施例提供的长度为为4的输入文本的跨度枚举示意图;图5是本专利技术实施例提供的跨度语义特征和上下文语境特征联合建模的示意图;图6是本专利技术实施例提供的双向长短期记忆网络结构示意图;图7是本专利技术实施例提供的一种实体识别装置示意图;图8是本专利技术实施例提供的种实体识别设备示意图。
具体实施方式
[0018]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员所获得的所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种实体识别方法,其特征在于:包括如下步骤:S1,对输入文本进行字符嵌入,为每个字符生成唯一的向量表示以获取输入文本的向量序列;S2,通过枚举输入文本向量序列中的跨度单元,获取所述输入文本的跨度集合;S3,将所述跨度集合输入双向图卷积生成跨度区域的语义特征向量;S4,将所述语义特征向量 输入双向长短期记忆网络获取上下文信息;S5,将所述上下文信息 进行非线性变换获取跨度单元语义特征和语境特征的联合建模结果;S6,将所示联合建模的结果输入分类器获取实体类别。2.根据权利要求1所述的方法,其特征在于:所述步骤S1包括:S11,随机初始化一个特征矩阵作为字符的嵌入矩阵,其中是字符表的长度,代表每个字符的嵌入维度;S12,对输入文本中的每个字符根据其在字符表中的id从特征矩阵中索引出各自的向量表示。3.根据权利要求1所述的方法,其特征在于:所述步骤S3包括:S31,将链式结构的跨度序列重构为图结构;S32,构造双向图卷积层聚合图中各节点特征;S33,将特征图中的各节点累加求平均,计算跨度单元的语义特征表示。4.根据权利要求3所述的方法,其特征在于:所述步骤S4包括:S41,使用特征向量替换原始输入向量序列中跨度单元的向量序列,即变为;S42,构造双向长短期记忆网络建模的序列特征;S43,基于自注意力机制聚合序列中跨度特征与语境特征之间存在的依赖关系,计算公式如下:,其中,是维度为的参数矩阵,softmax为归一化指数函数;是跨度单元的特征向量,维度为;是双向长短期记忆网络的状态特征向量构成的特征矩阵,维度为;作为跨度语义特征和上下文语境特征的联合建模输出,该向量维度为。
5.根据权利要求4所述的方法,其特征在于:所述步骤S5包括:S51,重复l次步骤S4,对语义特征和语境特征深度建模,其输出特征向量表示为;S52,将特征向量最为输入,经过下式输出该跨度单元的语义特征和语境特征的联合建模结果。6.一种实体识别装置,其特征在于:包括如下单元:输入文本向量生成单元,用于对输入文本进行字符嵌入,为每个字符生成唯一的向量表示以获取输入文本的向量序列;输入文本的跨度集合生成单元,用于通...

【专利技术属性】
技术研发人员:邓正秋何亮
申请(专利权)人:湖南马栏山视频先进技术研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1