长文本中人物属性关系抽取数据库的建立方法、实体抽取方法,装置及数据库制造方法及图纸

技术编号:33784607 阅读:13 留言:0更新日期:2022-06-12 14:39
本发明专利技术公开了长文本中人物属性关系抽取数据库的建立方法、实体抽取方法,装置及数据库,方法包括:基于预设方法获取人物属性定义,其中,所述预设方法包括:全文检索以及性别预测中的一种或组合,其中,所述人物属性定义包括:人物基础属性和社会属性及人物社会关系属性;利用人物属性定义进行文本中实体预标注;基于标注后的实体,构建对应的三元组,将三元组的集合作为数据库。组的集合作为数据库。组的集合作为数据库。

【技术实现步骤摘要】
长文本中人物属性关系抽取数据库的建立方法、实体抽取方法,装置及数据库


[0001]本专利技术涉及信息挖掘
,更具体涉及长文本中人物属性关系抽取数据库的建立方法、实体抽取方法,装置及数据库。

技术介绍

[0002]在互联网技术高速发展时代,实体关系抽取作为开放域中大量无规则非结构型数据中文本挖掘和信息抽取的核心研究方向,一直是研究热点。实体关系抽取是将海量非结构化数据抽取或转化为结构化的数据,为构建知识图谱、自动问答、机器翻译、大规模获取文本摘要等提供数据样本。
[0003]目前,基于深度学习的实体关系抽取方法已经逐渐超越经典的基于特征和基于核函数的方法,基于深度学习的实体关系抽取主要分为有监督和远程监督两类,其中,有监督实体关系抽取方法主要包括流水线方法和联合学习方法。虽然,基于深度学习的方法能避免经典方面中人工特征选择中的误差积累问题;但是,基于流水线的方法是对实体识别模块后做关系分类预测,一方面实体识别的错误会继续传播到关系分类中造成错误传播,另一方面基于流水线的方法忽视了两个子任务之间的关系丢失信息影响模型的效果,相比而言,联合学习方法通过增加参数共享编码层来对两个子任务进行联合训练减少了错误传播和实现了实体和关系间信息交互,但由于实体识别子任务在关系抽取子任务之前,仍然会抽取出没有关系的实体造成模型的复杂性。因此,现有技术中实体关系抽取准确率较低的技术问题。

技术实现思路

[0004]本专利技术所要解决的技术问题在于提供了长文本中人物属性关系抽取数据库的建立方法、实体抽取方法,装置及数据库,以提高实体关系抽取的准确率。
[0005]本专利技术是通过以下技术方案解决上述技术问题的:
[0006]本专利技术提供了一种长文本中人物属性关系抽取数据库的建立方法,所述方法包括:
[0007]基于预设方法获取人物属性定义,其中,所述人物属性定义包括:人物基础属性和社会属性及人物社会关系属性;
[0008]利用人物属性定义进行文本中实体预标注;
[0009]基于标注后的实体,构建对应的三元组,将三元组的集合作为数据库。
[0010]可选的,所述基于预设方法获取人物属性定义,包括:
[0011]根据第一实体与第二实体之间关系的类别,确定该类别是否为目标类别;
[0012]若是,根据所述目标类别进行语义的反向推理,得到推理结果,使用推理结果作为第一实体与第二实体之间的准确关系。
[0013]可选的,所述基于预设方法获取人物属性定义,包括:
[0014]基于性别与实体之间关系的关联性,进行实体标签的生成,并使用生成的实体标签标注文本中的实体。
[0015]可选的,所述基于预设方法获取人物属性定义,包括:
[0016]对于无法被具体分类的人物属性定义,可以基于实体之间的语义范围大小关系将无法被具体分类的人物属性定义划分到语义范围大于无法被具体分类的人物属性定义的集合中。
[0017]可选的,基于预设方法获取人物属性定义,包括:
[0018]在人物属性定义为人物社会属性时,获取所述人物社会属性对应的下位概念,基于所述下位概念与该人物之间的关联性进行人物社会属性的获取。
[0019]本专利技术还提供了一种长文本中人物属性关系抽取数据库,所述数据库是利用上述任一项方法建立的。
[0020]本专利技术还提供了一种实体关系抽取方法,所述方法包括:
[0021]随机初始化初始模型中的一个embedding层矩阵,其中,所述初始模型为串联的DGCNN模型和Attention模型;
[0022]将长文本中人物属性关系抽取数据库对应的文本进行分词通过Word2Vec 得到词向量,再使用变换矩阵将词向量转换为与字向量相同维度的向量,其中,长文本中人物属性关系抽取数据库为权利要求6所述的数据库;
[0023]采取词重复对齐字位置的方式将两者进行对位相加,得到相加结果;
[0024]将相加结果输入到DGCNN模型中到编码后的向量序列;
[0025]将向量序列输入到第一Attention模型中,其中,第一Attention模型通过两个分类器输出结果,每一个分类器均包括两个卷积层和一个全连接层;
[0026]当分类器识别出实体标签时,编码后的向量序列中对应于实体的序列片段的起止向量序列对位相加,将结果输入到相对位置的Embedding层,得到嵌入结果;
[0027]将向量序列输入到第二Attention模型中,将第二Attention模型的输出与所述嵌入结果叠加,将叠加后的结果作为向量序列,并返回执行将向量序列输入到第一Attention模型中的步骤,直至模型收敛,得到训练后的目标模型;
[0028]使用目标模型进行实体关系抽取。
[0029]本专利技术提供了一种长文本中人物属性关系抽取数据库的建立装置,所述装置包括:
[0030]获取模块,用于基于预设方法获取人物属性定义,其中,所述人物属性定义包括:人物基础属性和社会属性及人物社会关系属性;
[0031]标注模块,用于利用人物属性定义进行文本中实体预标注;
[0032]构建模块,用于基于标注后的实体,构建对应的三元组,将三元组的集合作为数据库。
[0033]可选的,所述获取模块,用于:
[0034]根据第一实体与第二实体之间关系的类别,确定该类别是否为目标类别;
[0035]若是,根据所述目标类别进行语义的反向推理,得到推理结果,使用推理结果作为第一实体与第二实体之间的准确关系。
[0036]可选的,所述获取模块,用于:
[0037]基于性别与实体之间关系的关联性,进行实体标签的生成,并使用生成的实体标签标注文本中的实体。
[0038]本专利技术相比现有技术具有以下优点:
[0039]应用本专利技术实施例,设计了一个新的人物属性关系schemas体系,一方面可以大量降低标注的工作量,同时避免了标签信息冗余对模型训练的干扰,进而在精标和算法优化中具有重要的积极作用。
[0040]而且,还可以开发一个半自动可视化标注平台降低标注成本及实现精准标注;还可实现三元组抽取中多对多要求和解决重叠实体关系抽取问题以及实现对长文本友好的人物属性关系抽取。
附图说明
[0041]图1为本专利技术实施例提供的一种长文本中人物属性关系抽取数据库的建立方法的流程示意图;
[0042]图2为本专利技术实施例提供的一种长文本中人物属性关系抽取数据库的建立方法中任务属性的定义分类示意图;
[0043]图3为本专利技术实施例提供的一种长文本中人物属性关系抽取数据库的建立方法中实体标注流程示意图;
[0044]图4为本专利技术实施例提供的实体抽取方法的原理示意图;
[0045]图5为本专利技术实施例提供的实体抽取方法中使用的模型架构示意图;
[0046]图6为本专利技术实施例提供的实体抽取方法中卷积门机制构成图;
[0047]图7为本专利技术实施例提供的实体本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种长文本中人物属性关系抽取数据库的建立方法,其特征在于,所述方法包括:基于预设方法获取人物属性定义,其中,所述预设方法包括:全文检索以及性别预测中的一种或组合;所述人物属性定义包括:人物基础属性和社会属性及人物社会关系属性;利用人物属性定义进行文本中实体预标注,其中,实体包括:人物、物品、动物中的一种或组合;基于标注后的实体,构建对应的三元组,将三元组的集合作为数据库。2.根据权利要求1所述的一种长文本中人物属性关系抽取数据库的建立方法,其特征在于,所述基于预设方法获取人物属性定义,包括:根据第一实体与第二实体之间关系的类别,确定该类别是否为目标类别;若是,根据所述目标类别进行语义的反向推理,得到推理结果,使用推理结果作为第一实体与第二实体之间的准确关系。3.根据权利要求1所述的一种长文本中人物属性关系抽取数据库的建立方法,其特征在于,所述基于预设方法获取人物属性定义,包括:基于性别与实体之间关系的关联性,进行实体标签的生成,并使用生成的实体标签标注文本中的实体。4.根据权利要求1所述的一种长文本中人物属性关系抽取数据库的建立方法,其特征在于,所述基于预设方法获取人物属性定义,包括:基于实体之间的语义范围的关系将无法被具体分类的人物属性定义划分到语义范围大于所述无法被具体分类的人物属性定义的集合中。5.根据权利要求1所述的一种长文本中人物属性关系抽取数据库的建立方法,其特征在于,基于预设方法获取人物属性定义,包括:在人物属性定义为人物社会属性时,获取所述人物社会属性对应的下位概念,基于所述下位概念与该人物之间的关联性进行人物社会属性的获取。6.一种长文本中人物属性关系抽取数据库,其特征在于,所述数据库是利用权利要求1

5任一项方法建立的。7.一种实体关系抽取方法,其特征在于,所述方法包括:随机初始化初始模型中的一个embedding层矩阵,其中,所述初始模型为串联的DGCNN模型和Attention模型;将长文本中人物属性关系抽取数据库对应的文本进行分词通...

【专利技术属性】
技术研发人员:喻野黄宇
申请(专利权)人:中科世通亨奇北京科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1