本发明专利技术公开了一种基于数据的关系抽取方法、装置、设备及存储介质。该方法包括:获取多个表元数据,对所述多个表元数据进行预处理得到元数据集合;基于所述元数据集合完成元数据
【技术实现步骤摘要】
一种基于数据的关系抽取方法、装置、设备及存储介质
[0001]本专利技术实施例涉及数据处理
,尤其涉及一种基于数据的关系抽取方法、装置、设备及存储介质。
技术介绍
[0002]数据已渗透到今天的每个行业和业务功能领域,并已成为重要的生产要素。随着新一轮的生产力增长和消费者盈余浪潮的到来,海量数据的挖掘和使用预示着“大数据”已经存在于各个业务领域。
[0003]现有技术中对大量业务数据的分类和抽取都还是采用人工标注、人工梳理的方式为主,工作量大且不易大规模推广,也无法形成全面的业务领域知识积累,对知识应用层面无法提供全面有效的支撑。
技术实现思路
[0004]本专利技术提供了一种基于数据的关系抽取方法、装置、设备及存储介质,以解决现有技术中分类和抽取数据时业务量大的问题。
[0005]根据本专利技术的一方面,提供了一种基于数据的关系抽取方法,包括:
[0006]获取多个表元数据,对所述多个表元数据进行预处理得到元数据集合;
[0007]基于所述元数据集合完成元数据
‑
实体的映射任务得到实体集合;
[0008]基于所述实体集合构建网络图;
[0009]基于图神经网络算法对所述网络图完成图谱补全得到目标网络图;
[0010]基于所述目标网络图完成实体关系识别,得到实体关系类型。
[0011]根据本专利技术的另一方面,提供了一种基于数据的关系抽取装置,包括:
[0012]处理模块,用于获取多个表元数据,对所述多个表元数据进行预处理得到元数据集合;
[0013]完成模块,用于基于所述元数据集合完成元数据
‑
实体的映射任务得到实体集合;
[0014]构建模块,用于基于所述实体集合构建网络图;
[0015]补全模块,用于基于图神经网络算法对所述网络图完成图谱补全得到目标网络图;
[0016]识别模块,用于基于所述目标网络图完成实体关系识别,得到实体关系类型。
[0017]根据本专利技术的另一方面,提供了一种电子设备,所述电子设备包括:至少一个处理器;以及
[0018]与所述至少一个处理器通信连接的存储器;其中,
[0019]所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本专利技术任一实施例所述的基于数据的关系抽取方法。
[0020]根据本专利技术的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储
介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本专利技术任一实施例所述的基于数据的关系抽取方法。
[0021]本专利技术实施例提供的一种基于数据的关系抽取方法,包括:获取多个表元数据,对所述多个表元数据进行预处理得到元数据集合;基于所述元数据集合完成元数据
‑
实体的映射任务得到实体集合;基于所述实体集合构建网络图;基于图神经网络算法对所述网络图完成图谱补全得到目标网络图;基于所述目标网络图完成实体关系识别,得到实体关系类型。该方法基于表元数据研究相应的实体映射算法,以定义实体关系类型,解决了现有技术中分类和抽取数据时业务量大的问题,能够挖掘出更全面的实体关系,提高了实体关系的识别效率。
[0022]应当理解,本部分所描述的内容并非旨在标识本专利技术的实施例的关键或重要特征,也不用于限制本专利技术的范围。本专利技术的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0023]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0024]图1为本专利技术实施例一提供的一种基于数据的关系抽取方法的流程示意图;
[0025]图2为本专利技术实施例二提供的一种基于数据的关系抽取方法的流程示意图;
[0026]图3为本专利技术实施例三提供的一种基于数据的关系抽取方法的流程示意图;
[0027]图4为本专利技术实施例提供的一种基于数据的关系抽取方法的流程示意图;
[0028]图5为本专利技术实施例四提供的一种基于数据的关系抽取装置的结构示意图;
[0029]图6为本专利技术实施例的一种基于数据的关系抽取方法的电子设备的结构示意图。
具体实施方式
[0030]为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。应当理解,本专利技术的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本专利技术的范围在此方面不受限制。
[0031]本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
[0032]需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或
描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0033]需要注意,本专利技术中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
[0034]本专利技术实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
[0035]在现有技术中,实体关系抽取目前主要面临三个挑战。首先,自然语言表达的多样性,关系抽取的核心是将自然语言表达的关系知识映射到关系三元组上。自然语言表达具有多样性和隐含性,导致关系抽取任务极具挑战性。自然语言表达的多样性指的是同一种关系可以有多种表达方式。其次,关系表达的隐含性,关系表达的隐含性是指关系有时候在文本中找不到任何明确的标识,关系隐含在文本中。最后,实体关系的复杂性,关系抽取的目标是抽取实体之间的语义关系,然而,真实世界中同一对实体之间可能有多个关系,而且有的关系可以同时存在本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于数据的关系抽取方法,其特征在于,所述方法包括:获取多个表元数据,对所述多个表元数据进行预处理得到元数据集合;基于所述元数据集合完成元数据
‑
实体的映射任务得到实体集合;基于所述实体集合构建网络图;基于图神经网络算法对所述网络图完成图谱补全得到目标网络图;基于所述目标网络图完成实体关系识别,得到实体关系类型。2.根据权利要求1所述的方法,其特征在于,所述预处理包括:将所述多个表元数据中具有不同命名的相同表元数据统一命名;将具有相同命名的表元数据中的重复表元数据删除。3.根据权利要求1所述的方法,其特征在于,所述基于所述元数据集合完成元数据
‑
实体的映射任务得到实体集合,包括:将所述元数据集合中的表元数据根据预设映射规则进行映射得到实体集合。4.根据权利要求1所述的方法,其特征在于,所述基于所述元数据集合完成元数据
‑
实体的映射任务得到实体集合,包括:通过机器学习算法和深度学习算法训练预测得到的实体映射关系表;将所述元数据集合中的表元数据根据所述实体映射关系表中的映射关系进行映射得到实体集合。5.根据权利要求1所述的方法,其特征在于,所述基于所述实体集合构建网络图,包括:将所述实体集合中的实体与网络图中的节点一一对应;计算节点的特征向量;针对每个实体,计算实体中每个实体属性的编码向量,将多个编码向量进行拼接得到一个定长向量;通过节点的特征向量确定节点间的关联性;在存在关联的两个节点之间构建一条连接边,以使存在关联的两个节点之间相连。6.根据权利要求1所述的方法,其特征在于,所述基于图神经网络算法对所述网络图完成图谱补全得到目标网络图,包括:通过链接预...
【专利技术属性】
技术研发人员:刘识,王耀影,李开阳,朱天佑,陈振宇,李继伟,
申请(专利权)人:国家电网有限公司大数据中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。