一种面向海量结构化数据的知识图谱并行构建方法技术

技术编号:38135906 阅读:28 留言:0更新日期:2023-07-08 09:47
本发明专利技术公开了一种面向海量结构化数据的知识图谱并行构建方法,属于计算机技术领域。本发明专利技术方法包括:将海量数据按照设定的元数据结构存入结构化数据库并进行分区;计算节点读取对应的结构化数据库分区中数据,存入不同RDD分区,设置数据同步写入阈值,各RDD分区抽取元数据的字段及字段值,生成实体及关系,当对当前RDD分区生成的实体和关系的数量达到写阈值时,触发数据同步写入;各计算节点并行对结构化数据抽取的实体与关系数据写入分布式存储系统,从该系统中获取数据构建知识图谱。本发明专利技术能够并行抽取海量结构化数据生成实体与关系,同时优化了写入的方式,实现了快速高效的知识图谱构建从而进行数据分析挖掘以及检索。检索。检索。

【技术实现步骤摘要】
一种面向海量结构化数据的知识图谱并行构建方法


[0001]本专利技术属于计算机
,具体涉及一种面向海量结构化数据的知识图谱并行构建方法。

技术介绍

[0002]目前,知识图谱构建的关键技术是先对不同领域的数据定义出实体与关系的模型,再通过人工智能模型进行实体与关系的抽取,然后将关键数据进行组织,从而挖掘出数据之间的重要信息进行分析与检索。知识图谱构建的实体抽取方法是人工标注和使用基于规则的NER(命名实体识别)方法,关系抽取则使用基于字符抽取以及监督学习算法。这些典型的抽取方法适用于文本非结构化数据在单台机服务器上进行,当文件大小以及文件量增大时,抽取的效率也随之降低。随着数据的爆炸式增长,数据结构也展现出不同的多样性,尤其是针对海量的结构化数据而言,普通的知识图谱实体关系抽取算法已无法满足要求,必须提供一种全新的又快又高效的构建方法。

技术实现思路

[0003]针对目前文本非结构数据的知识图谱实体与关系抽取模型技术已无法满足海量结构化数据,需要一种在大数据量的情况下既快又高效的构建方法,本专利技术提供了一种面向海量结构化数据的知识图谱并行构建方法。
[0004]本专利技术的一种面向海量结构化数据的知识图谱并行构建方法,包括如下步骤:
[0005](1)在结构化数据库所在的设备上设置海量结构化数据存储模块;所述海量结构化数据存储模块将获取的海量数据按照预先设定的元数据结构存入结构化数据库;所述结构化数据库进行分区设置,分区数等于分布式计算节点的数量;
[0006](2)在分布式计算节点上设置并行分区读取模块、抽取元数据的实体与关系模块以及数据同步写入模块;各计算节点并行对结构化数据处理;各计算节点的并行分区读取模块从对应的结构化数据库分区中读取结构化数据,并以分布式弹性数据集RDD存储,结构化数据被存入不同分区;抽取元数据的实体与关系模块对各RDD分区存储的结构化数据抽取元数据的字段及字段值,生成实体及关系;预先设置数据同步写入模块的写阈值,当对当前RDD分区生成的实体和关系的数量达到写阈值时,触发数据同步写入模块,否则等待对当前RDD分区抽取实体及关系完成后,判断生成的实体和关系的数量是否大于0,若是,触发数据同步写入模块,否则,不触发数据同步写入模块;数据同步写入模块将抽取的实体与关系同步写入分布式存储系统;
[0007](3)所述抽取元数据的实体与关系模块建立对象组和关系组,将已经构建好的知识图谱模型中的实体和关系的属性与元数据字段进行映射,然后根据映射关系及元数据字段值,抽取每一元数据的实体与关系集合,对实体及关系的属性赋值并添加到对应的数据血缘关系。
[0008]所述的步骤2中,抽取元数据的实体与关系模块开启并行线程,每个线程对RDD不
同分区中的结构化数据抽取元数据的字段及字段值,按照步骤3进行实体及关系生成。
[0009]本专利技术方法运行在分布式计算和存储环境中,分布式计算和存储环境的搭建方式为:使用N台计算机作为N个计算节点,以大数据软件系统运行框架Hadoop作为底层存储架构、YARN作为资源调试管理,搭建分布式存储系统ES以及Accumulo,利用zookeeper进行节点管理;使用一台计算机作为结构化数据库;N为大于2的正整数。各分布式计算节点通过计算引擎spark并行读取结构化数据库中对应分区中的表数据,使用spark将每一条元数据生成相对应的点集和边集并写入到分布式存储系统中。
[0010]本专利技术的有益效果在于:
[0011](1)本专利技术提供了一种对结构化数据抽取实体与关系并构建知识图谱的方法,并且在分布式的大数据平台下进行并行构建,这种构建方式又快又高效。在本专利技术中抽取实体和关系的方法,则是根据用户在界面中创建实体和关系的属性字段与元数据字段的映射关系,然后再将每一行元数据字段值映射到实体与关系上,基于这种方式,将抽取的形式和写入的方式以分布式方式并行处理,这样提高了抽取的效率,同时也提高数据写入的效率。
[0012](2)本专利技术方法能够并行抽取海量结构化数据生成实体与关系,同时优化了写入的方式,实现了快速高效的知识图谱构建,从而利用进行数据分析挖掘以及检索。
[0013](3)本专利技术方法基于目前的分布式大数据计算引擎spark进行并行计算;采用图库Accumulo、Elasticsearch非关系型数据库作为分布式存储的支撑,从而可快速构建知识图谱,以进行数据分析和检索。
附图说明
[0014]图1为本专利技术的面向海量结构化数据的知识图谱并行构建方法的实现框架示意图;
[0015]图2为本专利技术方法中设计的结构化数据测试集的表结构示意图;
[0016]图3为本专利技术的面向海量结构化数据的知识图谱并行构建方法的一个实现流程图。
具体实施方式
[0017]以下结合附图,举一个具体实例对本专利技术的一种面向海量结构化数据的知识图谱并行构建方法做进一步说明。
[0018]如图1所示,本专利技术的面向海量结构化数据的知识图谱并行构建方法运行在分布式计算和存储环境中,建立结构化数据库,并实现分区读取数据,然后将不同分区数据在分布式节点上进行实体与关系的抽取,分布式节点可以对数据进行并行处理,将处理结果同步写入分布式的存储系统中,最后根据存储系统中提取的实体关系构建知识图谱。如图2所示,本专利技术方法还设计了结构化数据库中存储的元数据结构。如图3所示,为本专利技术方法的一个实现流程。下面结合附图来具体说明本专利技术实现步骤。
[0019]步骤1:搭建本专利技术方法运行所需的分布式计算和存储环境。
[0020]本专利技术实施例中,使用三台实体机分别作为计算节点node1、node2、node3,以大数据软件系统运行框架Hadoop作为底层存储架构、YARN作为资源调试管理,搭建分布式存储系统ES以及Accumulo,利用zookeeper进行节点管理;使用一台实体机作为数据源MySQL,即
结构化数据库,存储结构化数据,机器名为compass。
[0021]步骤2:在机器compass上布置海量结构化数据存储模块,海量结构化数据存储模块将获取的海量数据按照预先定义的元数据结构存入结构化数据库。结构化数据库进行了分区设置,海量数据将被分为不同区。结构化数据库的每个分区对应一个计算节点,分区数至少等于分布式计算节点的数量。预先设置的元数据结构中包含有标识用户身份的字段、用户发布内容的字段、发布时间的字段以及用户所在地理位置的字段等。
[0022]本专利技术实施例采用如图2所示的结构化数据的表结构,并产生的数据填入表结构相关数据存放到compass服务器的MySQL元数据系统中。如图2所示的元数据结构包含的字段有:用户身份id,用户发布的内容content,用户发布内容的时间publish_time,用户的账号名称account_name和账号account_id,用户所在地址address,用户所在地址的经度longti和纬度lati等。
[0023]步骤3:在分布式计算节点上设本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向海量结构化数据的知识图谱并行构建方法,其特征在于,该构建方法包括如下步骤:步骤1)在结构化数据库所在的设备上设置海量结构化数据存储模块;所述海量结构化数据存储模块将获取的海量数据按照预先设定的元数据结构存入结构化数据库;所述结构化数据库进行分区设置,分区数至少为分布式计算节点的数量;步骤2)在分布式计算节点上设置并行分区读取模块、抽取元数据的实体与关系模块以及数据同步写入模块;各计算节点并行对结构化数据处理;各计算节点的并行分区读取模块从对应的结构化数据库分区中读取结构化数据,并以分布式弹性数据集RDD存储,结构化数据被存入不同分区;抽取元数据的实体与关系模块对各RDD分区存储的结构化数据抽取元数据的字段及字段值,生成实体及关系;预先设置数据同步写入模块的写阈值,当对当前RDD分区生成的实体和关系的数量达到写阈值时,触发数据同步写入模块,否则等待对当前RDD分区抽取实体及关系完成后,判断生成的实体和关系的数量是否大于0,若是,触发数据同步写入模块,否则,不触发数据同步写入模块;数据同步写入模块将抽取的实体与关系同步写入分布式存储系统;步骤3)所述抽取元数据的实体与关系模块建立对象组和关系组,将已经构建好的知识图谱模型中的实体和关系的属性与元数据字段进行映射,然后根据映射关系及元数据字段值,抽取每一元数据的实体与关系集合,对实体及关系的属性赋值并添加到对应的数据血缘关系中;步骤4)读取分布式存储系统中的实体与关系数据,构建知识图谱。2.根据权利要求1所述的一种面向海量结构化数据的知识图谱并行构建方法,其特征在于,所述的步骤1中,预先设定的元数据结构包含的字段有:用户身份id,用户发布的内容content,用户发布内容的时间publish_time,用户的账号名称account_name,用户的账号account_id,用户所在地址address,用户所在地址的经度longti和纬度lati。3.根据权利要求1所述的一种面向海量结构化数据的知识图谱并行构建方法,其特征在于,所述的步骤2中,抽取元数...

【专利技术属性】
技术研发人员:冯加军
申请(专利权)人:北京赛思信安技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1