一种面向海量结构化数据的知识图谱并行构建方法技术

技术编号：38135906 阅读：41 留言：0更新日期：2023-07-08 09:47

本发明专利技术公开了一种面向海量结构化数据的知识图谱并行构建方法，属于计算机技术领域。本发明专利技术方法包括：将海量数据按照设定的元数据结构存入结构化数据库并进行分区；计算节点读取对应的结构化数据库分区中数据，存入不同RDD分区，设置数据同步写入阈值，各RDD分区抽取元数据的字段及字段值，生成实体及关系，当对当前RDD分区生成的实体和关系的数量达到写阈值时，触发数据同步写入；各计算节点并行对结构化数据抽取的实体与关系数据写入分布式存储系统，从该系统中获取数据构建知识图谱。本发明专利技术能够并行抽取海量结构化数据生成实体与关系，同时优化了写入的方式，实现了快速高效的知识图谱构建从而进行数据分析挖掘以及检索。检索。检索。

全部详细技术资料下载

【技术实现步骤摘要】
一种面向海量结构化数据的知识图谱并行构建方法

[0001]本专利技术属于计算机
，具体涉及一种面向海量结构化数据的知识图谱并行构建方法。

技术介绍

[0002]目前，知识图谱构建的关键技术是先对不同领域的数据定义出实体与关系的模型，再通过人工智能模型进行实体与关系的抽取，然后将关键数据进行组织，从而挖掘出数据之间的重要信息进行分析与检索。知识图谱构建的实体抽取方法是人工标注和使用基于规则的NER(命名实体识别)方法，关系抽取则使用基于字符抽取以及监督学习算法。这些典型的抽取方法适用于文本非结构化数据在单台机服务器上进行，当文件大小以及文件量增大时，抽取的效率也随之降低。随着数据的爆炸式增长，数据结构也展现出不同的多样性，尤其是针对海量的结构化数据而言，普通的知识图谱实体关系抽取算法已无法满足要求，必须提供一种全新的又快又高效的构建方法。

技术实现思路

[0003]针对目前文本非结构数据的知识图谱实体与关系抽取模型技术已无法满足海量结构化数据，需要一种在大数据量的情况下既快又高效的构建方法，本专利技术提供了一种面向海量结构化数据的知识图谱并行构建方法。
[0004]本专利技术的一种面向海量结构化数据的知识图谱并行构建方法，包括如下步骤：
[0005](1)在结构化数据库所在的设备上设置海量结构化数据存储模块；所述海量结构化数据存储模块将获取的海量数据按照预先设定的元数据结构存入结构化数据库；所述结构化数据库进行分区设置，分区数等于分布式计算节点的数量；
[0006](2)在...

【技术保护点】

【技术特征摘要】
1.一种面向海量结构化数据的知识图谱并行构建方法，其特征在于，该构建方法包括如下步骤：步骤1)在结构化数据库所在的设备上设置海量结构化数据存储模块；所述海量结构化数据存储模块将获取的海量数据按照预先设定的元数据结构存入结构化数据库；所述结构化数据库进行分区设置，分区数至少为分布式计算节点的数量；步骤2)在分布式计算节点上设置并行分区读取模块、抽取元数据的实体与关系模块以及数据同步写入模块；各计算节点并行对结构化数据处理；各计算节点的并行分区读取模块从对应的结构化数据库分区中读取结构化数据，并以分布式弹性数据集RDD存储，结构化数据被存入不同分区；抽取元数据的实体与关系模块对各RDD分区存储的结构化数据抽取元数据的字段及字段值，生成实体及关系；预先设置数据同步写入模块的写阈值，当对当前RDD分区生成的实体和关系的数量达到写阈值时，触发数据同步写入模块，否则等待对当前RDD分区抽取实体及关系完成后，判断生成的实体和关系的数量是否大于0，若是，触发数据同步写入模块，否则，不触发数据同步写入模块；数据同步写入模块将抽取的实体与关系同步写入分布式存储系统；步骤3)所述抽取元数据的实体与关系模块建立对象组和关系组，将已经构建好的知识图谱模型中的实体和关系的属性与元数据字段进行映射，然后根据映射关系及元数据字段值，抽取每一元数据的实体与关系集合，对实体及关系的属性赋值并添加到对应的数据血缘关系中；步骤4)读取分布式存储系统中的实体与关系数据，构建知识图谱。2.根据权利要求1所述的一种面向海量结构化数据的知识图谱并行构建方法，其特征在于，所述的步骤1中，预先设定的元数据结构包含的字段有：用户身份id，用户发布的内容content，用户发布内容的时间publish_time，用户的账号名称account_name，用户的账号account_id，用户所在地址address，用户所在地址的经度longti和纬度lati。3.根据权利要求1所述的一种面向海量结构化数据的知识图谱并行构建方法，其特征在于，所述的步骤2中，抽取元数...

【专利技术属性】
技术研发人员：冯加军，
申请(专利权)人：北京赛思信安技术股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人