当前位置: 首页 > 专利查询>北京大学专利>正文

一种面向大规模海量数据的知识图谱构建方法和系统技术方案

技术编号:32962930 阅读:25 留言:0更新日期:2022-04-09 10:56
本发明专利技术公开了一种面向大规模海量数据的知识图谱构建方法和系统,方法包括:S100、基于docker

【技术实现步骤摘要】
一种面向大规模海量数据的知识图谱构建方法和系统


[0001]本专利技术涉及知识图谱构建
,具体涉及一种面向大规模海量数据的知识图谱构建方法和系统。

技术介绍

[0002]现实世界中,随着固网宽带、移动互联网、物联网等的快速发展,数据正呈爆炸式增长。根据希捷科技与International Data Corporation(IDC)共同发布的《数据时代2025》的数据发展趋势报告,未来数据增长速度惊人,2025年全球的数据量将达到163ZB。对于真实的应用场景比如金融领域,根据郑州人行的数据采集标准,单就反洗钱业务,四年的数据总规模就达到了TB级,每天的数据增长规模达到了GB级。针对真实应用场景中数据增长速度惊人的现况,本专利技术的领域知识图谱工具需要将海量的多源异构数据,通过知识提炼进行高层建模,即将多源异构数据库表的schema通过人工或者机器的方式映射到领域知识图谱中专家建立的本体,以图谱为中介实现异构数据语义融合,在此指导下完成海量数据的导入以及领域知识图谱的构建、自增长与自演化。海量的多源异构数据也给知识图谱的构建与检索带来了很大的挑战:
[0003](1)对于集群部署方面。从技术路线上来看,图数据库分为单机版图数据库和分布式图数据库。单机版图数据库比如Neo4j图数据库(社区版)由于方便易用、开源免费、技术成熟,市场应用广泛并且广受工业界青睐,常年在DB

Engines的图数据库排名中占据榜首。但是单机版图数据库已经难以满足日益增长的数据需求,由于单机版图数据库不能建立集群和进行分布式存储,想要提高性能和容量只能加大机器的硬盘、使用更高的内存和SSD,价格昂贵,成本较高。分布式图数据库比如Dgraph、Janusgraph等,可以通过横向扩展集群来应对海量增长的数据给单机系统带来的问题,降低了硬件设备的成本,但是需要在每台机器上手动安装存储和索引的组件,并且配置好网络连接,过程繁琐。
[0004](2)对于图谱构建方面。单机版图数据库比如Neo4j图数据库(社区版),通过语句进行逐条数据的导入太慢,实时性读写跟不上。官方提供的海量数据导入知识图谱工具步骤繁琐且多为手动方式导入,并且只能通过停机操作,对空数据库进行数据的一次性导入,所以不能实现将海量的增量数据导入到图数据库中实现领域知识图谱的自增长与自演化。官方提供的CSV导入工具虽然可以支持增量导入,但在数据量达到千万级别时导入效率大幅度下滑。分布式图数据库比如Janusgraph,是比较新的图数据库,官方不提供海量数据导入知识图谱的工具,并且几乎没有实现对Janusgraph图数据库实现批量导入的开源案例,依靠语句进行逐跳导入会使图谱的构建效率落后于数据更新增长的速度,使得领域知识图谱工具所能应用的场景受限。
[0005](3)对于图谱检索方面。单机版图数据库比如Neo4j图数据库(社区版)由于不能在关系上建立索引,所以多跳查询效率低下;分布式图数据库虽然能够在关系上建立索引,提升了多跳查询的效率,但是图数据库中的超级节点的存在会使得图谱的检索性能大幅度下降,图数据库中的超级节点指节点的度数(入度+出度)达到万级别以上的节点。并且在很多
应用场景中都会出现多个超级节点,比如金融领域知识图谱中,会存在某金融机构或单位客户与多个客户存在千万级别的交易边,形成“超级节点”。超级节点的存在会使遍历到超级节点的查询对该节点所有的邻接边进行遍历,使得图数据库将关系建模为数据,以多跳查询取代了多表联查操作避免多次JOIN数据库表操作的优势丧失。

技术实现思路

[0006]针对现有技术中存在的缺陷,本专利技术的目的在于提供一种面向大规模海量数据的知识图谱构建方法和系统,可以通过docker

compose技术实现集群的快速部署和可定制搭建,可以利用图数据库和文档型数据库各自在相关检索场景下的优势,大大提高海量数据背景下的知识图谱构建与检索效率。
[0007]为实现上述目的,本专利技术采用的技术方案如下:
[0008]一种面向大规模海量数据的知识图谱构建方法,包括:
[0009]S100、基于docker

compose和Apache Hadoop技术,采用Master

Slave结构搭建各分布式集群,为图数据库提供分布式存储、索引和计算,各分布式集群包括分布式存储集群、分布式索引集群和分布式计算集群;
[0010]S200、使用图数据库和文档型数据库对海量知识图谱数据进行联合存储与检索,实现海量知识图谱的构建。
[0011]进一步,如上所述的方法,分布式存储集群使用HBase组件,分布式索引集群使用ElasticSearch组件,分布式计算集群使用Spark组件,图数据库为基于Janusgraph开源分布式图数据库。
[0012]进一步,如上所述的方法,对于分布式计算集群,Janusgraph的gremlin srever、Spark Master、Yarn ResourceManager、HDFS NameNode部署在Master机器,相应的worker节点部署在Slave机器,分布式存储集群和分布式索引集群的部署方式与之相同。
[0013]进一步,如上所述的方法,S100包括:
[0014]S101、基于docker

compose.yml文件进行分布式集群的搭建,为图数据库提供分布式存储、索引和计算;
[0015]S102、通过docker

compose中的scale参数指定各分布式集群中worker容器节点的数量,将docker

compose中的e参数作为环境变量参数指定yaml文件中的相关配置项,所述相关配置项包括容器网络子网IP、worker容器节点的IP、Spark Worker节点分配到的核、内存资源;
[0016]S103、将用于部署各分布式集群的docker

compose up命令嵌入在Linux Shell脚本中,通过Linux Shell脚本将docker

compose命令的scale、e参数作为用户需要传递的参数,根据数据量、应用场景需求的不同实现容器网络定制化、IP定制化、资源分配定制化;
[0017]S104、通过docker

compose up和docker

compose down命令对各分布式集群进行一键启动和停止。
[0018]进一步,如上所述的方法,S200包括:
[0019]S201、对海量知识图谱数据的特征进行分析,对于一对头实体和尾实体之间相同类型的多条边,将其建模为一个边簇,在图数据库存储中将边簇的存储优化为一条边,并在该条边上建立簇ID的属性来标识该条边所属于的簇,将边簇中边的属性信息存储在文档型
数据库中;
[0020]S202、基于分析,在图数据库中存储海量知识图谱本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向大规模海量数据的知识图谱构建方法,其特征在于,包括:S100、基于docker

compose和Apache Hadoop技术,采用Master

Slave结构搭建各分布式集群,为图数据库提供分布式存储、索引和计算,各分布式集群包括分布式存储集群、分布式索引集群和分布式计算集群;S200、使用图数据库和文档型数据库对海量知识图谱数据进行联合存储与检索,实现海量知识图谱的构建。2.根据权利要求1所述的方法,其特征在于,分布式存储集群使用HBase组件,分布式索引集群使用ElasticSearch组件,分布式计算集群使用Spark组件,图数据库为基于Janusgraph开源分布式图数据库。3.根据权利要求2所述的方法,其特征在于,对于分布式计算集群,Janusgraph的gremlin srever、Spark Master、Yarn ResourceManager、HDFS NameNode部署在Master机器,相应的worker节点部署在Slave机器,分布式存储集群和分布式索引集群的部署方式与之相同。4.根据权利要求3所述的方法,其特征在于,S100包括:S101、基于docker

compose.yml文件进行分布式集群的搭建,为图数据库提供分布式存储、索引和计算;S102、通过docker

compose中的scale参数指定各分布式集群中worker容器节点的数量,将docker

compose中的e参数作为环境变量参数指定yaml文件中的相关配置项,所述相关配置项包括容器网络子网IP、worker容器节点的IP、Spark Worker节点分配到的核、内存资源;S103、将用于部署各分布式集群的docker

compose up命令嵌入在Linux Shell脚本中,通过Linux Shell脚本将docker

compose命令的scale、e参数作为用户需要传递的参数,根据数据量、应用场景需求的不同实现容器网络定制化、IP定制化、资源分配定制化;S104、通过docker

compose up和docker

compose down命令对各分布式集群进行一键启动和停止。5.根据权利要求1

4任一项所述的方法,其特征在于,S200包括:S201、对海量知识图谱数据的特征进行分析,对于一对头实体和尾实体之间相同类型的多条边,将其建模为一个边簇,在图数据库存储中将边簇的存储优化为一条边,并在该条边上建立簇ID的属性来标识该条边所属于的簇,将边簇中边的属性信息存储在文档型数据库中;S202、基于分析,在图数据库中存储海量知识图谱数据的基本网络结构,包括节点和边,在文档型数据库中存储海量知识图谱数据的节点和关系的属性信息,关系指图数据库中的边,节点的属性信息包括ID和类型,关系的属性信息包括簇ID和类型;S203、根据结构化数据/半结构化数据的数据库表与领域知识本体的映射结果,自动分配节点主键ID、关系主键ID,自动识别出需要在图数据库和文档型数据库中同时存储的数据信息,包括名称、节点类型、关系类型,以及自动划分数据进行分...

【专利技术属性】
技术研发人员:赵俊峰王亚沙徐涌鑫杨恺单中原王子健尹思菁
申请(专利权)人:北京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1