一种面向大规模海量数据的知识图谱构建方法和系统技术方案

技术编号：32962930 阅读：34 留言：0更新日期：2022-04-09 10:56

本发明专利技术公开了一种面向大规模海量数据的知识图谱构建方法和系统，方法包括：S100、基于docker

全部详细技术资料下载

【技术实现步骤摘要】
一种面向大规模海量数据的知识图谱构建方法和系统

[0001]本专利技术涉及知识图谱构建
，具体涉及一种面向大规模海量数据的知识图谱构建方法和系统。

技术介绍

[0002]现实世界中，随着固网宽带、移动互联网、物联网等的快速发展，数据正呈爆炸式增长。根据希捷科技与International Data Corporation(IDC)共同发布的《数据时代2025》的数据发展趋势报告，未来数据增长速度惊人，2025年全球的数据量将达到163ZB。对于真实的应用场景比如金融领域，根据郑州人行的数据采集标准，单就反洗钱业务，四年的数据总规模就达到了TB级，每天的数据增长规模达到了GB级。针对真实应用场景中数据增长速度惊人的现况，本专利技术的领域知识图谱工具需要将海量的多源异构数据，通过知识提炼进行高层建模，即将多源异构数据库表的schema通过人工或者机器的方式映射到领域知识图谱中专家建立的本体，以图谱为中介实现异构数据语义融合，在此指导下完成海量数据的导入以及领域知识图谱的构建、自增长与自演化。海量的多源异构数据也给知识图谱的构建与检索带来了很大的挑战：
[0003](1)对于集群部署方面。从技术路线上来看，图数据库分为单机版图数据库和分布式图数据库。单机版图数据库比如Neo4j图数据库(社区版)由于方便易用、开源免费、技术成熟，市场应用广泛并且广受工业界青睐，常年在DB
‑
Engines的图数据库排名中占据榜首。但是单机版图数据库已经难以满足日益增长的数据需求，由于单机版图数据库不能建立集群...

【技术保护点】

【技术特征摘要】
1.一种面向大规模海量数据的知识图谱构建方法，其特征在于，包括：S100、基于docker
‑
compose和Apache Hadoop技术，采用Master
‑
Slave结构搭建各分布式集群，为图数据库提供分布式存储、索引和计算，各分布式集群包括分布式存储集群、分布式索引集群和分布式计算集群；S200、使用图数据库和文档型数据库对海量知识图谱数据进行联合存储与检索，实现海量知识图谱的构建。2.根据权利要求1所述的方法，其特征在于，分布式存储集群使用HBase组件，分布式索引集群使用ElasticSearch组件，分布式计算集群使用Spark组件，图数据库为基于Janusgraph开源分布式图数据库。3.根据权利要求2所述的方法，其特征在于，对于分布式计算集群，Janusgraph的gremlin srever、Spark Master、Yarn ResourceManager、HDFS NameNode部署在Master机器，相应的worker节点部署在Slave机器，分布式存储集群和分布式索引集群的部署方式与之相同。4.根据权利要求3所述的方法，其特征在于，S100包括：S101、基于docker
‑
compose.yml文件进行分布式集群的搭建，为图数据库提供分布式存储、索引和计算；S102、通过docker
‑
compose中的scale参数指定各分布式集群中worker容器节点的数量，将docker
‑
compose中的e参数作为环境变量参数指定yaml文件中的相关配置项，所述相关配置项包括容器网络子网IP、worker容器节点的IP、Spark Worker节点分配到的核、内存资源；S103、将用于部署各分布式集群的docker
‑
compose up命令嵌入在Linux Shell脚本中，通过Linux Shell脚本将docker
‑
compose命令的scale、e参数作为用户需要传递的参数，根据数据量、应用场景需求的不同实现容器网络定制化、IP定制化、资源分配定制化；S104、通过docker
‑
compose up和docker
‑
compose down命令对各分布式集群进行一键启动和停止。5.根据权利要求1
‑
4任一项所述的方法，其特征在于，S200包括：S201、对海量知识图谱数据的特征进行分析，对于一对头实体和尾实体之间相同类型的多条边，将其建模为一个边簇，在图数据库存储中将边簇的存储优化为一条边，并在该条边上建立簇ID的属性来标识该条边所属于的簇，将边簇中边的属性信息存储在文档型数据库中；S202、基于分析，在图数据库中存储海量知识图谱数据的基本网络结构，包括节点和边，在文档型数据库中存储海量知识图谱数据的节点和关系的属性信息，关系指图数据库中的边，节点的属性信息包括ID和类型，关系的属性信息包括簇ID和类型；S203、根据结构化数据/半结构化数据的数据库表与领域知识本体的映射结果，自动分配节点主键ID、关系主键ID，自动识别出需要在图数据库和文档型数据库中同时存储的数据信息，包括名称、节点类型、关系类型，以及自动划分数据进行分...

【专利技术属性】
技术研发人员：赵俊峰，王亚沙，徐涌鑫，杨恺，单中原，王子健，尹思菁，
申请(专利权)人：北京大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人