数据获取方法和装置、计算机存储介质、电子设备制造方法及图纸

技术编号:34818898 阅读:19 留言:0更新日期:2022-09-03 20:29
本公开是关于一种数据获取方法和装置、计算机存储介质、电子设备,涉及计算机技术领域。该方法包括:访问分布式文件存储系统,获取所述分布式文件存储系统中的图元数据,对所述图元数据进行反序列化,得到目标数据;获取所述分布式文件存储系统中的业务数据文件,对所述业务数据文件进行解析,得到目标业务数据;对所述目标业务数据与所述目标数据进行匹配,生成匹配结果集。本公开简化了图数据库中数据获取流程,提高了业务数据获取的效率。提高了业务数据获取的效率。提高了业务数据获取的效率。

【技术实现步骤摘要】
数据获取方法和装置、计算机存储介质、电子设备


[0001]本公开实施例涉及计算机
,具体而言,涉及一种数据获取方法、数据获取装置、计算机可读存储介质以及电子设备。

技术介绍

[0002]JanusGraph是一种开源的图数据库,具有良好的扩展性。支持Hbase、cassandra等多种存储介质存储数据,当其采用Hbase存储数据,获取JanusGraph图数据库中的数据时,相关技术中可以通过两种方式来离线加载数据。
[0003]方式一,通过调用Hbase客户端应用程序接口,将数据获取请求发送至Hbase集群运行在每个工作节点上的服务,通过Hbase集群运行在每个工作节点上的服务来获取数据;方式二,通过读取Hbase的Hfile文件,对Hfile文件进行反序列化来获取数据。
[0004]但是,方式一会导致JanusGraph图数据库的在线读写服务的性能下降;方式二相比方式一,可以避免对Hbase集群运行在每个工作节点上的服务产生较大的压力,但是,上述两种方式都依赖JanusGraph API接口获取图元信息,通过图元信息解析实体关系,会频繁跨网络请求图元数据,导致数据获取效率低。
[0005]因此,需要提供一种新的数据获取方法。
[0006]需要说明的是,在上述
技术介绍
部分专利技术的信息仅用于加强对本专利技术的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

[0007]本专利技术的目的在于提供一种数据获取方法、数据获取装置、计算机可读存储介质以及电子设备,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的数据获取效率低的问题。
[0008]根据本公开的一个方面,提供一种数据获取方法,包括:
[0009]访问分布式文件存储系统,获取所述分布式文件存储系统中的图元数据,对所述图元数据进行反序列化,得到目标数据;
[0010]获取所述分布式文件存储系统中的业务数据文件,对所述业务数据文件进行解析,得到目标业务数据;
[0011]对所述目标业务数据与所述目标数据进行匹配,生成匹配结果集。
[0012]在本公开的一种示例性实施例中,访问分布式文件存储系统,获取所述分布式文件存储系统中的图元数据,包括:
[0013]通过图数据库的应用程序编程接口,访问所述分布式文件存储系统,获取所述分布式文件存储系统中存储的序列化的图元数据。
[0014]在本公开的一种示例性实施例中,对所述图元数据进行反序列化,得到目标数据,包括:
[0015]确定自定义图元数据解析类,对所述图元数据解析类进行初始化;
[0016]通过所述初始化的图元数据解析类对所述序列化的图元数据进行反序列化,得到目标数据;其中,所述目标数据包括自定义实体类型、自定义关系类型、自定义属性类型、保留属性以及保留关系。
[0017]在本公开的一种示例性实施例中,在得到目标数据之后,所述数据获取方法还包括:
[0018]将所述目标数据存储至基于内存的计算引擎中。
[0019]在本公开的一种示例性实施例中,获取所述分布式文件存储系统中的业务数据文件,对所述业务数据文件进行解析,得到目标业务数据,包括:
[0020]确定与所述图数据库对应的后端数据存储介质;
[0021]在所述分布式存储系统中获取所述数据存储介质存储的第一文件,生成所述第一文件的快照;
[0022]通过所述数据存储介质的快照解析类,对所述第一文件的快照进行读取,得到所述第一文件中序列化的业务数据文件;
[0023]对所述序列化的业务数据文件进行解析,得到所述目标业务数据。
[0024]在本公开的一种示例性实施例中,对所述序列化的业务数据文件进行解析,得到所述目标业务数据,包括:
[0025]对所述序列化的业务数据文件进行反序列化,得到反序列化业务数据文件;
[0026]对所述反序列化业务数据文件进行单行解析,得到所述目标业务数据。
[0027]在本公开的一种示例性实施例中,对所述目标业务数据与所述目标数据进行匹配,生成匹配结果集,包括:
[0028]从所述基于内存的计算引擎中获取所述目标数据;
[0029]对所述目标数据中包括的所述目标数据的唯一标识与所述目标业务数据进行匹配;
[0030]在匹配成功时,根据匹配成功的所述目标数据与所述目标业务数据,生成所述匹配结果集;
[0031]将所述匹配结果集存储至数据仓库中。
[0032]根据本公开的一个方面,提供一种数据获取装置,包括:
[0033]元数据获取模块,用于访问分布式文件存储系统,获取所述分布式文件存储系统中的图元数据,对所述图元数据进行反序列化,得到目标数据;
[0034]业务数据获取模块,用于获取所述分布式文件存储系统中的业务数据文件,对所述业务数据文件进行解析,得到目标业务数据;
[0035]数据匹配模块,用于对所述目标业务数据与所述目标数据进行匹配,生成匹配结果集。
[0036]根据本公开的一个方面,提供一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的数据获取方法。
[0037]根据本公开的一个方面,提供一种电子设备,包括:
[0038]处理器;以及
[0039]存储器,用于存储所述处理器的可执行指令;
[0040]其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的数
据获取方法。
[0041]本公开实施例提供的一种数据获取方法,访问分布式文件存储系统,获取所述分布式文件存储系统中的图元数据,对所述图元数据进行反序列化,得到目标数据;获取所述分布式文件存储系统中的业务数据文件,对所述业务数据文件进行解析,得到目标业务数据;对所述目标业务数据与所述目标数据进行匹配,生成匹配结果集;一方面,前置获取图元数据,对图元数据进行反序列化,得到目标数据,然后获取业务数据文件,解析得到目标业务数据,并对前置获取的目标数据与解析得到的目标业务数据进行匹配,得到匹配结果集,解决了相关技术中在目标业务数据的同时频繁跨网络请求图元数据的问题,提高了数据获取的效率;另一方面,简化了业务数据加载以及解析的流程,提高了在图数据库中获取大规模图数据的性能。
[0042]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本专利技术。
附图说明
[0043]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本专利技术的实施例,并与说明书一起用于解释本专利技术的原理。显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0044]图1示意性示出根据本公开示例实施例的一种相关技术中获取业务数据的方法流程图。
[0045]图2示意性示出根据本公开示例实施例的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据获取方法,其特征在于,包括:访问分布式文件存储系统,获取所述分布式文件存储系统中的图元数据,对所述图元数据进行反序列化,得到目标数据;获取所述分布式文件存储系统中的业务数据文件,对所述业务数据文件进行解析,得到目标业务数据;对所述目标业务数据与所述目标数据进行匹配,生成匹配结果集。2.根据权利要求1所述的数据获取方法,其特征在于,访问分布式文件存储系统,获取所述分布式文件存储系统中的图元数据,包括:通过图数据库的应用程序编程接口,访问所述分布式文件存储系统,获取所述分布式文件存储系统中存储的序列化的图元数据。3.根据权利要求2所述的数据获取方法,其特征在于,对所述图元数据进行反序列化,得到目标数据,包括:确定自定义图元数据解析类,对所述图元数据解析类进行初始化;通过所述初始化的图元数据解析类对所述序列化的图元数据进行反序列化,得到目标数据;其中,所述目标数据包括自定义实体类型、自定义关系类型、自定义属性类型、保留属性以及保留关系。4.根据权利要求3所述的数据获取方法,其特征在于,在得到目标数据之后,所述数据获取方法还包括:将所述目标数据存储至基于内存的计算引擎中。5.根据权利要求4所述的数据获取方法,其特征在于,获取所述分布式文件存储系统中的业务数据文件,对所述业务数据文件进行解析,得到目标业务数据,包括:确定与所述图数据库对应的后端数据存储介质;在所述分布式存储系统中获取所述数据存储介质存储的第一文件,生成所述第一文件的快照;通过所述数据存储介质的快照解析类,对所述第一文件的快照进行读取,得到所述第一文件中序列化的业务数据文件;对所述序列...

【专利技术属性】
技术研发人员:何免何保健刘敏
申请(专利权)人:同盾科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1