本申请公开了一种数据转储方法、数据转储装置以及存储介质,该数据转储方法包括:获取待处理数据;在所述待处理数据为非结构化数据的情况下,获取所述待处理数据的样例数据和元数据;根据所述元数据和所述样例数据,得到所述元数据和所述样例数据的映射关系;根据所述映射关系,获取目标数据表;基于所述映射关系和所述目标数据表,对所述待处理数据进行数据转储。通过上述方式,本申请能够使得非结构化的数据在进行数据转储时,可以识别该非结构化的数据的数据属性。的数据的数据属性。的数据的数据属性。
【技术实现步骤摘要】
数据转储方法、装置以及存储介质
[0001]本申请涉及数据处理
,特别是涉及一种数据转储方法、装置以及存储介质。
技术介绍
[0002]随着计算机应用技术的不断发展,智能数据存储及处理技术在人们日常工作和生活中的应用场景不断增加,数据库技术给人们的工作以及各种复杂的管理事务提供了方便,而在实际的工作及生产使用过程中,数据存在很多种格式,按照数据结构特征,数据可以分为结构化数据和非结构化数据两种类型。每种类型的数据都与客户体验有着不一样的交互方式,所以对那些影响客户感知甚至影响客户决策的数据进行有效管理和存储是一个不可或缺的步骤。
[0003]目前,由于结构化数据的结构规则且完整,系统可以通过查询结构化数据表结构直接生成元数据,完成数据转出工作。而对于非结构化数据在进行数据转储时,则无法识别该非结构化数据对应的数据属性,需要人工手动输入,导致转储效率不高。
技术实现思路
[0004]本申请主要解决的技术问题是提供一种数据转储方法、数据转储装置以及存储介质,使得非结构化数据在进行数据转储时,可以识别非结构化数据的数据属性,完成数据映射。
[0005]为解决上述技术问题,本申请采用的一个技术方案是:提供一种数据转储方法,所述方法包括:
[0006]获取待处理数据;
[0007]在所述待处理数据为非结构化数据的情况下,获取所述待处理数据的样例数据和元数据;
[0008]根据所述元数据和所述样例数据,得到所述元数据和所述样例数据的映射关系;
[0009]根据所述映射关系,获取目标数据表;
[0010]基于所述映射关系和所述目标数据表,对所述待处理数据进行数据转储。
[0011]所述结构化数据对应的目标数据表,对所述待处理数据进行数据转储。
[0012]为解决上述技术问题,本申请采用的另一个技术方案是:提供一种数据转储装置,该数据转储装置包括存储器和处理器,存储器用于存储程序数据,处理器用于执行程序数据以实现如上述的数据转储方法。
[0013]为解决上述技术问题,本申请采用的另一个技术方案是:提供一种计算机可读存储介质,该计算机可读存储介质存储有程序数据,程序数据在被处理器执行时,用于实现如上述的数据转储方法。
[0014]本申请的有益效果是:区别于现有技术的情况,本申请是先通过获取待处理数据,当所述待处理数据为非结构化数据时,获取所述待处理数据的样例数据和元数据,然后基
于获取到的所述元数据和所述样例数据,生成所述元数据和所述样例数据的映射关系,再根据所述映射关系,获取目标数据表,最后基于所述映射关系和所述目标数据表,对所述待处理数据进行数据转储。
[0015]也就是说,本申请通过获取非结构化数据的样例数据和元数据,进而生成元数据和样例数据的映射关系,解决了现有技术因系统无法识别该非结构化数据中元数据的数据属性,导致所有非结构化数据的数据属性都需要手动输入的问题,极大地提高了工作效率。
附图说明
[0016]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。其中:
[0017]图1是本申请提供的数据转储方法一实施例的流程示意图;
[0018]图2是本申请提供的数据转储方法一可选实施例中图1步骤S12的流程示意图;
[0019]图3是本申请提供的数据转储方法一可选实施例中图1中步骤S13的流程示意图;
[0020]图4是本申请提供的数据转储方法一可选实施例中图1中步骤S14的流程示意图;
[0021]图5是本申请提供的数据转储方法一可选实施例中图1中步骤S15的流程示意图;
[0022]图6为本申请提供的数据转储方法的完整流程示意图;
[0023]图7是本申请提供的数据转储装置的结构简图;
[0024]图8是本申请提供的数据转储装置一实施例的结构示意图;
[0025]图9是本申请提供的计算机可读存储介质一实施例的结构示意图。
具体实施方式
[0026]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0027]下面针对本专利技术涉及的专业术语和技术缩略语进行解释。
[0028]Kafka:是一种分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据。
[0029]FTP:文件传输协议。
[0030]DorisDB:一款经过业界检验、现代化,面向多种数据分析场景的、兼容MySQL协议的、高性能分布式关系型列式数据库。
[0031]一般来说,DorisDB包括前端节点(FrontEnd DorisDB,FE)、后端节点(BackEnd DorisDB,BE)、Tablet和Broker。其中,FE负责管理元数据、管理客户端的连接、进行查询规划和调度等工作;BE负责数据存储、计算执行、副本管理等;Tablet是一张表实际的物理存储单元,一张表按照分区和分桶后在BE构成分布式存储层中以Tablet为单位进行存储,每个Tablet包括元数据;Broker是DorisDB中和外部数据对接的中转服务,辅助提供导入导出功能。
[0032]非Hive数据:非结构化数据,例如文本结构的数据。
[0033]Hive数据:结构化数据。
[0034]这里对结构化数据(Hive数据)和非结构化数据(非Hive数据)之间的异同点说明一下:
[0035]结构化数据是关系数据库中的定量数据,通常是由预定义格式的文本和数字组成,常见的结构化数据有:日期、电话号码、邮政编码、客户姓名、产品库存、销售点交易信息等等。结构化数据在数据库中以一种高度规则的形式存在,非常便于理解和解读。
[0036]而非结构化数据是指无法通过现有工具和方法处理的数据集。由于不能在关系数据库中进行组织,它通常被归类为定性数据。非结构化数据由非关系数据库或NoSQL数据库管理和存储。
[0037]具体地,非结构化数据是由数据结构不规则或不完整的数据组成,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。
[0038]结构化和非结构化数据之间最明显的区别在于管理的数据类型。结构化数据包含可以量化和分析的确定数据。每条信息都按行和列放置,以映射到预定类别。相反,非结构化数据是以原始格式收集和分析的。
[0039]由于结构化数据相对更容易处理,这使得机器学习算法的集成更易于管理。相反,分析非结构化数据更加复杂。数据管理人员在分析收集到的数据之前需要大量的人工处理工作本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种数据转储方法,其特征在于,所述方法包括:获取待处理数据;在所述待处理数据为非结构化数据的情况下,获取所述待处理数据的样例数据和元数据;根据所述元数据和所述样例数据,得到所述元数据和所述样例数据的映射关系;根据所述映射关系,获取目标数据表;基于所述映射关系和所述目标数据表,对所述待处理数据进行数据转储。2.根据权利要求1所述的数据转储方法,其特征在于,所述获取所述待处理数据的样例数据和元数据,包括:获取所述待处理数据的样例数据;根据预设数据结构解析所述待处理数据的样例数据;根据解析后的样例数据,得到对应所述待处理数据的元数据。3.根据权利要求2所述的数据转储方法,其特征在于,所述根据预设数据结构解析所述待处理数据的样例数据,具体包括:根据所述预设数据结构解析所述样例数据的数据属性字段;所述根据解析后的所述样例数据,得到对应所述待处理数据的元数据,包括:基于所述数据属性字段,生成所述元数据;其中,所述元数据包括:属性字段描述、属性字段名称和属性字段类型。4.根据权利要求3所述的数据转储方法,其特征在于,所述根据所述元数据和所述样例数据,得到所述元数据和所述样例数据的映射关系,具体包括:根据所述样例数据中的数据属性字段,匹配所述元数据对应的属性字段,得到匹配结果;对所述匹配结果进行确认,输出所述元数据和样例数据的映射关系。5.根据权利要求4所述的数据转储方法,其特征在于,所述对所述匹配结果进行确认,具体包括:判断所述元数据的属性字段是否重复;确认所述目标数据表的属性主键字段和分区字段。6.根据权利要求3
‑
5任一项所述的数据转储方法,其特征在于,所述根据所述映射关系,获取目标数据表,具体包括:根据预设建...
【专利技术属性】
技术研发人员:宋瑞鹏,吴鹏,罗展松,
申请(专利权)人:马上消费金融股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。