一种数据抽取方法、装置、设备和介质制造方法及图纸

技术编号:31623751 阅读:15 留言:0更新日期:2021-12-29 19:00
本发明专利技术实施例公开了一种数据抽取方法、装置、设备和介质,其中,方法包括:按照预设时间周期从目标数据源中读取业务数据,并建立业务数据表;在所述业务数据表中建立数据处理触发器,并通过所述数据处理触发器将所述业务数据表中有更新的数据写入临时数据表;根据所述临时数据表中数据增量字段的值,在所述临时数据表中抽取数据作为目标处理数据。解决了现有技术中在多源异构的数据中进行数据特征提取时,速度较慢,导致数据处理效率较低的问题,实现提高电网数据特征抽取的效率,更加有效的利用已有信息化系统的数据,实现了多源异构数据处理流程的优化。理流程的优化。理流程的优化。

【技术实现步骤摘要】
一种数据抽取方法、装置、设备和介质


[0001]本专利技术实施例涉及大数据处理
,尤其涉及一种数据抽取方法、装置、设备和介质。

技术介绍

[0002]随着电网管理信息化的发展,各供电企业从业务上不同的专业维度建设了各类信息系统,随着时间的推移、信息化建设的深入,供电企业自身从各个专业方面积累了大量的专题数据。但是,这些数据没有统一的标准、系统实现方式和数据存储方式各异,分散的数据在电网企业管理层形成不了决策数据支撑,不能在更高层次提升企业的效率、效益。特别是在多源异构的数据中进行数据特征提取时,速度较慢,导致数据处理效率较低。

技术实现思路

[0003]本专利技术实施例提供了一种数据抽取方法、装置、设备和介质,以实现提高电网数据特征抽取的效率,更加有效的利用已有信息化系统的数据,实现了多源异构数据处理流程的优化。
[0004]第一方面,本专利技术实施例提供了一种数据抽取方法,该方法包括:
[0005]按照预设时间周期从目标数据源中读取业务数据,并建立业务数据表;
[0006]在所述业务数据表中建立数据处理触发器,并通过所述数据处理触发器将所述业务数据表中有更新的数据同步更新到临时数据表;
[0007]根据所述临时数据表中数据增量字段的值,在所述临时数据表中抽取数据作为目标处理数据。
[0008]可选的,所述根据所述临时数据表中数据增量字段的值,在所述临时数据表中抽取数据作为目标处理数据,包括:
[0009]识别所述数据增量字段中的数值,并与前次抽取数据时的数据增量字段中的数值进行比较;
[0010]根据比较结果抽取对应的业务数据作为目标处理数据。
[0011]可选的,所述数据处理触发器包括数据插入触发器、数据修改触发器和数据删除触发器。
[0012]可选的,在抽取目标处理数据之后,所述方法还包括:
[0013]将所述目标处理数据进行数据切分,并将切分后的数据输入到预设map进程中,得到输出键值对;
[0014]将所述输出键值对作为预设reduce进程的输入,得到所述目标数据的初步处理结果;
[0015]将所述初步处理结果写入到Hadoop分布式文件系统中对应的数据块中进行数据存储。
[0016]可选的,在所述将所述输出键值对作为预设reduce进行的输入,得到所述目标数
据的初步处理结果的过程中,包括:
[0017]为所述初步处理结果建立数据索引,并基于最近最少使用算法保存所述数据索引数据。
[0018]可选的,所述目标数据源包括结构化数据源和非结构化数据源。
[0019]可选的,所述预设reduce进程的数量为32。
[0020]第二方面,本专利技术实施例还提供了一种数据抽取装置,该装置包括:
[0021]数据表建立模块,用于按照预设时间周期从目标数据源中读取业务数据,并建立业务数据表;
[0022]临时表数据写入模块,用于在所述业务数据表中建立数据处理触发器,并通过所述数据处理触发器将所述业务数据表中有更新的数据同步更新到临时数据表;
[0023]数据抽取模块,用于根据所述临时数据表中数据增量字段的值,在所述临时数据表中抽取数据作为目标处理数据。
[0024]可选的,所述数据抽取模块具体用于:
[0025]识别所述数据增量字段中的数值,并与前次抽取数据时的数据增量字段中的数值进行比较;
[0026]根据比较结果抽取对应的业务数据作为目标处理数据。
[0027]可选的,所述数据处理触发器包括数据插入触发器、数据修改触发器和数据删除触发器。
[0028]可选的,所述数据抽取装置还包括数据存储模块,用于在抽取目标处理数据之后,将所述目标处理数据进行数据切分,并将切分后的数据输入到预设map进程中,得到输出键值对;
[0029]将所述输出键值对作为预设reduce进程的输入,得到所述目标数据的初步处理结果;
[0030]将所述初步处理结果写入到Hadoop分布式文件系统中对应的数据块中进行数据存储。
[0031]可选的,数据存储模块还可用于:
[0032]为所述初步处理结果建立数据索引,并基于最近最少使用算法保存所述数据索引数据。
[0033]可选的,所述目标数据源包括结构化数据源和非结构化数据源。
[0034]可选的,所述预设reduce进程的数量为32。
[0035]第三方面,本专利技术实施例还提供了一种计算机设备,所述计算机设备包括:
[0036]一个或多个处理器;
[0037]存储器,用于存储一个或多个程序;
[0038]当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本专利技术任意实施例所提供的一种数据抽取方法。
[0039]第四方面,本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本专利技术任意实施例所提供的一种数据抽取方法。
[0040]上述专利技术中的实施例具有如下优点或有益效果:
[0041]本专利技术实施例,通过以并行工作的方式,按照预设时间周期从多个目标数据源中
读取业务数据,并建立业务数据表;然后,在业务数据表中建立数据处理触发器,并通过所述数据处理触发器将业务数据表中有更新的数据写入临时数据表;根据临时数据表中数据增量字段的值,在所述临时数据表中抽取数据作为目标处理数据。本实施例的技术方案,解决了现有技术中在多源异构的数据中进行数据特征提取时,速度较慢,导致数据处理效率较低的问题,实现提高数据特征抽取的效率,更加有效的利用已有信息化系统的数据,实现了多源异构数据处理流程的优化。
附图说明
[0042]图1是本专利技术实施例一提供的一种数据抽取方法的流程图;
[0043]图2是本专利技术实施例二提供的一种数据抽取装置结构示意图;
[0044]图3是本专利技术实施例三提供的一种计算机设备的结构示意图。
具体实施方式
[0045]下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。
[0046]实施例一
[0047]图1为本专利技术实施例一提供的一种数据抽取方法的流程图,本实施例可适用于对多源异构数据进行数据管理的情况。该方法可以由数据抽取装置执行,该装置可以由软件和/或硬件的方式来实现,集成于具有应用开发功能的计算机设备中。
[0048]如图1所示,数据抽取方法包括以下步骤:
[0049]S110、按照预设时间周期从目标数据源中读取业务数据,并建立业务数据表。
[0050]在电网数据管理的场景下,目标数据源可以是任意一个的电网的业务方,如各个地方和各个级别的供电管理单位。各单位中进行供电业务数据管理时,业务数据的数据项不完全相同,存储数据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据抽取方法,其特征在于,所述方法包括:按照预设时间周期从目标数据源中读取业务数据,并建立业务数据表;在所述业务数据表中建立数据处理触发器,并通过所述数据处理触发器将所述业务数据表中有更新的数据同步更新到临时数据表;根据所述临时数据表中数据增量字段的值,在所述临时数据表中抽取数据作为目标处理数据。2.根据权利要求1所述的方法,其特征在于,所述根据所述临时数据表中数据增量字段的值,在所述临时数据表中抽取数据作为目标处理数据,包括:识别所述数据增量字段中的数值,并与前次抽取数据时的数据增量字段中的数值进行比较;根据比较结果抽取对应的业务数据作为目标处理数据。3.根据权利要求1所述的方法,其特征在于,所述数据处理触发器包括数据插入触发器、数据修改触发器和数据删除触发器。4.根据权利要求1

3中任一所述的方法,其特征在于,在抽取目标处理数据之后,所述方法还包括:将所述目标处理数据进行数据切分,并将切分后的数据输入到预设map进程中,得到输出键值对;将所述输出键值对作为预设reduce进程的输入,得到所述目标数据的初步处理结果;将所述初步处理结果写入到Hadoop分布式文件系统中对应的数据块中进行数据存储。5.根据权利要求4所述的方法,其特征在于,在所述将所述输出键值对作为预...

【专利技术属性】
技术研发人员:李铭钧张锦军谢国财阮国恒江嘉铭戴争干陈永波徐升刘小龙
申请(专利权)人:广东电网有限责任公司清远供电局广东电网能源投资有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1