一种集成数据比对方法技术

技术编号:30015718 阅读:20 留言:0更新日期:2021-09-11 06:23
本发明专利技术特别涉及一种集成数据比对方法。该集成数据比对方法,根据需要配置需要校验的数据表,通过程序将配置拼接为不同的SQL语言;然后在不同类型的数据库中执行SQL语言,并记录SQL语言执行结果,最终自动形成数据比较报告。该集成数据比对方法,能够发现数据集成后的数据差异并自动生成差异报告,从而提醒技术人员对部分异常数据进行处理或者补抽,提高了技术人员数据抽取质量,减少了技术人员的工作量,适宜推广应用。适宜推广应用。适宜推广应用。

【技术实现步骤摘要】
一种集成数据比对方法


[0001]本专利技术涉及数据集成与校验
,特别涉及一种集成数据比对方法。

技术介绍

[0002]大数据项目建设时,需要将企业内各个业务系统的数据集中到数据库仓库中。一般初次需要集成的数据库非常多,表也非常多,数据量巨大。而很多企业内在搭建数据仓库时,通常需要对多个业务系统的数据进行集成。有相当一部分集成工具,没有提供目标和源数据比较的功能。数据集成后,技术人员很难明确的知道已经集成的数据与源数据库的数据是否一致。
[0003]当前采用的传统的做法是随机抽查部分表的数据是否一致,不仅费时费力,而且工作效率极低,无法查找出所有的差异数据。
[0004]为了有效解决当前企业上线大数据项目或者数据集成项目,对企业内的多个业务数据进行集中抽取时,技术人员的工作量大,辅助技术人员无法把握数据抽取质量的问题,本专利技术提出了一种集成数据比对方法,快速的生成已经集成的数据与源数据库数据的比较报表,并提醒技术对部分异常数据进行处理或者补抽。

技术实现思路

[0005]本专利技术为了弥补现有技术的缺陷,提供了一种简单高效的集成数据比对方法。
[0006]本专利技术是通过如下技术方案实现的:
[0007]一种集成数据比对方法,其特征在于:根据需要配置需要校验的数据表,通过程序将配置拼接为不同的SQL(Structured Query Language,结构化查询语言)语言;然后在不同类型的数据库中执行SQL语言,并记录SQL语言执行结果,最终自动形成数据比较报告
[0008]该集成数据比对方法,包括以下步骤:
[0009]第一步,以excel文件为参数设置模板,设置需要检验的数据表以及与源数据库和目标数据库的连接;
[0010]第二步,解析数据库表名称,关键指标和需要校验的数据区间;
[0011]第三步,分别生成源校验SQL语言和目标校验SQL语言;
[0012]第四步,运行python脚本,按表循环调度,记录并比较源校验SQL语言执行结果和目标校验SQL语言执行结果;
[0013]第五步,将源校验SQL语言执行结果,目标校验SQL语言执行结果以及两者的比较结果均输出到excel文件保存备用。
[0014]所述第一步中,在excel模板中针对具体的业务表设置默认关键字段,并根据业务表设置单独的比较字段。
[0015]所述默认关键字段包括:
[0016]1)目标数据库和源数据的JABC连接方式和地址;
[0017]2)数据校验的表;
[0018]3)需要比对的字段名称;
[0019]4)校验数据的日期类型及日期区间,日期区间包括开始日期和结束日期;
[0020]5)数据分组类型。
[0021]所述日期类型包括月(MONTH),周(WEEK),日(DAY)和年(YEAR);
[0022]其中,月类型的格式为yyyymm(例如202001,表示2020年01月),周类型的格式为yyyymmw(例如2020022,表示2020年02月份第2周),日类型的格式为yyyymmdd(例如20200402,表示2020年04月02日),其中yyyy表示年份,mm表示月份,w表示某月第几周,dd表示某日;
[0023]年类型的格式只读取开始日期。
[0024]所述数据分组类型包括不分组(ALL)和按日期分组两种类型;
[0025]其中,按日期分组包括按月份组,按周分组和按日分组三种类型,不支持按年分组。
[0026]当校验数据的日期类型为月时,数据分组类型支持按月分组;当校验数据的日期类型为周时,数据分组类型支持按月分组和按周分组;当校验数据的日期类型为日时,数据分组类型支持按日分组和按月分组。
[0027]所述第三步中,利用python程序读取参数表,组织SQL语言;
[0028]SQL语言格式如下:select substr(DATE1,1,6)AS DATE1,'PI_COM_DAY'as tabid,SUM(QTY_SOLD)as tvalue from PI_COM_DAY where substr(DATE1,1,6)between'201601'and'201601'。
[0029]本专利技术的有益效果是:该集成数据比对方法,能够发现数据集成后的数据差异并自动生成差异报告,从而提醒技术人员对部分异常数据进行处理或者补抽,提高了技术人员数据抽取质量,减少了技术人员的工作量,适宜推广应用。
附图说明
[0030]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0031]附图1为本专利技术集成数据比对方法示意图。
具体实施方式
[0032]为了使本
的人员更好的理解本专利技术中的技术方案,下面将结合本专利技术实施例,对本专利技术实施例中的技术方案进行清楚,完整的描述。显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。
[0033]该集成数据比对方法,根据需要配置需要校验的数据表,通过程序将配置拼接为不同的SQL(Structured Query Language,结构化查询语言)语言;然后在不同类型的数据库中执行SQL语言,并记录SQL语言执行结果,最终自动形成数据比较报告。
[0034]该集成数据比对方法,包括以下步骤:
[0035]第一步,以excel文件为参数设置模板,设置需要检验的数据表以及与源数据库和目标数据库的连接;
[0036]第二步,解析数据库表名称,关键指标和需要校验的数据区间;
[0037]第三步,分别生成源校验SQL语言和目标校验SQL语言;
[0038]第四步,运行python脚本,按表循环调度,记录并比较源校验SQL语言执行结果和目标校验SQL语言执行结果;
[0039]第五步,将源校验SQL语言执行结果,目标校验SQL语言执行结果以及两者的比较结果均输出到excel文件保存备用。
[0040]所述第一步中,在excel模板中针对具体的业务表设置默认关键字段,并根据业务表设置单独的比较字段。
[0041]所述默认关键字段包括:
[0042]1)目标数据库和源数据的JABC(Java DataBase Connectivity,Java数据库连接)连接方式和地址;
[0043]2)数据校验的表;
[0044]3)需要比对的字段名称;
[0045]4)校验数据的日期类型及日期区间,日期区间包括开始日期和结束日期;
[0046]5)数据分组类型。
...

【技术保护点】

【技术特征摘要】
1.一种集成数据比对方法,其特征在于:根据需要配置需要校验的数据表,通过程序将配置拼接为不同的SQL语言;然后在不同类型的数据库中执行SQL语言,并记录SQL语言执行结果,最终自动形成数据比较报告。2.根据权利要求1所述的集成数据比对方法,其特征在于:包括以下步骤:第一步,以excel文件为参数设置模板,设置需要检验的数据表以及与源数据库和目标数据库的连接;第二步,解析数据库表名称,关键指标和需要校验的数据区间;第三步,分别生成源校验SQL语言和目标校验SQL语言;第四步,运行python脚本,按表循环调度,记录并比较源校验SQL语言执行结果和目标校验SQL语言执行结果;第五步,将源校验SQL语言执行结果,目标校验SQL语言执行结果以及两者的比较结果均输出到excel文件保存备用。3.根据权利要求2所述的集成数据比对方法,其特征在于:所述第一步中,在excel模板中针对具体的业务表设置默认关键字段,并根据业务表设置单独的比较字段。4.根据权利要求3所述的集成数据比对方法,其特征在于:所述默认关键字段包括:1)目标数据库和源数据的JABC连接方式和地址;2)数据校验的表;3)需要比对的字段名称;4)校验数据的日期类型及日期区间,日期区间包括开始日期和结束日期;5)数据分组类型。5.根据权利要求...

【专利技术属性】
技术研发人员:逯新孙涛
申请(专利权)人:浪潮软件股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1