基于大数据的数据质量自动检测系统技术方案

技术编号:26762315 阅读:15 留言:0更新日期:2020-12-18 23:10
本发明专利技术涉及一种基于大数据的数据质量自动检测系统,包括第一数据库、处理器和存储有计算机程序的存储器,所述第一数据库用于存储用户数据,当所述计算机程序被处理器执行时,实现步骤S1、根据所述第一数据库的数据调用情况构建日志文件;步骤S2、实时采集所述日志文件,并从所述日志文件中解析出数据调用信息,数据调用信息包括用户id、数据调用时间和基于所述用户id和数据调用时间从所述第一数据库调取的第一用户属性信息;步骤S3、每间隔预设的时间基于所述第一用户属性信息获取至少一个预设的特征参数,基于所述至少一个特征参数以及预设的特征参数阈值判断调取数据是否异常。本发明专利技术能够快速、准确地检测出数据调用过程中的数据异常情况。

【技术实现步骤摘要】
基于大数据的数据质量自动检测系统
本专利技术涉及计算机
,尤其涉及一种基于大数据的数据质量自动检测系统。
技术介绍
随着大数据时代的到来,海量的数据存储在数据库中,根据数据调用指令,通过API接口可以调用数据库中的数据来使用,但是,在数据调用的过程中存在诸多不稳定的因素,例如调用程序出错等,会导致出现调用数据错位、调用数据字段错误等等异常情况,导致数据质量下降,如不及时检测出数据异常的情况,将影响所调用数据的后续处理,也可能会导致后续调用数据时持续出错,因此,如何对数据质量进行及时检测,成为亟待解决的技术问题。
技术实现思路
本专利技术目的在于,提供一种基于大数据的数据质量自动检测系统,能够快速、准确地检测出数据调用过程中的数据异常情况。根据本专利技术第一方面,提供了一种基于大数据的数据质量自动检测系统,包括第一数据库、处理器和存储有计算机程序的存储器,所述第一数据库用于存储用户数据,当所述计算机程序被处理器执行时,实现以下步骤:步骤S1、根据所述第一数据库的数据调用情况构建日志文件;步骤S2、实时采集所述日志文件,并从所述日志文件中解析出数据调用信息,所述数据调用信息包括用户id、数据调用时间和基于所述用户id和数据调用时间从所述第一数据库调取的第一用户属性信息;步骤S3、每间隔预设的时间基于所述第一用户属性信息获取至少一个预设的特征参数,基于所述至少一个特征参数以及预设的特征参数阈值判断调取数据是否异常。本专利技术与现有技术相比具有明显的优点和有益效果。借由上述技术方案,本专利技术提供的一种基于大数据的数据质量自动检测系统可达到相当的技术进步性及实用性,并具有产业上的广泛利用价值,其至少具有下列优点:本专利技术能够快速、准确地检测出数据调用过程中的数据异常情况,提升了用户体验。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。附图说明图1为本专利技术实施例提供的基于大数据的数据质量自动检测系统示意图。具体实施方式为更进一步阐述本专利技术为达成预定专利技术目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本专利技术提出的一种基于大数据的数据质量自动检测系统的具体实施方式及其功效,详细说明如后。本专利技术实施例提供了一种基于大数据的数据质量自动检测系统,如图1所示,包括第一数据库、处理器和存储有计算机程序的存储器,所述第一数据库用于存储海量的用户数据,当所述计算机程序被处理器执行时,实现以下步骤:步骤S1、根据所述第一数据库的数据调用情况构建日志文件;其中,可通过在第一数据库设置应用程序接口(ApplicationProgramInterface,简称API)调用第一数据库中的数据,每一条数据调用信息均被记录在日志文件中。步骤S2、实时采集所述日志文件,并从所述日志文件中解析出数据调用信息,所述数据调用信息包括用户id、数据调用时间和基于所述用户id和数据调用时间从所述第一数据库调取的第一用户属性信息;其中,所述第一用户属性信息即基于数据调取过程从第一数据库中实际获取到的用户id和数据调用时间对应的第一属性信息,这个第一属性信息有可能是正确的,也有可能是错误的。步骤S3、每间隔预设的时间基于所述第一用户属性信息获取至少一个预设的特征参数,基于所述至少一个特征参数以及预设的特征参数阈值判断调取数据是否异常。其中,步骤S3基于第一用户属性信息确定的特征参数以及预设的特征参数阈值来判断调取数据是否异常,若异常,则发送数据异常指令进行预警,以便及时解决数据异常问题。根据本专利技术,所述系统可以物理实现为一个服务器,也可以实现为包括多个服务器的服务器群组,本专利技术实施例能够快速、准确地检测出数据调用过程中的数据异常情况,提升了用户体验。作为一种示例,所述步骤S2包括:步骤S21、实时监测所述日志文件的偏移量,基于所述日志文件的偏移量采集所述日志文件中新增的日志信息,并从所述新增的日志信息中解析出数据调用信息。可以理解的是,每发生一条数据调用,日志文件则会新增对应的日志信息,而当有新增的日志信息写入时,会出现文件偏移,因此可通过文件偏移量来实时获取新增日志信息,保证了数据质量检测的实时性。且基于文件的偏移量,能够快速读取到新增日志信息的起始位置,避免重复获取历史日志数据进行计算,提高了数据质量检测的效率。作为一种示例,可以采用flume工具实时监测日志文件。需要说明的是,由于某些时间的数据访问量可能很大,而计算资源是有限的,如果将该时间内所获取的所有日志信息均发送处理,则可能会负载过重,降低数据质量检测效率,因此可以将从所述新增的日志信息中解析出数据调用信息先发送至消息队列中,消息队列根据计算资源提前配置好,从而提高数据质量检测效率。步骤S3中,特征参数阈值可以根据经验值来设定,为了进一步的提高质量检测的准确度,可以从历史数据中获取用户id、数据调用时间对应的真实的户属性信息来检测数据质量。但是由于第一数据库中的数据量巨大,且基于数据调用量也很大,若直接从第一数据库中检索用户id、数据调用时间对应的真实的户属性信息,称为第二用户属性信息,则计算量过大,会造成检测效率低,且易出错,检测准确度也低。为了提高基于用户id、数据调用时间获取对应的真实的户属性信息的效率和准确度,可以在所述系统设置第二数据库,所述第二数据库为离线数据库,提高数据查询的效率,从而提高主句指令检测的效率。第二数据库用于以拉链表的形式存储所述第一数据库中的历史用户数据。当所述计算机程序被处理器执行时,还实现以步骤S10、构建所述拉链表,具体包括:步骤S101、若所述第一数据库中新增一个用户属性信息,则在所述拉链表中新增一条记录,所述记录包括用户id、开始时间、结束时间和用户属性信息,所述开始时间设置为新增该用户属性信息的时间,结束时间设置为无穷大,表示用户的属性信息为当前状态下的属性信息,例如结束时间设置为9999年12月30日;步骤S102、当所述记录的用户属性信息发生变化时,则获取用户属性信息发生变化的变更时间点,将该条记录的结束时间更新为所述变更时间点,并新增一条记录,将新增记录的开始时间设置为所述变更时间点,结束时间设为无限大,用户属性信息设置为变化后的用户属性信息;步骤S103、将所述第一数据库中的每个用户属性信息依步骤S101-步骤S102执行,构建所述拉链表。作为一种示例,所述步骤S3之前还包括步骤S30、通过所述数据调用信息中的用户id和数据调用时间检索所述拉链表,从所述拉链表中获取用户id和数据调用时间实际对应的第二用户属性信息,基于所述第二用户属性信息设置所述特征参数阈值。数据拉链表能够极大地减少数据存储量,且能回溯至每一时间点对应的数据信息,大大提高了获取第二属性信息的效率和准确度,通过所本文档来自技高网...

【技术保护点】
1.一种基于大数据的数据质量自动检测系统,其特征在于,包括第一数据库、处理器和存储有计算机程序的存储器,所述第一数据库用于存储用户数据,当所述计算机程序被处理器执行时,实现以下步骤:/n步骤S1、根据所述第一数据库的数据调用情况构建日志文件;/n步骤S2、实时采集所述日志文件,并从所述日志文件中解析出数据调用信息,所述数据调用信息包括用户id、数据调用时间和基于所述用户id和数据调用时间从所述第一数据库调取的第一用户属性信息;/n步骤S3、每间隔预设的时间基于所述第一用户属性信息获取至少一个预设的特征参数,基于所述至少一个特征参数以及预设的特征参数阈值判断调取数据是否异常。/n

【技术特征摘要】
1.一种基于大数据的数据质量自动检测系统,其特征在于,包括第一数据库、处理器和存储有计算机程序的存储器,所述第一数据库用于存储用户数据,当所述计算机程序被处理器执行时,实现以下步骤:
步骤S1、根据所述第一数据库的数据调用情况构建日志文件;
步骤S2、实时采集所述日志文件,并从所述日志文件中解析出数据调用信息,所述数据调用信息包括用户id、数据调用时间和基于所述用户id和数据调用时间从所述第一数据库调取的第一用户属性信息;
步骤S3、每间隔预设的时间基于所述第一用户属性信息获取至少一个预设的特征参数,基于所述至少一个特征参数以及预设的特征参数阈值判断调取数据是否异常。


2.根据权利要求1所述的系统,其特征在于,所述步骤S2包括:
步骤S21、实时监测所述日志文件的偏移量,基于所述日志文件的偏移量采集所述日志文件中新增的日志信息,并从所述新增的日志信息中解析出数据调用信息。


3.根据权利要求1所述的系统,其特征在于,所述步骤S2包括:
所述系统还包括第二数据库,所述第二数据库为离线数据库,用于以拉链表的形式存储所述第一数据库中的历史用户数据。


4.根据权利要求3所述的系统,其特征在于,所述步骤S2包括:
当所述计算机程序被处理器执行时,还实现以步骤S10、构建所述拉链表,具体包括:
步骤S101、若所述第一数据库中新增一个用户属性信息,则在所述拉链表中新增一条记录,所述记录包括用户id、开始时间、结束时间和用户属性信息,所述开始时间设置为新增该用户属性信息的时间,结束时间设置为无穷大;
步骤S102、当所述记录的用户属性信息发生变化时,则获取用...

【专利技术属性】
技术研发人员:祝文东朱金星张静雅
申请(专利权)人:北京云真信科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1