数据去重方法、装置、计算机设备和计算机可读存储介质制造方法及图纸

技术编号:27935270 阅读:13 留言:0更新日期:2021-04-02 14:15
本申请涉及一种数据去重方法、装置、计算机设备和计算机可读存储介质,其中,该数据去重方法包括:获取预处理后的日志数据,日志数据携带有去重标识;去重标识基于预设压缩规则以及预设时间戳提取规则对日志数据进行预处理得到;预设压缩规则至少包括哈希算法;解析日志数据,并提取日志数据对应的去重标识;判断去重标识是否存储在数据库中;若去重标识存储在数据库中,则基于去重标识清除获取到的日志数据,或者,基于去重标识清除所述数据库中的日志数据。通过本申请,解决了相关技术中去重效率低的问题。

【技术实现步骤摘要】
数据去重方法、装置、计算机设备和计算机可读存储介质
本申请涉及数据处理
,特别是涉及一种数据去重方法、装置、计算机设备和计算机可读存储介质。
技术介绍
在大数据分析领域,客户端通常将用户的一系列操作形成日志并上传至服务器,以便于服务器对上传的日志进行分析处理。日志的准确度是直接影响数据分析结果的主要因素之一。由于,日志上传过程中可能存在重复上传、错误上传等问题,这会导致服务器不能直接对接收到的日志进行数据分析处理。如果在数据分析处理前不对日志进行去重处理,会影响数据分析结果的准确性。在相关技术中,采用数据一一对比的方式来确定重复数据的数据,当数据长度较长时,会使得去重处理的时间周期过长,从而导致去重效率低的问题。目前针对相关技术中去重效率低的问题,尚未提出有效的解决方案。
技术实现思路
本申请实施例提供了一种数据去重方法、装置、计算机设备和计算机可读存储介质,以至少解决相关技术中去重效率低的问题。第一方面,本申请实施例提供了一种数据去重方法,包括:获取预处理后的日志数据,所述日志数据携带有去重标识;所述去重标识基于预设压缩规则以及预设时间戳提取规则对所述日志数据进行预处理得到;所述预设压缩规则至少包括哈希算法;解析所述日志数据,并提取所述日志数据对应的去重标识;判断所述去重标识是否存储在数据库中;若所述去重标识存储在所述数据库中,则基于所述去重标识清除获取到的日志数据,或者,基于所述去重标识清除所述数据库中的日志数据。在其中一些实施例中,在所述判断所述去重标识是否存储在数据库中之后,所述方法还包括:若所述去重标识未存储在所述数据库中,则将所述去重标识及其对应的日志数据存储至所述数据库中。在其中一些实施例中,在所述获取预处理后的日志数据之前,所述方法还包括:获取日志数据,并基于所述预设压缩规则获取所述日志数据对应的压缩参数;基于所述预设时间戳提取规则获取所述日志数据对应的时间戳;根据所述压缩参数和所述时间戳,生成所述日志数据对应的去重标识;将所述去重标识添加至所述日志数据中,得到预处理后的日志数据。在其中一些实施例中,所述基于所述预设压缩规则获取所述日志数据对应的压缩参数包括:基于所述哈希算法获取所述日志数据对应的哈希值,并将所述哈希值作为所述压缩参数。在其中一些实施例中,所述基于所述预设时间戳提取规则获取所述日志数据对应的时间戳包括:获取所述日志数据的数据格式,并基于所述数据格式确定目标数据解析规则;基于所述目标数据解析规则解析所述日志数据,并获取所述日志数据对应的时间戳。在其中一些实施例中,所述日志数据的数据格式为JSON数据格式,所述基于所述目标数据解析规则解析所述日志数据,并获取所述日志数据对应的时间戳包括:基于所述JSON数据格式对应的数据解析规则解析所述日志数据,并获取所述日志数据的键值对数据结构;从所述键值对数据结构中提取所述时间戳。在其中一些实施例中,所述将所述去重标识添加至所述日志数据中,得到预处理后的日志数据包括:将所述去重标识添加至所述日志数据的键值对数据结构中,得到预处理后的日志数据。第二方面,本申请实施例提供了一种数据去重装置,包括:日志获取模块,用于获取预处理后的日志数据,所述日志数据携带有去重标识;所述去重标识基于预设压缩规则以及预设时间戳提取规则对所述日志数据进行预处理得到;所述预设压缩规则至少包括哈希算法;标识提取模块,用于解析所述日志数据,并提取所述日志数据对应的去重标识;标识判断模块,用于判断所述去重标识是否存储在数据库中;日志清除模块,用于若所述去重标识存储在所述数据库中,则清除所述去重标识对应的日志数据。第三方面,本申请实施例提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的数据去重方法。第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的数据去重方法。相比于相关技术,本申请实施例提供的数据去重方法、装置、计算机设备和计算机可读存储介质,通过获取预处理后的日志数据,日志数据携带有去重标识;去重标识基于预设压缩规则以及预设时间戳提取规则对日志数据进行预处理得到;预设压缩规则至少包括哈希算法;解析日志数据,并提取日志数据对应的去重标识;判断去重标识是否存储在数据库中;若去重标识存储在数据库中,则清除基于去重标识清除获取到的日志数据,或者,基于去重标识清除数据库中的日志数据,解决了相关技术中去重效率低的问题。本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。附图说明此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1为本申请实施例的数据去重方法的流程图;图2为本申请实施例中对日志数据进行预处理的流程图;图3为本申请具体实施例的数据去重方法的流程图;图4为本申请实施例的数据去重装置的结构框图;图5为本申请实施例的数据去重系统的结构框图;图6为本申请实施例的数据去重设备的硬件结构示意图。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的
技术实现思路
的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属
内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的本文档来自技高网
...

【技术保护点】
1.一种数据去重方法,其特征在于,包括:/n获取预处理后的日志数据,所述日志数据携带有去重标识;所述去重标识基于预设压缩规则以及预设时间戳提取规则对所述日志数据进行预处理得到;所述预设压缩规则至少包括哈希算法;/n解析所述日志数据,并提取所述日志数据对应的去重标识;/n判断所述去重标识是否存储在数据库中;/n若所述去重标识存储在所述数据库中,则基于所述去重标识清除获取到的日志数据,或者,基于所述去重标识清除所述数据库中的日志数据。/n

【技术特征摘要】
1.一种数据去重方法,其特征在于,包括:
获取预处理后的日志数据,所述日志数据携带有去重标识;所述去重标识基于预设压缩规则以及预设时间戳提取规则对所述日志数据进行预处理得到;所述预设压缩规则至少包括哈希算法;
解析所述日志数据,并提取所述日志数据对应的去重标识;
判断所述去重标识是否存储在数据库中;
若所述去重标识存储在所述数据库中,则基于所述去重标识清除获取到的日志数据,或者,基于所述去重标识清除所述数据库中的日志数据。


2.根据权利要求1所述的方法,其特征在于,在所述判断所述去重标识是否存储在数据库中之后,所述方法还包括:
若所述去重标识未存储在所述数据库中,则将所述去重标识及其对应的日志数据存储至所述数据库中。


3.根据权利要求1所述的方法,其特征在于,在所述获取预处理后的日志数据之前,所述方法还包括:
获取日志数据,并基于所述预设压缩规则获取所述日志数据对应的压缩参数;
基于所述预设时间戳提取规则获取所述日志数据对应的时间戳;
根据所述压缩参数和所述时间戳,生成所述日志数据对应的去重标识;
将所述去重标识添加至所述日志数据中,得到预处理后的日志数据。


4.根据权利要求3所述的方法,其特征在于,所述基于所述预设压缩规则获取所述日志数据对应的压缩参数包括:
基于所述哈希算法获取所述日志数据对应的哈希值,并将所述哈希值作为所述压缩参数。


5.根据权利要求3所述的方法,其特征在于,所述基于所述预设时间戳提取规则获取所述日志数据对应的时间戳包括:
获取所述日志数据的数据格式,并基于所述数据格式确定目标数据解析规则;

【专利技术属性】
技术研发人员:王秀双马旭东赵玉红李良敏赵春波
申请(专利权)人:浙江岩华文化科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1