基于大数据的数据压缩方法、设备及介质技术

技术编号:25223519 阅读:43 留言:0更新日期:2020-08-11 23:12
本发明专利技术实施例公开了一种基于大数据的数据压缩方法、设备及介质。其中,方法包括:在检测到大数据压缩请求时,获取与大数据决策请求对应的待压缩历史指标数据,待压缩历史指标数据包括以日为单位的多个指标数据集合,指标数据集合包括在对应日期所采集的全部指标数据;根据以日为单位的多个指标数据集合、以及预设的数据分片范围大小参数,得到与各数据分片下标对应的众数;根据与各数据分片下标对应的众数、以及与各指标数据集合对应的短时记忆基数,确定各指标数据集合中的指标数据的标记字段,对各指标数据集合中的指标数据进行压缩存储。本发明专利技术实施例可以对指标数据进行压缩存储,在减少指标数据的存储空间的浪费的同时不丢失指标数据。

【技术实现步骤摘要】
基于大数据的数据压缩方法、设备及介质
本专利技术实施例涉及数据处理技术,尤其涉及一种基于大数据的数据压缩方法、设备及介质。
技术介绍
互联网技术(InternetTechnology,IT)运维工作中有一个很重要内容是对系统中的各主机设备的运行状态以及网络负载等信息进行实时监控和记录,获取各主机设备的指标数据,以实现异常情况的及时告警、故障诊断以及数据挖掘等功能。由于数据采集点众多,采集间隔短,导致实时监测的指标数据的数据量非常庞大。当系统节点很多、指标定义很多时,指标数据将会有极大的数据量,将会占用极大的存储空间。
技术实现思路
本专利技术实施例提供一种基于大数据的数据压缩方法、设备及介质,以实现对指标数据进行压缩存储,在减少存储空间的浪费的同时,不丢失数据。第一方面,本专利技术实施例提供了一种基于大数据的数据压缩方法,包括:在检测到大数据压缩请求时,获取与大数据决策请求对应的待压缩历史指标数据,待压缩历史指标数据包括以日为单位的多个指标数据集合,指标数据集合包括在对应日期所采集的全部指标数据,指标数据集合中的指标数据按照时间顺序排列;根据以日为单位的多个指标数据集合、以及预设的数据分片范围大小参数,得到与各数据分片下标对应的众数;根据与各数据分片下标对应的众数、以及与各指标数据集合对应的短时记忆基数,确定各指标数据集合中的指标数据的标记字段,对各指标数据集合中的指标数据进行压缩存储。第二方面,本专利技术实施例还提供了一种计算机设备,包括处理器和存储器,存储器用于存储指令,当指令执行时使得处理器执行以下操作:在检测到大数据压缩请求时,获取与大数据决策请求对应的待压缩历史指标数据,待压缩历史指标数据包括以日为单位的多个指标数据集合,指标数据集合包括在对应日期所采集的全部指标数据,指标数据集合中的指标数据按照时间顺序排列;根据以日为单位的多个指标数据集合、以及预设的数据分片范围大小参数,得到与各数据分片下标对应的众数;根据与各数据分片下标对应的众数、以及与各指标数据集合对应的短时记忆基数,确定各指标数据集合中的指标数据的标记字段,对各指标数据集合中的指标数据进行压缩存储。第三方面,本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现:在检测到大数据压缩请求时,获取与大数据决策请求对应的待压缩历史指标数据,待压缩历史指标数据包括以日为单位的多个指标数据集合,指标数据集合包括在对应日期所采集的全部指标数据,指标数据集合中的指标数据按照时间顺序排列;根据以日为单位的多个指标数据集合、以及预设的数据分片范围大小参数,得到与各数据分片下标对应的众数;根据与各数据分片下标对应的众数、以及与各指标数据集合对应的短时记忆基数,确定各指标数据集合中的指标数据的标记字段,对各指标数据集合中的指标数据进行压缩存储。本专利技术实施例的技术方案,通过在检测到大数据压缩请求时,获取与大数据决策请求对应的待压缩历史指标数据,待压缩历史指标数据包括以日为单位的多个指标数据集合,然后根据以日为单位的多个指标数据集合、以及预设的数据分片范围大小参数,得到与各数据分片下标对应的众数,根据与各数据分片下标对应的众数、以及与各指标数据集合对应的短时记忆基数,确定各指标数据集合中的指标数据的标记字段,对各指标数据集合中的指标数据进行压缩存储,可以针对待压缩历史指标数据,根据与各数据分片下标对应的众数、以及与各指标数据集合对应的短时记忆基数,确定各指标数据集合中的指标数据的标记字段,对各指标数据集合中的指标数据进行压缩存储,可以通过众数压缩存储方式将指标数据集合中大量重复出现的众数进行压缩存储,并且可以通过短时记忆压缩存储方式在可接受误差范围内将偏离众数的指标数据集合再利用短时记忆的数据压缩方法进行压缩,可以在减少指标数据的存储空间的浪费的同时不丢失指标数据。附图说明图1a为一种主机设备日常的CPU使用率趋势图。图1b为一种主机设备促销活动时的CPU使用率趋势图。图1c为一种CPU使用率指标原始数据样例。图1d为一种数据价值曲线图。图1e为本专利技术实施例一提供的一种基于大数据的数据压缩方法的流程图。图1f为本专利技术实施例一提供的一种对目标指标数据集合中的指标数据进行压缩存储的流程图。图1g为本专利技术实施例一提供的一种CPU使用率采集数据。图1h为本专利技术实施例一提供的一种主机设备日常的CPU使用率趋势图。图1i为本专利技术实施例一提供的一种主机设备在促销活动日期当天的CPU使用率趋势图。图2为本专利技术实施例二提供的一种基于大数据的数据压缩方法的流程图。图3为本专利技术实施例三提供的一种基于大数据的数据压缩装置的结构示意图。图4为本专利技术实施例四提供的一种计算机设备的结构示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。本文使用的术语“指标”是目标对象在特定时间点或特定时间范围的某规则下的特征值或计算值。示例性的,目标对象可以为系统中的各主机设备,指标可以为某一时间点系统中的各主机设备的中央处理器(CentralProcessingUnit,CPU)使用率、内存使用率等。本文使用的术语“指标数据”是基于时间序列的指标数据。示例性的,指标数据可以为每5秒钟的主机设备的CPU使用率、内存使用率等。本文使用的术语“众数”是一批数据集合中出现次数最多的数。示例性的:数据集合为{1,2,1,3,4,5,1,8},该数据集合中1的出现次数最多,则数据集合的众数为1。本文使用的术语“大数据压缩请求”是用于请求对待压缩历史指标数据进行压缩存储的操作请求。本文使用的术语“待压缩历史指标数据”是在当前时间下,全部未进行压缩存储的历史指标数据。历史指标数据是除了当日采集的指标数据之外的全部指标数据。待压缩历史指标数据包括以日为单位的多个指标数据集合。指标数据集合包括在对应日期所采集的全部指标数据。指标数据集合中的指标数据按照时间顺序排列。示例性的,采集主机设备1年(365天)的每1分钟的CPU使用率作为待压缩历史指标数据。待压缩历史指标数据包括以日为单位的365个指标数据集合。指标数据集合包括在对应日期所采集的每1分钟的CPU使用率。指标数据集合中的每1分钟的CPU使用率按照时本文档来自技高网...

【技术保护点】
1.一种基于大数据的数据压缩方法,其特征在于,包括:/n在检测到大数据压缩请求时,获取与所述大数据决策请求对应的待压缩历史指标数据,所述待压缩历史指标数据包括以日为单位的多个指标数据集合,所述指标数据集合包括在对应日期所采集的全部指标数据,所述指标数据集合中的指标数据按照时间顺序排列;/n根据所述以日为单位的多个指标数据集合、以及预设的数据分片范围大小参数,得到与各数据分片下标对应的众数;/n根据所述与各数据分片下标对应的众数、以及与各指标数据集合对应的短时记忆基数,确定各指标数据集合中的指标数据的标记字段,对所述各指标数据集合中的指标数据进行压缩存储。/n

【技术特征摘要】
1.一种基于大数据的数据压缩方法,其特征在于,包括:
在检测到大数据压缩请求时,获取与所述大数据决策请求对应的待压缩历史指标数据,所述待压缩历史指标数据包括以日为单位的多个指标数据集合,所述指标数据集合包括在对应日期所采集的全部指标数据,所述指标数据集合中的指标数据按照时间顺序排列;
根据所述以日为单位的多个指标数据集合、以及预设的数据分片范围大小参数,得到与各数据分片下标对应的众数;
根据所述与各数据分片下标对应的众数、以及与各指标数据集合对应的短时记忆基数,确定各指标数据集合中的指标数据的标记字段,对所述各指标数据集合中的指标数据进行压缩存储。


2.根据权利要求1所述的方法,其特征在于,根据所述以日为单位的多个指标数据集合、以及预设的数据分片范围大小参数,得到与各数据分片下标对应的众数,包括:
在所述以日为单位的多个指标数据集合中,随机获取设定数量的指标数据集合作为众数选举样本;
针对所述众数选举样本中的每一个指标数据集合,根据预设的数据分片范围大小参数对指标数据集合中的指标数据进行分片,将指标数据集合中的指标数据分成多个指标数据分片,并按照时间顺序,确定与各指标数据分片对应的数据分片下标;
将所述众数选举样本中的各指标数据集合中的相同数据分片下标的指标数据分片进行合并,得到与各数据分片下标对应的指标数据合并集合;
获取各指标数据合并集合中出现次数最多的指标数据,作为与对应数据分片下标对应的众数。


3.根据权利要求1所述的方法,其特征在于,还包括:
获取各指标数据集合中的第一条指标数据的指标值作为与各指标数据集合对应的短时记忆基数。


4.根据权利要求1所述的方法,其特征在于,根据所述与各数据分片下标对应的众数、以及与各指标数据集合对应的短时记忆基数,确定各指标数据集合中的指标数据的标记字段,对所述各指标数据集合中的指标数据进行压缩存储,包括:
按时间顺序在目标指标数据集合中获取一条指标数据作为当前指标数据;
判断所述当前指标数据是否是所属指标数据分片的数据分片下标对应的众数;
如果所述当前指标数据是与所属指标数据分片的数据分片下标对应的众数,则将所述当前指标数据的标记字段设置为众数标记;
返回执行按时间顺序在目标指标数据集合中获取一条指标数据作为当前指标数据的操作,直至完成对所述目标指标数据集合中的全部指标数据的处理。


5.根据权利要求4所述的方法,其特征在于,在判断所述当前指标数据是否是与所属指标数据分片的数据分片下标对应的众数之后,还包括:
如果所述当前指标数据不是与所属指标数据分片的数据分片下标对应的众数,则判断所述当前指标数据是否在与目标指标数据集合对应的短时记忆基数的上下浮动可接受百分比范围内;
如果所述当前指标数据在与目标指标数据集合对应的短时记忆基数的上下浮动可接受百分比范围内,则将当前指标数据的标记字段设置为短时记忆标记;
返回执行按时间顺序在目标指标数据集合中获取一条指标数据作为当前指标数据的操作,直至完成对所述目标指标数据集合中的全部指标数据的处理。


6.根据权利要求5所述的方法,其特征在于,在判断所述当前指标数据是否在与目标指标数据集合对应的短时记忆基数的上下浮动可接受百分比范围内之后,还包括:
如果所述当前指标数据不在与目标指标数据集合对应的短时记忆基数的上下浮动可接受百分比范围内,则将当前指标数据的标记字段设置为原始数据标记,存储所述当前指标数据的指标值,并将所述当前指标数据的指标值设置为与目标指标数据集合对应的新的短时记忆基数;
返回执行按时间顺序在目标指标数据集合中获取一条指标数据作为当前指标数据的操作,直至完成对所述目标指标数据集合中的全部指标数据的处理。


7.一种计算机设备,包括处理器和存储器,所述存储器用于存储指令,当所述指令执行时使得所述处理器执行以下操作:
在检测到大数据压缩请求时,获取与所述大数据决策请求对应的...

【专利技术属性】
技术研发人员:黄南溪郭建新罗辉
申请(专利权)人:星环信息科技上海有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1