【技术实现步骤摘要】
基于大数据的数据压缩方法、设备及介质
本专利技术实施例涉及数据处理技术,尤其涉及一种基于大数据的数据压缩方法、设备及介质。
技术介绍
互联网技术(InternetTechnology,IT)运维工作中有一个很重要内容是对系统中的各主机设备的运行状态以及网络负载等信息进行实时监控和记录,获取各主机设备的指标数据,以实现异常情况的及时告警、故障诊断以及数据挖掘等功能。由于数据采集点众多,采集间隔短,导致实时监测的指标数据的数据量非常庞大。当系统节点很多、指标定义很多时,指标数据将会有极大的数据量,将会占用极大的存储空间。
技术实现思路
本专利技术实施例提供一种基于大数据的数据压缩方法、设备及介质,以实现对指标数据进行压缩存储,在减少存储空间的浪费的同时,不丢失数据。第一方面,本专利技术实施例提供了一种基于大数据的数据压缩方法,包括:在检测到大数据压缩请求时,获取与大数据决策请求对应的待压缩历史指标数据,待压缩历史指标数据包括以日为单位的多个指标数据集合,指标数据集合包括在对应日期所采集的全部指标数据,指标数据集合中的指标数据按照时间顺序排列;根据以日为单位的多个指标数据集合、以及预设的数据分片范围大小参数,得到与各数据分片下标对应的众数;根据与各数据分片下标对应的众数、以及与各指标数据集合对应的短时记忆基数,确定各指标数据集合中的指标数据的标记字段,对各指标数据集合中的指标数据进行压缩存储。第二方面,本专利技术实施例还提供了一种计算机设备,包括处理器和存 ...
【技术保护点】
1.一种基于大数据的数据压缩方法,其特征在于,包括:/n在检测到大数据压缩请求时,获取与所述大数据决策请求对应的待压缩历史指标数据,所述待压缩历史指标数据包括以日为单位的多个指标数据集合,所述指标数据集合包括在对应日期所采集的全部指标数据,所述指标数据集合中的指标数据按照时间顺序排列;/n根据所述以日为单位的多个指标数据集合、以及预设的数据分片范围大小参数,得到与各数据分片下标对应的众数;/n根据所述与各数据分片下标对应的众数、以及与各指标数据集合对应的短时记忆基数,确定各指标数据集合中的指标数据的标记字段,对所述各指标数据集合中的指标数据进行压缩存储。/n
【技术特征摘要】
1.一种基于大数据的数据压缩方法,其特征在于,包括:
在检测到大数据压缩请求时,获取与所述大数据决策请求对应的待压缩历史指标数据,所述待压缩历史指标数据包括以日为单位的多个指标数据集合,所述指标数据集合包括在对应日期所采集的全部指标数据,所述指标数据集合中的指标数据按照时间顺序排列;
根据所述以日为单位的多个指标数据集合、以及预设的数据分片范围大小参数,得到与各数据分片下标对应的众数;
根据所述与各数据分片下标对应的众数、以及与各指标数据集合对应的短时记忆基数,确定各指标数据集合中的指标数据的标记字段,对所述各指标数据集合中的指标数据进行压缩存储。
2.根据权利要求1所述的方法,其特征在于,根据所述以日为单位的多个指标数据集合、以及预设的数据分片范围大小参数,得到与各数据分片下标对应的众数,包括:
在所述以日为单位的多个指标数据集合中,随机获取设定数量的指标数据集合作为众数选举样本;
针对所述众数选举样本中的每一个指标数据集合,根据预设的数据分片范围大小参数对指标数据集合中的指标数据进行分片,将指标数据集合中的指标数据分成多个指标数据分片,并按照时间顺序,确定与各指标数据分片对应的数据分片下标;
将所述众数选举样本中的各指标数据集合中的相同数据分片下标的指标数据分片进行合并,得到与各数据分片下标对应的指标数据合并集合;
获取各指标数据合并集合中出现次数最多的指标数据,作为与对应数据分片下标对应的众数。
3.根据权利要求1所述的方法,其特征在于,还包括:
获取各指标数据集合中的第一条指标数据的指标值作为与各指标数据集合对应的短时记忆基数。
4.根据权利要求1所述的方法,其特征在于,根据所述与各数据分片下标对应的众数、以及与各指标数据集合对应的短时记忆基数,确定各指标数据集合中的指标数据的标记字段,对所述各指标数据集合中的指标数据进行压缩存储,包括:
按时间顺序在目标指标数据集合中获取一条指标数据作为当前指标数据;
判断所述当前指标数据是否是所属指标数据分片的数据分片下标对应的众数;
如果所述当前指标数据是与所属指标数据分片的数据分片下标对应的众数,则将所述当前指标数据的标记字段设置为众数标记;
返回执行按时间顺序在目标指标数据集合中获取一条指标数据作为当前指标数据的操作,直至完成对所述目标指标数据集合中的全部指标数据的处理。
5.根据权利要求4所述的方法,其特征在于,在判断所述当前指标数据是否是与所属指标数据分片的数据分片下标对应的众数之后,还包括:
如果所述当前指标数据不是与所属指标数据分片的数据分片下标对应的众数,则判断所述当前指标数据是否在与目标指标数据集合对应的短时记忆基数的上下浮动可接受百分比范围内;
如果所述当前指标数据在与目标指标数据集合对应的短时记忆基数的上下浮动可接受百分比范围内,则将当前指标数据的标记字段设置为短时记忆标记;
返回执行按时间顺序在目标指标数据集合中获取一条指标数据作为当前指标数据的操作,直至完成对所述目标指标数据集合中的全部指标数据的处理。
6.根据权利要求5所述的方法,其特征在于,在判断所述当前指标数据是否在与目标指标数据集合对应的短时记忆基数的上下浮动可接受百分比范围内之后,还包括:
如果所述当前指标数据不在与目标指标数据集合对应的短时记忆基数的上下浮动可接受百分比范围内,则将当前指标数据的标记字段设置为原始数据标记,存储所述当前指标数据的指标值,并将所述当前指标数据的指标值设置为与目标指标数据集合对应的新的短时记忆基数;
返回执行按时间顺序在目标指标数据集合中获取一条指标数据作为当前指标数据的操作,直至完成对所述目标指标数据集合中的全部指标数据的处理。
7.一种计算机设备,包括处理器和存储器,所述存储器用于存储指令,当所述指令执行时使得所述处理器执行以下操作:
在检测到大数据压缩请求时,获取与所述大数据决策请求对应的...
【专利技术属性】
技术研发人员:黄南溪,郭建新,罗辉,
申请(专利权)人:星环信息科技上海有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。