一种移动网络上网日志数据的压缩算法制造技术

技术编号:22754956 阅读:22 留言:0更新日期:2019-12-07 03:55
本发明专利技术提供了一种移动网络上网日志数据的压缩算法,包括以下步骤:步骤一:获取上网日志数据,并根据源数据格式进行数据解析;步骤二:压缩开始时间和结束时间;步骤三:压缩手机号码;步骤四:压缩源IP;步骤五:压缩目标IP;步骤六:将压缩后的所有字段连同标记位存盘;本发明专利技术针对上网日志数据的特点,将上网日志数据的压缩比从原数据的30%优化到17%左右,将节省一半左右的存储资源,压缩比更高。

A compression algorithm of log data in mobile network

The invention provides a compression algorithm of mobile network online log data, which includes the following steps: Step 1: obtain online log data and analyze data according to the source data format; step 2: compress start time and end time; step 3: compress mobile phone number; step 4: compress source IP; step 5: compress target IP; step 6: compress all words after compression According to the characteristics of online log data, the compression ratio of online log data is optimized from 30% of the original data to about 17%, about half of the storage resources are saved, and the compression ratio is higher.

【技术实现步骤摘要】
一种移动网络上网日志数据的压缩算法
本专利技术涉及信息
,具体是一种移动网络上网日志数据的压缩算法。
技术介绍
移动网络上网日志数据,是通过运营商蜂窝通讯技术访问网络时产生的数据,包括访问开始时间、访问结束时间、手机号码、源IP、目的IP、访问URL等,运营商需要将这些数据存储成文件,用于计费、数据查询等功能。由于上网数据量非常巨大,通常会选用类似gzip的压缩算法,将数据压缩到原始数据的30%左右,但仍然需要使用大量的存储资源存储这些数据。因此,需要一种压缩比更高的压缩算法。
技术实现思路
本专利技术的目的在于提供一种移动网络上网日志数据的压缩算法,以解决上述
技术介绍
中提出的问题。为实现上述目的,本专利技术提供如下技术方案:一种移动网络上网日志数据的压缩算法,包括以下步骤:步骤一:获取上网日志数据,并根据源数据格式进行数据解析;步骤二:压缩开始时间和结束时间;解析出开始时间字段,并与文件名所标记时间做差值,将差值转换成整型数据,若差集超过65536则存储4个字节并置标记位1为true,否则存储2个字节的差值;解析出结束时间字段,并与开始时间做差值,如果差值为0,则置标记位2为true,不存储结束时间,否则存储2个字节的差值;步骤三:压缩手机号码;解析出手机号字段,并检测是否已经出现过,如果出现过则置标记位3为true,并将上次出现的行号转换成3个字节的整型存储,否则将手机号转换成5个字节的整型存储;步骤四:压缩源IP;解析出源IP字段,并检测是否与上次同手机号记录源IP一致,如果一致,则置标记位4为true,本次不存储,否则将源IP转成4个字节,每字节标识IP地址的一个段存储;步骤五:压缩目标IP;解析出目标IP字段,并检测是否与上次同手机号记录目标IP一致,如果一致,则置标记位5为true,本次不存储,否则将源IP转成4个字节,每字节标识IP地址的一个段存储;步骤六:将压缩后的所有字段连同标记位存盘。与现有技术相比,本专利技术的有益效果是:本专利技术针对上网日志数据的特点,开发了一种压缩比更高的压缩算法,将上网日志数据的压缩比从原数据的30%优化到17%左右,将节省一半左右的存储资源。附图说明图1为一种移动网络上网日志数据的压缩算法中时间字段的压缩方式示意图。图2为一种移动网络上网日志数据的压缩算法中手机号码的压缩方式示意图。图3为一种移动网络上网日志数据的压缩算法中源IP的压缩方式示意图。图4为一种移动网络上网日志数据的压缩算法中目标IP的压缩方式示意图。具体实施方式下面结合具体实施方式对本专利的技术方案作进一步详细地说明。请参阅图1-4,一种移动网络上网日志数据的压缩算法,包括以下步骤:步骤一:获取上网日志数据,并根据源数据格式进行数据解析;步骤二:压缩开始时间和结束时间;解析出开始时间字段,并与文件名所标记时间做差值,将差值转换成整型数据,若差集超过65536则存储4个字节并置标记位1为true,否则存储2个字节的差值;解析出结束时间字段,并与开始时间做差值,如果差值为0,则置标记位2为true,不存储结束时间,否则存储2个字节的差值;步骤三:压缩手机号码;解析出手机号字段,并检测是否已经出现过,如果出现过则置标记位3为true,并将上次出现的行号转换成3个字节的整型存储,否则将手机号转换成5个字节的整型存储;步骤四:压缩源IP;解析出源IP字段,并检测是否与上次同手机号记录源IP一致,如果一致,则置标记位4为true,本次不存储,否则将源IP转成4个字节,每字节标识IP地址的一个段存储;步骤五:压缩目标IP;解析出目标IP字段,并检测是否与上次同手机号记录目标IP一致,如果一致,则置标记位5为true,本次不存储,否则将源IP转成4个字节,每字节标识IP地址的一个段存储;步骤六:将压缩后的所有字段连同标记位存盘。上面对本专利的较佳实施方式作了详细说明,但是本专利并不限于上述实施方式,在本领域的普通技术人员所具备的知识范围内,还可以在不脱离本专利宗旨的前提下做出各种变化。本文档来自技高网...

【技术保护点】
1.一种移动网络上网日志数据的压缩算法,其特征在于,包括以下步骤:/n步骤一:获取上网日志数据,并根据源数据格式进行数据解析;/n步骤二:压缩开始时间和结束时间;/n解析出开始时间字段,并与文件名所标记时间做差值,将差值转换成整型数据,若差集超过65536则存储4个字节并置标记位1为true,否则存储2个字节的差值;/n解析出结束时间字段,并与开始时间做差值,如果差值为0,则置标记位2为true,不存储结束时间,否则存储2个字节的差值;/n步骤三:压缩手机号码;/n解析出手机号字段,并检测是否已经出现过,如果出现过则置标记位3为true,并将上次出现的行号转换成3个字节的整型存储,否则将手机号转换成5个字节的整型存储;/n步骤四:压缩源IP;/n解析出源IP字段,并检测是否与上次同手机号记录源IP一致,如果一致,则置标记位4为true,本次不存储,否则将源IP转成4个字节,每字节标识IP地址的一个段存储;/n步骤五:压缩目标IP;/n解析出目标IP字段,并检测是否与上次同手机号记录目标IP一致,如果一致,则置标记位5为true,本次不存储,否则将源IP转成4个字节,每字节标识IP地址的一个段存储;/n步骤六:将压缩后的所有字段连同标记位存盘。/n...

【技术特征摘要】
1.一种移动网络上网日志数据的压缩算法,其特征在于,包括以下步骤:
步骤一:获取上网日志数据,并根据源数据格式进行数据解析;
步骤二:压缩开始时间和结束时间;
解析出开始时间字段,并与文件名所标记时间做差值,将差值转换成整型数据,若差集超过65536则存储4个字节并置标记位1为true,否则存储2个字节的差值;
解析出结束时间字段,并与开始时间做差值,如果差值为0,则置标记位2为true,不存储结束时间,否则存储2个字节的差值;
步骤三:压缩手机号码;
解析出手机号字段,并检测是否已经出现过,如果出现过则置标...

【专利技术属性】
技术研发人员:苏鹏威
申请(专利权)人:北京上下文系统软件有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1