System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及数据处理,具体涉及一种实时数据采集存储方法及系统。
技术介绍
1、网络吞吐量指的是在一个网络连接中,在一定时间内传输的数据量或数据速率,是用来评估网络容量与性能的一个重要指标,通过网络吞吐量来确保数据能够以足够的速度和效率传输;其对于网络管理、性能监控和容量规划都非常关键,通过实时监控网络吞吐量网络能够满足实际需求。
2、而对于网络吞吐量数据,实时监控会导致数据产生大量冗余,因此需要对大量网络吞吐量数据进行压缩处理,通常情况下对网络吞吐量数据采用无损压缩或有损压缩的单一压缩方式,然而网络吞吐量数据存在不确定性,存在大量数据相近的情况时,无损压缩会导致压缩效果较差,不能有效降低存储空间的占用;而有损压缩又会造成部分网络吞吐量数据丢失,不利于网络吞吐量的实时采集与监控,因此需要对大量网络吞吐量数据进行聚类分析,通过不同类簇中网络吞吐量数据的相似性来对不同类簇自适应选择压缩方式,从而提高压缩效率的同时保证压缩后的数据质量。
技术实现思路
1、本专利技术提供一种实时数据采集存储方法及系统,以解决现有的网络数据由于不确定性而采用单一压缩方式导致数据丢失的问题,所采用的技术方案具体如下:
2、第一方面,本专利技术一个实施例提供了一种实时数据采集存储方法,该方法包括以下步骤:
3、采集多个端口的网络吞吐量序列,所述多个端口的网络吞吐量序列对应同一个时间轴,所述网络吞吐量序列中包含若干网络吞吐量数据;
4、对每个端口的网络吞吐量序列获取
5、对所有端口同一时间段中的所有网络吞吐量数据进行聚类,得到每个时间段的若干类簇;根据每个类簇中的网络吞吐量数据及所属时间段对应分段点的置信度,得到每个类簇的压缩损失评价;
6、根据每个类簇的压缩损失评价,对不同类簇采用不同的压缩方式进行压缩。
7、进一步的,所述对每个端口的网络吞吐量序列获取若干峰值点,包括的具体方法为:
8、对于任意一个端口的网络吞吐量序列,以横坐标为时间,纵坐标为网络吞吐量序列中的网络吞吐量数据构建坐标系,将网络吞吐量序列中每个网络吞吐量数据转换为坐标系中的吞吐量数据点,连接得到该端口的网络吞吐量曲线,对网络吞吐量曲线通过ampd算法得到若干峰值点,记录每个峰值点对应的时间。
9、进一步的,所述得到若干峰值聚集区间,包括的具体方法为:
10、将所有端口的所有峰值点根据对应的时间顺序排列,得到峰值点序列;根据峰值点序列中相邻峰值点对应的时间,对每个峰值点的横坐标进行标记;
11、在横轴即时间轴上,从第一个有标记的横坐标开始,逐个横坐标进行遍历,预设一个聚集阈值,当遍历到第一个标记为1的横坐标时,统计该横坐标对应的峰值点的数量,若峰值点的数量大于或等于聚集阈值,将该横坐标作为一个峰值聚集区间的左端点,继续向后遍历,直到遍历到一个标记为0或没有标记的横坐标时停止,将停止时的横坐标的前一个横坐标,作为峰值聚集区间的右端点,得到一个峰值聚集区间,并继续向后遍历直到下一个标记为1的横坐标再开始判断;
12、若峰值点的数量小于聚集阈值,将该横坐标记为待选端点,记录该横坐标对应的峰值点的数量,继续向后遍历,若遍历到的下一个横坐标的标记为0或没有标记,删除记录的待选端点及记录的峰值点的数量,并继续向后遍历直到下一个标记为1的横坐标再开始判断;若遍历到的下一个横坐标的标记为1,统计当前遍历到的横坐标对应的峰值点的数量,并与已经记录的峰值点的数量获取和值,若和值大于或等于聚集阈值,将待选端点作为一个峰值聚集区间的左端点,继续向后遍历,直到遍历到一个标记为0或没有标记的横坐标时停止,将停止时的横坐标的前一个横坐标,作为峰值聚集区间的右端点,得到一个峰值聚集区间;若和值仍小于聚集阈值,继续遍历,若下一个横坐标没有标记或标记为0,删除记录的待选端点及记录的峰值点的数量,并继续向后遍历直到下一个标记为1的横坐标再开始判断;若下一个横坐标的标记为1,继续统计对应的峰值点的数量,并与和值再相加得到和值,对和值进行判断,以此类推得到峰值聚集区间;
13、对横坐标逐个遍历,最终得到若干峰值聚集区间。
14、进一步的,所述对每个峰值点的横坐标进行标记,包括的具体方法为:
15、对峰值点序列中相邻峰值点计算对应时间之间的差值绝对值,得到的差值绝对值记为相邻峰值点的时间差异;将所有时间差异从小到大升序排列,得到时间差异序列,对时间差异序列通过最大类间方差法进行分割,得到两个类别,将类别中时间差异的均值最小的类别作为峰值聚集类别,将类别中时间差异的均值最大的类别作为峰值离散类别;
16、对于峰值聚集类别,将峰值聚集类别中所有时间差异对应的峰值点的横坐标标记为1;对于峰值离散类别,将峰值离散类别中所有时间差异对应的峰值点的横坐标标记为0,若横坐标已经标记为1,不再对其进行0的标记;对所有峰值点的横坐标均进行0或1的标记。
17、进一步的,所述得到若干分段点及其置信度,包括的具体方法为:
18、对于任意一个峰值聚集区间,该峰值聚集区间中多个横坐标分别对应一个或多个峰值点,记为该峰值聚集区间中的峰值点,该峰值聚集区间中第个峰值点的优选程度的计算方法为:
19、
20、其中,表示该峰值聚集区间中第个峰值点与区间内其他峰值点的横坐标的差值绝对值的均值,表示该峰值聚集区间中峰值点的数量,表示该峰值聚集区间中第个峰值点的纵坐标,表示该峰值聚集区间中除第个峰值点之外第个峰值点的纵坐标,表示求绝对值,表示避免指数函数数值过小的超参数,表示以自然常数为底的指数函数;
21、根据峰值聚集区间内每个峰值点的优选程度,获取若干分段点及置信度。
22、进一步的,所述若干分段点及置信度,具体的获取方法为:
23、对于任意一个峰值聚集区间,获取该峰值聚集区间中每个峰值点的优选程度,将优选程度最大的峰值点的横坐标作为一个分段点,并将优选程度的最大值,作为分段点的置信度;将时间轴上第一个时间点及最后一个时间点作为分段点,置信度设置为1。
24、进一步的,所述得到每个时间段的若干类簇,包括的具体方法为:
25、对于任意一个时间段,获取横坐标在该时间段中的所有吞吐量数据点,对所有吞吐量数据点进行dbscan聚类,距离度量采用吞吐量数据点之间的欧式距离,得到若干类簇。
26、进一步的,所述得到每个类簇的压缩损失评价,包括的具体方法为:
27、对于任意一个类簇,通过凸包获取该类簇的包围区域,对包围区域获取外接圆,记为该类簇的最小外接圆,计算最小外接圆的面积,半径为圆心到圆上任意一个点的欧式距离;对该类簇中所有吞吐量数据点进行pca分析,得到若干主成分向量;该类簇的压缩损失评价的计算方本文档来自技高网...
【技术保护点】
1.一种实时数据采集存储方法,其特征在于,该方法包括以下步骤:
2.根据权利要求1所述的一种实时数据采集存储方法,其特征在于,所述对每个端口的网络吞吐量序列获取若干峰值点,包括的具体方法为:
3.根据权利要求2所述的一种实时数据采集存储方法,其特征在于,所述得到若干峰值聚集区间,包括的具体方法为:
4.根据权利要求3所述的一种实时数据采集存储方法,其特征在于,所述对每个峰值点的横坐标进行标记,包括的具体方法为:
5.根据权利要求3所述的一种实时数据采集存储方法,其特征在于,所述得到若干分段点及其置信度,包括的具体方法为:
6.根据权利要求5所述的一种实时数据采集存储方法,其特征在于,所述若干分段点及置信度,具体的获取方法为:
7.根据权利要求2所述的一种实时数据采集存储方法,其特征在于,所述得到每个时间段的若干类簇,包括的具体方法为:
8.根据权利要求1所述的一种实时数据采集存储方法,其特征在于,所述得到每个类簇的压缩损失评价,包括的具体方法为:
9.根据权利要求1所述的一种实时数据采
10.一种实时数据采集存储系统,包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-9任意一项所述一种实时数据采集存储方法的步骤。
...【技术特征摘要】
1.一种实时数据采集存储方法,其特征在于,该方法包括以下步骤:
2.根据权利要求1所述的一种实时数据采集存储方法,其特征在于,所述对每个端口的网络吞吐量序列获取若干峰值点,包括的具体方法为:
3.根据权利要求2所述的一种实时数据采集存储方法,其特征在于,所述得到若干峰值聚集区间,包括的具体方法为:
4.根据权利要求3所述的一种实时数据采集存储方法,其特征在于,所述对每个峰值点的横坐标进行标记,包括的具体方法为:
5.根据权利要求3所述的一种实时数据采集存储方法,其特征在于,所述得到若干分段点及其置信度,包括的具体方法为:
6.根据权利要求5所述的一种实时数据采集存储方法,其特征在于,所...
【专利技术属性】
技术研发人员:赵国彬,顾来强,李强,阎志,王小梅,赵若伊,赵东悦,张亮,李柯萱,高雅婷,
申请(专利权)人:天津神州海创科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。