本发明专利技术公开了一种基于大规模网络的数据分类方法和装置,其中,该方法包括:获取待检测数据;其中,待检测数据包括系统级指标和用户级指标;对待检测数据的多变量时间序列进行平滑和归一化的数据预处理得到预处理数据;将预处理数据输入通过离线聚类训练好的一维卷积自动编码器进行数据压缩处理,并使用离线聚类得到的特征索引执行特征选择,根据特征选择的结果进行距离计算,以进行在线数据分类;基于在线数据分类,输出待检测数据的在线分类结果。本发明专利技术可以根据系统实例的正常模式对其进行精确且高效聚类并显著减少异常检测训练开销。销。销。
【技术实现步骤摘要】
一种基于大规模网络的数据分类方法和装置
[0001]本专利技术涉及数据检测分类等
,尤其涉及一种基于大规模网络的数据分类方法和装置。
技术介绍
[0002]Web服务规模越来越大,通常在不同的容器、虚拟机或物理机上运行数千甚至几十万个系统实例。这些系统实例的可靠性对Web服务至关重要,系统实例上发生的异常行为可能会降低Web服务的可用性,影响用户体验,甚至导致巨大的经济损失。现实中的监控指标数据通常被记录下来形成多变量时间序列(Multivariate Time Series,MTS)。一系列基于深度学习的方法可以准确地学习海量MTS数据中复杂的模式以用于MTS异常检测工作。
[0003]然而,大规模Web服务中存在大量的系统实例(例如,阿里巴巴和字节跳动拥有数百万个系统实例),为每个系统实例训练MTS异常检测模型将消耗大量计算资源;另一方面,不同系统实例的MTS数据中复杂的数据模式可能有较大差别,为所有系统实例训练一个异常检测模型对于不同的系统实例会降低异常检测工作的准确性。因此,在大规模Web服务中部署这些MTS异常检测方法是一个相当具有挑战性的问题。
[0004]现有的方法有Copulas、Mc2PCA、FCFW和TICC均可以对MTS数据进行聚类;CTF可以先对数据进行聚类然后进行异常检测。Copulas考虑了单个MTS中两个变量之间的关系,通过比较两个MTS之间的距离进行基于密度的非参数估计;Mc2PCA为每个簇构建公共投影轴,通过计算在相应公共投影轴上的重建误差将数据分配到不同的簇;FCFW基于两种距离计算方法——DTW和SBD,通过比较两个MTS之间的距离生成聚类结果;TICC关注MTS中的子序列,提出一种基于模型的聚类方法,TICC算法中的每个簇都由一个描述了该簇中典型子序列中不同观测值之间的相互依赖性相关性网络定义。CTF是一个为OmniAnomaly设计的框架,旨在提高训练效率。
[0005]Copulas受到维数爆炸的影响,计算成本很高;Mc2PCA只考虑了簇内的相似性没有考虑簇间的相似性,可能会导致簇的数量过多;FCFW采用的DTW和SBD两种算法的时间复杂度都非常高,无法应用于大规模数据;TICC同时对MTS数据进行分割和聚类,非常消耗时间和计算空间,同样无法应用于大规模数据。同时,以上四种算法均针对理想的平滑数据设计,并未考虑真实场景下收集的数据存在噪声和异常数据,这些噪音和异常会很大程度的影响聚类效果。整体来讲,现有聚类方法无法对规模巨大(系统实例数量、指标数量、时间点数)且包含噪音和异常的数据进行高效且精确的聚类。CTF仅能与特定的异常检测算法结合使用,而不能与其他异常检测算法一起使用,具有较大局限性。
技术实现思路
[0006]本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。
[0007]为此,本专利技术的目的在于提出一种基于大规模网络的数据分类方法,利用一维卷积自动编码器(1DCAE)将高维数据嵌入低维数据提取MTS的主要特征嵌入到低维数据中,可
以有效减少聚类开销,而且消除了噪声和异常的影响。此外,采用了一种高效且有效的策略来选择周期性和代表性特征,防止某些特征干扰MTS聚类效果。本专利技术是一种高效、鲁棒的方案,能够实现对系统实例MTS的正常模式进行精确且高效聚类,并有效降低异常检测模型的训练开销。
[0008]本专利技术的另一个目的在于提出一种基于大规模网络的数据分类装置。
[0009]为达上述目的,本专利技术一方面提出了一种基于大规模网络的数据分类方法,包括:
[0010]获取待检测数据;其中,所述待检测数据包括系统级指标和用户级指标;对所述待检测数据的多变量时间序列进行平滑和归一化的数据预处理得到预处理数据;将所述预处理数据输入通过离线聚类训练好的一维卷积自动编码器进行数据压缩处理,并使用所述离线聚类得到的特征索引执行特征选择,根据所述特征选择的结果进行距离计算,以进行在线数据分类;基于所述在线数据分类,输出所述待检测数据的在线分类结果。
[0011]另外,根据本专利技术上述实施例的基于大规模网络的数据分类方法还可以具有以下附加的技术特征:
[0012]进一步地,在本专利技术的一个实施例中,所述系统级指标包括:CPU利用率、内存利用率、磁盘I/O和网络吞吐量中的多种;所述用户级指标包括:平均响应时间、错误率和页面浏览次数中的多种。
[0013]进一步地,在本专利技术的一个实施例中,对所述一维卷积自动编码器进行训练,包括:离线对所述待检测数据的多变量时间序列进行所述数据预处理得到所述预处理数据;利用所述预处理数据训练一维卷积自动编码器并压缩所述预处理数据的每个变量上的时间点数量,得到第一隐藏表示;在所述第一隐藏表示上执行所述特征选择获得特征索引,基于所述特征索引通过聚类方式进行离线聚类得到簇中心。
[0014]进一步地,在本专利技术的一个实施例中,所述使用所述离线聚类得到的特征索引执行特征选择,根据所述特征选择的结果进行距离计算,以进行在线数据分类,包括:使用离线聚类训练好的一维卷积自动编码器压缩所述预处理数据的每个变量上的时间点数量,得到第二隐藏表示;使用所述特征索引在所述第二隐藏表示上执行特征选择获得第三隐藏表示;计算所述第三隐藏表示与所述簇中心之间的距离,并选择距离最短的簇中心对应的簇作为所述在线数据分类的类别。
[0015]进一步地,在本专利技术的一个实施例中,所述数据预处理,包括:
[0016]使用线性插值方式对多变量时间序列MTS进行填充删除或缺失的值,通过滑动窗口滑动平均算法提取MTS曲线的基线对所述MTS曲线进行平滑,并在所有数据中采用归一化,将每个数据点缩放到[0,1]范围内,所述归一化的公式为:
[0017][0018]进一步地,在本专利技术的一个实施例中,述特征选择,包括:删除非周期性特征、构建冗余特征矩阵和删除冗余特征。
[0019]进一步地,在本专利技术的一个实施例中,所述删除非周期性特征,包括:使用YIN提取周期性信息,删除非周期性特征后得到保留的特征;其中,YIN(z
sm
)>0表示特征z
sm
存在周期性,YIN(z
sm
)=0表示特征z
sm
没有周期性模式;所述构建冗余特征矩阵,包括:构建得到冗余
特征矩阵R∈[0,1]M
′×
M
′
,并使用归一化互相关函数计算两个特征之间是否存在冗余;其中,M
’
表示删除非周期性特征后保留的特征数量,R
ij
>0表示特征i和特征j之间存在冗余,R
ij
=0特征i和特征j之间不存在冗余;所述删除冗余特征,包括:定义一组未分配的特征F,F包含所有M
’
特征的索引,将预设的特征选择规则从第一规则到第四规则顺序迭代应用于F,直到将所有特征分配给选择特征集SF或删除特征集DF,将SF中的所有选定特征拼接成为z”,做为所述聚类或所本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于大规模网络的数据分类方法,其特征在于,包括以下步骤:获取待检测数据;其中,所述待检测数据包括系统级指标和用户级指标;对所述待检测数据的多变量时间序列进行平滑和归一化的数据预处理得到预处理数据;将所述预处理数据输入通过离线聚类训练好的一维卷积自动编码器进行数据压缩处理,并使用所述离线聚类得到的特征索引执行特征选择,根据所述特征选择的结果进行距离计算,以进行在线数据分类;基于所述在线数据分类,输出所述待检测数据的在线分类结果。2.根据权利要求1所述的方法,其特征在于,所述系统级指标包括:CPU利用率、内存利用率、磁盘I/O和网络吞吐量中的多种;所述用户级指标包括:平均响应时间、错误率和页面浏览次数中的多种。3.根据权利要求1所述的方法,其特征在于,对所述一维卷积自动编码器进行训练,包括:离线对所述待检测数据的多变量时间序列进行所述数据预处理得到所述预处理数据;利用所述预处理数据训练一维卷积自动编码器并压缩所述预处理数据的每个变量上的时间点数量,得到第一隐藏表示;在所述第一隐藏表示上执行所述特征选择获得特征索引,基于所述特征索引通过聚类方式进行离线聚类得到簇中心。4.根据权利要求3所述的方法,其特征在于,所述使用所述离线聚类得到的特征索引执行特征选择,根据所述特征选择的结果进行距离计算,以进行在线数据分类,包括:使用离线聚类训练好的一维卷积自动编码器压缩所述预处理数据的每个变量上的时间点数量,得到第二隐藏表示;使用所述特征索引在所述第二隐藏表示上执行特征选择获得第三隐藏表示;计算所述第三隐藏表示与所述簇中心之间的距离,并选择距离最短的簇中心对应的簇作为所述在线数据分类的类别。5.根据权利要求1所述的方法,其特征在于,所述数据预处理,包括:使用线性插值方式对多变量时间序列MTS进行填充删除或缺失的值,通过滑动窗口滑动平均算法提取MTS曲线的基线对所述MTS曲线进行平滑,并在所有数据中采用归一化,将每个数据点缩放到[0,1]范围内,所述归一化的公式为:6.根据权利要求1所述的方法,其特征在于,所述特征选择,包括:删除非周期性特征、构建冗余特征矩阵和删除冗余特征。7.根据权利要求6所述的方法,其特征在于,所述删除非周期性特...
【专利技术属性】
技术研发人员:张圣林,李东闻,孙永谦,钟震宇,张玉志,
申请(专利权)人:南开大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。