一种基于分类的异常检测方法和系统技术方案

技术编号:31449477 阅读:18 留言:0更新日期:2021-12-18 11:11
本发明专利技术提供一种基于分类的异常检测方法和系统,该方法包括对正常日志数据和异常日志数据分别进行预处理;分别提取经过预处理的正常日志数据和异常日志数据的特征,在预设时间窗口内对得到的正常日志特征和异常日志特征进行数据挖掘,得到正常频繁项集和异常频繁项集,构建正常行为模型和异常行为模型;对待检测日志数据进行挖掘,获得频繁项集,并将频繁项集与正常行为模型和异常行为模型进行比较,找出异常;该方法和系统提高了异常检测的准确性。性。性。

【技术实现步骤摘要】
一种基于分类的异常检测方法和系统


[0001]本专利技术属于异常检测领域,特别涉及一种基于分类的异常检测方法和系统。

技术介绍

[0002]随着网络信息的发展,用户会拥有很多账号,涉及生活、社交等领域。一旦账户被攻击或者被盗,会给用户带来不便。因此,对账户进行异常检测是非常重要的问题。
[0003]目前常用的检测方法为人工通过预设的检测规则针对每一异常行为进行检测,检测量大,且当异常行为发生变化时,规则不能及时更新,检测准确性降低。

技术实现思路

[0004]为了解决现有技术中存在的问题,本专利技术提供一种基于分类的异常检测方法和系统。
[0005]本专利技术其中一个技术方案提供一种基于分类的异常检测方法,该方法包括如下步骤:
[0006]对正常日志数据和异常日志数据分别进行预处理;
[0007]分别提取经过预处理的正常日志数据和异常日志数据的特征,在预设时间窗口内对得到的正常日志特征和异常日志特征进行数据挖掘,得到正常频繁项集和异常频繁项集,构建正常行为模型和异常行为模型;
[0008]对待检测日志数据进行挖掘,获得频繁项集,并将频繁项集与正常行为模型和异常行为模型进行比较,找出异常。
[0009]进一步改进的方案中,所述对正常日志数据和异常日志数据分别进行预处理包括如下步骤:
[0010]对正常日志数据和异常日志数据分别进行清洗;
[0011]对经过清洗后的正常日志数据和异常日志数据进行数据集成;
[0012]对经过数据集成的正常日志数据和异常日志数据进行压缩处理。
[0013]进一步改进的方案中,所述数据挖掘为利用长周期的频繁项集挖掘算法进行数据挖掘。
[0014]进一步改进的方案中,所述利用长周期的频繁项集挖掘算法进行数据挖掘包括如下步骤:
[0015]将提取的日志数据特征作为候选集,扫描一遍候选集,找到支持率大于等于λ
n,n-1
·
ρ
s
长度为1的所有模式;
[0016]连接这些模式,找到支持率大于等于λ
n,n-2
·
ρ
s
产生长度为2的模式的候选集,以此类推,在第i次迭代中产生一个由长度为i的模式组成的候选集U
i
,其中,这些模式满足支持率大于等于λ
n,n-i
·
ρ
s

[0017]在i+1次迭代中,将候选集U
i
中的模式连接产生i+1的模式的候选集C
i+1
;在C
i+1
的模式中找到支持率大于等于λ
n,n-(i+1)
·
ρ
s
的模式,形成候选集U
i+1
,继续迭代,直到候选集为
空,停止迭代,最终形成的候选集即为频繁项集。
[0018]进一步改进的方案中,所述利用长周期的频繁项集挖掘算法进行数据挖掘还包括如下步骤:
[0019]当迭代后产生的候选集不为空,产生长度为n+1的模式的候选集时,利用APRIORI算法挖掘频繁项集。
[0020]进一步改进的方案中,所述将频繁项集与正常行为模型和异常行为模型进行比较,找出异常包括如下步骤:
[0021]利用正常行为模型内的频繁项集作为学习数据,训练分类器;
[0022]利用训练好的分类器对待测日志数据的频繁项集进行分类;
[0023]获得与正常行为模型内的频繁项集不一致的频繁项集,并与异常行为模型内的频繁项集进行相似度对比,找出属于异常行为模型的频繁项集。
[0024]本专利技术另一个方案提供一种基于分类的异常检测系统,该异常检测系统包括:
[0025]数据预处理模块,被配置为对正常日志数据和异常日志数据分别进行预处理;
[0026]模型构建模块,被配置为分别提取经过预处理的正常日志数据和异常日志数据的特征,在预设时间窗口内对得到的正常日志特征和异常日志特征进行数据挖掘,得到正常频繁项集和异常频繁项集,构建正常行为模型和异常行为模型;
[0027]异常检测模块,被配置为对待检测日志数据进行挖掘,获得频繁项集,并将频繁项集与正常行为模型和异常行为模型进行比较,找出异常。
[0028]本专利技术提供的一种基于分类的异常检测方法和系统,首先对正常日志数据和异常日志数据分别进行预处理,然后分别提取特征,挖掘频繁项集,建立正常行为模型和异常行为模型;将待检测日志数据,利用训练阶段同样的方式找出频繁项集,将其与正常行为模型和异常行为模型进行比较,找出异常,进而提高了异常检测的准确性。
附图说明
[0029]图1为一种基于分类的异常检测方法的流程图;
[0030]图2为对正常日志数据和异常日志数据分别进行预处理的流程图;
[0031]图3为利用长周期的频繁项集挖掘算法进行数据挖掘的流程图;
[0032]图4为对待检测日志数据进行挖掘,获得频繁项集,并将频繁项集与正常行为模型和异常行为模型进行比较,找出异常的流程图;
[0033]图5为一种基于分类的异常检测系统的结构框图。
具体实施方式
[0034]本专利技术其中一些实施例提供一种基于分类的异常检测方法,如图1所示,该异常检测方法包括如下步骤:
[0035]1)对正常日志数据和异常日志数据分别进行预处理;
[0036]步骤1)中,一般情况下,安全设备产生的日志可以认为是有风险但没有发生真正攻击的数据,因此,日常平稳的日志分布可以认为是一种无攻击的状态,被认定为正常日志数据;而当日志分布出现异常不能完全匹配正常状态时,则认为出现了异常攻击,此时日志数据被定义为异常日志数据;
[0037]如图2所示,步骤1)中所述对正常日志数据和异常日志数据分别进行预处理包括如下步骤:
[0038]11)对正常日志数据和异常日志数据分别进行清洗;
[0039]步骤11)中,一般安全设备的日志包括IPS、IDS、防火墙等告警日志;对日志数据进行清洗,主要包括填写缺失值,光滑噪声数据,识别或删除离群点,并解决不一致性;
[0040]12)对经过清洗后的正常日志数据和异常日志数据进行数据集成;
[0041]步骤12)中,代表同一概念的数据通过不同安全设备告警可能使用不一样的形式和命名,数据集成主要解决数据识别、冗余及相关性分析等问题;
[0042]13)对经过数据集成的正常日志数据和异常日志数据进行压缩处理;
[0043]步骤13)中主要对数据特征进行简化,利用降维等方式压缩数据集的规模;
[0044]降维方式包括但不限于线性降维、映射式降维等;
[0045]2)分别提取经过预处理的正常日志数据和异常日志数据的特征,在预设时间窗口内对得到的正常日志特征和异常日志特征进行数据挖掘,得到正常频繁项集和异常频繁项集,构建正常行为模型和异常行为模型;
[0046]针对本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于分类的异常检测方法,其特征在于,所述方法包括如下步骤:对正常日志数据和异常日志数据分别进行预处理;分别提取经过预处理的正常日志数据和异常日志数据的特征,在预设时间窗口内对得到的正常日志特征和异常日志特征进行数据挖掘,得到正常频繁项集和异常频繁项集,构建正常行为模型和异常行为模型;对待检测日志数据进行挖掘,获得频繁项集,并将频繁项集与正常行为模型和异常行为模型进行比较,找出异常。2.如权利要求1所述的基于分类的异常检测方法,其特征在于,所述对正常日志数据和异常日志数据分别进行预处理包括如下步骤:对正常日志数据和异常日志数据分别进行清洗;对经过清洗后的正常日志数据和异常日志数据进行数据集成;对经过数据集成的正常日志数据和异常日志数据进行压缩处理。3.如权利要求1所述的基于分类的异常检测方法,其特征在于,所述数据挖掘为利用长周期的频繁项集挖掘算法进行数据挖掘。4.如权利要求3所述的基于分类的异常检测方法,其特征在于,所述利用长周期的频繁项集挖掘算法进行数据挖掘包括如下步骤:将提取的日志数据特征作为候选集,扫描一遍候选集,找到支持率大于等于λ
n,n-1
·
ρ
s
长度为1的所有模式;连接这些模式,找到支持率大于等于λ
n,n-2
·
ρ
s
产生长度为2的模式的候选集,以此类推,在第i次迭代中产生一个由长度为i的模式组成的候选集U
i
,其中,这些模式满足支持率大于等于λ
n,n-i
·
ρ
s
;在i+1次迭代中,将候选...

【专利技术属性】
技术研发人员:赵静龙春万巍魏金侠杜冠瑶杨帆
申请(专利权)人:中国科学院计算机网络信息中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1