一种基于统计机器学习的CC攻击防护的方法技术

技术编号：20687040 阅读：81 留言：0更新日期：2019-03-27 20:41

本发明专利技术涉及网络安全技术，旨在提供一种基于统计机器学习的CC攻击防护的方法。包括以下步骤：收集正负样本；对样本进行预处理和特征化；使用SVM算法训练，得到算法模型；对生产环节日志实时检测；判断产生访问请求的IP是否在白名单中，如是则结束；如不是，则进一步判断是否为CC攻击；如不是CC攻击则结束，如是CC攻击则封锁该IP，并将识别结果和原始日志传输到大数据处理平台进行存储。与现有技术相比，本发明专利技术的方法检测CC的准确率和召回率达到99.999％以上，很好的检测出CC攻击，并可采取封锁IP的措施，让攻击无法到达源站，从而保护了Web应用的安全，避免因CC攻击导致的损失。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于统计机器学习的CC攻击防护的方法
本专利技术涉及网络安全技术，特别涉及一种基于统计机器学习的CC攻击防护的方法。
技术介绍
CC(ChallengeCollapsar)攻击是一种通过大量代理服务器发起的HTTP请求的应用层DDos攻击。其原理是对一些消耗资源较高的页面不断的发起请求，以消耗服务器资源，导致Web应用访问速度慢甚至造成服务器无法正常连接。其特点是攻击源IP很分散但又是真实的，而其数据包又是正常的请求行为，所以无法通过数据包本身检测出是CC攻击。机器学习是人工智能的一个分支，其理论主要是设计和分析一些让计算机可以自动“学习”的算法。其算法是一类从数据中自动分析获得规律，并利用规律对未知数据进行预测的算法。机器学习中的SVM(支持向量机supportvectormachine)算法，是在分类与回归分析中分析数据的监督式学习模型与相关的学习算法。给定一组训练样本，每个训练样本被标记为正类或负类，SVM算法通过训练样本训练出算法模型，算法模型将新的样本进行检测，返回0或1(对应正类或负类)。现有防CC攻击的方法一般是通过人为统计IP的访问频率，对访问的IP频率进行限制；或者设定一个全局的IP频率阈值，当某IP访问时超过该阈值就会被认定为攻击。基于阈值防CC攻击的方法的弊端是，无法确定适当的阈值；阈值过高拦不住攻击，阈值过低又会导致误封。本专利技术通过提取访问日志中多个维度的特征，使用机器学习SVM算法，无需人为介入给定阈值即可自动检测出CC攻击。
技术实现思路
本专利技术要解决的技术问题是，克服现有技术中的不足，提供一种基于统计机器学习的CC攻击...

【技术保护点】
1.一种基于统计机器学习的CC攻击防护的方法，其特征在于，包括以下步骤：(1)收集正负样本；通过多种途径收集正常访问行为和CC攻击行为的日志；(2)对样本进行预处理和特征化；对日志做预处理，在过滤后仅保留访问类型的日志；然后对日志进行统计，归类CC攻击的行为；通过统计数据，形成样本特征；对正常数据样本标记为0，对CC攻击行为日志标记为1；(3)使用SVM算法训练，得到算法模型；利用统计的样本特征进行机器学习SVM算法，训练得到下述算法模型：

【技术特征摘要】
1.一种基于统计机器学习的CC攻击防护的方法，其特征在于，包括以下步骤：(1)收集正负样本；通过多种途径收集正常访问行为和CC攻击行为的日志；(2)对样本进行预处理和特征化；对日志做预处理，在过滤后仅保留访问类型的日志；然后对日志进行统计，归类CC攻击的行为；通过统计数据，形成样本特征；对正常数据样本标记为0，对CC攻击行为日志标记为1；(3)使用SVM算法训练，得到算法模型；利用统计的样本特征进行机器学习SVM算法，训练得到下述算法模型：式中，各代号或符号的含义为：w为法向量，决定了超平面的方向；T表示对法向量w的转置；x为待预测的数据的特征值，代入公式后即能返回0或1，即正类或负类；b为位移项，决定了超平面与点之间的距离；m表示数据样本条数；i表示，其取值范围1至m；αi为拉格朗日乘子；向量xi为收集来的正负样本进行统计后的特征值；yi为正负样本的标签值；(4)对生产环节日志实时检测；利用算法模型，对生产环节中的日志进行实时检测，具体包括：对实时产生的日志中的字段做统计，统计每个IP过去3秒内的访问次数、该IP占比、该IP访问的URL的占比、该IP...

【专利技术属性】
技术研发人员：潘利民，范渊，
申请(专利权)人：杭州安恒信息技术股份有限公司，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人