一种基于统计机器学习的CC攻击防护的方法技术

技术编号:20687040 阅读:81 留言:0更新日期:2019-03-27 20:41
本发明专利技术涉及网络安全技术,旨在提供一种基于统计机器学习的CC攻击防护的方法。包括以下步骤:收集正负样本;对样本进行预处理和特征化;使用SVM算法训练,得到算法模型;对生产环节日志实时检测;判断产生访问请求的IP是否在白名单中,如是则结束;如不是,则进一步判断是否为CC攻击;如不是CC攻击则结束,如是CC攻击则封锁该IP,并将识别结果和原始日志传输到大数据处理平台进行存储。与现有技术相比,本发明专利技术的方法检测CC的准确率和召回率达到99.999%以上,很好的检测出CC攻击,并可采取封锁IP的措施,让攻击无法到达源站,从而保护了Web应用的安全,避免因CC攻击导致的损失。

【技术实现步骤摘要】
一种基于统计机器学习的CC攻击防护的方法
本专利技术涉及网络安全技术,特别涉及一种基于统计机器学习的CC攻击防护的方法。
技术介绍
CC(ChallengeCollapsar)攻击是一种通过大量代理服务器发起的HTTP请求的应用层DDos攻击。其原理是对一些消耗资源较高的页面不断的发起请求,以消耗服务器资源,导致Web应用访问速度慢甚至造成服务器无法正常连接。其特点是攻击源IP很分散但又是真实的,而其数据包又是正常的请求行为,所以无法通过数据包本身检测出是CC攻击。机器学习是人工智能的一个分支,其理论主要是设计和分析一些让计算机可以自动“学习”的算法。其算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。机器学习中的SVM(支持向量机supportvectormachine)算法,是在分类与回归分析中分析数据的监督式学习模型与相关的学习算法。给定一组训练样本,每个训练样本被标记为正类或负类,SVM算法通过训练样本训练出算法模型,算法模型将新的样本进行检测,返回0或1(对应正类或负类)。现有防CC攻击的方法一般是通过人为统计IP的访问频率,对访问的IP频率进行限制;或者设定一个全局的IP频率阈值,当某IP访问时超过该阈值就会被认定为攻击。基于阈值防CC攻击的方法的弊端是,无法确定适当的阈值;阈值过高拦不住攻击,阈值过低又会导致误封。本专利技术通过提取访问日志中多个维度的特征,使用机器学习SVM算法,无需人为介入给定阈值即可自动检测出CC攻击。
技术实现思路
本专利技术要解决的技术问题是,克服现有技术中的不足,提供一种基于统计机器学习的CC攻击防护的方法。为解决上述技术问题,本专利技术采用的解决方案是:提供一种基于统计机器学习的CC攻击防护的方法,包括以下步骤:(1)收集正负样本;通过多种途径收集正常访问行为和CC攻击行为的日志;(2)对样本进行预处理和特征化;对日志做预处理,在过滤后仅保留访问类型的日志;然后对日志进行统计,归类CC攻击的行为;通过统计数据,形成样本特征;对正常数据样本标记为0,对CC攻击行为日志标记为1;(3)使用SVM算法训练,得到算法模型;利用统计的样本特征进行机器学习SVM算法,训练得到下述算法模型:式中,各代号或符号的含义为:w为法向量,决定了超平面的方向;T表示对法向量w的转置;x为待预测的数据的特征值,代入公式后即能返回0或1,即正类或负类;b为位移项,决定了超平面与点之间的距离;m表示数据样本条数;i表示,其取值范围1至m;αi为拉格朗日乘子;向量xi为收集来的正负样本进行统计后的特征值;yi为正负样本的标签值;(4)对生产环节日志实时检测;利用算法模型,对生产环节中的日志进行实时检测,具体包括:对实时产生的日志中的字段做统计,统计每个IP过去3秒内的访问次数、该IP占比、该IP访问的URL的占比、该IP请求的URL数据源大小和被请求的URL在过去3s内的占比;把这样一组数据做为一个数据向量特征,作为步骤(3)公式f(x)=wTx+b中的x代入计算,得到f(x)的结果为0或1;如果为0,即正类,表示这条数据对应的IP地址为正常访问;如果为1,即负类表示这条数据对应的IP地址为CC攻击,从而对其封锁,并把相关特征、IP等信息回传到大数据平台存储;(5)判断产生访问请求的IP是否在白名单中,如是则结束;如不是,则进一步判断是否为CC攻击;如不是CC攻击则结束,如是CC攻击则封锁该IP,并将识别结果和原始日志传输到大数据处理平台进行存储。本专利技术中,所述步骤(1)中通过多种途径收集日志是指,通过安全防护平台收集正常行为和CC攻击行为的日志,或者模拟代理对测试目标发起CC攻击,并收集日志。本专利技术中,所述步骤(2)中对日志进行统计时,将具有下述特征的归类为CC攻击的行为:对数据大于设定字节的图片、文档和压缩包发起持续请求;以超过设定数量的分散IP对某个URL集中访问;访问某些URL的集中度高于设定值。专利技术原理描述:本专利技术通过机器学习方法,有效检测出CC攻击并对攻击IP进行封锁,从而保护了Web应用免受CC攻击。经过统计模块对样本清洗和特征提取,传输给机器学习模块并使用SVM算法训练,使用训练出来的模型对CC攻击和正常访问请求作出有效预测,并对检测为CC攻击的IP进行封锁。日志收集分析模块对每日的日志进行筛选后放入日志仓库,供机器学习算法训练使用,提高算法的泛化能力。该专利技术的关键点是收集千万级别CC攻击和正常请求数据的特征,并提取出和CC攻击相关的有效特征。与现有技术相比,本专利技术的技术效果是:采用本专利技术的方法检测CC的准确率和召回率达到99.999%以上,很好的检测出CC攻击,并可采取封锁IP的措施,让攻击无法到达源站,从而保护了Web应用的安全,避免因CC攻击导致的损失。附图说明图1为样本数据在二维空间中使用分隔超平面分隔后,分为正负两类时的图。图2为本专利的实现流程图。具体实施方式下面结合附图,对本专利技术的具体实施方式进行详细描述。首先需要说明的是,本专利技术涉及数据库及网络安全防护技术,是计算机技术在信息安全
的一种应用。在本专利技术的实现过程中,会涉及到多个软件功能模块或集成软硬件的功能模块的应用。申请人认为,如在仔细阅读申请文件、准确理解本专利技术的实现原理和专利技术目的以后,在结合现有公知技术的情况下,本领域技术人员完全可以运用其掌握的软件编程技能实现本专利技术。凡本专利技术申请文件提及的均属此范畴,申请人不再一一列举。本专利技术可能涉及到的术语释义:术语1:泛化能力,是指机器学习训练出来的算法模型对未知数据的检测能力。术语2:CC(ChallengeCollapsar),是一种应用层DDos攻击。术语3:SVM(SupportVectorMachines)支持向量机,是机器学习中一种二分类算法。术语4:召回率和准确率对一个二分问题来说,会出现四种情况:如果实际为真被预测成真,即为真正类(Truepositive,TP)如果实际为假被预测成真,称之为假正类(Falsepositive,FP)如果实际为假被预测成假,称之为真负类(Truenegative,TN)如果实际为真被预测成假,称之为假负类(falsenegative,FN)召回率=TP/(TP+FN)准确率=TP/(TP+FP)术语5:正类,机器学习返回的结果为正常报文为正类。术语6:负类,机器学习返回的结果为攻击报文为负类。术语7:十折交叉验证,用来测试算法准确性的常用测试方法。将数据集分成十份,轮流将其中9份作为训练数据,1份作为测试数据,进行试验。术语8:标签值,指数据的类别,值为0或1,0为正类,表示正常访问;1为负类,表示CC攻击。本专利技术所述基于统计机器学习的CC攻击防护的方法,包括以下步骤:(1)收集正负样本;通过多种途径收集正常访问行为和CC攻击行为的日志;例如,通过安全防护平台收集正常行为和CC攻击行为的日志,或者模拟代理对测试目标发起CC攻击,并收集日志。(2)对样本进行预处理和特征化;对日志做预处理,过滤掉不符合规范的日志;该规范由使用者自定义,用于过滤掉程序启动日志、程序健康检检查日志等不需要的日志,仅保留访问类型的日志。然后对日志进行统计,归类CC攻击的行为;通过统计数据,形成样本特征;对正常数据样本标本文档来自技高网
...

【技术保护点】
1.一种基于统计机器学习的CC攻击防护的方法,其特征在于,包括以下步骤:(1)收集正负样本;通过多种途径收集正常访问行为和CC攻击行为的日志;(2)对样本进行预处理和特征化;对日志做预处理,在过滤后仅保留访问类型的日志;然后对日志进行统计,归类CC攻击的行为;通过统计数据,形成样本特征;对正常数据样本标记为0,对CC攻击行为日志标记为1;(3)使用SVM算法训练,得到算法模型;利用统计的样本特征进行机器学习SVM算法,训练得到下述算法模型:

【技术特征摘要】
1.一种基于统计机器学习的CC攻击防护的方法,其特征在于,包括以下步骤:(1)收集正负样本;通过多种途径收集正常访问行为和CC攻击行为的日志;(2)对样本进行预处理和特征化;对日志做预处理,在过滤后仅保留访问类型的日志;然后对日志进行统计,归类CC攻击的行为;通过统计数据,形成样本特征;对正常数据样本标记为0,对CC攻击行为日志标记为1;(3)使用SVM算法训练,得到算法模型;利用统计的样本特征进行机器学习SVM算法,训练得到下述算法模型:式中,各代号或符号的含义为:w为法向量,决定了超平面的方向;T表示对法向量w的转置;x为待预测的数据的特征值,代入公式后即能返回0或1,即正类或负类;b为位移项,决定了超平面与点之间的距离;m表示数据样本条数;i表示,其取值范围1至m;αi为拉格朗日乘子;向量xi为收集来的正负样本进行统计后的特征值;yi为正负样本的标签值;(4)对生产环节日志实时检测;利用算法模型,对生产环节中的日志进行实时检测,具体包括:对实时产生的日志中的字段做统计,统计每个IP过去3秒内的访问次数、该IP占比、该IP访问的URL的占比、该IP...

【专利技术属性】
技术研发人员:潘利民范渊
申请(专利权)人:杭州安恒信息技术股份有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1