【技术实现步骤摘要】
一种基于日志信息的集装箱行业电商网站攻击识别方法
[0001]本专利技术涉及网络安全
,具体涉及一种基于日志信息的集装箱行业电商网站攻击识别方法
。
技术介绍
[0002]集装箱行业的电子商务平台在每天面对大量用户访问的同时,也会遇到不法人员的攻击,主要包括频繁调用货物跟踪,船期查询等航运网站通用功能,用户检查接口获取网站用户信息,上传脚本文件等
。
这些请求往往有着正确的请求方式,难以被
WAF
,
CDN
等发现并及时拦截,造成一定程度上的网站数据被爬取和恶意访问
。
[0003]现有技术利用集装箱行业电商网站日志平台记录的日志信息去设置一些简单的报警规则:例如,登录账号密码输入错误次数达到阈值后告警;同一
IP
在一定时间范围内请求达到一定次数后告警,或者同一
IP
访问某一
URL
在一定时间范围内请求达到一定次数后告警等
。
然而,这些报警规则的功能比较单一,不能基于集装箱行业电商网站特性去综合分析一个
IP
的行为,存在遗漏和误判的可能性较大,还需人工去分析日志信息并判断一个
IP
是否为攻击或者爬虫
IP。
因此,亟需针对集装箱行业电子商务平台的特点,定制一套完整的监控预警方法
。
技术实现思路
[0004]本专利技术解决现有技术不能基于集装箱行业电商网站特性综合分析一个
IP >的行为,导致集装箱行业电商网站攻击被遗漏和误判的问题,提出一种基于日志信息的集装箱行业电商网站攻击识别方法,针对集装箱行业电子商务平台的特点,基于集装箱行业电商网站记录的日志信息,自动判断识别可疑用户
IP
,实现及时的报警与监控
。
[0005]本专利技术要求保护的技术方案如下:
[0006]一种基于日志信息的集装箱行业电商网站攻击识别方法,包括如下步骤:
[0007]S1
:数据收集:收集一批被判定为攻击行为的
IP
的日志信息,作为反例,收集一批正常行为的
IP
的日志信息,作为正例;所述正例和反例的数目相同;
[0008]S2
:特征提取和数据预处理:将
S1
收集的日志信息,针对集装箱行业电商网站的日志信息的特点,针对同一
IP
根据日志特征提取其对应的所有日志特征信息,并对同一
IP
对应的各日志特征信息进行整理,然后汇总;
[0009]S3
:数据拆分:
S1
中正例和反例经
S2
处理后各取相同比例作为训练集,剩余的作为测试集;
[0010]S4
:模型训练:根据
S3
中得到的训练集,采用
SVM
算法,进行模型训练,初步得到
SVM
分类模型;
[0011]S5
:模型效果测试:根据评价标准计算模型效果,计算
S4
中初步得到
SVM
分类模型的效果,若评价指标达到设置值,则模型训练完成;否则,回到
S4
重新进行模型训练;
[0012]S6
:监控与报警:
S5
训练完成的
SVM
分类模型对实时获取的所有
IP
对应的日志信息
分别进行预测,自动识别攻击行为的
IP
,并对攻击行为的
IP
进行监控和报警;
[0013]S61
:设置定时任务,获取集装箱行业电商网站中某一时间段内的所有
IP
对应的日志信息;
[0014]S62
:
S61
得到的所有
IP
对应的日志信息进行
S2
所述特征提取和数据预处理;
[0015]S63
:通过
S5
训练完成的
SVM
分类模型对
S62
处理后的同一
IP
的日志信息进行预测,判断是否存在攻击行为的
IP
;
[0016]S64
:对判定为攻击行为的
IP
,进行监测和报警
。
[0017]优选地,
S1
中所述被判定为攻击行为的
IP
,包括
CDN
识别到的攻击行为的
IP
和电商网站的应用服务器判定的攻击行为的
IP。
[0018]优选地,
S1
中所述日志信息包括
IP
,
URL
,请求方式,请求时间,
User
‑
Agent
,返回状态
。
[0019]优选地,
S2
中所述的日志特征信息包括请求次数
、
是否调用上传接口
、
上传接口的次数
、
上传不合规的文件数目
、
登录错误次数
、
验证码错误次数
、http
请求方法
、
调用
API
的方式
、
响应状态码非
20x/30x
次数
、
平均每分钟是否以固定频率访问
、
请求包含攻击
/
测试信息
、User
‑
Agent
中信息以及请求货物跟踪
/
船期查询等重要查询功能的次数
。
[0020]优选地,
S3
中训练集从正例和反例中各取
80
%,其余的作为测试集;所述训练集采用
SVM
算法训练得到
SVM
分类模型
。
[0021]S5
模型测试效果使用
F1
值作为方法性能的评价指标,所述
F1
的计算公式为:
[0022]F1
=
2PR/(P+R)
[0023]其中,
P
是精确率,
R
是召回率;所述精准率代表对正样本结果中的预测准确程度;所述召回率指分类正确的正样本个数占正样本个数的比例;所述精确率和召回率的计算公式如下:
[0024]精确率:
P
=
TP/(TP+FP)
[0025]召回率:
R
=
TP/(TP+FN)
[0026]其中,
TP
代表预测正确的正例样本数量,
FP
代表预测错误的反例样本数量,
FN
代表预测错误的正例样本数量
。
[0本文档来自技高网...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.
一种基于日志信息的集装箱行业电商网站攻击识别方法,其特征在于,包括如下步骤:
S1
:数据收集:收集一批被判定为攻击行为的
IP
的日志信息,作为反例,收集一批正常行为的
IP
的日志信息,作为正例;所述正例和反例的数目相同;
S2
:特征提取和数据预处理:将
S1
收集的日志信息,针对集装箱行业电商网站的日志信息的特点,针对同一
IP
根据日志特征提取其对应的所有日志特征信息,并对同一
IP
对应的各日志特征信息进行整理,然后汇总;
S3
:数据拆分:
S1
中正例和反例经
S2
处理后各取相同比例作为训练集,剩余的作为测试集;
S4
:模型训练:根据
S3
中得到的训练集,采用
SVM
算法,进行模型训练,初步得到
SVM
分类模型;
S5
:模型效果测试:根据评价标准计算模型效果,计算
S4
中初步得到
SVM
分类模型的效果,若评价指标达到设置值,则模型训练完成;否则,回到
S4
重新进行模型训练;
S6
:监控与报警:
S5
训练完成的
SVM
分类模型对实时获取的所有
IP
对应的日志信息分别进行预测,自动识别攻击行为的
IP
,并对攻击行为的
IP
进行监控和报警;
S61
:设置定时任务,获取集装箱行业电商网站中某一时间段内的所有
IP
对应的日志信息;
S62
:
S61
得到的所有
IP
对应的日志信息进行
S2
所述特征提取和数据预处理;
S63
:通过
S5
训练完成的
SVM
分类模型对
S62
处理后的同一
IP
的日志信息进行预测,判断是否存在攻击行为的
IP
;
S64
:对判定为攻击行为的
IP
,进行监测和报警
。2.
根据权利要求1所述的基于日志信息的集装箱行业电商网站攻击识别方法,其特征在于,
S1
中所述被判定为攻击行为的
IP
,包括
CDN
识别到的攻击行为的
IP
和电商网站的应用服务器判定的攻击行为的
IP。3.
根据权利要求2所述的基于日志信息的集装箱行业电商网站攻击识别方法,其特征在于,
S1
中所述日志信息包括
IP
,
URL
,请求方式,请求时间,
User
技术研发人员:王暄,许之伟,
申请(专利权)人:上海中远海运资讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。