当前位置: 首页 > 专利查询>嘉应学院专利>正文

一种基于语义分析及向量化大数据的XSS入侵识别方法技术

技术编号:27878608 阅读:30 留言:0更新日期:2021-03-31 01:05
本发明专利技术公开了一种基于语义分析及向量化大数据的XSS入侵识别方法,首先,利用自然语言处理方法进行了数据获取、数据清洗、数据抽样以及特征提取等数据预处理;其次,基于神经网络的词向量化算法,实现了词向量化得到词向量大数据;再次,利用不同深度的深层神经网络智能检测算法实现了安全防护检测;最后,通过设计不同的超参数并对模型进行训练,得到了最大识别率、最低识别率、识别率均值、方差、标准差、识别率变化过程曲线图、损失误差变化过程曲线图和词向量样本余弦距离变化曲线图等结果。结果证明本发明专利技术的提出的XSS入侵识别方法识别率高,稳定性好,总体性能优良。

【技术实现步骤摘要】
一种基于语义分析及向量化大数据的XSS入侵识别方法
本专利技术属于入侵识别检测
,具体涉及一种基于语义分析及向量化大数据的XSS入侵识别方法。
技术介绍
近年来,随着大数据技术的发展,在产生大量数据的同时,网络空间的形势愈发严峻。基于WEB应用的攻击逐渐成为主要攻击,例如最常见有跨站脚本攻击(Cross-SiteScripting,XSS)。目前传统的检测方法是利用病毒特征库中的已有特征,通过提取相应样本的特征,在病毒库搜索比较是否存在相匹配的特征来确定病毒。而这种基于检测方法存在局限性:规则库的建立与维护需要耗费人力物力,且这种方法适合检测已知病毒,难以检测新出现的病毒,而在大数据安全中这种检测方法极大影响了检测效率。随着机器学习不断发展,利用深度学习网络强大的自适应性、自学习能力在网络安全监测上将成为主流趋势,其能够检测未知特征的攻击行为,从而提高检测率。因此,如何在面向大数据时,为弥补传统算法存在的不足,提出一种更加先进的针对XSS攻击的入侵识别方法是目前亟待解决的问题。
技术实现思路
针对上述存在的问题,本专利技术旨在提供一种基于语义分析及向量化大数据的XSS入侵识别方法,利用深度学习网络强大的自适应性、自学习能力,设计深层神经网络算法来实现安全防护检测,通过大数据训练模型从而实现智能检测。为实现本专利技术目的,本专利技术的技术解决方案为:一种基于语义分析及向量化大数据的XSS入侵识别方法,其特征在于,包括以下步骤:步骤1:获取待检测数据,进行文本切割、清洗、分词、词性标注、去停用词,得到预处理后的数据;步骤2:构建基于连续词袋模型CBOW实现的词向量化模型,采用词向量化算法将预处理后的数据映射为分布式词向量;步骤3:将词向量化的样本进行统计,得到正样本数据集和负样本数据集,并将两个数据集合并得到词向量化大数据样本集,且将大数据样本集随机划分为训练集和测试集,数量比为7:3;步骤4:将词向量化大数据样本集中的样本输入到不同深度的深层神经网络DNN中进行训练,确定各深层所述深层神经网络DNN中的各项超参数;步骤5:实时采集HTTP请求的数据,对HTTP请求进行攻击检测,识别入侵攻击行为。本方法与现有技术相比,具有以下有益效果:本专利技术利用自然语言处理方法进行数据获取,数据清洗,数据抽样,特征提取等数据预处理;并设计了基于神经网络的词向量化算法,实现了词向量化得到词向量大数据;利用不同深度的深层神经网络DNN进行超参数调整,通过该深层神经网络DNN检测算法能够对XSS攻击能够进行智能监测;通过实验结果可以看出,本专利技术提出的检测方法具有识别率高,稳定性好,总体性能优良等优点。附图说明图1是基于语义情景分析与机器学习的入侵智能检测原理图;图2是对第Ⅰ类大数据集基于不同的学习率μ进行20次实验时得到的识别率曲线图;图3是对第Ⅱ类大数据集基于不同的学习率μ进行20次实验时得到的识别率曲线图;图4是对第Ⅰ类大数据集基于不同的BatchSize进行20次实验时得到的识别率曲线图;图5是对第Ⅱ类大数据集基于不同的BatchSize进行20次实验时得到的识别率曲线图;图6是对第Ⅰ类大数据集基于加嵌入层进行20次实验时得到的识别率曲线图;图7是对第Ⅱ类大数据集基于加嵌入层进行20次实验时得到的识别率曲线图;图8是对于第Ⅰ和Ⅱ类大数据集基于不同学习率μ的识别率均值条形图;图9是对于第Ⅰ和Ⅱ类大数据集基于不同学习率μ的标准差条形图;图10是对于第Ⅰ和Ⅱ类大数据集基于不同BatchSize的识别率均值条形图;图11是对于第Ⅰ和Ⅱ类大数据集基于不同BatchSize的标准差条形图;图12是对于第Ⅰ和Ⅱ类大数据集基于加嵌入层的识别率均值条形图;图13是对于第Ⅰ和Ⅱ类大数据集基于加嵌入层的标准差条形图;图14是损失误差变化曲线图;图15是余弦距离变化曲线图。具体实施方式为了使本领域的普通技术人员能更好的理解本专利技术的技术方案,下面结合附图和实施例对本专利技术的技术方案做进一步的描述。1、大数据处理和建模Web入侵检测本质上是对访问流量语料大数据进行分析。首先,进行自然语言处理,对数据进行处理和建模;其次,词向量化,将处理后的数据映射到向量空间,将攻击报文转换成类似于图像数据即像素的矩阵,以及将字符串序列样本转换成具有一定维度值的向量;再次,对词向量进行数值化的特征提取和分析;最后,模型训练,数值分析,实现用户行为分析、网络流量分析和欺诈检测,过程如附图1所示。1.1语料大数据获取实验数据包括:①正样本大数据(带有攻击行为),利用爬虫工具从网站http://xssed.com/爬取获得,由Payload数据组成;②负样本大数据(正常网络请求),为了体现特殊性和普遍性,共收集了两份数据,一份来自本单位网络中心从去年5月份到12月份的访问日志大数据;另一份是从各网络平台通过网络爬虫获得,它们都是未处理的语料大数据。1.2大数据处理利用基于神经网络的词向量化(Word2vec)工具——连续词袋模型(ContinousBagofWordsModel,CBOW)实现大数据语料处理,进行文本切割、清洗、分词、词性标注、去停用词、词向量化,把独热编码(One-hotEncoded)的词向量映射为分布式形式的词向量,降低了维数,减少了稀疏性,同时通过求向量间的欧氏距离或夹角余弦值可以得出任何词间的关联度。具体处理过程如下:首先,遍历数据集,将数字全部用“0”替换,把http/、HTTP/、https/、HTTPS用“http://”替换,再按照html标签、JavaScript函数体、http://和参数规则进行分词;基于日记文档构建词汇表(vocabulary),再对单词进行独热编码(One-hotEncoded);其次,构建词向量化的模型,输入样本,获得分布式词向量;再次,统计正样本词集,用词频最高的词构成词库,再进行多次迭代;因为每条数据所占字符长度各不相同,以所占字符长度最多为标准,不足则以-1填充,在为数据集设计标签时,使用One-Hot编码,正样本标签即属于攻击样本的以1表示,负样本标签即正常网络请求以0表示。最后,经以上处理,可获得正样本数据集40637条,负样本数据集分别为105912条和200129条,它们数量大、计算复杂性高,是大数据。2、算法实现2.1词向量化算法设计利用CBOW实现词向量,即已知上下文词语预测当前词语出现的概率。因此最大化对数似然函数:其中,w为语料库C中的词;利用HierarchicalSoftmax方法先计算w的条件概率,如下:其中,pw表示路径,lw表示节点个数;表示路径中的各个结点;表示词w的编码;表示路径中第j个结点对应的编码,表示路径上非叶子节点本文档来自技高网...

【技术保护点】
1.一种基于语义分析及向量化大数据的XSS入侵识别方法,其特征在于,包括以下步骤:/n步骤1:获取待检测数据,进行文本切割、清洗、分词、词性标注、去停用词,得到预处理后的数据;/n步骤2:构建基于连续词袋模型CBOW实现的词向量化模型,采用词向量化算法将预处理后的数据映射为分布式词向量;/n步骤3:将词向量化的样本进行统计,得到正样本数据集和负样本数据集,并将两个数据集合并得到词向量化大数据样本集,且将大数据样本集随机划分为训练集和测试集,数量比为7:3;/n步骤4:将词向量化大数据样本集中的样本输入到不同深度的深层神经网络DNN中进行训练,确定各深层所述深层神经网络DNN中的各项超参数;/n步骤5:实时采集HTTP请求的数据,对HTTP请求进行攻击检测,识别入侵攻击行为。/n

【技术特征摘要】
1.一种基于语义分析及向量化大数据的XSS入侵识别方法,其特征在于,包括以下步骤:
步骤1:获取待检测数据,进行文本切割、清洗、分词、词性标注、去停用词,得到预处理后的数据;
步骤2:构建基于连续词袋模型CBOW实现的词向量化模型,采用词向量化算法将预处理后的数据映射为分布式词向量;
步骤3:将词向量化的样本进行统计,得到正样本数据集和负样本数据集,并将两个数据集合并得到词向量化大数据样本集,且将大数据样本集随机划分为训练集和测试集,数量比为7:3;
步骤4:将词向量化大数据样本集中的样本输入到不同深度的深层神经网络DNN中进行训练,确定各深层所述深层神经网络DNN中的各项超参数;
步骤5:实时采集HTTP请求的数据,对HTTP请求进行攻击检测,识别入侵攻击行为。


2.根据权利要求1所述的一种基于语义分析及向量化大数据的XSS入侵识别方法,其特征在于,步骤1的具体操作步骤包括:
步骤11:遍历数据集,将数字用“0”替换,将http/、HTTP/、https/、HTTPS用“http://”替换;
步骤12:按照html标签、JavaScript函数体、http://和参数规则进行分词;
步骤13:基于日记文档构建词汇表,再对单词进行独热编码,得到处理后的样本数据。


3.根据权利要求2所述的一种基于语义分析及向量化大数据的XSS入侵识别方法,其特征在于,步骤2所述的词向量算法的具体操作步骤包括:
S21:设定词向量化模型的最大化对数似然函数,其公式为:



其中,w为语料库C中的词;
利用HierarchicalSoftmax方法先计算w的条件概率,如下:



其中,pw表示路径,l...

【专利技术属性】
技术研发人员:张海军陈映辉
申请(专利权)人:嘉应学院
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1