一种基于语义分析及向量化大数据的XSS入侵识别方法技术

技术编号：27878608 阅读：43 留言：0更新日期：2021-03-31 01:05

本发明专利技术公开了一种基于语义分析及向量化大数据的XSS入侵识别方法，首先，利用自然语言处理方法进行了数据获取、数据清洗、数据抽样以及特征提取等数据预处理；其次，基于神经网络的词向量化算法，实现了词向量化得到词向量大数据；再次，利用不同深度的深层神经网络智能检测算法实现了安全防护检测；最后，通过设计不同的超参数并对模型进行训练，得到了最大识别率、最低识别率、识别率均值、方差、标准差、识别率变化过程曲线图、损失误差变化过程曲线图和词向量样本余弦距离变化曲线图等结果。结果证明本发明专利技术的提出的XSS入侵识别方法识别率高，稳定性好，总体性能优良。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于语义分析及向量化大数据的XSS入侵识别方法
本专利技术属于入侵识别检测
，具体涉及一种基于语义分析及向量化大数据的XSS入侵识别方法。
技术介绍
近年来，随着大数据技术的发展，在产生大量数据的同时，网络空间的形势愈发严峻。基于WEB应用的攻击逐渐成为主要攻击，例如最常见有跨站脚本攻击(Cross-SiteScripting，XSS)。目前传统的检测方法是利用病毒特征库中的已有特征，通过提取相应样本的特征，在病毒库搜索比较是否存在相匹配的特征来确定病毒。而这种基于检测方法存在局限性：规则库的建立与维护需要耗费人力物力，且这种方法适合检测已知病毒，难以检测新出现的病毒，而在大数据安全中这种检测方法极大影响了检测效率。随着机器学习不断发展，利用深度学习网络强大的自适应性、自学习能力在网络安全监测上将成为主流趋势，其能够检测未知特征的攻击行为，从而提高检测率。因此，如何在面向大数据时，为弥补传统算法存在的不足，提出一种更加先进的针对XSS攻击的入侵识别方法是目前亟待解决的问题。
技术实现思路
针对上述存在的问题，本专利技术旨在提供一种基于语义分析及向量化大数据的XSS入侵识别方法，利用深度学习网络强大的自适应性、自学习能力，设计深层神经网络算法来实现安全防护检测，通过大数据训练模型从而实现智能检测。为实现本专利技术目的，本专利技术的技术解决方案为：一种基于语义分析及向量化大数据的XSS入侵识别方法，其特征在于，包括以下步骤：步骤1：获取待检测数据，进行...

【技术保护点】
1.一种基于语义分析及向量化大数据的XSS入侵识别方法，其特征在于，包括以下步骤：/n步骤1：获取待检测数据，进行文本切割、清洗、分词、词性标注、去停用词，得到预处理后的数据；/n步骤2：构建基于连续词袋模型CBOW实现的词向量化模型，采用词向量化算法将预处理后的数据映射为分布式词向量；/n步骤3：将词向量化的样本进行统计，得到正样本数据集和负样本数据集，并将两个数据集合并得到词向量化大数据样本集，且将大数据样本集随机划分为训练集和测试集，数量比为7:3；/n步骤4：将词向量化大数据样本集中的样本输入到不同深度的深层神经网络DNN中进行训练，确定各深层所述深层神经网络DNN中的各项超参数；/n步骤5：实时采集HTTP请求的数据，对HTTP请求进行攻击检测，识别入侵攻击行为。/n

【技术特征摘要】
1.一种基于语义分析及向量化大数据的XSS入侵识别方法，其特征在于，包括以下步骤：
步骤1：获取待检测数据，进行文本切割、清洗、分词、词性标注、去停用词，得到预处理后的数据；
步骤2：构建基于连续词袋模型CBOW实现的词向量化模型，采用词向量化算法将预处理后的数据映射为分布式词向量；
步骤3：将词向量化的样本进行统计，得到正样本数据集和负样本数据集，并将两个数据集合并得到词向量化大数据样本集，且将大数据样本集随机划分为训练集和测试集，数量比为7:3；
步骤4：将词向量化大数据样本集中的样本输入到不同深度的深层神经网络DNN中进行训练，确定各深层所述深层神经网络DNN中的各项超参数；
步骤5：实时采集HTTP请求的数据，对HTTP请求进行攻击检测，识别入侵攻击行为。

2.根据权利要求1所述的一种基于语义分析及向量化大数据的XSS入侵识别方法，其特征在于，步骤1的具体操作步骤包括：
步骤11：遍历数据集，将数字用“0”替换，将http/、HTTP/、https/、HTTPS用“http://”替换；
步骤12：按照html标签、JavaScript函数体、http://和参数规则进行分词；
步骤13：基于日记文档构建词汇表，再对单词进行独热编码，得到处理后的样本数据。

3.根据权利要求2所述的一种基于语义分析及向量化大数据的XSS入侵识别方法，其特征在于，步骤2所述的词向量算法的具体操作步骤包括：
S21：设定词向量化模型的最大化对数似然函数，其公式为：

其中，w为语料库C中的词；
利用HierarchicalSoftmax方法先计算w的条件概率，如下：

其中，pw表示路径，l...

【专利技术属性】
技术研发人员：张海军，陈映辉，
申请(专利权)人：嘉应学院，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人