文件传输漏洞检测方法、装置、电子设备及存储介质制造方法及图纸

技术编号:32831673 阅读:8 留言:0更新日期:2022-03-26 20:45
本申请提供一种文件传输漏洞检测方法、装置、电子设备及存储介质,涉及网络安全技术领域,该方法包括:从传输的文件内容中提取特征字词,基于所述特征字词的长度对所述字词进行归一化处理,确定所述字词的权重;统计每个所述字词的词频,并根据所述字词的词频、所述字词在文件集中的重要指数以及所述字词的权重确定所述字词的特征值,所述特征值表征所述字词对所述文件内容的重要程度;将所述特征值输入预设分类模型,得到分类结果,基于所述分类结果确定是否存在文件传输漏洞攻击行为。采用本申请实施例提供的方法能够提高文件传输漏洞攻击行为检测的准确率。洞攻击行为检测的准确率。洞攻击行为检测的准确率。

【技术实现步骤摘要】
文件传输漏洞检测方法、装置、电子设备及存储介质


[0001]本申请涉及网络安全领域,具体而言,涉及一种文件传输漏洞检测方法、装置、电子设备及存储介质。

技术介绍

[0002]在日常可访问的网页中,文件传输是一个很常见的功能:例如附件上传、发布照片、提交报告或上传文档等情况,都会涉及到文件传输功能。而如果服务端并没有对用户提交的文件数据进行严格过滤,会导致包含有恶意代码的文件被上传并执行,从而控制后台系统服务器,会影响系统以及用户信息的安全性。通过上传文件漏洞的攻击行为特征对原始特征的扰动幅度较小,目前常用的基于字符特征匹配和基于统计特征检测等检测方法进行检测性能时,会存在误报的情况,存在文件传输漏洞攻击行为检测准确率低,文件传输安全性低的问题。

技术实现思路

[0003]本申请实施例的目的在于提供一种文件传输漏洞检测方法、装置、电子设备及存储介质,用以提高文件传输漏洞攻击行为检测的准确率。
[0004]第一方面,本申请实施例提供一种文件传输漏洞检测方法,包括:
[0005]从传输的文件内容中提取特征字词,基于所述特征字词的长度对所述字词进行归一化处理,确定所述字词的权重;
[0006]统计每个所述字词的词频,并根据所述字词的词频、所述字词在文件集中的重要指数以及所述字词的权重确定所述字词的特征值,所述特征值表征所述字词对所述文件内容的重要程度;
[0007]将所述特征值输入预设分类模型,得到分类结果,基于所述分类结果确定是否存在文件传输漏洞攻击行为。
[0008]在上述实现过程中,综合字词的权重、字词出现的词频以及字词在文件集中的重要指数评价该字词对于传输的文件的重要程度,能够使得到的特征值更能代表该字词对文本的相关性,能够提升将特征值作为分类模型的输入得到的分类结果的准确性,提高文件传输漏洞攻击行为检测的准确率,降低检测误报以及漏报的情况,从而提高文件传输的安全性。
[0009]可选地,在所述从传输的文件内容中提取特征字词之前,所述方法可以包括:
[0010]根据接收到用户的文件上传请求从网关流量数据中获取报文数据,并从所述报文中获取文件名称;
[0011]从所述文件名称中提取文件后缀名,将所述文件后缀名与预设名单库进行匹配,确定所述文件权限;
[0012]在所述文件权限为可执行时,基于所述文件名称从所述数据报文中获取文件内容。
[0013]在上述实现过程中,通过预设名单库且基于文件名称对传输数据进行预检测,能够直接过滤一部分已知或常见的文件传输漏洞攻击行为,能够节省计算资源,降低后续检测步骤的运算量,从而提高文件传输漏洞攻击行为检测的效率。
[0014]可选地,所述确定所述字词的权重可以包括:
[0015]根据所述字词的长度和所述文件中特征词的最大长度确定所述字词的权重。
[0016]可选地,所述统计每个所述字词的词频,并根据所述字词的词频、所述字词在文件集中的重要指数以及所述字词的权重确定所述字词的特征值可以包括:
[0017]根据TF

IDF算法分别计算每个字词的TF值和IDF值,将所述TF值作为所述字词的词频,将所述IDF值作为所述字词在所述文件集中的重要指数;
[0018]基于所述字词的TF值、IDF值和权重确定所述字词的特征值。
[0019]在上述实现过程中,结合TF

IDF算法,综合考虑字词长度的影响,重新计算字词的权重从而得到本申请实施例中的字词特征值,能够使得到的特征值更能代表该字词对文本的相关性,提升将特征值作为分类模型的输入得到的分类结果的准确性,从而能够提高文件传输漏洞攻击行为检测的准确率,提高文件传输的安全性。
[0020]可选地,所述预设分类模型可以为随机森林算法模型,在所述将所述特征值输入预设分类模型之前,所述方法可以包括:
[0021]基于预设抽样算法对原始训练集进行多次采样,得到多个训练集;
[0022]分别基于一个所述训练集训练一个初始决策树模型,对于一个初始决策树模型,随机从所述训练集中选取预设个数的特征子集,每次树进行分裂时,从所述特征子集中选择特征指数最高的特征进行分裂,以生成训练完成的决策树模型;
[0023]将生成的多个决策树模型组成目标随机森林算法模型。
[0024]在上述实现过程中,采用抽样算法对原始数据集进行采样,得到训练集,基于训练集对决策树进行训练,从而得到训练完成的目标随机森林算法模型,基于目标随机森林算法模型的分类确定是否存在文件传输漏洞攻击行为,能够提高文件传输漏洞攻击行为检测的准确率,降低检测误报以及漏报的情况,从而提高文件传输的安全性。
[0025]可选地,所述特征指数可以为基尼指数,所述方法还可以包括:
[0026]基于公式计算所述基尼指数,在所述公式中,Gini(p)为基尼指数,K为所述决策树的种类总数,k为所述决策树的种类,p
k
为训练样本属于第k类的概率。
[0027]在上述实现过程中,以基尼指数作为决策树模型分裂的基准,能够提高决策树分类的准确性,提高文件传输漏洞攻击行为检测的准确率。
[0028]可选地,所述方法还可以包括:在所述文件名称与预设名单库的匹配结果表示所述文件不匹配或在确定存在文件传输漏洞攻击行为时,将所述文件权限修改为不可执行。
[0029]第二方面,本申请实施例提供一种文件传输漏洞检测装置,包括:
[0030]权重模块,用于从传输的文件内容中提取特征字词,基于所述特征字词的长度对所述字词进行归一化处理,确定所述字词的权重;
[0031]特征值计算模块,用于统计每个所述字词的词频,并根据所述字词的词频、所述字词在文件集中出现的次数以及所述字词的权重确定所述字词的特征值,所述特征值表征所述字词对所述文件内容的重要程度;
[0032]分类模块,用于将所述特征值输入预设分类模型,得到分类结果,基于所述分类结果确定是否存在文件传输漏洞攻击行为。
[0033]在上述实现过程中,综合字词的权重、字词出现的词频以及字词在文件集中的重要指数评价该字词对于传输的文件的重要程度,能够使得到的特征值更能代表该字词对文本的相关性,能够提升将特征值作为分类模型的输入得到的分类结果的准确性,提高文件传输漏洞攻击行为检测的准确率,降低检测误报以及漏报的情况,从而提高文件传输的安全性。
[0034]可选地,文件传输漏洞检测装置还可以包括:
[0035]预检测模块,用于根据接收到用户的文件上传请求从网关流量数据中获取报文数据,并从所述报文中获取文件名称;从所述文件名称中提取文件后缀名,将所述文件后缀名与预设名单库进行匹配,确定所述文件权限;在所述文件权限为可执行时,基于所述文件名称从所述数据报文中获取文件内容。
[0036]在上述实现过程中,通过预设名单库且基于文件名称对传输数据进行预检测,能够直接过滤一部分已知或常见的文件传输漏洞攻击行为,能够节省计算资源本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文件传输漏洞检测方法,其特征在于,包括:从传输的文件内容中提取特征字词,基于所述特征字词的长度对所述字词进行归一化处理,确定所述字词的权重;统计每个所述字词的词频,并根据所述字词的词频、所述字词在文件集中的重要指数以及所述字词的权重确定所述字词的特征值,所述特征值表征所述字词对所述文件内容的重要程度;将所述特征值输入预设分类模型,得到分类结果,基于所述分类结果确定是否存在文件传输漏洞攻击行为。2.根据权利要求1所述的方法,其特征在于,在所述从传输的文件内容中提取特征字词之前,所述方法包括:根据接收到用户的文件上传请求从网关流量数据中获取报文数据,并从所述报文中获取文件名称;从所述文件名称中提取文件后缀名,将所述文件后缀名与预设名单库进行匹配,确定所述文件权限;在所述文件权限为可执行时,基于所述文件名称从所述数据报文中获取文件内容。3.根据权利要求1所述的方法,其特征在于,所述确定所述字词的权重包括:根据所述字词的长度和所述文件中特征词的最大长度确定所述字词的权重。4.根据权利要求3所述的方法,其特征在于,所述统计每个所述字词的词频,并根据所述字词的词频、所述字词在文件集中的重要指数以及所述字词的权重确定所述字词的特征值包括:根据TF

IDF算法分别计算每个字词的TF值和IDF值,将所述TF值作为所述字词的词频,将所述IDF值作为所述字词在所述文件集中的重要指数;基于所述字词的TF值、IDF值和权重确定所述字词的特征值。5.根据权利要求1所述的方法,其特征在于,所述预设分类模型为随机森林算法模型,在所述将所述特征值输入预设分类模型之前,所述方法包括:基于预设抽样算法对原始训练集进行多次采样,得到多个训练集;分别基于一个所述训练集训练一个初始决策树模型,对于一个初始...

【专利技术属性】
技术研发人员:杨鹤
申请(专利权)人:北京天融信科技有限公司北京天融信软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1