网站指纹的计算方法、系统、存储介质和终端技术方案

技术编号:32581025 阅读:18 留言:0更新日期:2022-03-09 17:11
本申请提供一种网站指纹的计算方法,包括:获取网站样本,并从网站样本中确定目标网站;计算目标网站对应文档对象化模型的结构向量值;对目标网站爬虫,得到静态资源列表,解析目标网站的静态文件资源列表,输出网站样本中每个静态资源对应的网站列表;解析目标网站的特征字段;根据结构向量值、每个静态资源对应的网站列表和特征字段对网站进行分类,并确定示例网站;将示例网站的特征作为网站指纹。本申请能够自动地在海量样本网站中发现具有相似性的网站,并将相似网站的公共特征提取成指纹,可以提高网站指纹的计算效率,减少人力投入,降低人工成本。本申请还提供一种网站指纹的检测系统、计算机可读存储介质和终端,具有上述有益效果。上述有益效果。上述有益效果。

【技术实现步骤摘要】
网站指纹的计算方法、系统、存储介质和终端


[0001]本申请涉及网络安全领域,特别涉及一种网站指纹的计算方法、计算系统、存储介质和终端。

技术介绍

[0002]当前,在应用开发中,常需要获取网站应用的身份标识,即获取网站指纹,但针对批量网站样本进行指纹主要依赖于人工采集,需要针对每个网站采集其特征字段,并就特征字段进行网站之间的两两比对。一旦网站样本的样本数量较多,将大大降低网站指纹的计算效率,且容易出现误报。
[0003]因此,如何提高网站指纹的计算效率是本领域技术人员亟需解决的技术问题。

技术实现思路

[0004]本申请的目的是提供一种网站指纹的计算方法、计算系统、存储介质和终端,能够提高网站指纹的计算效率。
[0005]为解决上述技术问题,本申请提供一种网站指纹的计算方法,具体技术方案如下:
[0006]获取网站样本,并从所述网站样本中确定目标网站;
[0007]计算所述目标网站对应文档对象化模型的结构向量值;
[0008]对所述目标网站爬虫,得到静态资源列表,解析所述目标网站的静态文件资源列表,输出所述网站样本中每个静态资源对应的网站列表;
[0009]解析所述目标网站的特征字段;
[0010]根据所述结构向量值、每个静态资源对应的网站列表和所述特征字段对网站进行分类,并确定示例网站;
[0011]将所述示例网站的特征作为所述网站指纹。
[0012]可选的,所述计算目标网站的文档对象化模型的结构向量值包括:
[0013]获取目标网站html页面,构造所述文档对象化模型;
[0014]在所述文档对象化模型中选取父节点为头部元素作为目标节点,将每个所述目标节点的元素名与属性拼接成字符串;
[0015]计算所述字符串的哈希值,将所述哈希值与所述目标节点的权重相乘得到所述目标节点对应的权重值;其中,所述目标节点的节点深度越大,与所述目标节点相同的节点越多,所述目标节点的权重越小;
[0016]累加所有目标节点的权重值,得到结构向量值。
[0017]可选的,所述解析所述目标网站的静态文件资源列表包括:
[0018]对所述静态文件资源列表中的静态资源预处理,去除公共库资源和静态资源的特征信息;
[0019]构造静态资源字典,对相邻静态文件资源名通过预设公式计算得到静态哈希值,并建立所述静态哈希值、所述静态文件资源名列表和所述静态文件资源对应网页地址的映
射关系;
[0020]计算所述静态文件资源列表中每个静态文件资源名的哈希值,得到所述静态文件资源列表对应的哈希值列表;
[0021]对相邻静态文件资源名通过预设公式计算得到静态哈希值;
[0022]判断所述静态资源字典是否包含所述静态哈希值;
[0023]若是,确定所述目标网站与其余网站的静态文件资源列表存在交集,在所述静态文件资源对应网页地址列表中添加所述目标网站的网页地址;
[0024]若否,保存所述静态哈希值和对应的静态文件资源名列表、所述静态文件资源对应网页地址。
[0025]可选的,所述预设公式为:
[0026][0027]其中,i为每次计算取的相邻的静态文件资源个数且i大于2,j为每次计算取的若干静态文件资源中第一个静态文件资源在静态文件资源列表中的索引号,k为迭代遍历,用于遍历索引号在区间[j,j+i

1]内的所有静态资源,x
ij
为静态哈希值。
[0028]可选的,对所述静态文件资源列表中的静态资源预处理,去除公共库资源和静态资源的特征信息包括:
[0029]配置公共库资源的路径黑名单和/或文件名黑名单;
[0030]删除所述静态文件资源名中版本号和随机数中的至少一种,并去除所述静态资源对应路径中的域名或IP地址。
[0031]可选的,根据所述结构向量值、每个静态资源对应的网站列表和所述特征字段对网站进行分类,并确定示例网站包括:
[0032]根据所述结构向量值、每个静态资源对应的网站列表和所述特征字段对网站样本中的网站进行关联分析并归类,每个类中任一原始网站至少存在一个相似网站,所述原始网站和所述相似网站至少存在所述结构向量值、每个静态资源对应的网站列表和所述特征字段对网站中的两项相同;
[0033]在每一类网站中确定至少一个示例网站。
[0034]可选的,确定示例网站时还包括:
[0035]舍弃不存在对应相似网站的样本网站。
[0036]本申请还提供一种网站指纹的计算系统,包括:
[0037]网站获取模块,用于获取网站样本,并从所述网站样本中确定目标网站;
[0038]结构向量值计算模块,用于计算所述目标网站对应文档对象化模型的结构向量值;
[0039]静态资源分析计算模块,用于对所述目标网站爬虫,得到静态资源列表,解析所述目标网站的静态文件资源列表,输出所述网站样本中每个静态资源对应的网站列表;
[0040]特征字段获取模块,用于解析所述目标网站的特征字段;
[0041]关联分析模块,用于根据所述结构向量值、每个静态资源对应的网站列表和所述特征字段对网站进行分类,并确定示例网站;
[0042]指纹计算模块,用于将所述示例网站的特征作为所述网站指纹。
[0043]本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的方法的步骤。
[0044]本申请还提供一种终端,包括存储器和处理器,所述存储器中存有计算机程序,所述处理器调用所述存储器中的计算机程序时实现如上所述的方法的步骤。
[0045]本申请提供一种网站指纹的计算方法,包括:获取网站样本,并从所述网站样本中确定目标网站;计算所述目标网站对应文档对象化模型的结构向量值;对所述目标网站爬虫,得到静态资源列表,解析所述目标网站的静态文件资源列表,输出所述网站样本中每个静态资源对应的网站列表;解析所述目标网站的特征字段;根据所述结构向量值、每个静态资源对应的网站列表和所述特征字段对网站进行分类,并确定示例网站;将所述示例网站的特征作为所述网站指纹。
[0046]本申请利用计算网站的结构向量值,分析网站的静态文件资源列表和特征字段,并根据结构向量值、每个静态资源对应的网站列表和特征字段对网站进行分类,从而确定具有代表性的示例网站,并将示例网站的特征作为网站指纹,能够自动地在海量样本网站中发现具有相似性的网站,并将相似网站的公共特征提取成指纹,可以大大减少人力投入,提高网站指纹的计算效率,降低人工成本。
[0047]本申请还提供一种网站指纹的检测系统、计算机可读存储介质和终端,具有上述有益效果,此处不再赘述。
附图说明
[0048]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种网站指纹的计算方法,其特征在于,包括:获取网站样本,并从所述网站样本中确定目标网站;计算所述目标网站对应文档对象化模型的结构向量值;对所述目标网站爬虫,得到静态资源列表,解析所述目标网站的静态文件资源列表,输出所述网站样本中每个静态资源对应的网站列表;解析所述目标网站的特征字段;根据所述结构向量值、每个静态资源对应的网站列表和所述特征字段对网站进行分类,并确定示例网站;将所述示例网站的特征作为所述网站指纹。2.根据权利要求1所述的网站指纹的计算方法,其特征在于,所述计算目标网站的文档对象化模型的结构向量值包括:获取目标网站html页面,构造所述文档对象化模型;在所述文档对象化模型中选取父节点为头部元素作为目标节点,将每个所述目标节点的元素名与属性拼接成字符串;计算所述字符串的哈希值,将所述哈希值与所述目标节点的权重相乘得到所述目标节点对应的权重值;其中,所述目标节点的节点深度越大,与所述目标节点相同的节点越多,所述目标节点的权重越小;累加所有目标节点的权重值,得到结构向量值。3.根据权利要求1所述的网站指纹的计算方法,其特征在于,所述解析所述目标网站的静态文件资源列表包括:对所述静态文件资源列表中的静态资源预处理,去除公共库资源和静态资源的特征信息;构造静态资源字典,对相邻静态文件资源名通过预设公式计算得到静态哈希值,并建立所述静态哈希值、所述静态文件资源名列表和所述静态文件资源对应网页地址的映射关系;计算所述静态文件资源列表中每个静态文件资源名的哈希值,得到所述静态文件资源列表对应的哈希值列表;对相邻静态文件资源名通过预设公式计算得到静态哈希值;判断所述静态资源字典是否包含所述静态哈希值;若是,确定所述目标网站与其余网站的静态文件资源列表存在交集,在所述静态文件资源对应网页地址列表中添加所述目标网站的网页地址;若否,保存所述静态哈希值和对应的静态文件资源名列表、所述静态文件资源对应网页地址。4.根据权利要求3所述的网站指纹的计算方法,其特征在于,所述预设公式为:其中,i为每次计算取的相邻的静态文件资源个数且i大于2,j为每次计算取的若干静态文件资源中第一个静态文件资源在静态文件资源列表中的索引号,k为迭代遍历,用于遍
历索引号在...

【专利技术属性】
技术研发人员:黄明义何松
申请(专利权)人:深信服科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1