一种基于网络爬虫的网站指纹信息扫描的方法及装置制造方法及图纸

技术编号:20425467 阅读:30 留言:0更新日期:2019-02-23 08:36
本发明专利技术公开了一种基于网络爬虫的网站指纹信息扫描方法、装置、设备及计算机可读存储介质,该方法包括:获取构建网站所需的多个元素类,记录各个元素类下各个元素具有的与任一或任多预设特征元素对应的特征值,且记录的不同元素对应同一预设特征元素的特征值不同,预设特征元素包括响应头特征、引入js特征、script特征、html特征及所属元素类;利用网络爬虫爬取目标网站的内容,得到目标网站与任一或任多预设特征元素对应的特征值,将得到的特征值与记录的特征值进行比对,得到包含有与目标网站的特征值匹配的记录的特征值的网站指纹信息。从而实现指纹获取的较高准确性及实现效率。

【技术实现步骤摘要】
一种基于网络爬虫的网站指纹信息扫描的方法及装置
本专利技术涉及网络安全
,更具体地说,涉及一种基于网络爬虫的网站指纹信息扫描的方法、装置、设备及计算机可读存储介质。
技术介绍
为网站生成对应的识别度较高的网站指纹,对于网络安全具有重大意义。现有技术中用于实现网站指纹生成的技术方案为依据预先设置的组件模板库中存储的网站服务器模板,构建对应的组件虚拟网站;按照预先设置的策略访问所述组件虚拟网站中用于组件版本升级的链接地址,如果所述链接地址对应的组件服务器中有新的组件版本,升级所述组件虚拟网站中的组件;访问升级后的所述组件虚拟网站,从返回的访问请求响应中提取特征信息;查询并获取预先存储的所述组件虚拟网站的当前组件版本指纹,得到所述当前组件版本指纹对应的历史特征信息,依据提取的特征信息以及所述历史特征信息生成所述组件虚拟网站的组件版本升级指纹。现有技术需要根据组件模板库构造新的虚拟网站,然后提取特征信息,对目标网站是一个模仿而非真实复制,现阶段通常目标网站内容是经常发生变化的,如果构造的虚拟网站不能完全反应原目标网站的特征,则会造成网站指纹的不准确甚至误报,且本身该过程是一个较耗时的多步操作,使用效率不高。综上所述,现有技术中用于实现网站指纹获取的方案存在准确性较低且使用效率较低的问题。
技术实现思路
本专利技术的目的是提供一种基于网络爬虫的网站指纹信息扫描的方法、装置、设备及计算机可读存储介质,能够解决现有技术中用于实现网站指纹获取的方案存在的准确性较低且使用效率较低的问题。为了实现上述目的,本专利技术提供如下技术方案:一种基于网络爬虫的网站指纹信息扫描方法,包括:获取构建网站所需的多个元素类,所述元素类包括操作系统、编程语言、网页服务器、网页应用框架、脚本语言框架及内容管理系统;记录各个元素类下各个元素具有的与任一或任多预设特征元素对应的特征值,且记录的不同元素对应同一预设特征元素的特征值不同,所述预设特征元素包括响应头特征、引入js特征、script特征、html特征及所属元素类;利用网络爬虫爬取目标网站的内容,得到所述目标网站与任一或任多预设特征元素对应的特征值,将得到的特征值与记录的特征值进行比对,得到包含有与所述目标网站的特征值匹配的记录的特征值的网站指纹信息。优选的,记录各个元素类下各个元素具有的与任一或任多预设特征元素对应的特征值,包括:如果各个元素类下各个元素具有的任一特征值引用预设基础特征,则记录该任一特征值时同时记录引用的预设基础特征的名称。优选的,记录各个元素类下各个元素具有的与任一或任多预设特征元素对应的特征值之后,还包括:将记录的特征值构造成格式相同的json字符。优选的,记录各个元素类下各个元素具有的与任一或任多预设特征元素对应的特征值,包括:在预先设定的特征模板库中记录各个元素类下各个元素具有的与任一或任多预设特征元素对应的特征值。优选的,得到网站指纹信息之后,还包括:确定与所述目标网络的特征值匹配的记录的特征值为目标特征值,并将所述目标特征值对应的特征图片及网站地址输出;其中,记录各个元素类下各个元素具有的特征值时还记录有各个元素对应的特征图片及网站地址。优选的,利用网络爬虫爬取目标网站的内容,得到所述目标网站与各个预设特征元素对应的特征值,包括:利用网络爬虫爬取目标网站的内容,如果爬取得到的页面为静态页面,则直接由所述静态页面中获取与各个预设特征元素对应的特征值;如果爬取得到的页面为动态页面,则运行对应的javascript代码得到对应的静态页面,并由获取的静态页面中获取与各个预设特征元素对应的特征值。优选的,利用网络爬虫爬取目标网站的内容,包括:依次利用网络爬虫爬取所述目标网站包含的预设层网页的内容。一种基于网络爬虫的网站指纹信息扫描装置,包括:获取模块,用于:获取构建网站所需的多个元素类,所述元素类包括操作系统、编程语言、网页服务器、网页应用框架、脚本语言框架及内容管理系统;记录模块,用于:记录各个元素类下各个元素具有的与任一或任多预设特征元素对应的特征值,且记录的不同元素对应同一预设特征元素的特征值不同,所述预设特征元素包括响应头特征、引入js特征、script特征、html特征及所属元素类;匹配模块,用于:利用网络爬虫爬取目标网站的内容,得到所述目标网站与任一或任多预设特征元素对应的特征值,将得到的特征值与记录的特征值进行比对,得到包含有与所述目标网站的特征值匹配的记录的特征值的网站指纹信息。一种基于网络爬虫的网站指纹信息扫描设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现如上任一项所述基于网络爬虫的网站指纹信息扫描方法的步骤。一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上任一项所述基于网络爬虫的网站指纹信息扫描方法的步骤。本申请公开的技术方案中,记录构建网站所需的各个元素类下各元素对应任一或任多预设特征元素的特征值,由于记录的不同元素对应同一预设特征元素的特征值不同,即记录的特征值均为对应元素能够区别于其他元素的、独有的特征值,因此记录的特征值具有指纹功能,进而确定与目标网站的特征值匹配成功的记录的特征值包含于目标网站的网站指纹信息中,能够使得目标网站的网站指纹信息具有指纹功能,无需像现有技术中一样通过构造虚拟网站实现网站指纹获取,也就避免了通过构造虚拟网站实现网站指纹获取时存在的准确性较低且使用效率较低的问题。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1为本专利技术实施例提供的一种基于网络爬虫的网站指纹信息扫描方法的流程图;图2为本专利技术实施例提供的一种基于网络爬虫的网站指纹信息扫描方法的具体实现框图;图3为本专利技术实施例提供的一种基于网络爬虫的网站指纹信息扫描装置的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参阅图1,其示出了本专利技术实施例提供的一种基于网络爬虫的网站指纹信息扫描方法的流程图,可以包括:S11:获取构建网站所需的多个元素类,元素类包括操作系统、编程语言、网页服务器、网页应用框架、脚本语言框架及内容管理系统。需要说明的是,本专利技术实施例提供的一种基于网络爬虫的网站指纹信息扫描方法的执行主语可以为对应的网站指纹信息扫描装置。其中,元素类即为构建网站常用的几个元素分类,包括操作系统、编程语言、网页服务器、网页应用框架、脚本语言框架及内容管理系统等,而每个元素类下又具有各自的元素,简单来说,元素即为各个元素类下的子分类,各个元素类包含的元素与现有技术中相同,如操作系统(OperationSystems)包含的元素可以包括windows各系列、linux各系列、unix各系列及ios各系列等;编程语言(Programming本文档来自技高网...

【技术保护点】
1.一种基于网络爬虫的网站指纹信息扫描方法,其特征在于,包括:获取构建网站所需的多个元素类,所述元素类包括操作系统、编程语言、网页服务器、网页应用框架、脚本语言框架及内容管理系统;记录各个元素类下各个元素具有的与任一或任多预设特征元素对应的特征值,且记录的不同元素对应同一预设特征元素的特征值不同,所述预设特征元素包括响应头特征、引入js特征、script特征、html特征及所属元素类;利用网络爬虫爬取目标网站的内容,得到所述目标网站与任一或任多预设特征元素对应的特征值,将得到的特征值与记录的特征值进行比对,得到包含有与所述目标网站的特征值匹配的记录的特征值的网站指纹信息。

【技术特征摘要】
1.一种基于网络爬虫的网站指纹信息扫描方法,其特征在于,包括:获取构建网站所需的多个元素类,所述元素类包括操作系统、编程语言、网页服务器、网页应用框架、脚本语言框架及内容管理系统;记录各个元素类下各个元素具有的与任一或任多预设特征元素对应的特征值,且记录的不同元素对应同一预设特征元素的特征值不同,所述预设特征元素包括响应头特征、引入js特征、script特征、html特征及所属元素类;利用网络爬虫爬取目标网站的内容,得到所述目标网站与任一或任多预设特征元素对应的特征值,将得到的特征值与记录的特征值进行比对,得到包含有与所述目标网站的特征值匹配的记录的特征值的网站指纹信息。2.根据权利要求1所述的方法,其特征在于,记录各个元素类下各个元素具有的与任一或任多预设特征元素对应的特征值,包括:如果各个元素类下各个元素具有的任一特征值引用预设基础特征,则记录该任一特征值时同时记录引用的预设基础特征的名称。3.根据权利要求2所述的方法,其特征在于,记录各个元素类下各个元素具有的与任一或任多预设特征元素对应的特征值之后,还包括:将记录的特征值构造成格式相同的json字符。4.根据权利要求3所述的方法,其特征在于,记录各个元素类下各个元素具有的与任一或任多预设特征元素对应的特征值,包括:在预先设定的特征模板库中记录各个元素类下各个元素具有的与任一或任多预设特征元素对应的特征值。5.根据权利要求1所述的方法,其特征在于,得到网站指纹信息之后,还包括:确定与所述目标网络的特征值匹配的记录的特征值为目标特征值,并将所述目标特征值对应的特征图片及网站地址输出;其中,记录各个元素类下各个元素具有的特征值时还记录有各个元素对应的特征图片及网站地址。6.根据权利要求1所述的方法,其特征在于,...

【专利技术属性】
技术研发人员:赵海博范渊莫金友
申请(专利权)人:杭州安恒信息技术股份有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1