System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及网站监测,具体而言,涉及一种网站页面监测方法、系统、设备和存储介质。
技术介绍
1、网站安全是指以防止网站受到入侵者对网站进行挂马挖矿、篡改网页内容、植入暗链引流等恶意攻击做出的一系列防御工作。随着政务信息数字化、政务公开信息化、高校和企业信息化的建设,越来越多的信息通过网站进行发布,随着而来的安全问题也更加突出。特别是在重保期间,需要在重要会议或重大活动需要对网站的可用性、暗链、挂马、篡改等进行持续安全监测。
2、当前众多技术在对网站进行安全监测时,基本都是使用爬虫技术,获取整个网页,然后收集里面的链接信息,分别对各种信息的所有页面的内容下载进行监测,然后定期针对相应的页面再次重复前面的方法进行监测,以此达到网站监测的目的。然而相关技术存在如下缺陷:现有技术中,每次进行网站监测都会将网页内容下载到本地,然后进行hash对比,此过程需要系统较大的存储和网络带宽开销,在大量的网站同时需要被监测任务需求下,监测成本较高,并且在定期监测的时间内处理大量的解析数据,会导致监测效率较低;现有技术都是通过单一地解析网站源码信息,通过对源码内的各类元素进行分析,返回是否异常的结论,用户不能及时可视化感知被监测的网站的实际状态,特别是在重保期间的政务网和高校网站,用户存在直观可视当前页面是否可用,是否包含敏感内容等的需求,若存在异常,用户需要及时通报整改、自动取证,方便用户形成安全事件的图文报告。
3、为了解决以上问题,需要对网页检测进行改进,旨在提高网站监测的速度和效率以及提升网站监测的可视化和准确率,同
技术实现思路
1、本专利技术的目的在于提供一种网站页面监测方法、系统、设备和存储介质,其可以提高网站监测的速度和效率以及提升网站监测的可视化和准确率,同时降低网站监测的存储和带宽成本。
2、本专利技术的实施例通过以下技术方案实现:
3、本专利技术首先提供一种网站页面监测方法,包括以下步骤:
4、根据用户输入的url列表获取网页页面的元素信息的索引信息;
5、判断此次是否为针对该网页页面的首次数据采集;
6、若为首次数据采集,判断网页是否可用,按照响应信息将所有数据进行分类爬取并保存到以路径-时间为名称的文件夹,输送该文件夹通过识别模型检测网站页面的响应信息列表中的文件是否存在异常状态;
7、若非首次数据采集,判断网页是否可用并根据前一次数据采集的结果进行检查更新,将新增和/或变化的文件分类并保存到以路径-时间为名称的文件夹,输送新增和/或变化的文件的文件夹通过识别模型检测网站页面的响应信息列表中的文件是否存在异常状态;
8、将检查结果返回。
9、优选地,所述获取网页页面的元素信息的索引信息的方法为:
10、为每一条所述url设置监测时间周期,依照监测时间周期通过cdp协议访问页面;
11、获取网页页面的元素信息的索引信息,同时调用所述cdp协议对网站页面进行长图截取,保存至此次监测的本地文件夹中。
12、优选地,所述判断此次是否为针对该网页页面的首次数据采集的方法为:
13、提取利用所述cdp协议获取的响应信息形成多个列表[[page,url,resourcetype,status,last-modified],…,[page,url,resourcetype,status,last-modified]];
14、根据所述url判断对应的网页页面是否存在于监测网站页面的历史url记录中;
15、若不存在则为首次数据采集,若存在则非首次采集。
16、优选地,若为首次数据采集,所述判断网页是否可用的方法为:
17、查找resourcetype为document类型且status不为“200”,则判断此网站页面不可用;
18、若resourcetype的类型为stylesheet或script或image类型则分别抓取该url对应的文件到本地,并将其分类至对应类型的文件夹。
19、优选地,若非首次数据采集,所述判断网页是否可用并根据前一次数据采集的结果进行检查更新的方法为:
20、查找resourcetype为document类型且status不为“200”,则判断此网站页面不可用;
21、若否则为可用,然后根据前一次数据采集的结果进行检查更新的方法为包括:
22、x={x1,x2,…,xm}为网站页面监测的集合,x1表示首次监测的网站页面响应,xn为第n次的监测的网站页面响应(1<n≤m);
23、yn={yn1,yn2,…,ynk}为第n次监测的网站页面的响应信息列表,yni表示通过cdp协议获取的第n次监测的网站页面响应列表中的第i条,其响应内容项为:[page,url,resourcetype,status,last-modified],其中1<i≤k;
24、当前为第n次监测,对比第n-1次监测的响应信息列表第i条y(n-1)i,若“url”项有新增,则根据resourcetype类型分类抓取;若yni与y(n-1)i的“url”项相同,且“last-modified”不同,则根据resourcetype类型分类抓取。
25、优选地,所述通过识别模型检测数据是否存在异常状态的方法为:
26、将新增或者变化的所述文件夹分别输送到对应的所述识别模型检测是否存在异常状态,所述异常状态包括存在非法敏感内容或者恶意链接;
27、若不存在则返回每种资源的正常状态,若存在则返回每种资源的异常状态。
28、优选地,所述将检查结果返回的方法包括:
29、若网站不可用,则返回网站不可访问作为状态信息;
30、若网站可用且网站页面的响应信息列表中每一个文件都是正常状态,则返回该网站页面正常的状态信息;
31、若网站可用且网站页面的响应信息列表中存在至少一个异常的文件,则返回文件链接及状态类型信息,并返回网站页面url及异常的信息,并进行推送。
32、本专利技术还提供一种网站页面监测系统,应用于以上任意一项所述的一种网站页面监测方法,包括:
33、数据输入模块,用于获取用户输入的url和时间间隔信息,通过cdp协议获取响应信息,保存响应信息;
34、可视化模块,用于使用cdp协议获取待监测网站页面的全页面截图;
35、数据判断和文件分类抓取模块,用于判断是否是首次监测的数据采集和根据所述索引信息分类抓取文件;
36、定时和差异对比模块,用于根据用户定义的时间间隔进行分析、根据索引信息对比与前次采集的同一网页页面的差异、定义增量数据信息和保存差异;
37、分类文件异常检测模块,用于作为所述识别模型将分类输入的所述文件夹进行检查,判断是否存在异常,若存在异常,输出异常及其本文档来自技高网...
【技术保护点】
1.一种网站页面监测方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种网站页面监测方法,其特征在于,所述获取网页页面的元素信息的索引信息的方法为:
3.根据权利要求2所述的一种网站页面监测方法,其特征在于,所述判断此次是否为针对该网页页面的首次数据采集的方法为:
4.根据权利要求3所述的一种网站页面监测方法,其特征在于,若为首次数据采集,所述判断网页是否可用的方法为:
5.根据权利要求3所述的一种网站页面监测方法,其特征在于,若非首次数据采集,所述判断网页是否可用并根据前一次数据采集的结果进行检查更新的方法为:
6.根据权利要求1所述的一种网站页面监测方法,其特征在于,所述通过识别模型检测数据是否存在异常状态的方法为:
7.根据权利要求1所述的一种网站页面监测方法,其特征在于,所述将检查结果返回的方法包括:
8.一种网站页面监测系统,应用于权利要求1-7任意一项所述的一种网站页面监测方法,其特征在于,包括:
9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存
10.一种可读存储介质,其特征在于,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的一种网站页面监测方法。
...【技术特征摘要】
1.一种网站页面监测方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种网站页面监测方法,其特征在于,所述获取网页页面的元素信息的索引信息的方法为:
3.根据权利要求2所述的一种网站页面监测方法,其特征在于,所述判断此次是否为针对该网页页面的首次数据采集的方法为:
4.根据权利要求3所述的一种网站页面监测方法,其特征在于,若为首次数据采集,所述判断网页是否可用的方法为:
5.根据权利要求3所述的一种网站页面监测方法,其特征在于,若非首次数据采集,所述判断网页是否可用并根据前一次数据采集的结果进行检查更新的方法为:
6.根据权利要求1所述的一种网站页面监测方法...
【专利技术属性】
技术研发人员:崔艳鹏,胡建伟,周海均,崔博,
申请(专利权)人:西安胡门网络技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。