The invention discloses a web site tamper detection method based on large data, which comprises the following steps: embedding a web page tamper detection script in a web page; starting a tamper detection script, decomposing the data information of each web page into several pieces of data to be detected; scanning the original data information of a web site, and dividing the original data information of a web page into several pieces of data to be detected. It is decomposed into several standard data slices and scanned to update the data information in the database and decomposed into several updated data slices; several data slices to be detected are analyzed by similarity analysis with the standard data slices, and the results of similarity analysis are fed back; the data slices to be detected are matched with the updated data slices stored in the updated database and analyzed. Feedback matching results. The tamper detection method and the system of the website based on large data can judge whether the website has tampered or not, have the characteristics of high accuracy, greatly reduce the detection rate of false positives and false positives, thereby improving the security of the website.
【技术实现步骤摘要】
一种基于大数据的网站篡改检测方法及其系统
本专利技术属于网站检测
,涉及到一种基于大数据的网站篡改检测方法及其系统。
技术介绍
传统方式是在应用服务器的部署网页防篡改产品,但是由于此类产品成本较高,部署在网站服务器上也会造成服务器性能损失,而且改变了网页发布流程,给使用者带来不便,所以具有一定的局限性,不适合大规模网站部署。网站篡改在线检测额可以在不增加服务器负载情况下及时发现网站篡改攻击,大大降低网站篡改攻击带来的危害。目前常见的网站篡改检测的方式为人工检测、网页快照对比、通过木马检测和基于元搜索引擎技术检测等。人工检测是人工定期查看页面情况,劳动强度大,检测周期长,页面快照对比试讲检测的网站所有页面通过类似搜索引擎抓取网页快照的方式将网站保存下来,然后设置轮询机制,通过每次访问的结果和快照对比,判断网页是否被篡改,存在检测效率低,且无法区分网页是更新还是遭篡改,需要人工判断。通过木马检测判断网站是否遭到篡改,是先行对网站进行常见木马、后台程序的进行扫描,按照扫描结果进行筛选,只对中木马和后门的网站进行检测。基于元搜索引擎技术的篡改网站发现是通过集合多个搜索引擎,对构造的搜索条件进行查询,最终找到被篡改的网站,以上采用的方法,均存在网站篡改检测的效率低,导致出现漏报、误报的问题,影响网站的安全性,同时造成管理人员对网站维护的工作量较大。
技术实现思路
本专利技术的目的在于提供一种基于大数据的网站篡改检测方法及其系统,解决了现有网站篡改检测的过程中,存在检测效率低、准确度低以及失误率高的问题,进而提高网站的安全性。本专利技术的目的可以通过以下技术方案实现 ...
【技术保护点】
1.一种基于大数据的网站篡改检测方法,其特征在于,包括以下步骤:S1、在网络服务器的多个网页中嵌入网页篡改检测脚本;S2、网络服务器启动篡改检测脚本,检测各网页当前的数据信息,并将检测到的当前数据信息分解为多个待检测数据片;S3、扫描网站的原始数据信息,根据网站划分为不同的网页,并对网页内的原始数据信息分解为多个标准数据片,且对更新数据库进行扫描,将更新数据库中存储的各网页内的数据信息进行分解为多个更新数据片;S4、将检测到的多个待检测数据片与标准数据片进行相似度分析,根据相似度分析,并反馈分析的相似度结果;S5、对相似度结果进行判断,若相似度为1,则表明网站未发生篡改;若相似度小于1或大于,则表明网站被篡改或更新,并进入步骤S6;S6、将待检测数据片与更新数据库中存储的更新数据片进行匹配分析,若待检测数据片与更新数据片完全匹配,则表明网站为更新后的网站,若待检测数据片与更新数据片不完全匹配,则表明网页出现篡改,并反馈匹配的结果。
【技术特征摘要】
1.一种基于大数据的网站篡改检测方法,其特征在于,包括以下步骤:S1、在网络服务器的多个网页中嵌入网页篡改检测脚本;S2、网络服务器启动篡改检测脚本,检测各网页当前的数据信息,并将检测到的当前数据信息分解为多个待检测数据片;S3、扫描网站的原始数据信息,根据网站划分为不同的网页,并对网页内的原始数据信息分解为多个标准数据片,且对更新数据库进行扫描,将更新数据库中存储的各网页内的数据信息进行分解为多个更新数据片;S4、将检测到的多个待检测数据片与标准数据片进行相似度分析,根据相似度分析,并反馈分析的相似度结果;S5、对相似度结果进行判断,若相似度为1,则表明网站未发生篡改;若相似度小于1或大于,则表明网站被篡改或更新,并进入步骤S6;S6、将待检测数据片与更新数据库中存储的更新数据片进行匹配分析,若待检测数据片与更新数据片完全匹配,则表明网站为更新后的网站,若待检测数据片与更新数据片不完全匹配,则表明网页出现篡改,并反馈匹配的结果。2.根据权利要求1所述的一种基于大数据的网站篡改检测方法,其特征在于:所述待检测数据片与标准数据片相似度分析的过程中,定义待检测数据片中字符长度Ai(a1,a2,...,an),an表示第n个待检测数据片的长度,标准数据片中字符长度Bj(b1,b2,...,bm),bn表示第m个标准检测数据的长...
【专利技术属性】
技术研发人员:邢婷,
申请(专利权)人:合肥俊刚机械科技有限公司,
类型:发明
国别省市:安徽,34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。