一种基于大数据的网站篡改检测方法及其系统技术方案

技术编号:19009403 阅读:80 留言:0更新日期:2018-09-22 09:14
本发明专利技术公开一种基于大数据的网站篡改检测方法,包括以下步骤:在网页中嵌入网页篡改检测脚本;启动篡改检测脚本,将检测各网页数据信息分解为多个待检测数据片;扫描网站的原始数据信息,对网页内的原始数据信息分解为多个标准数据片,扫描更新数据库内的数据信息并分解为多个更新数据片;多个待检测数据片与标准数据片进行相似度分析,并反馈分析的相似度结果;将待检测数据片与更新数据库中存储的更新数据片进行匹配分析,并反馈匹配的结果。本发明专利技术提出的基于大数据的网站篡改检测方法及其系统,可判断网站是否出现篡改,具有准确性高的特点,大大降低了检测的漏报率和误报率,从而提高了网站的安全性。

A website tamper detection method based on big data and its system

The invention discloses a web site tamper detection method based on large data, which comprises the following steps: embedding a web page tamper detection script in a web page; starting a tamper detection script, decomposing the data information of each web page into several pieces of data to be detected; scanning the original data information of a web site, and dividing the original data information of a web page into several pieces of data to be detected. It is decomposed into several standard data slices and scanned to update the data information in the database and decomposed into several updated data slices; several data slices to be detected are analyzed by similarity analysis with the standard data slices, and the results of similarity analysis are fed back; the data slices to be detected are matched with the updated data slices stored in the updated database and analyzed. Feedback matching results. The tamper detection method and the system of the website based on large data can judge whether the website has tampered or not, have the characteristics of high accuracy, greatly reduce the detection rate of false positives and false positives, thereby improving the security of the website.

【技术实现步骤摘要】
一种基于大数据的网站篡改检测方法及其系统
本专利技术属于网站检测
,涉及到一种基于大数据的网站篡改检测方法及其系统。
技术介绍
传统方式是在应用服务器的部署网页防篡改产品,但是由于此类产品成本较高,部署在网站服务器上也会造成服务器性能损失,而且改变了网页发布流程,给使用者带来不便,所以具有一定的局限性,不适合大规模网站部署。网站篡改在线检测额可以在不增加服务器负载情况下及时发现网站篡改攻击,大大降低网站篡改攻击带来的危害。目前常见的网站篡改检测的方式为人工检测、网页快照对比、通过木马检测和基于元搜索引擎技术检测等。人工检测是人工定期查看页面情况,劳动强度大,检测周期长,页面快照对比试讲检测的网站所有页面通过类似搜索引擎抓取网页快照的方式将网站保存下来,然后设置轮询机制,通过每次访问的结果和快照对比,判断网页是否被篡改,存在检测效率低,且无法区分网页是更新还是遭篡改,需要人工判断。通过木马检测判断网站是否遭到篡改,是先行对网站进行常见木马、后台程序的进行扫描,按照扫描结果进行筛选,只对中木马和后门的网站进行检测。基于元搜索引擎技术的篡改网站发现是通过集合多个搜索引擎,对构造的搜索条件进行查询,最终找到被篡改的网站,以上采用的方法,均存在网站篡改检测的效率低,导致出现漏报、误报的问题,影响网站的安全性,同时造成管理人员对网站维护的工作量较大。
技术实现思路
本专利技术的目的在于提供一种基于大数据的网站篡改检测方法及其系统,解决了现有网站篡改检测的过程中,存在检测效率低、准确度低以及失误率高的问题,进而提高网站的安全性。本专利技术的目的可以通过以下技术方案实现:一种基于大数据的网站篡改检测方法,包括以下步骤:S1、在网络服务器的多个网页中嵌入网页篡改检测脚本;S2、网络服务器启动篡改检测脚本,检测各网页当前的数据信息,并将检测到的当前数据信息分解为多个待检测数据片;S3、扫描网站的原始数据信息,根据网站划分为不同的网页,并对网页内的原始数据信息分解为多个标准数据片,且对更新数据库进行扫描,将更新数据库中存储的各网页内的数据信息进行分解为多个更新数据片;S4、将检测到的多个待检测数据片与标准数据片进行相似度分析,根据相似度分析,并反馈分析的相似度结果;S5、对相似度结果进行判断,若相似度为1,则表明网站未发生篡改;若相似度小于1或大于,则表明网站被篡改或更新,并进入步骤S6;S6、将待检测数据片与更新数据库中存储的更新数据片进行匹配分析,若待检测数据片与更新数据片完全匹配,则表明网站为更新后的网站,若待检测数据片与更新数据片不完全匹配,则表明网页出现篡改,并反馈匹配的结果。进一步地,所述待检测数据片与标准数据片相似度分析的过程中,定义待检测数据片中字符长度Ai(a1,a2,...,an),an表示第n个待检测数据片的长度,标准数据片中字符长度Bj(b1,b2,...,bm),bn表示第m个标准检测数据的长度,数据片中的字符、符号均进行量化定义,量化后的待检测数据片中字符量化集合CAi(cn1,cn2,...,cnn),量化后的标准数据片中字符量化集合DBi(dm1,dm2,...,dmm),计算出待检测数据片与标准数据片的相似度量化值该公式中m=n,为网页划分的数据片数目。一种基于大数据的网站篡改检测系统,包括预处理模块、检测模块、扫描模块、数据划分模块、相似度分析模块、匹配对比模块和更新存储模块;所述预处理模块用于将网络服务器内的过个网页中嵌入篡改检测脚本;所述检测模块用于对嵌入篡改检测脚本的网页内的数据信息进行检测,并将检测的数据信息发送值数据划分模块;所述扫描模块用于对网站内原始网页进行扫描,并对扫描获取的数据信息发送至数据划分模块;所述数据划分模块分别接收检测模块发送的网页内的数据信息以及扫描模块发送的原始网页内的数据信息,并对接收的数据信息进行分解,分别得到多个待检测数据片和标准数据片;所述相似度分析模块对接收的数据划分模块发送的待检测数据片和标准数据片进行相似度分析,根据相似度分析结果,将待检测数据片信息发送值匹配对比模块;所述更新存储模块用于对网页更新后的数据信息进行特殊存储,且存储的形式为数据片形式;所述匹配对比模块用于对待检测的数据片与更新存储模块中的更新数据片进行匹配,并反馈匹配的结果。本专利技术的有益效果:本专利技术提出的基于大数据的网站篡改检测方法及其系统,通过在网页中嵌入篡改检测脚本,可检测当前网页的数据信息,并通过相似度检测可判断当前的网页数据信息与原始网站中的数据信息的相似度,另外,结合更新存储模块中存储的网页更新数据信息对当前的网页数据信息进一步进行匹配分析,进而判断网站是否出现篡改,具有准确性高的特点,大大降低了检测的漏报率和误报率,从而提高了网站的安全性。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术一种基于大数据的网站篡改检测方法的示意图;图2为本专利技术一种基于大数据的网站篡改检测系统的示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。请参阅图1所示,本专利技术为一种基于大数据的网站篡改检测方法,包括以下步骤:S1、在网络服务器的多个网页中嵌入网页篡改检测脚本;S2、网络服务器启动篡改检测脚本,检测各网页当前的数据信息,并将检测到的当前数据信息分解为多个待检测数据片;S3、扫描网站的原始数据信息,根据网站划分为不同的网页,并对原始网页内的数据信息分解为多个标准数据片,同时,对更新数据库进行扫描,将更新数据库中存储的各网页内的数据信息进行分解为多个更新数据片;S4、将检测到的多个待检测数据片与标准数据片进行相似度分析,根据相似度分析,可判断网站中的网页是否存在篡改,并反馈分析的相似度结果;S5、若相似度为1,则表明网站未发生篡改;若相似度小于1或大于,则表明网站被篡改或更新,并进入步骤S6;S6、将待检测数据片与更新数据库中存储的更新数据片进行匹配分析,若待检测数据片与更新数据片完全匹配,则表明网站为更新后的网站,若待检测数据片与更新数据片不完全匹配,则表明网页出现篡改,并反馈匹配的结果。其中,待检测数据片与标准数据片在进行相似度分析的过程中,定义待检测数据片中字符长度Ai(a1,a2,...,an),an表示第n个待检测数据片的长度,标准数据片中字符长度Bj(b1,b2,...,bm),bn表示第m个标准检测数据的长度,将数据片中的字符、符号,采用量化定义,量化后的待检测数据片中字符量化集合CAi(cn1,cn2,...,cnn),量化后的标准数据片中字符量化集合DBi(dm1,dm2,...,dmm),计算出待检测数据片与标准数据片的相似度量化值本公式中m=n,均为网页划分的数据片数目。如图2所示,一种基于大数据的网站篡改检测系统,包括预处理模块、检测本文档来自技高网...
一种基于大数据的网站篡改检测方法及其系统

【技术保护点】
1.一种基于大数据的网站篡改检测方法,其特征在于,包括以下步骤:S1、在网络服务器的多个网页中嵌入网页篡改检测脚本;S2、网络服务器启动篡改检测脚本,检测各网页当前的数据信息,并将检测到的当前数据信息分解为多个待检测数据片;S3、扫描网站的原始数据信息,根据网站划分为不同的网页,并对网页内的原始数据信息分解为多个标准数据片,且对更新数据库进行扫描,将更新数据库中存储的各网页内的数据信息进行分解为多个更新数据片;S4、将检测到的多个待检测数据片与标准数据片进行相似度分析,根据相似度分析,并反馈分析的相似度结果;S5、对相似度结果进行判断,若相似度为1,则表明网站未发生篡改;若相似度小于1或大于,则表明网站被篡改或更新,并进入步骤S6;S6、将待检测数据片与更新数据库中存储的更新数据片进行匹配分析,若待检测数据片与更新数据片完全匹配,则表明网站为更新后的网站,若待检测数据片与更新数据片不完全匹配,则表明网页出现篡改,并反馈匹配的结果。

【技术特征摘要】
1.一种基于大数据的网站篡改检测方法,其特征在于,包括以下步骤:S1、在网络服务器的多个网页中嵌入网页篡改检测脚本;S2、网络服务器启动篡改检测脚本,检测各网页当前的数据信息,并将检测到的当前数据信息分解为多个待检测数据片;S3、扫描网站的原始数据信息,根据网站划分为不同的网页,并对网页内的原始数据信息分解为多个标准数据片,且对更新数据库进行扫描,将更新数据库中存储的各网页内的数据信息进行分解为多个更新数据片;S4、将检测到的多个待检测数据片与标准数据片进行相似度分析,根据相似度分析,并反馈分析的相似度结果;S5、对相似度结果进行判断,若相似度为1,则表明网站未发生篡改;若相似度小于1或大于,则表明网站被篡改或更新,并进入步骤S6;S6、将待检测数据片与更新数据库中存储的更新数据片进行匹配分析,若待检测数据片与更新数据片完全匹配,则表明网站为更新后的网站,若待检测数据片与更新数据片不完全匹配,则表明网页出现篡改,并反馈匹配的结果。2.根据权利要求1所述的一种基于大数据的网站篡改检测方法,其特征在于:所述待检测数据片与标准数据片相似度分析的过程中,定义待检测数据片中字符长度Ai(a1,a2,...,an),an表示第n个待检测数据片的长度,标准数据片中字符长度Bj(b1,b2,...,bm),bn表示第m个标准检测数据的长...

【专利技术属性】
技术研发人员:邢婷
申请(专利权)人:合肥俊刚机械科技有限公司
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1