一种网页篡改检测方法、检测系统及相关设备技术方案

技术编号:25346333 阅读:19 留言:0更新日期:2020-08-21 17:05
本发明专利技术实施例提供了一种网页篡改检测方法、检测系统及相关设备,用于提高检测效率及检测精度。本发明专利技术实施例方法包括:获取待检测网页的主题词汇,并基于预设的词向量模型生成每一个主题词汇的词向量;判断所述待检测网页中是否存在可疑文本;若存在可疑文本,则计算每一个主题词汇的词向量分别与各个可疑文本的语义距离,所有的语义距离构成第一集合;判断所述第一集合中最小的语义距离是否大于第一阈值,若大于,则判定所述待检测网页为篡改网页,若小于,则判定待检测网页为正常网页。

【技术实现步骤摘要】
一种网页篡改检测方法、检测系统及相关设备
本专利技术涉及网络安全检测领域,尤其涉及一种网页篡改检测方法、检测系统及相关设备。
技术介绍
网页篡改是指攻击者将已存在的网页部分或全部修改为恶意内容或在站点创建新的网页并写入恶意内容。网页篡改不仅影响了网站的正常运营,而且会向公众传播大量非法信息,危害巨大。目前针对网页篡改的检测主要是基于关键词匹配,根据命中词语的词频信息,判定网页是否被篡改。现有方案主要是利用关键词的词频及分布来检测网页是否被篡改,但是这些方案会对部分客户场景造成误报,譬如客户网站的业务是游戏或者新闻媒体等,其网页可能包含敏感词,现有方法容易误报。
技术实现思路
本专利技术实施例提供了一种网页篡改检测方法、检测系统及相关设备,用于提高检测效率及检测精度。本专利技术实施例第一方面提供了一种网页篡改检测方法,其包括:获取待检测网页的主题词汇,并基于预设的词向量模型生成每一个主题词汇的词向量;判断所述待检测网页中是否存在可疑文本;若存在可疑文本,则计算每一个主题词汇的词向量分别与各个可疑文本的语义距离,所有的语义距离构成第一集合;判断所述第一集合中最小的语义距离是否大于第一阈值,若大于,则判定所述待检测网页为篡改网页,若小于,则判定待检测网页为正常网页。可选的,作为一种可能的实施方式,本专利技术实施例中,所述判断待检测网页中是否存在可疑文本,包括:建立敏感词库,并基于词向量模型生成所述敏感词库中每一个敏感词汇的词向量,所有的敏感词汇的词向量构成第二集合;对待检测网页所属的每一个待检测文本进行分词处理,所有待检测文本中的分词构成第三集合;基于词向量模型生成所述第三集合中每一个分词的词向量;判断所述第三集合中是否存在目标分词,所述目标分词对应的词向量与所述第二集合中的各个词向量的最小空间距离小于第二阈值;若存在所述目标分词,则确定所述目标分词所在的待检测文本为可疑文本。可选的,作为一种可能的实施方式,本专利技术实施例中的网页篡改检测方法还包括:采集训练文本;判断所述训练文本中的是否存在词向量模型中没有保存过的新词汇;若存在新词汇,则采用所述新词汇所在的训练文本重新训练词向量模型,并生成对应新词汇的目标词向量;判断所述第二集合中是否存在第一词向量,所述第一词向量与所述目标词向量的空间距离小于第三阈值;若存在所述第一词向量,则将所述目标词向量对应的新词汇加入所述敏感词库。可选的,作为一种可能的实施方式,本专利技术实施例中,所述计算每一个主题词汇的词向量分别与各个可疑文本的语义距离,包括:进行独立距离运算,所述独立距离运算包括:计算第一主题词汇的词向量与一个可疑文本中各个分词的词向量的空间距离,取最小的空间距离作为所述第一主题词汇与对应的可疑文本的语义距离;重复所述独立距离运算,得到每一个主题词汇的词向量分别与各个可疑文本的语义距离。本专利技术实施例第二方面提供了一种检测系统,运用于网页篡改检测,其包括:获取模块,用于获取待检测网页的主题词汇,并基于预设的词向量模型生成每一个主题词汇的词向量;第一判断模块,用于判断所述待检测网页中是否存在可疑文本;计算模块,若存在可疑文本,则用于计算每一个主题词汇的词向量分别与各个可疑文本的语义距离,所有的语义距离构成第一集合;处理模块,用于判断所述第一集合中最小的语义距离是否大于第一阈值,若大于,则判定所述待检测网页为篡改网页,若小于,则判定待检测网页为正常网页。可选的,作为一种可能的实施方式,本专利技术实施例中,所述第一判断模块包括:建立单元,用于建立敏感词库,并基于词向量模型生成所述敏感词库中每一个敏感词汇的词向量,所有的敏感词汇的词向量构成第二集合;分词单元,用于对待检测网页所属的每一个待检测文本进行分词处理,所有待检测文本中的分词构成第三集合;生成单元,基于词向量模型生成所述第三集合中每一个分词的词向量;判断单元,判断所述第三集合中是否存在目标分词,所述目标分词对应的词向量与所述第二集合中的各个词向量的最小空间距离小于第二阈值;处理单元,若存在所述目标分词,则确定所述目标分词所在的待检测文本为可疑文本。可选的,作为一种可能的实施方式,本专利技术实施例中的检测系统还包括:采集模块,用于采集训练文本;第二判断模块,用于判断所述训练文本中的是否存在词向量模型中没有保存过的新词汇;训练模块,若存在新词汇,则采用所述新词汇所在的训练文本重新训练词向量模型,并生成对应新词汇的目标词向量;第三判断模块,用于判断所述第二集合中是否存在第一词向量,所述第一词向量与所述目标词向量的空间距离小于第三阈值;更新模块,若存在所述第一词向量,则将所述目标词向量对应的新词汇加入所述敏感词库。可选的,作为一种可能的实施方式,本专利技术实施例中,所述计算模块,包括:计算单元,用于进行独立距离运算,所述独立距离运算包括:计算第一主题词汇的词向量与一个可疑文本中各个分词的词向量的空间距离,取最小的空间距离作为所述第一主题词汇与对应的可疑文本的语义距离;控制单元,用于重复所述独立距离运算,得到每一个主题词汇的词向量分别与各个可疑文本的语义距离。本专利技术实施例第三方面提供了一种计算机装置,所述计算机装置包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如第一方面及第一方面任一种可能的实施方式中的步骤。本专利技术实施例第四方面提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如第一方面及第一方面任一种可能的实施方式中的步骤。从以上技术方案可以看出,本专利技术实施例具有以下优点:本专利技术实施例中,检测系统可以将待检测网页中的文本划分为多个待检测文本,并判断各个待检测文本是否为可疑文本,只对可疑文本进行进一步检测,提高了检测的效率。此外,检测系统可以获取待检测网页的主题词汇,并基于预设的词向量模型生成每一个主题词汇的词向量,并计算每一个主题词汇的词向量分别与各个可疑文本的语义距离,并基于最小语义距离判定待检测网页是否有被篡改,基于待检测网页的主题识别可疑文本是否被篡改,当主题词汇与可疑文本的最小的语义距离不大于第一阈值时,判定待检测网页为正常网页,可以避免误报。附图说明图1为本专利技术实施例中一种网页篡改检测方法的一个实施例示意图;图2为本专利技术实施例中一种网页篡改检测方法的另一个实施例示意图;图3为本专利技术实施例中一种网页篡改检测方法的另一个实施例示意图;图4为本专利技术实施例中一种检测系统的一个实施例示意图;图5为本专利技术实施例中一种检测系统的另一个实施例示意图;图6为本专利技术实施例中一种检测系统的另一个实施例示意图;图7为本专利技术实施例中一种检测系统的另一个实施例示意图;图8为本专利技术实施例中一种计算机装置的一个实本文档来自技高网...

【技术保护点】
1.一种网页篡改检测方法,其特征在于,包括:/n获取待检测网页的主题词汇,并基于预设的词向量模型生成每一个主题词汇的词向量;/n判断所述待检测网页中是否存在可疑文本;/n若存在可疑文本,则计算每一个主题词汇的词向量分别与各个可疑文本的语义距离,所有的语义距离构成第一集合;/n判断所述第一集合中最小的语义距离是否大于第一阈值,若大于,则判定所述待检测网页为篡改网页,若小于,则判定待检测网页为正常网页。/n

【技术特征摘要】
1.一种网页篡改检测方法,其特征在于,包括:
获取待检测网页的主题词汇,并基于预设的词向量模型生成每一个主题词汇的词向量;
判断所述待检测网页中是否存在可疑文本;
若存在可疑文本,则计算每一个主题词汇的词向量分别与各个可疑文本的语义距离,所有的语义距离构成第一集合;
判断所述第一集合中最小的语义距离是否大于第一阈值,若大于,则判定所述待检测网页为篡改网页,若小于,则判定待检测网页为正常网页。


2.根据权利要求1所述的方法,其特征在于,所述判断待检测网页中是否存在可疑文本,包括:
建立敏感词库,并基于词向量模型生成所述敏感词库中每一个敏感词汇的词向量,所有的敏感词汇的词向量构成第二集合;
对待检测网页所属的每一个待检测文本进行分词处理,所有待检测文本中的分词构成第三集合;
基于词向量模型生成所述第三集合中每一个分词的词向量;
判断所述第三集合中是否存在目标分词,所述目标分词对应的词向量与所述第二集合中的各个词向量的最小空间距离小于第二阈值;
若存在所述目标分词,则确定所述目标分词所在的待检测文本为可疑文本。


3.根据权利要求2所述的方法,其特征在于,还包括:
采集训练文本;
判断所述训练文本中的是否存在词向量模型中没有保存过的新词汇;
若存在新词汇,则采用所述新词汇所在的训练文本重新训练词向量模型,并生成对应新词汇的目标词向量;
判断所述第二集合中是否存在第一词向量,所述第一词向量与所述目标词向量的空间距离小于第三阈值;
若存在所述第一词向量,则将所述目标词向量对应的新词汇加入所述敏感词库。


4.根据权利要求1至3中任一项所述的方法,其特征在于,所述计算每一个主题词汇的词向量分别与各个可疑文本的语义距离,包括:
进行独立距离运算,所述独立距离运算包括:计算第一主题词汇的词向量与一个可疑文本中各个分词的词向量的空间距离,取最小的空间距离作为所述第一主题词汇与对应的可疑文本的语义距离;
重复所述独立距离运算,得到每一个主题词汇的词向量分别与各个可疑文本的语义距离。


5.一种检测系统,运用于网页篡改检测,其特征在于,包括:
获取模块,用于获取待检测网页的主题词汇,并基于预设的词向量模型生成每一个主题词汇的词向量;
第一判断模块,用于判断所述待检测网页中是否存在可疑文本;
计算模块,若存...

【专利技术属性】
技术研发人员:杨荣海王大伟
申请(专利权)人:深信服科技股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1