一种网页篡改检测方法、检测系统及相关设备技术方案

技术编号：25346333 阅读：19 留言：0更新日期：2020-08-21 17:05

本发明专利技术实施例提供了一种网页篡改检测方法、检测系统及相关设备，用于提高检测效率及检测精度。本发明专利技术实施例方法包括：获取待检测网页的主题词汇，并基于预设的词向量模型生成每一个主题词汇的词向量；判断所述待检测网页中是否存在可疑文本；若存在可疑文本，则计算每一个主题词汇的词向量分别与各个可疑文本的语义距离，所有的语义距离构成第一集合；判断所述第一集合中最小的语义距离是否大于第一阈值，若大于，则判定所述待检测网页为篡改网页，若小于，则判定待检测网页为正常网页。

全部详细技术资料下载

【技术实现步骤摘要】
一种网页篡改检测方法、检测系统及相关设备
本专利技术涉及网络安全检测领域，尤其涉及一种网页篡改检测方法、检测系统及相关设备。
技术介绍
网页篡改是指攻击者将已存在的网页部分或全部修改为恶意内容或在站点创建新的网页并写入恶意内容。网页篡改不仅影响了网站的正常运营，而且会向公众传播大量非法信息，危害巨大。目前针对网页篡改的检测主要是基于关键词匹配，根据命中词语的词频信息，判定网页是否被篡改。现有方案主要是利用关键词的词频及分布来检测网页是否被篡改，但是这些方案会对部分客户场景造成误报，譬如客户网站的业务是游戏或者新闻媒体等，其网页可能包含敏感词，现有方法容易误报。
技术实现思路
本专利技术实施例提供了一种网页篡改检测方法、检测系统及相关设备，用于提高检测效率及检测精度。本专利技术实施例第一方面提供了一种网页篡改检测方法，其包括：获取待检测网页的主题词汇，并基于预设的词向量模型生成每一个主题词汇的词向量；判断所述待检测网页中是否存在可疑文本；若存在可疑文本，则计算每一个主题词汇的词向量分别与各个可疑文本的语义距离，所有的语义距离构成第一集合；判断所述第一集合中最小的语义距离是否大于第一阈值，若大于，则判定所述待检测网页为篡改网页，若小于，则判定待检测网页为正常网页。可选的，作为一种可能的实施方式，本专利技术实施例中，所述判断待检测网页中是否存在可疑文本，包括：建立敏感词库，并基于词向量模型生成所述敏感词库中每一个敏感词汇的词向量，所有的敏感...

【技术保护点】
1.一种网页篡改检测方法，其特征在于，包括：/n获取待检测网页的主题词汇，并基于预设的词向量模型生成每一个主题词汇的词向量；/n判断所述待检测网页中是否存在可疑文本；/n若存在可疑文本，则计算每一个主题词汇的词向量分别与各个可疑文本的语义距离，所有的语义距离构成第一集合；/n判断所述第一集合中最小的语义距离是否大于第一阈值，若大于，则判定所述待检测网页为篡改网页，若小于，则判定待检测网页为正常网页。/n

【技术特征摘要】
1.一种网页篡改检测方法，其特征在于，包括：
获取待检测网页的主题词汇，并基于预设的词向量模型生成每一个主题词汇的词向量；
判断所述待检测网页中是否存在可疑文本；
若存在可疑文本，则计算每一个主题词汇的词向量分别与各个可疑文本的语义距离，所有的语义距离构成第一集合；
判断所述第一集合中最小的语义距离是否大于第一阈值，若大于，则判定所述待检测网页为篡改网页，若小于，则判定待检测网页为正常网页。

2.根据权利要求1所述的方法，其特征在于，所述判断待检测网页中是否存在可疑文本，包括：
建立敏感词库，并基于词向量模型生成所述敏感词库中每一个敏感词汇的词向量，所有的敏感词汇的词向量构成第二集合；
对待检测网页所属的每一个待检测文本进行分词处理，所有待检测文本中的分词构成第三集合；
基于词向量模型生成所述第三集合中每一个分词的词向量；
判断所述第三集合中是否存在目标分词，所述目标分词对应的词向量与所述第二集合中的各个词向量的最小空间距离小于第二阈值；
若存在所述目标分词，则确定所述目标分词所在的待检测文本为可疑文本。

3.根据权利要求2所述的方法，其特征在于，还包括：
采集训练文本；
判断所述训练文本中的是否存在词向量模型中没有保存过的新词汇；
若存在新词汇，则采用所述新词汇所在的训练文本重新训练词向量模型，并生成对应新词汇的目标词向量；
判断所述第二集合中是否存在第一词向量，所述第一词向量与所述目标词向量的空间距离小于第三阈值；
若存在所述第一词向量，则将所述目标词向量对应的新词汇加入所述敏感词库。

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述计算每一个主题词汇的词向量分别与各个可疑文本的语义距离，包括：
进行独立距离运算，所述独立距离运算包括：计算第一主题词汇的词向量与一个可疑文本中各个分词的词向量的空间距离，取最小的空间距离作为所述第一主题词汇与对应的可疑文本的语义距离；
重复所述独立距离运算，得到每一个主题词汇的词向量分别与各个可疑文本的语义距离。

5.一种检测系统，运用于网页篡改检测，其特征在于，包括：
获取模块，用于获取待检测网页的主题词汇，并基于预设的词向量模型生成每一个主题词汇的词向量；
第一判断模块，用于判断所述待检测网页中是否存在可疑文本；
计算模块，若存...

【专利技术属性】
技术研发人员：杨荣海，王大伟，
申请(专利权)人：深信服科技股份有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人