一种基于图片实例级特征的诈骗网站识别方法及系统技术方案

技术编号:32199999 阅读:55 留言:0更新日期:2022-02-08 16:06
本发明专利技术公开了一种基于图片实例级特征的诈骗网站识别方法及系统,属于图像处理技术领域,针对现有的技术方案存在的对诈骗网站识别模式单一,识别效果不高,容易出现漏报误报的情况。本发明专利技术通过对需要识别的网站首页截图进行全局特征模型进行图片全局特征向量的提取,然后将提取的图片全局特征向量在特征向量数据库中进行搜索,计算搜索该图片全局特征向量和特征向量数据库的所有图片全局特征向量的欧式距离,并返回距离最近的前N个图片全局特征向量和所属涉诈类型,最后计算分别与N个图片相似实例对象特征点的最多的数量,得到待识别网站的类型。别网站的类型。别网站的类型。

【技术实现步骤摘要】
一种基于图片实例级特征的诈骗网站识别方法及系统


[0001]本专利技术属于图像处理
,具体涉及一种基于图片实例级特征的诈骗网站识别方法及系统。

技术介绍

[0002]随着互联网技术的发展,传统违法犯罪正加速向以电信、互联网等为媒介的非接触性犯罪转移,各类新型的涉嫌网络犯罪的网站层出不穷。新型网络违法犯罪正通过人工智能、机器学习、大数据等新技术被实施于各个环节,形成盘根错节的“黑灰产业链”和犯罪利益联合体,严重损害人民群众的合法权益和社会安全稳定。
[0003]现有的诈骗网站识别方法主要是采用基于内容的匹配技术,通过对网站的文本关键词进行匹配,或者通过对网站的图片进行构建深度学习模型进行图片分类来进行识别诈骗网站。
[0004]现有的技术方案存在以下问题:1.通过文本关键词进行匹配和通过对图片进行分类的方式识别诈骗网站,模式比较单一,识别效果不高,容易出现漏报误报的情况。
[0005]2.在目前各类新型的涉嫌网络犯罪的网站层出不穷的情况,同类型的诈骗网站各式各样,现有的方法无法对同诈骗类型的网站进行有效识别。
[0006]3.现有的方法面对诈骗网站的增多,采用对模型的重新数据标注和模型训练,效率不高,不满足目前诈骗网站增长迅速需要实时识别的情况。

技术实现思路

[0007]针对以上现有技术中存在的问题,本专利技术提出了一种基于图片实例级特征的诈骗网站识别方法及系统,以解决上述现有技术存在的问题。
[0008]为实现上述目的本专利技术所采用的技术方案是:提供一种基于图片实例级特征的诈骗网站识别方法及系统,包括:S1:采集原始积累的诈骗网站并获取有效截图,对其进行数据类型标注,构建形成预训练数据集,然后通过监督学习的方式构建图片全局特征模型,用于提取图片全局特征向量;S2:通过所述图片全局特征模型获取所有截图的图片全局特征向量,并按照对应的类型分类保存至特征向量数据库中;S3:对原始积累诈骗网站的有效截图进行图片的像素级实例对象标注,构建实例级的对象标注数据集,然后采用深度神经网络搭建基于诈骗网站场景的图片实例级特征模型,用于检测图片中的实例对象特征点数量及实例对象特征向量;S4:将待识别的网站截图通过所述图片全局特征模型得到该网站的图片全局特征向量,然后将该图片全局特征向量与特征向量数据库中所有的图片全局特征向量分别计算相似距离,然后按照距离的由近到远进行排序,最后根据距离阈值筛选前面数个距离近的
图片作为匹配样本图片;S5:将待识别的网站图片轮询和匹配样本图片分别通过所述图片实例级特征模型,提取两张图片的实例对象特征点数量和实例对象特征向量,然后计算他们之间相似实例对象特征点的数量,最后根据相似实例对象特征点的数量是否符合预设的实例对象特征点阈值,得到待识别网站的类型。
[0009]较优的,本专利技术S1具体为:S1.1:采集原始积累的诈骗网站并获取有效截图,对其进行数据类型标注,构建形成预训练数据集;S1.2:采用监督学习的方式构建基于MobileNet神经网络结构的图片分类模型,通过模型的训练学习到诈骗类网站的特征分布情况;S1.3:通过学习好的图片分类模型抽取模型的特征层为输出作为图片全局特征模型;S1.3.1.提取图片分类模型的每个bottleneck层的输出再接上一个全局平均池化层最终得到每个bottleneck获取的特征向量;S1.3.2.将每个bottleneck层获取的特征向量和最后一层特征层进行合并组合成全局特征向量;S1.3.3.以图片作为输入,融合的全局特征向量作为输出,组成图片全局特征模型。
[0010]较优的,本专利技术S3中采用深度神经网络搭建基于诈骗网站场景的图片实例级特征模型具体为:S3.1:采用三层卷积神经网络获取图片的轮廓信息,并去除一些噪声和不相关的干扰信息;S3.2:在轮廓信息后加上attention神经网络层,获取图片中的各个实例级对象的位置信息;S3.3:在轮廓信息后加上autoencoder神经网络层,分块获取图片的各个部分的特征编码信息;S3.4:通过对位置信息和特征编码信息进行组合,输出图片的实例级对象特征点数量和实例级对象的特征向量;S3.5:以图片为输入,实例级对象特征点数量和实例级对象的特征向量为输出,组成图片的实例级特征提取模型。
[0011]较优的,本专利技术获得两张图片相似实例对象特征点的数量具体为:首先根据两张图片的实例对象特征点数量和实例对象特征向量,通过KNN计算两张图片各个实例对象特征点之间的欧式距离,然后通过阈值过滤,获取到待识别图片和匹配样本图片的之间的相似实例对象特征点数量。
[0012]较优的,本专利技术S5得到待识别网站的类型具体为:得到所有匹配图片和待识别图片之间的相似实例对象特征点的数量后,按照相似特征点从多到少进行排序,取出相似特征点数量最多的匹配样本图片和其对应的类型,若所述相似实例对象特征点的数量符合预设的实例对象特征点阈值,则将待识别的图片与该匹配图片归为同一类型的诈骗网站,且将该待识别网站的图片全局特征向量更新至特征向
量数据库中。
[0013]本专利技术还提出一种基于图片实例级特征的诈骗网站识别系统,包括:图片全局特征模块:采集原始积累的诈骗网站并获取有效截图,对其进行数据类型标注,构建形成预训练数据集,然后通过监督学习的方式构建图片全局特征模型,用于提取图片全局特征向量;特征向量数据库:通过所述图片全局特征模型获取所有截图的图片全局特征向量,并按照对应的类型分类保存至特征向量数据库中;图片实例级特征模块:对原始积累诈骗网站的有效截图进行图片的像素级实例对象标注,构建实例级的对象标注数据集,然后采用深度神经网络搭建基于诈骗网站场景的图片实例级特征模型,用于检测图片中的实例对象特征点数量及实例对象特征向量;图片检索模块:将待识别的网站截图通过所述图片全局特征模型得到该网站的图片全局特征向量,然后将该图片全局特征向量与特征向量数据库中所有的图片全局特征向量分别计算相似距离,然后按照距离的由近到远进行排序,最后根据距离阈值筛选前面数个距离近的图片作为匹配样本图片;图片实施例匹配模块:将待识别的网站图片轮询和匹配样本图片分别通过所述图片实例级特征模型,提取两张图片的实例对象特征点数量和实例对象特征向量,然后计算他们之间相似实例对象特征点的数量,最后根据相似实例对象特征点的数量是否符合预设的实例对象特征点阈值,得到待识别网站的类型。
[0014]较优的,本专利技术图片全局特征模块具体包括:步骤1:采集原始积累的诈骗网站并获取有效截图,对其进行数据类型标注,构建形成预训练数据集;步骤2:采用监督学习的方式构建基于MobileNet神经网络结构的图片分类模型,通过模型的训练学习到诈骗类网站的特征分布情况;步骤3:通过学习好的图片分类模型抽取模型的特征层为输出作为图片全局特征模型。
[0015]较优的,本专利技术采用深度神经网络搭建基于诈骗网站场景的图片实例级特征模型具体为:步骤1:采用三层卷积神经网络获取图片的轮廓信息,并去除一些噪声和不相关的干扰信息;步骤2:在轮廓信息后加上本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于图片实例级特征的诈骗网站识别方法,其特征在于,包括:S1:采集原始积累的诈骗网站并获取有效截图,对其进行数据类型标注,构建形成预训练数据集,然后通过监督学习的方式构建图片全局特征模型,用于提取图片全局特征向量;S2:通过所述图片全局特征模型获取所有截图的图片全局特征向量,并按照对应的类型分类保存至特征向量数据库中;S3:对原始积累诈骗网站的有效截图进行图片的像素级实例对象标注,构建实例级的对象标注数据集,然后采用深度神经网络搭建基于诈骗网站场景的图片实例级特征模型,用于检测图片中的实例对象特征点数量及实例对象特征向量;S4:将待识别的网站截图通过所述图片全局特征模型得到该网站的图片全局特征向量,然后将该图片全局特征向量与特征向量数据库中所有的图片全局特征向量分别计算相似距离,然后按照距离的由近到远进行排序,最后根据距离阈值筛选前面数个距离近的图片作为匹配样本图片;S5:将待识别的网站图片轮询和匹配样本图片分别通过所述图片实例级特征模型,提取两张图片的实例对象特征点数量和实例对象特征向量,然后计算他们之间相似实例对象特征点的数量,最后根据相似实例对象特征点的数量是否符合预设的实例对象特征点阈值,得到待识别网站的类型。2.根据权利要求1所述的一种基于图片实例级特征的诈骗网站识别方法,其特征在于,S1具体为:S1.1:采集原始积累的诈骗网站并获取有效截图,对其进行数据类型标注,构建形成预训练数据集;S1.2:采用监督学习的方式构建基于MobileNet神经网络结构的图片分类模型,通过模型的训练学习到诈骗类网站的特征分布情况;S1.3:通过学习好的图片分类模型抽取模型的特征层为输出作为图片全局特征模型;S1.3.1.提取图片分类模型的每个bottleneck层的输出再接上一个全局平均池化层最终得到每个bottleneck获取的特征向量;S1.3.2.将每个bottleneck层获取的特征向量和最后一层特征层进行合并组合成全局特征向量;S1.3.3.以图片作为输入,融合的全局特征向量作为输出,组成图片全局特征模型。3.根据权利要求2所述的一种基于图片实例级特征的诈骗网站识别方法,其特征在于,S3中采用深度神经网络搭建基于诈骗网站场景的图片实例级特征模型具体为:S3.1:采用三层卷积神经网络获取图片的轮廓信息,并去除一些噪声和不相关的干扰信息;S3.2:在轮廓信息后加上attention神经网络层,获取图片中的各个实例级对象的位置信息;S3.3:在轮廓信息后加上autoencoder神经网络层,分块获取图片的各个部分的特征编码信息;S3.4:通过对位置信息和特征编码信息进行组合,输出图片的实例级对象特征点数量和实例级对象的特征向量;S3.5:以图片为输入,实例级对象特征点数量和实例级对象的特征向量为输出,组成图
片的实例级特征提取模型。4.根据权利要求1所述的一种基于图片实例级特征的诈骗网站识别方法,其特征在于,获得两张图片相似实例对象特征点的数量具体为:首先根据两张图片的实例对象特征点数量和实例对象特征向量,通过KNN计算两张图片各个实例对象特征点之间的欧式距离,然后通过阈值过滤,获取到待识别图片和匹配样本图片的之间的相似实例对象特征点数量。5.根据权利要求4所述的一种基于图片实例级特征的诈骗网站识别方法,其特征在于,S5得到待识别网站的类型具体为:得到所有匹配图片和待识别图片之间的相似实例对象特征点的数量后,按照相似特征点从多到少进行排序,取出相似特征点数量最多的匹配样本图片和其对应的类型,若所述相似实例对象特征点的数量符合预设的实例对象特征点阈值,则...

【专利技术属性】
技术研发人员:漆伟张瑞冬童永鳌朱鹏马永霄张浩
申请(专利权)人:成都无糖信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1