网站特征的构建方法、装置、电子设备及介质制造方法及图纸

技术编号:37067368 阅读:9 留言:0更新日期:2023-03-29 19:45
本发明专利技术提供了一种网站特征的构建方法、装置、电子设备及介质,包括:获取目标网站的网站信息,并将网站信息进行拆分得到网页快照图片库表、网页爬虫内容信息库表和用户操作业务场景库表;基于预先训练好的卷积神经网络模型对网页快照图片库表、网页爬虫内容信息库表和用户操作业务场景库表进行计算,得到目标网站的网站特征。本发明专利技术提高了网站特征构建的准确度。度。度。

【技术实现步骤摘要】
网站特征的构建方法、装置、电子设备及介质


[0001]本专利技术涉及网络安全
,尤其是涉及一种网站特征的构建方法、装置、电子设备及介质。

技术介绍

[0002]随着计算机网络的飞速发展和信息化建设的加快,网络信息日益丰富,包含赌博、诈骗、色情、暴力等不良内容的非法网站已成为亟待解决的问题,因此,对网站信息内容的合法性、健康性、安全性的监测也已成为网络领域的热点问题。目前,通常是人工利用网页快照进行图片特征分析,以确定网站特征,进而确定网站类型。但是,仅从图片特征进行分析,构建的网站特征准确度较低。

技术实现思路

[0003]有鉴于此,本专利技术的目的在于提供一种网站特征的构建方法、装置、电子设备及介质,以提高网站特征构建的准确度。
[0004]为了实现上述目的,本专利技术实施例采用的技术方案如下:
[0005]第一方面,本专利技术实施例提供了一种网站特征的构建方法,包括:获取目标网站的网站信息,并将网站信息进行拆分得到网页快照图片库表、网页爬虫内容信息库表和用户操作业务场景库表;基于预先训练好的卷积神经网络模型对网页快照图片库表、网页爬虫内容信息库表和用户操作业务场景库表进行计算,得到目标网站的网站特征。
[0006]在一种实施方式中,将网站信息进行拆分得到网页快照图片库表、网页爬虫内容信息库表和用户操作业务场景库表,包括:将网站信息按照URL主键进行三维映射处理,得到网页快照图片库、网页爬虫内容信息库和用户操作业务场景库;基于预设的建表原则对网页快照图片库、网页爬虫内容信息库和用户操作业务场景库进行数据处理,得到网页快照图片库表、网页爬虫内容信息库表和用户操作业务场景库表。
[0007]在一种实施方式中,基于预设的建表原则对网页快照图片库、网页爬虫内容信息库和用户操作业务场景库进行数据处理,得到网页快照图片库表、网页爬虫内容信息库表和用户操作业务场景库表,包括:对网页快照图片库中的网页快照进行裁剪,并基于裁剪后的网页快照建立网页快照图片库表;基于网页爬虫内容信息库,采用爬虫引擎对目标网站的网站源码进行结构化提取,以及对目标网站的文字信息进行提取,建立网页爬虫内容信息库表;基于用户操作业务场景库对用户的行为数据进行统计分析,建立用户操作业务场景库表。
[0008]在一种实施方式中,基于预先训练好的卷积神经网络模型对网页快照图片库表、网页爬虫内容信息库表和用户操作业务场景库表进行计算,得到目标网站的网站特征,包括:基于卷积神经网络模型的卷积层分别对网页快照图片库表、网页爬虫内容信息库表和用户操作业务场景库表进行卷积计算,得到目标网站的特征合并结果;基于卷积神经网络模型的全连接层和预先设定的知识库对特征合并结果进行映射,得到目标网站的网站特
征。
[0009]在一种实施方式中,基于卷积神经网络模型的卷积层分别对网页快照图片库表、网页爬虫内容信息库表和用户操作业务场景库表进行卷积计算,得到目标网站的特征合并结果,包括:基于卷积神经网络模型的卷积层分别对网页快照图片库表、网页爬虫内容信息库表和用户操作业务场景库表进行卷积计算,得到目标网站的图像特征、内容特征和场景特征;将图像特征、内容特征和场景特征分别进行池化处理,并将池化后的图像特征、内容特征和场景特征进行合并,得到目标网站的特征合并结果。
[0010]在一种实施方式中,基于卷积神经网络模型的全连接层和预先设定的知识库对特征合并结果进行映射,得到目标网站的网站特征,包括:基于激活函数和特征合并结果对目标网站进行业务分类,得到目标网站的业务领域和业务分类特征;基于业务领域对应的知识库和业务分类特征进行特征计算,基于业务领域对应的知识库和业务分类特征进行特征计算,确定目标网站的业务领域特征;基于用户行为数据确定目标网站的用户行为特征;将用户行为特征和业务领域特征确定为目标网站的网站特征,并输出目标网站的网站特征。
[0011]在一种实施方式中,该方法还包括:将待标记的样本网站信息作为验证集,对卷积神经网络模型的输出结果进行验证。
[0012]第二方面,本专利技术实施例提供了一种网站特征的构建装置,包括:数据获取模块,用于获取目标网站的网站信息,并将网站信息进行拆分得到网页快照图片库表、网页爬虫内容信息库表和用户操作业务场景库表;特征构建模块,用于基于预先训练好的卷积神经网络模型对网页快照图片库表、网页爬虫内容信息库表和用户操作业务场景库表进行计算,得到目标网站的网站特征。
[0013]第三方面,本专利技术实施例提供了一种电子设备,包括处理器和存储器,存储器存储有能够被处理器执行的计算机可执行指令,处理器执行计算机可执行指令以实现上述第一方面提供的任一项的方法的步骤。
[0014]第四方面,本专利技术实施例提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行上述第一方面提供的任一项的方法的步骤。
[0015]本专利技术实施例带来了以下有益效果:
[0016]本专利技术实施例提供的上述网站特征的构建方法、装置、电子设备及介质,首先,获取目标网站的网站信息,并将网站信息进行拆分得到网页快照图片库表、网页爬虫内容信息库表和用户操作业务场景库表;然后,基于预先训练好的卷积神经网络模型对网页快照图片库表、网页爬虫内容信息库表和用户操作业务场景库表进行计算,得到目标网站的网站特征。上述方法利用卷积神经网络模型,将网站信息转化为三维输入,即网页快照图片库表、网页爬虫内容信息库表和用户操作业务场景库表,通过不同的卷积计算,自动形成符合业务的网站特征,提高了网站特征构建的准确度。
[0017]本专利技术的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
[0018]为使本专利技术的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
[0019]为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0020]图1为本专利技术实施例提供的一种网站特征的构建方法的流程图;
[0021]图2为本专利技术实施例提供的一种基于空间卷积的计算过程的示意图;
[0022]图3为本专利技术实施例提供的一种基于知识库的全连接过程示意图;
[0023]图4为本专利技术实施例提供的一种网站特征的构建装置的结构示意图;
[0024]图5为本专利技术实施例提供的一种电子设备的结构示意图。
具体实施方式
[0025]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种网站特征的构建方法,其特征在于,包括:获取目标网站的网站信息,并将所述网站信息进行拆分得到网页快照图片库表、网页爬虫内容信息库表和用户操作业务场景库表;基于预先训练好的卷积神经网络模型对所述网页快照图片库表、所述网页爬虫内容信息库表和所述用户操作业务场景库表进行计算,得到所述目标网站的网站特征。2.根据权利要求1所述的构建方法,其特征在于,将所述网站信息进行拆分得到网页快照图片库表、网页爬虫内容信息库表和用户操作业务场景库表,包括:将所述网站信息按照URL主键进行三维映射处理,得到网页快照图片库、网页爬虫内容信息库和用户操作业务场景库;基于预设的建表原则对所述网页快照图片库、所述网页爬虫内容信息库和所述用户操作业务场景库进行数据处理,得到网页快照图片库表、网页爬虫内容信息库表和用户操作业务场景库表。3.根据权利要求2所述的构建方法,其特征在于,基于预设的建表原则对所述网页快照图片库、所述网页爬虫内容信息库和所述用户操作业务场景库进行数据处理,得到网页快照图片库表、网页爬虫内容信息库表和用户操作业务场景库表,包括:对所述网页快照图片库中的网页快照进行裁剪,并基于裁剪后的网页快照建立网页快照图片库表;基于所述网页爬虫内容信息库,采用爬虫引擎对所述目标网站的网站源码进行结构化提取,以及对所述目标网站的文字信息进行提取,建立网页爬虫内容信息库表;基于所述用户操作业务场景库对用户的行为数据进行统计分析,建立用户操作业务场景库表。4.根据权利要求1所述的构建方法,其特征在于,基于预先训练好的卷积神经网络模型对所述网页快照图片库表、所述网页爬虫内容信息库表和所述用户操作业务场景库表进行计算,得到所述目标网站的网站特征,包括:基于所述卷积神经网络模型的卷积层分别对所述网页快照图片库表、所述网页爬虫内容信息库表和所述用户操作业务场景库表进行卷积计算,得到所述目标网站的特征合并结果;基于所述卷积神经网络模型的全连接层和预先设定的知识库对所述特征合并结果进行映射,得到所述目标网站的网站特征。5.根据权利要求4所述的构建方法,其特征在于,基于所述卷积神经网络模型的卷积层分别对所...

【专利技术属性】
技术研发人员:肖飞何珍赵欣荷刘松树
申请(专利权)人:玉林市公安局淄博市公安局周村分局
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1