一种页面状态检测方法、装置、设备和介质制造方法及图纸

技术编号:29330775 阅读:18 留言:0更新日期:2021-07-20 17:48
本发明专利技术实施例公开了一种页面状态检测方法、装置、设备和介质,涉及网络安全技术领域,所述方法包括:获取待检测页面的特征信息;其中,所述特征信息包括关键词信息、域名信息和网际互连协议信息中的至少一种;根据所述待检测页面的特征信息以及至少一类候选特征信息,确定所述待检测页面的页面状态;其中,所述候选特征信息是通过对页面状态为异常状态的页面进行采集得到的。本发明专利技术实施例实现了确定待检测页面的页面状态的效果,从而保证能够及时识别到页面状态为异常状态的页面。

【技术实现步骤摘要】
一种页面状态检测方法、装置、设备和介质
本专利技术实施例涉及网络安全
,尤其涉及一种页面状态检测方法、装置、设备和介质。
技术介绍
随着我国经济以及信息技术的不断发展,互联网已经融入到人们的生活当中,越来越多的人选择从互联网中选取所需要的信息,这也极大的促进了互联网的蓬勃发展。当前的互联网环境中,存在一些具有不良信息和行为的异常状态网站,但目前并没有很成熟的产品技术能对异常状态网站进行有效识别。
技术实现思路
本申请实施例公开一种页面状态检测方法、装置、设备和介质,以解决无法对互联网不良信息和行为进行有效预警的问题。第一方面,本专利技术实施例提供了一种页面状态检测方法,包括:获取待检测页面的特征信息;其中,所述特征信息包括关键词信息、域名信息和网际互连协议信息中的至少一种;根据所述待检测页面的特征信息以及至少一类候选特征信息,确定所述待检测页面的页面状态;其中,所述候选特征信息是通过对页面状态为异常状态的页面进行采集得到的。第二方面,本专利技术实施例提供了一种页面状态检测装置,包括:特征信息获取模块,用于获取待检测页面的特征信息;其中,所述特征信息包括关键词信息、域名信息和网际互连协议信息中的至少一种;页面状态确定模块,用于根据所述待检测页面的特征信息以及至少一类候选特征信息,确定所述待检测页面的页面状态;其中,所述候选特征信息是通过对页面状态为异常状态的页面进行采集得到的。第三方面,本专利技术实施例提供了一种电子设备,所述电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本专利技术实施例中任一所述的页面状态检测方法。第四方面,本专利技术实施例提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如本专利技术实施例中任一所述的页面状态检测方法。本专利技术实施例实现了确定待检测页面的页面状态的效果,从而保证能够及时识别到页面状态为异常状态的页面。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通用户来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1是本专利技术实施例一提供的一种页面状态检测方法的流程图;图2为本专利技术实施例二提供的一种页面状态检测方法的流程图;图3为本专利技术实施例三提供的一种页面状态检测装置的结构示意图;图4为本专利技术实施例四提供的一种设备的结构示意图。具体实施方式下面结合附图和实施例对本专利技术实施例作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术实施例,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术实施例相关的结构而非全部结构。实施例一图1是本专利技术实施例一提供的一种页面状态检测方法的流程图。本实施例可适用于识别页面状态为异常状态的页面的情况,该方法可以由本专利技术实施例提供的页面状态检测装置来执行,所述装置可以由软件和/或硬件的方式来实现。如图1所示,该方法可以包括:S101、获取待检测页面的特征信息;其中,所述特征信息包括关键词信息、域名信息和网际互连协议信息中的至少一种。其中,待检测页面包括但不限于网站页面、APP(Application,手机软件)页面、车机显示页面或任意包括展示信息的页面。关键词信息表示待检测页面的页面内容中包含的关键词;域名信息表示待检测页面的域名,通过待检测页面的域名即可访问待检测页面;网际互连协议信息即待检测页面的IP信息,用于作为待检测页面的标识信息。在一种实施方式中,待检测页面的数量可以根据不同的检测场景确定,本实施例中的检测场景包括但不限于批量检测场景和用户预警检测场景。其中,若检测场景为批量检测场景,即表示需要对互联网中的海量页面进行批量检测,那么此时的待检测页面的数量较多,例如可选的为500个页面;若检测场景为用户预警检测场景,在这种情况下待检测页面数量通常为一个页面,即用户需要进行浏览的页面。可通过包括如下方式获取关键词信息:1)通过计算机编程语言中的信息获取函数来获取关键词信息,例如通过PHP语言中的内置get_meta_tags函数。2)通过爬虫技术爬取待检测页面的页面内容,进而通过预先建立的正则表达式进行正则匹配,获取关键词信息。可通过包括如下方式获取域名信息:获取待检测页面的URL网址信息,并基于Javascript语言从URL网址信息中获取域名信息,例如正则法、split拆分法或指定提取法等。可通过包括如下方式获取网际互连协议信息:1)通过ping指令获取待检测页面的网际互连协议信息。2)通过nslookup指令获取待检测页面的网际互连协议信息。通过获取待检测页面的特征信息,为后续根据待检测页面的特征信息确定待检测页面的页面状态,奠定了基础。S102、根据所述待检测页面的特征信息以及至少一类候选特征信息,确定所述待检测页面的页面状态;其中,所述候选特征信息是通过对页面状态为异常状态的页面进行采集得到的。其中,页面状态包括异常状态和正常状态。其中,异常状态表示待检测页面包括不良信息,不适合用户进行浏览,例如为不良网站或不良APP等。相应的,正常状态表示待检测页面不包括不良信息,用户可以放心浏览。在一种实施方式中,通过包括但不限于关键词爬虫技术在数据库和/或互联网资源中进行信息爬取,爬取页面状态已经被认定为异常状态的页面。相关技术人员对获取的异常状态的页面进行异常状态分类,得到至少一类的异常状态页面,并采集各类异常状态页面的特征信息,作为该类异常状态页面对应的候选特征信息,进而得到至少一类候选特征信息。换言之,任一类异常状态页面都对应有一类候选特征信息,任一类候选特征信息包括候选关键词信息、候选域名信息和候选网际互连协议信息中的至少一种。例如,爬取到页面状态已经被认定为异常状态的页面A、页面B、页面C和页面D,其中页面A和页面B的异常状态类别为类别1,页面C的异常状态类别为类别2,页面D的异常状态类别为类别3。则将页面A和页面B的特征信息作为第一类候选特征信息,页面C的特征信息作为第二类候选特征信息,页面D的特征信息作为第三类候选特征信息。将待检测页面的特征信息与建立的各类候选特征信息进行信息比对,确定待检测页面的特征信息是否属于任一类候选特征信息,若是则确定待检测页面的页面状态为异常状态,若否则确定待检测页面的页面状态为正常状态。可选的,S102包括:将所述待检测页面的特征信息与所述至少一类候选特征信息进行匹配,并根据匹配结果确定所述待检测页面的页面状态。在一种实施方式中,将待检测页面的特征信息与各类候选特征信息按信息种类分别进行匹配,例如待检测页面的特征信息包括关键词本文档来自技高网...

【技术保护点】
1.一种页面状态检测方法,其特征在于,包括:/n获取待检测页面的特征信息;其中,所述特征信息包括关键词信息、域名信息和网际互连协议信息中的至少一种;/n根据所述待检测页面的特征信息以及至少一类候选特征信息,确定所述待检测页面的页面状态;其中,所述候选特征信息是通过对页面状态为异常状态的页面进行采集得到的。/n

【技术特征摘要】
1.一种页面状态检测方法,其特征在于,包括:
获取待检测页面的特征信息;其中,所述特征信息包括关键词信息、域名信息和网际互连协议信息中的至少一种;
根据所述待检测页面的特征信息以及至少一类候选特征信息,确定所述待检测页面的页面状态;其中,所述候选特征信息是通过对页面状态为异常状态的页面进行采集得到的。


2.根据权利要求1所述的方法,其特征在于,所述根据所述待检测页面的特征信息以及至少一类候选特征信息,确定所述待检测页面的页面状态,包括:
将所述待检测页面的特征信息与所述至少一类候选特征信息进行匹配,并根据匹配结果确定所述待检测页面的页面状态。


3.根据权利要求2所述的方法,其特征在于,所述根据匹配结果确定所述待检测页面的页面状态,包括:
在所述待检测页面的特征信息与任一类候选特征信息相匹配的情况下,确定所述待检测页面的页面状态为异常状态。


4.根据权利要求3所述的方法,其特征在于,若所述待检测页面的特征信息满足如下至少一种情况,则确定所述待检测页面的特征信息与任一类候选特征信息相匹配:
所述待检测页面的关键词信息属于任一类候选特征信息中的候选关键词信息;
所述待检测页面的域名信息属于任一类候选特征信息中的候选域名信息;
所述待检测页面的网际互连协议信息属于任一类候选特征信息中的候选网际互连协议信息。


5.根据权利要求3所述的方法,其特征在于,所述确定所述待检测页面的页面状态为异常状态之后,还包括:
根据预设的各类候选特征信息与异常状态类别的关联关系,确定该类候选特征信息对应的目标异常状态类别;
将所述目标异常状态类别作为所述待检测页面的异常状态类别,并将所述目标异常状态类别向用户进行展示。


6.一种页面状态检测装置,其特征在于,包括:
特征信息获取模块,用于获取待检测页面的特征信息;其中,所述特征信息包括关键词信息、域名信息和网际互连协议信息中的至少一种;
页面状态确定模块,...

【专利技术属性】
技术研发人员:陶粟万月亮火一莽
申请(专利权)人:北京锐安科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1