网页的暗链检测方法、装置及设备制造方法及图纸

技术编号:36643441 阅读:15 留言:0更新日期:2023-02-18 13:01
本发明专利技术公开了一种网页的暗链检测方法、装置及设备,该方法包括:获取网页扫描数据;对所述网页扫描数据进行特征提取,得到扫描数据特征值;将所述扫描数据特征值,输入训练好的预设检测模型进行处理,得到网页是否包含暗链的检测结果。通过上述方式,本发明专利技术的方案提高了网页的暗链检测的准确性以及检测效率。网页的暗链检测的准确性以及检测效率。网页的暗链检测的准确性以及检测效率。

【技术实现步骤摘要】
网页的暗链检测方法、装置及设备


[0001]本专利技术涉及网页检测
,具体涉及一种网页的暗链检测方法、装置及设备。

技术介绍

[0002]暗链攻击是指黑客通过隐形篡改技术在被攻击网站的网页植入暗链,“暗链”在网站中的链接做得非常隐蔽,短时间内不易被搜索引擎察觉。这些暗链往往被非法链接到色情、诈骗、甚至反动信息,严重影响企业的信誉和行销。
[0003]目前市面主流的暗链检测技术,主要是通过对网站内容进行爬取,并对爬取的内容进行关键字匹配检测,以及通过多种不同的方式(浏览器请求,接口请求等)对网站进行访问,通过对网站访问的结果返回,判断网站返回的内容数据是否一致。如果一直则认为存在暗链风险,否则为无异常。
[0004]通过关键词检测的方法目前存在误报率较高,并且人工检测耗费时间长,人工二次确认难度大等问题,使用不同方式访问网站,由于是通过关键字规则匹配,所以只能针对特定的暗链检测,规则的拓展性的和更新的实时性交叉,导致使用范围较窄,误报率较高。

技术实现思路

[0005]鉴于上述问题,提出了本专利技术实施例以便提供一种克服上述问题或者至少部分地解决上述问题的网页的暗链检测方法、装置及设备。
[0006]根据本专利技术实施例的一个方面,提供了一种网页的暗链检测方法,包括:
[0007]获取网页扫描数据;
[0008]对所述网页扫描数据进行特征提取,得到扫描数据特征值;
[0009]将所述扫描数据特征值,输入训练好的预设检测模型进行处理,得到网页是否包含暗链的检测结果。
[0010]根据本专利技术实施例的另一方面,提供了一种网页的暗链检测装置,包括:
[0011]获取模块,用于获取网页扫描数据;
[0012]提取模块,用于对所述网页扫描数据进行特征提取,得到扫描数据特征值;
[0013]处理模块,用于将所述扫描数据特征值,输入训练好的预设检测模型进行处理,得到网页是否包含暗链的检测结果。
[0014]根据本专利技术实施例的又一方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
[0015]所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述网页的暗链检测方法对应的操作。
[0016]根据本专利技术实施例的再一方面,提供了一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如上述网页的暗链检测方法对应的操作。
[0017]根据本专利技术上述实施例提供的方案,网页的暗链检测方法通过获取网页扫描数据;对所述网页扫描数据进行特征提取,得到扫描数据特征值;将所述扫描数据特征值,输入训练好的预设检测模型进行处理,得到网页是否包含暗链的检测结果;可以提高暗链检测的准确性,对未知环境或高混杂暗链环境进行识别,适用范围广;由此解决了关键词检测的方法误报率较高,并且人工检测耗费时间长的问题,取得了提高网页的暗链检测的准确性以及检测效率的有益效果。
[0018]上述说明仅是本专利技术实施例技术方案的概述,为了能够更清楚了解本专利技术实施例的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术实施例的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术实施例的具体实施方式。
附图说明
[0019]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术实施例的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0020]图1示出了本专利技术实施例提供的网页的暗链检测方法流程图;
[0021]图2示出了本专利技术另一实施例提供的网页的暗链检测方法的流程图;
[0022]图3示出了本专利技术实施例提供的网页的暗链检测装置的结构示意图;
[0023]图4示出了本专利技术实施例提供的计算设备的结构示意图。
具体实施方式
[0024]下面将参照附图更详细地描述本专利技术的示例性实施例。虽然附图中显示了本专利技术的示例性实施例,然而应当理解,可以以各种形式实现本专利技术而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本专利技术,并且能够将本专利技术的范围完整的传达给本领域的技术人员。
[0025]图1示出了本专利技术实施例提供的网页的暗链检测方法的流程图。如图1所示,该方法包括以下步骤:
[0026]步骤11,获取网页扫描数据;
[0027]步骤12,对所述网页扫描数据进行特征提取,得到扫描数据特征值;
[0028]步骤13,将所述扫描数据特征值,输入训练好的预设检测模型进行处理,得到网页是否包含暗链的检测结果。
[0029]该实施例,通过获取网页扫描数据;对所述网页扫描数据进行特征提取,得到扫描数据特征值;将所述扫描数据特征值,输入训练好的预设检测模型进行处理,得到网页是否包含暗链的检测结果;可以提高网页的暗链检测的准确性,对未知环境或高混杂暗链环境进行识别,适用范围广,提高网页的暗链检测的效率。
[0030]图2示出了本专利技术另一个实施例提供的网页的暗链检测方法的流程图。如图2所示,该方法包括以下步骤:
[0031]步骤21,获取网页扫描数据;
[0032]步骤22,对所述网页扫描数据进行特征提取,得到扫描数据特征集合;这里,网页扫描数据的特征主要包括网页URL(统一资料定位符)、URL个数、URL长度、标题词汇数量、最
长标题词汇长度、最短标题词汇长度、锚文本数量、网页压缩率、无标记文本数量、无标记文本平均长度等;生成扫描数据特征集合可以表示为:V={V1,V2,V3,

,V
j
‑1,V
j
};
[0033]步骤23,获取所述扫描数据特征集合中的每一扫描数据特征的内容数据,作为所述扫描数据特征值;该步骤具体实现时,提取扫描数据特征,生成扫描数据特征库,针对某个维度Vi,所包含的特征内容数据可以表示为:V
i
={T1,T2,T3,

,T
j
‑1,T
j
}。
[0034]步骤24,将所述扫描数据特征值,输入训练好的预设检测模型进行处理,得到网页是否包含暗链的检测结果。其中,所述预设检测模型为:
[0035]分类函数:
[0036]其中,表示为超平面,表示为点到超平面的距离,当表示为超平面之上的点,表示为平面之下的点,为符号函数;V
i
为扫描数据特征值;W
i
和b均为所述预设检测模型的参数;
[0037]当f(V
i
)=第一值时,所述检测结果为所述网页不包含暗链;可选的,这里的第一值如可以是1;
[0038]当f(V
i
)=第二值时,所述检测结果为所述网页包含暗链;可选的,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种网页的暗链检测方法,其特征在于,包括:获取网页扫描数据;对所述网页扫描数据进行特征提取,得到扫描数据特征值;将所述扫描数据特征值,输入训练好的预设检测模型进行处理,得到网页是否包含暗链的检测结果。2.根据权利要求1所述的网页的暗链检测方法,其特征在于,对所述网页扫描数据进行特征提取,得到扫描数据特征值,包括:对所述网页扫描数据进行特征提取,得到扫描数据特征集合;获取所述扫描数据特征集合中的每一扫描数据特征的内容数据,作为所述扫描数据特征值。3.根据权利要求1所述的网页的暗链检测方法,其特征在于,所述预设检测模型为:分类函数:其中,表示为超平面,表示为点到超平面的距离,当表示为超平面之上的点,表示为平面之下的点,为符号函数;V
i
为扫描数据特征值;W
i
和b均为所述预设检测模型的参数;当f(V
i
)=第一值时,所述检测结果为所述网页不包含暗链;当f(V
i
)=第二值时,所述检测结果为所述网页包含暗链。4.根据权利要求1所述的网页的暗链检测方法,其特征在于,所述预设检测模型通过以下过程进行训练:获取网页扫描数据的训练集,所述训练集包括:第一扫描数据、第二扫描数据和第三扫描数据;所述第一扫描数据不包含暗链,所述第二扫描数据中包含部分没有标记的暗链,所述第三扫描数据包含暗链;对所述训练集进行特征提取,得到所述训练集的扫描数据特征集合;获取所述训练集的扫描数据特征集合中的每一扫描数据特征的内容数据,作为所述训练集的扫描数据特征值;将所述训练集的扫描数据特征值输入预设检测模型进行训练。5.根据权利要求4所述的网页的暗链检测方法,其特征在于,所述训练集的扫描数据特征集合表示为:V={V1,V2,V3,...,V
j
‑1,V
j
};所述训练集的扫描数据特征值表示为:V
i
={T1,T2,T3,...,T
j
‑1,T
j
,m};其中,所述V
i
的最后一列m...

【专利技术属性】
技术研发人员:张海涛蒋熠陈琦黄远韬
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1