【技术实现步骤摘要】
本专利技术涉及计算机
,具体涉及一种广告页面的预测方法和装置。
技术介绍
近年来,随着互联网的发展,电子政务、无纸化办公的实现,单位上网数据审计、上网行为管控产品得到了广泛应用。这些产品中都面临着正确区分正常网页和网页上附带的大量广告页面的问题,具体的,广告页面可以包括:广告、弹窗、推送页面。广告页面的问题已经成为制约产品可用性的关键。现有技术中,通常使用企业防火墙来拦截可疑页面,通常建立域名数据库和统一资源定位符(UniformResourceLocator,URL)数据库的方式来控制白名单页面的访问,但是这种方式无法满足对广告页面的有效识别,仍无法阻止广告页面对用户的干扰。
技术实现思路
本专利技术的目的在于提供一种广告页面的预测方法和装置,用于对网页是否为广告页面进行预测。为了达到上述目的,本专利技术采用这样的如下技术方案:一方面,本专利技术提供一种广告页面的预测方法,包括:获取页面数据集,所述页面数据集包括:多个正常页面和多个广告页面,所述正常页面包括:非广告页面;使用页面解析器从所述页面数据集中的每个页面对应的页面源代码中提取到页面特征,根据提取到的页面特征确定输入层神经元,确定待测页面为广告页面的预测值作为输出层神经元,所述输入层神经元的个数和提取到的页面特征的个数相同;根据所述输入层神经元和所述输出层神经元构造用于广告页面预测的误差反向传播BP神经网络模型,并根据预置的预测精度确定所述BP神经网络模型的期望误差、学习率和最大步长参数,所述BP神经网络模型包括:输入层神经元、隐藏层神经元和输出层神经元;对所述页面数据集中的每个页面分别进行归 ...
【技术保护点】
一种广告页面的预测方法,其特征在于,包括:获取页面数据集,所述页面数据集包括:多个正常页面和多个广告页面,所述正常页面包括:非广告页面;使用页面解析器从所述页面数据集中的每个页面对应的页面源代码中提取到页面特征,根据提取到的页面特征确定输入层神经元,确定待测页面为广告页面的预测值作为输出层神经元,所述输入层神经元的个数和提取到的页面特征的个数相同;根据所述输入层神经元和所述输出层神经元构造用于广告页面预测的误差反向传播BP神经网络模型,并根据预置的预测精度确定所述BP神经网络模型的期望误差、学习率和最大步长参数,所述BP神经网络模型包括:输入层神经元、隐藏层神经元和输出层神经元;对所述页面数据集中的每个页面分别进行归一化处理得到页面数据归一化样本,从所述页面数据归一化样本中选择包括页面特征的页面数据作为所述BP神经网络模型的输入层向量,将从所述页面数据归一化样本中选择出的页面数据对应于正常页面或广告页面作为所述BP神经网络模型的期望输出层向量;将所述输入层向量输入到所述BP神经网络模型中进行网络学习训练,得到所述BP神经网络模型输出的实际输出向量,计算所述实际输出向量和所述期望输出向量 ...
【技术特征摘要】
1.一种广告页面的预测方法,其特征在于,包括:获取页面数据集,所述页面数据集包括:多个正常页面和多个广告页面,所述正常页面包括:非广告页面;使用页面解析器从所述页面数据集中的每个页面对应的页面源代码中提取到页面特征,根据提取到的页面特征确定输入层神经元,确定待测页面为广告页面的预测值作为输出层神经元,所述输入层神经元的个数和提取到的页面特征的个数相同;根据所述输入层神经元和所述输出层神经元构造用于广告页面预测的误差反向传播BP神经网络模型,并根据预置的预测精度确定所述BP神经网络模型的期望误差、学习率和最大步长参数,所述BP神经网络模型包括:输入层神经元、隐藏层神经元和输出层神经元;对所述页面数据集中的每个页面分别进行归一化处理得到页面数据归一化样本,从所述页面数据归一化样本中选择包括页面特征的页面数据作为所述BP神经网络模型的输入层向量,将从所述页面数据归一化样本中选择出的页面数据对应于正常页面或广告页面作为所述BP神经网络模型的期望输出层向量;将所述输入层向量输入到所述BP神经网络模型中进行网络学习训练,得到所述BP神经网络模型输出的实际输出向量,计算所述实际输出向量和所述期望输出向量中处于相同位置的实际输出预测值和期望输出值之间的误差,并将所述误差作为误差反向传播算法的输入数据对所述BP神经网络模型进行循环往复训练,直至所述实际输出预测值与所述期望输出值之间的误差小于所述期望误差时,输出训练完成后的BP神经网络模型;使用所述页面解析器对待测页面的页面源代码进行解析,得到所述待测页面的网页特征,将所述待测页面的网页特征作为输入层向量输入到所述训练完成后的BP神经网络模型,通过所述训练完成后的BP神经网络模型输出对所述待测页面为广告页面的实际预测值。2.根据权利要求1所述的一种广告页面的预测方法,其特征在于,所述根据所述输入层神经元和所述输出层神经元构造用于广告页面预测的误差反向传播BP神经网络模型,包括:根据提取到的网页特征的个数确定BP神经网络模型的输入层神经元的个数;根据所述BP神经网络模型的输出层向量的维数确定所述BP神经网络模型的输出层神经元的个数为1;根据输入层神经元的个数和输出层神经元的个数确定所述BP神经网络模型的隐藏层神经元的个数。3.根据权利要求2所述的一种广告页面的预测方法,其特征在于,从页面源代码中提取到的页面特征的个数为8个,所述BP神经网络模型的输入层神经元的个数为8个;所述页面特征包括:页面是否包括标题、页面标题长度、页面中关键词个数、页面数据长度、页面中JS脚本长度、页面中图片数、页面中链接数。4.根据权利要求2所述的一种广告页面的预测方法,其特征在于,所述根据输入层神经元的个数和输出层神经元的个数确定所述BP神经网络模型的隐藏层神经元的个数,包括:通过如下计算公式确定所述隐藏层神经元的个数:P1=P2+P3+1+n,]]>其中,P1是隐藏层神经元的个数,P2是输入层神经元的个数,P3为输出层神经元的个数,n是取值大于或等于1的调整参数。5.根据权利要求1所述的一种广告页面的预测方法,其特征在于,所述BP神经网络模型中神经元的激活函数包括:S型函数sigmod()。6.根据权利要求1所述的一种广告页面的预测方法,其特征在于,所述对所述页面数据集中的每个页面分别进行归一化处理得到页面数据归一化样本,包括:通过如下计算公式对所述页面数据集中的每...
【专利技术属性】
技术研发人员:郭晋峰,
申请(专利权)人:南威软件股份有限公司,
类型:发明
国别省市:福建;35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。