一种广告页面的预测方法和装置制造方法及图纸

技术编号:14491100 阅读:53 留言:0更新日期:2017-01-29 13:54
本发明专利技术公开了一种广告页面的预测方法和装置。本发明专利技术提供的广告页面的预测方法中,基于BP神经网络模型进行广告页面的预测,利用目前已知的正常页面和广告页面作为输入层变量,以便能提供尽可能多的样本数据,通过具有机器学习能力的BP神经网络模型实现广告页面的页面特征学习,这种具有机器学习能力的基于BP神经网络模型的广告页面的预测方法,具有预测效率高,预测结果准确的特点。

【技术实现步骤摘要】

本专利技术涉及计算机
,具体涉及一种广告页面的预测方法和装置
技术介绍
近年来,随着互联网的发展,电子政务、无纸化办公的实现,单位上网数据审计、上网行为管控产品得到了广泛应用。这些产品中都面临着正确区分正常网页和网页上附带的大量广告页面的问题,具体的,广告页面可以包括:广告、弹窗、推送页面。广告页面的问题已经成为制约产品可用性的关键。现有技术中,通常使用企业防火墙来拦截可疑页面,通常建立域名数据库和统一资源定位符(UniformResourceLocator,URL)数据库的方式来控制白名单页面的访问,但是这种方式无法满足对广告页面的有效识别,仍无法阻止广告页面对用户的干扰。
技术实现思路
本专利技术的目的在于提供一种广告页面的预测方法和装置,用于对网页是否为广告页面进行预测。为了达到上述目的,本专利技术采用这样的如下技术方案:一方面,本专利技术提供一种广告页面的预测方法,包括:获取页面数据集,所述页面数据集包括:多个正常页面和多个广告页面,所述正常页面包括:非广告页面;使用页面解析器从所述页面数据集中的每个页面对应的页面源代码中提取到页面特征,根据提取到的页面特征确定输入层神经元,确定待测页面为广告页面的预测值作为输出层神经元,所述输入层神经元的个数和提取到的页面特征的个数相同;根据所述输入层神经元和所述输出层神经元构造用于广告页面预测的误差反向传播BP神经网络模型,并根据预置的预测精度确定所述BP神经网络模型的期望误差、学习率和最大步长参数,所述BP神经网络模型包括:输入层神经元、隐藏层神经元和输出层神经元;对所述页面数据集中的每个页面分别进行归一化处理得到页面数据归一化样本,从所述页面数据归一化样本中选择包括页面特征的页面数据作为所述BP神经网络模型的输入层向量,将从所述页面数据归一化样本中选择出的页面数据对应于正常页面或广告页面作为所述BP神经网络模型的期望输出层向量;将所述输入层向量输入到所述BP神经网络模型中进行网络学习训练,得到所述BP神经网络模型输出的实际输出向量,计算所述实际输出向量和所述期望输出向量中处于相同位置的实际输出预测值和期望输出值之间的误差,并将所述误差作为误差反向传播算法的输入数据对所述BP神经网络模型进行循环往复训练,直至所述实际输出预测值与所述期望输出值之间的误差小于所述期望误差时,输出训练完成后的BP神经网络模型;使用所述页面解析器对待测页面的页面源代码进行解析,得到所述待测页面的网页特征,将所述待测页面的网页特征作为输入层向量输入到所述训练完成后的BP神经网络模型,通过所述训练完成后的BP神经网络模型输出对所述待测页面为广告页面的实际预测值。另一方面,本专利技术提供一种广告页面的预测装置,包括:样本页面获取模块,用于获取页面数据集,所述页面数据集包括:多个正常页面和多个广告页面,所述正常页面包括:非广告页面;输入输出层构建模块,用于使用页面解析器从所述页面数据集中的每个页面对应的页面源代码中提取到页面特征,根据提取到的页面特征确定输入层神经元,确定待测页面为广告页面的预测值作为输出层神经元,所述输入层神经元的个数和提取到的页面特征的个数相同;模型构造模块,用于根据所述输入层神经元和所述输出层神经元构造用于广告页面预测的误差反向传播BP神经网络模型,并根据预置的预测精度确定所述BP神经网络模型的期望误差、学习率和最大步长参数,所述BP神经网络模型包括:输入层神经元、隐藏层神经元和输出层神经元;训练数据配置模块,用于对所述页面数据集中的每个页面分别进行归一化处理得到页面数据归一化样本,从所述页面数据归一化样本中选择包括页面特征的页面数据作为所述BP神经网络模型的输入层向量,将从所述页面数据归一化样本中选择出的页面数据对应于正常页面或广告页面作为所述BP神经网络模型的期望输出层向量;模型训练模块,用于将所述输入层向量输入到所述BP神经网络模型中进行网络学习训练,得到所述BP神经网络模型输出的实际输出向量,计算所述实际输出向量和所述期望输出向量中处于相同位置的实际输出预测值和期望输出值之间的误差,并将所述误差作为误差反向传播算法的输入数据对所述BP神经网络模型进行循环往复训练,直至所述实际输出预测值与所述期望输出值之间的误差小于所述期望误差时,输出训练完成后的BP神经网络模型;页面预测模块,用于使用所述页面解析器对待测页面的页面源代码进行解析,得到所述待测页面的网页特征,将所述待测页面的网页特征作为输入层向量输入到所述训练完成后的BP神经网络模型,通过所述训练完成后的BP神经网络模型输出对所述待测页面为广告页面的实际预测值。采用上述技术方案后,本专利技术提供的技术方案将有如下优点:本专利技术的方法能够更准确出待测页面是否为广告页面,能够为用户过滤掉广告页面,从而使得用户的上网体验极速提高。由于利用了页面源代码提取到页面特征参数,使得广告页面的预测可以充分考虑这些页面特征对待测页面是否为广告页面的影响,因此预测结果更加准确。由于BP神经网络模型本身具有的自学习和自适应能力,使得预测的结果相对准确。本专利技术基于BP神经网络模型进行广告页面的预测,利用目前已知的正常页面和广告页面作为输入层变量,以便能提供尽可能多的样本数据,通过具有机器学习能力的BP神经网络模型实现广告页面的页面特征学习,这种具有机器学习能力的基于BP神经网络模型的广告页面的预测方法,具有预测效率高,预测结果准确的特点。附图说明图1为本专利技术实施例提供一种广告页面的预测方法的算法流程示意图;图2-a为本专利技术实施例提供的训练集的数据选择示意图;图2-b为本专利技术实施例提供的错误集的数据选择示意图;图2-c为本专利技术实施例提供的识别正确率的结果示意图;图3为本专利技术实施例提供的广告页面的预测装置的组成结构示意图。具体实施方式本专利技术实施例提供了一种广告页面的预测方法和装置,用于对网页是否为广告页面进行预测。为使得本专利技术的专利技术目的、特征、优点能够更加的明显和易懂,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本专利技术一部分实施例,而非全部实施例。基于本专利技术中的实施例,本领域的技术人员所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。以下分别进行详细说明。随着大数据处理技术的快速发展,机器学习、人工智能等技术得到了广泛应用。本专利技术实施例中,BP神经网络模型作为一种可以解决分类问题的机器学习算法在解决广告页面识别这个问题上,从而解决目前在广告页面识别上存在的极大难题。本专利技术实施例可以采用神经网络作为广告页面的预测模型,其中,神经网络具体为本专利技术实施例描述的BP神经网络。首先建立用于广告页面预测的BP神经网络模型,在初始化时对BP神经网络模型进行参数设置,采集计算过程中使用的训练数据和测试数据,通过网络学习训练得到BP神经网络模型,训练完成后的BP神经网络模型可以用于对网页是否为广告页面的预测,首先本专利技术实施例提供的一种广告页面的预测方法本文档来自技高网...
一种广告页面的预测方法和装置

【技术保护点】
一种广告页面的预测方法,其特征在于,包括:获取页面数据集,所述页面数据集包括:多个正常页面和多个广告页面,所述正常页面包括:非广告页面;使用页面解析器从所述页面数据集中的每个页面对应的页面源代码中提取到页面特征,根据提取到的页面特征确定输入层神经元,确定待测页面为广告页面的预测值作为输出层神经元,所述输入层神经元的个数和提取到的页面特征的个数相同;根据所述输入层神经元和所述输出层神经元构造用于广告页面预测的误差反向传播BP神经网络模型,并根据预置的预测精度确定所述BP神经网络模型的期望误差、学习率和最大步长参数,所述BP神经网络模型包括:输入层神经元、隐藏层神经元和输出层神经元;对所述页面数据集中的每个页面分别进行归一化处理得到页面数据归一化样本,从所述页面数据归一化样本中选择包括页面特征的页面数据作为所述BP神经网络模型的输入层向量,将从所述页面数据归一化样本中选择出的页面数据对应于正常页面或广告页面作为所述BP神经网络模型的期望输出层向量;将所述输入层向量输入到所述BP神经网络模型中进行网络学习训练,得到所述BP神经网络模型输出的实际输出向量,计算所述实际输出向量和所述期望输出向量中处于相同位置的实际输出预测值和期望输出值之间的误差,并将所述误差作为误差反向传播算法的输入数据对所述BP神经网络模型进行循环往复训练,直至所述实际输出预测值与所述期望输出值之间的误差小于所述期望误差时,输出训练完成后的BP神经网络模型;使用所述页面解析器对待测页面的页面源代码进行解析,得到所述待测页面的网页特征,将所述待测页面的网页特征作为输入层向量输入到所述训练完成后的BP神经网络模型,通过所述训练完成后的BP神经网络模型输出对所述待测页面为广告页面的实际预测值。...

【技术特征摘要】
1.一种广告页面的预测方法,其特征在于,包括:获取页面数据集,所述页面数据集包括:多个正常页面和多个广告页面,所述正常页面包括:非广告页面;使用页面解析器从所述页面数据集中的每个页面对应的页面源代码中提取到页面特征,根据提取到的页面特征确定输入层神经元,确定待测页面为广告页面的预测值作为输出层神经元,所述输入层神经元的个数和提取到的页面特征的个数相同;根据所述输入层神经元和所述输出层神经元构造用于广告页面预测的误差反向传播BP神经网络模型,并根据预置的预测精度确定所述BP神经网络模型的期望误差、学习率和最大步长参数,所述BP神经网络模型包括:输入层神经元、隐藏层神经元和输出层神经元;对所述页面数据集中的每个页面分别进行归一化处理得到页面数据归一化样本,从所述页面数据归一化样本中选择包括页面特征的页面数据作为所述BP神经网络模型的输入层向量,将从所述页面数据归一化样本中选择出的页面数据对应于正常页面或广告页面作为所述BP神经网络模型的期望输出层向量;将所述输入层向量输入到所述BP神经网络模型中进行网络学习训练,得到所述BP神经网络模型输出的实际输出向量,计算所述实际输出向量和所述期望输出向量中处于相同位置的实际输出预测值和期望输出值之间的误差,并将所述误差作为误差反向传播算法的输入数据对所述BP神经网络模型进行循环往复训练,直至所述实际输出预测值与所述期望输出值之间的误差小于所述期望误差时,输出训练完成后的BP神经网络模型;使用所述页面解析器对待测页面的页面源代码进行解析,得到所述待测页面的网页特征,将所述待测页面的网页特征作为输入层向量输入到所述训练完成后的BP神经网络模型,通过所述训练完成后的BP神经网络模型输出对所述待测页面为广告页面的实际预测值。2.根据权利要求1所述的一种广告页面的预测方法,其特征在于,所述根据所述输入层神经元和所述输出层神经元构造用于广告页面预测的误差反向传播BP神经网络模型,包括:根据提取到的网页特征的个数确定BP神经网络模型的输入层神经元的个数;根据所述BP神经网络模型的输出层向量的维数确定所述BP神经网络模型的输出层神经元的个数为1;根据输入层神经元的个数和输出层神经元的个数确定所述BP神经网络模型的隐藏层神经元的个数。3.根据权利要求2所述的一种广告页面的预测方法,其特征在于,从页面源代码中提取到的页面特征的个数为8个,所述BP神经网络模型的输入层神经元的个数为8个;所述页面特征包括:页面是否包括标题、页面标题长度、页面中关键词个数、页面数据长度、页面中JS脚本长度、页面中图片数、页面中链接数。4.根据权利要求2所述的一种广告页面的预测方法,其特征在于,所述根据输入层神经元的个数和输出层神经元的个数确定所述BP神经网络模型的隐藏层神经元的个数,包括:通过如下计算公式确定所述隐藏层神经元的个数:P1=P2+P3+1+n,]]>其中,P1是隐藏层神经元的个数,P2是输入层神经元的个数,P3为输出层神经元的个数,n是取值大于或等于1的调整参数。5.根据权利要求1所述的一种广告页面的预测方法,其特征在于,所述BP神经网络模型中神经元的激活函数包括:S型函数sigmod()。6.根据权利要求1所述的一种广告页面的预测方法,其特征在于,所述对所述页面数据集中的每个页面分别进行归一化处理得到页面数据归一化样本,包括:通过如下计算公式对所述页面数据集中的每...

【专利技术属性】
技术研发人员:郭晋峰
申请(专利权)人:南威软件股份有限公司
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1