【技术实现步骤摘要】
网页识别模型的训练方法、装置、网页识别的方法
本申请实施例涉及互联网
,尤其涉及一种网页识别模型的训练方法、装置、网页识别的方法、电子设备以及存储介质。
技术介绍
随着互联网和终端技术的发展,用户通过浏览器浏览网页以获取网络信息成了日常活动之一。当网页的脚本等发生错误时,可能导致浏览器无法加载完整的网页,从而导致用户打开的网页为携带错误信息的网页,或者为提示显示错误的网页,而在现有技术中,对网页进行识别的方式通常为人工的方式,即通过人工识别的方式确定网页是否为异常网页。在实现本申请过程中,专利技术人发现现有技术中至少存在如下问题:受人为主观因素地影响,可能造成识别的可靠性偏低,且效率较低的问题。
技术实现思路
本申请实施例提供一种网页识别模型的训练方法、装置、网页识别的方法、电子设备以及存储介质,用以解决网页识别的准确性较低的问题。第一方面,本申请实施例提供一种网页识别模型的训练方法,所述方法包括:采集样本集,其中,所述样本集包括:正常网页的训练图像、以及异常网页的训练图像;对所述样本集中的每一训练图像进行特征提取,得到每一训练图像的图像特征;重复以下步骤,直至得到成熟的网页识别模型:根据预设的卷积神经网络模型构建各图像特征对应的权重矩阵,并根据所述权重矩阵对所述卷积神经网络模型的参数进行调整;其中,所述权重矩阵中的每一权重表征,与所述每一权重对应的训练图像为异常网页的概率;其中,所述网页识别模型用于识别正常网页和异常网页。在本 ...
【技术保护点】
1.一种网页识别模型的训练方法,所述方法包括:/n采集样本集,其中,所述样本集包括:正常网页的训练图像、以及异常网页的训练图像;/n对所述样本集中的每一训练图像进行特征提取,得到每一训练图像的图像特征;/n重复以下步骤,直至得到成熟的网页识别模型:根据预设的卷积神经网络模型构建各图像特征对应的权重矩阵,并根据所述权重矩阵对所述卷积神经网络模型的参数进行调整;其中,所述权重矩阵中的每一权重表征,与所述每一权重对应的训练图像为异常网页的概率;/n其中,所述网页识别模型用于识别正常网页和异常网页。/n
【技术特征摘要】
1.一种网页识别模型的训练方法,所述方法包括:
采集样本集,其中,所述样本集包括:正常网页的训练图像、以及异常网页的训练图像;
对所述样本集中的每一训练图像进行特征提取,得到每一训练图像的图像特征;
重复以下步骤,直至得到成熟的网页识别模型:根据预设的卷积神经网络模型构建各图像特征对应的权重矩阵,并根据所述权重矩阵对所述卷积神经网络模型的参数进行调整;其中,所述权重矩阵中的每一权重表征,与所述每一权重对应的训练图像为异常网页的概率;
其中,所述网页识别模型用于识别正常网页和异常网页。
2.根据权利要求1所述的方法,其中,根据预设的卷积神经网络模型构建各图像特征对应的权重矩阵,包括:
针对每一图像特征,确定所述每一图像特征对应的训练图像为异常网页的概率;
根据所述概率为所述每一训练图像的图像特征分配权重;
根据所述各图像特征各自对应的权重,构建所述权重矩阵。
3.根据权利要求2所述的方法,其中,所述每一训练图像具有第一类别信息,所述第一类别信息表征,训练图像为正常网页或异常网页;根据所述各图像特征各自对应的权重,构建所述权重矩阵,包括:
基于所述每一训练图像的第一类别信息,对所述每一训练图像的图像特征所对应的权重进行调整,得到每一训练图像的图像特征的调整后的权重;
根据各所述调整后的权重,得到所述权重矩阵。
4.根据权利要求1所述的方法,其中,根据所述权重矩阵对所述卷积神经网络模型的参数进行调整,包括
根据所述权重矩阵,对所述卷积神经网络模型中的各卷积层的系数进行调整,所述卷积层的系数用于,结合所述权重矩阵确定所述每一训练图像为正常网页或异常网页。
5.根据权利要求1至4中任一项所述的方法,其中,所述样本集还包括:正常网页的验证图像、以及异常网页的验证图像;根据所述权重矩阵对所述卷积神经网络模型的参数进行调整,包括:
根据所述权重矩阵对所述卷积神经网络模型的参数进行调整,并基于调整后的卷积神经网络模型,确定所述样本集中各验证图像各自对应的验证结果,其中,每一验证结果表征,与所述每一验证结果对应的验证图像为正常网页或者为异常网页;
根据各验证结果对调整后的卷积神经网络模型的参数进行调整。
6.根据权利要求5所述的方法,其中,每一验证图像具有第二类别信息,所述第二类别信息表征,验证图像为正常网页或异常网页;根据各验证结果对调整后的卷积神经网络模型的参数进行调整,包括:
基于所述每一验证结果、与所述每一验证结果对应的验证图像的第二类别信息,调整后的卷积神经网络模型的参数进行调整。
7.根据权利要求1至4中任一项所述的方法,其中,所述样本集中的训练图像的像素相同。
8.一种网页识别的方法,所述方法包括:
获取待识别网页;
基于预先训练的网页识别模型,对所述待识别网页进行识别,得到识别结果;其中,所述网页识别模型根据预设的卷...
【专利技术属性】
技术研发人员:周余钱,
申请(专利权)人:京东数字科技控股股份有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。