网页分类方法及装置制造方法及图纸

技术编号:35099604 阅读:16 留言:0更新日期:2022-10-01 17:05
本发明专利技术实施例提供一种网页分类方法及装置,包括:提取目标网页的结构信息和文本信息,根据所述结构信息和所述文本信息确定词向量;将所述词向量进行降维处理后输入分类预测模型,得到分类结果。解决了传统自然语言处理算法无法有效体现结构化文本语义的问题。法无法有效体现结构化文本语义的问题。法无法有效体现结构化文本语义的问题。

【技术实现步骤摘要】
网页分类方法及装置


[0001]本专利技术涉及计算机
,尤其涉及一种网页分类方法及装置。

技术介绍

[0002]互联网上相似结构的网页检出是一类新兴问题,传统的自然语言处理算法可以在纯文本的场景中实现较好的文本分类效果,但在处理HTML等结构化文本时效果不尽人意。HTML标签等结构化信息反而为纯文本模型训练带来了噪音,导致现有的文本分类模型无法对结构相似的网页做到准确检出。

技术实现思路

[0003]针对现有技术中的问题,本专利技术实施例提供一种网页分类方法及装置。
[0004]具体地,本专利技术实施例提供了以下技术方案:
[0005]第一方面,本专利技术实施例提供了一种网页分类方法,包括:提取目标网页的结构信息和文本信息,根据所述结构信息和所述文本信息确定词向量;将所述词向量进行降维处理后输入分类预测模型,得到分类结果,所述分类预测模型是根据用于训练的词向量集和与其对应的标签集训练得到的,所述用于训练的词向量集是根据用于训练的网页的结构信息和文本信息提取得到的,所述标签集中的标签用于表征相应词向量的分类。
[0006]进一步地,所述提取目标网页的结构信息和文本信息之前,还包括:获取初始数据集,所述初始数据集包括至少一类网页;将所述初始数据集进行异常点剔除、格式整合和数据清洗中的至少一种处理,得到处理后的数据集;根据预设的网页指纹规则确定所述处理后的数据集的标签,得到标签集,所述处理后的数据集与所述标签集一一对应;提取所述处理后的数据集的结构信息和文本信息,根据所述处理后的数据集的结构信息和文本信息确定词向量集,所述词向量集与所述标签集一一对应,根据所述词向量集与所述标签集训练所述分类预测模型,在训练过程中随机取样,并行计算特征收益,通过二阶导数方法加速梯度下降。
[0007]进一步地,所述提取目标网页的结构信息和文本信息,包括:通过分词算法提取所述目标网页的结构信息和所述文本信息。
[0008]进一步地,所述根据所述结构信息和所述文本信息确定词向量,包括:根据所述结构信息和所述文本信息,通过Skip

Gram模型确定词向量。
[0009]进一步地,所述将所述词向量进行降维处理后输入分类预测模型,得到分类结果,包括:通过潜在语义分析方式对所述词向量进行降维处理后输入分类预测模型,得到分类结果。
[0010]进一步地,所述通过潜在语义分析方式对所述词向量进行降维处理后输入分类预测模型,得到分类结果,包括:通过潜在语义分析方式对所述词向量进行降维处理后输入XGBoost模型,得到分类结果。
[0011]第二方面,本专利技术实施例还提供了一种网页分类装置,包括:第一处理模块,用于
提取目标网页的结构信息和文本信息,根据所述结构信息和所述文本信息确定词向量;第二处理模块,用于将所述词向量进行降维处理后输入分类预测模型,得到分类结果。
[0012]第三方面,本专利技术实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所述网页分类方法的步骤。
[0013]第四方面,本专利技术实施例还提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所述网页分类方法的步骤。
[0014]第五方面,本专利技术实施例还提供了一种计算机程序产品,其上存储有可执行指令,该指令被处理器执行时使处理器实现第一方面所述网页分类方法的步骤。
[0015]本专利技术实施例提供的网页分类方法及装置,提取目标网页的结构信息和文本信息,根据所述结构信息和所述文本信息确定词向量,即通过html结构信息抽取、上下文相关的词向量模型训练、潜在语义分析降维,将网页结构信息提取为特征向量,解决传统自然语言处理算法无法有效体现结构化文本语义的问题。
附图说明
[0016]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0017]图1为本专利技术网页分类方法的实施例流程图;
[0018]图2为网页分类预测模型训练整体流程图的示意图;
[0019]图3为上下文相关的分词预测的一个示意图;
[0020]图4为本专利技术网页分类装置的一些实施例的结构示意图;
[0021]图5是根据本专利技术提供的电子设备的结构示意图。
具体实施方式
[0022]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0023]下面将参考附图并结合实施例来详细说明本专利技术。
[0024]请参阅图1,图1为本专利技术网页分类方法的实施例流程图。如图1所示,该方法,包括以下步骤:
[0025]步骤101,提取目标网页的结构信息和文本信息,根据结构信息和文本信息确定词向量。
[0026]网页结构即网页内容的布局。创建网页结构实际上就是对网页内容的布局进行规划。从网页页面结构的角度上看,网页主要由导航栏、栏目、及正文内容这三大要素组成。网页结构的创建、网页内容布局的规划(即目标网页的结构信息)实际也是围绕这三大组成要素展开的。
[0027]网页的文本信息,即显示在网页中的文本。
[0028]作为示例,提取目标网页的结构信息(例如目标网页为html格式的结构信息)和文本信息之前可以先获取目标网页源码,目标网页源码中包括结构信息和文本信息。然后,可以通过神经网络算法提取目标网页源码的结构信息和文本信息。
[0029]作为示例,可以通过one

hot编码的方法分别编辑结构信息和文本信息,然后将结构信息和文本信息拼接在一起,得到目标网页的词向量。
[0030]步骤102,将词向量进行降维处理后输入分类预测模型,得到分类结果,所述分类预测模型是根据用于训练的词向量集和与其对应的标签集训练得到的,所述用于训练的词向量集是根据用于训练的网页的结构信息和文本信息提取得到的,所述标签集中的标签用于表征相应词向量的分类。
[0031]作为示例,可以通过主成分分析、线性判别分析或者拉普拉斯特征映射等方法对词向量进行降维处理。词向量降维处理后的数据存储格式可以根据需要选择。
[0032]作为示例,分类预测模型可以是根据支持向量机、随机森林等分类方法构建的模型。也可以根据需要将分类预测模型和损失函数结合,得到优化的分类预测模型。
[0033]作为示例,分类结果可以包括:特定CMS类型、OA系统类型,特定登录页面、前端框架类型本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种网页分类方法,其特征在于,包括:提取目标网页的结构信息和文本信息,根据所述结构信息和所述文本信息确定词向量;将所述词向量进行降维处理后输入分类预测模型,得到分类结果,所述分类预测模型是根据用于训练的词向量集和与其对应的标签集训练得到的,所述用于训练的词向量集是根据用于训练的网页的结构信息和文本信息提取得到的,所述标签集中的标签用于表征相应词向量的分类。2.根据权利要求1所述的网页分类方法,其特征在于,所述提取目标网页的结构信息和文本信息之前,还包括:获取初始数据集,所述初始数据集包括至少一类网页;将所述初始数据集进行异常点剔除、格式整合和数据清洗中的至少一种处理,得到处理后的数据集;根据预设的网页指纹规则确定所述处理后的数据集的标签,得到标签集,所述处理后的数据集与所述标签集一一对应;提取所述处理后的数据集的结构信息和文本信息,根据所述处理后的数据集的结构信息和文本信息确定词向量集,所述词向量集与所述标签集一一对应,根据所述词向量集与所述标签集训练所述分类预测模型,在训练过程中随机取样,并行计算特征收益,通过二阶导数方法加速梯度下降。3.根据权利要求1所述的网页分类方法,其特征在于,所述提取目标网页的结构信息和文本信息,包括:通过分词算法提取所述目标网页的结构信息和所述文本信息。4.根据权利要求1所述的网页分类方法,其特征在于,所述根据所述结构信息和所述文本信息确定词向量,包括:根据所述结构信息和所述文本信息,通过Skip

Gram模型确定词向量。5....

【专利技术属性】
技术研发人员:李元楷齐向东吴云坤邱喆彬王跃东彭越
申请(专利权)人:奇安信网神信息技术北京股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1