网页分类方法及装置制造方法及图纸

技术编号：35099604 阅读：16 留言：0更新日期：2022-10-01 17:05

本发明专利技术实施例提供一种网页分类方法及装置，包括：提取目标网页的结构信息和文本信息，根据所述结构信息和所述文本信息确定词向量；将所述词向量进行降维处理后输入分类预测模型，得到分类结果。解决了传统自然语言处理算法无法有效体现结构化文本语义的问题。法无法有效体现结构化文本语义的问题。法无法有效体现结构化文本语义的问题。

全部详细技术资料下载

【技术实现步骤摘要】
网页分类方法及装置

[0001]本专利技术涉及计算机
，尤其涉及一种网页分类方法及装置。

技术介绍

[0002]互联网上相似结构的网页检出是一类新兴问题，传统的自然语言处理算法可以在纯文本的场景中实现较好的文本分类效果，但在处理HTML等结构化文本时效果不尽人意。HTML标签等结构化信息反而为纯文本模型训练带来了噪音，导致现有的文本分类模型无法对结构相似的网页做到准确检出。

技术实现思路

[0003]针对现有技术中的问题，本专利技术实施例提供一种网页分类方法及装置。
[0004]具体地，本专利技术实施例提供了以下技术方案：
[0005]第一方面，本专利技术实施例提供了一种网页分类方法，包括：提取目标网页的结构信息和文本信息，根据所述结构信息和所述文本信息确定词向量；将所述词向量进行降维处理后输入分类预测模型，得到分类结果，所述分类预测模型是根据用于训练的词向量集和与其对应的标签集训练得到的，所述用于训练的词向量集是根据用于训练的网页的结构信息和文本信息提取得到的，所述标签集中的标签用于表征相应词向量的分类。
[0006]进一步地，所述提取目标网页的结构信息和文本信息之前，还包括：获取初始数据集，所述初始数据集包括至少一类网页；将所述初始数据集进行异常点剔除、格式整合和数据清洗中的至少一种处理，得到处理后的数据集；根据预设的网页指纹规则确定所述处理后的数据集的标签，得到标签集，所述处理后的数据集与所述标签集一一对应；提取所述处理后的数据集的结构信息和文本信息，根据所述处理后...

【技术保护点】

【技术特征摘要】
1.一种网页分类方法，其特征在于，包括：提取目标网页的结构信息和文本信息，根据所述结构信息和所述文本信息确定词向量；将所述词向量进行降维处理后输入分类预测模型，得到分类结果，所述分类预测模型是根据用于训练的词向量集和与其对应的标签集训练得到的，所述用于训练的词向量集是根据用于训练的网页的结构信息和文本信息提取得到的，所述标签集中的标签用于表征相应词向量的分类。2.根据权利要求1所述的网页分类方法，其特征在于，所述提取目标网页的结构信息和文本信息之前，还包括：获取初始数据集，所述初始数据集包括至少一类网页；将所述初始数据集进行异常点剔除、格式整合和数据清洗中的至少一种处理，得到处理后的数据集；根据预设的网页指纹规则确定所述处理后的数据集的标签，得到标签集，所述处理后的数据集与所述标签集一一对应；提取所述处理后的数据集的结构信息和文本信息，根据所述处理后的数据集的结构信息和文本信息确定词向量集，所述词向量集与所述标签集一一对应，根据所述词向量集与所述标签集训练所述分类预测模型，在训练过程中随机取样，并行计算特征收益，通过二阶导数方法加速梯度下降。3.根据权利要求1所述的网页分类方法，其特征在于，所述提取目标网页的结构信息和文本信息，包括：通过分词算法提取所述目标网页的结构信息和所述文本信息。4.根据权利要求1所述的网页分类方法，其特征在于，所述根据所述结构信息和所述文本信息确定词向量，包括：根据所述结构信息和所述文本信息，通过Skip
‑
Gram模型确定词向量。5....

【专利技术属性】
技术研发人员：李元楷，齐向东，吴云坤，邱喆彬，王跃东，彭越，
申请(专利权)人：奇安信网神信息技术北京股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人