网页元素分类方法技术

技术编号：27685730 阅读：15 留言：0更新日期：2021-03-17 03:54

本发明专利技术提供一种网页元素分类方法，涉及互联网技术领域，所述方法包括：收集多个第一网页作为原始数据集，分割所述第一网页，得到第一网页元素；将所述第一网页元素粗分为多个大类，再将属于所述大类的元素细分为多个小类，得到带粗分类标签和细分类标签的第一网页元素，将所有第一网页元素作为样本数据集；利用所述样本数据集训练预设模型，得到多类粗分类器和多个粗分类器下的细分类器组成的分类模型；将第二网页分割并将分割得到的第二网页元素输入所述分类模型，得到所述第二网页的已分类第二网页元素，所述已分类第二网页元素具有粗分类标签和细分类标签。本发明专利技术降低网页元素分类过程的复杂程度。

全部详细技术资料下载

【技术实现步骤摘要】
网页元素分类方法
本专利技术涉及互联网
，具体涉及一种网页元素分类方法。
技术介绍
Web应用一般采用前后端分离设计，前端网页直接面向用户，后端进行业务处理(如数据库读写等)。以典型的新闻网站为例，前端网页通常在视觉上分为若干个模块，如登录模块，负责展示登录状况、个人信息详情入口，还有文章列表模块，底部网站详情模块等。这些模块对于用户而言容易区分，使得交互更加便利。然而，由于前端网页主要通过HTML,CSS和Javascript语言实现，但是，同一种视觉效果的网页如HTML文档结构在不同网站间差异巨大，随着因特网上的站点爆炸性地增长，信息检索、内容提取、模板去重等需求也在增长，但是网页结构之间的差异给信息检索和内容提取带来巨大挑战。尽管不同网页结构之间由于视觉设计、编码实现等原因存在着巨大差异，但是组成整个网页的不同模块语义仍是相似的，如登录、搜索、表格、列表、内容块等。因此，对网页的模块进行分类可以降低后续处理，包括信息检索、内容提取或模板去重的复杂度。现有的针对网页模块的分类方法也存在着各自的问题，如在基于DOM标签的经验规则分析中，由于CSS的出现，开发者实际上可以不用顾忌标签语义，如使用<table>组织整个页面，或者使用<div>实现列表。因此HTML的极端异质性使得基于规则的方法在测试数据中容易过拟合，从而无法很好的应用于真实场景的数据中。
技术实现思路
本专利技术实施例提供一种网页元素分类方法，以解决网页元素模块分类过程复杂程度高的问题。...

【技术保护点】
1.一种网页元素分类方法，其特征在于，包括：/n收集多个第一网页作为原始数据集，对第一网页进行分割，得到第一网页包含的第一网页元素；/n对所有第一网页元素进行粗分类，得到粗分类结果，对所述粗分类结果中的每一类细分，得到细分类结果，根据所述粗分类结果和所述细分类结果得到每一个第一网页元素的粗分类标签和细分类标签，将第一网页元素和第一网页元素对应的粗分类标签、细分类标签作为样本数据集；/n利用所述样本数据集训练预设模型，得到分类模型，所述分类模型包括多类粗分类器，每个粗分类器下设置有多个细分类器；/n将第二网页进行分割，得到所述第二网页包含的多个第二网页元素，将所有第二网页元素输入所述分类模型，得到第二网页元素的分类结果，所述分类结果中每一个第二网页元素具有粗分类标签和细分类标签。/n

【技术特征摘要】
1.一种网页元素分类方法，其特征在于，包括：
收集多个第一网页作为原始数据集，对第一网页进行分割，得到第一网页包含的第一网页元素；
对所有第一网页元素进行粗分类，得到粗分类结果，对所述粗分类结果中的每一类细分，得到细分类结果，根据所述粗分类结果和所述细分类结果得到每一个第一网页元素的粗分类标签和细分类标签，将第一网页元素和第一网页元素对应的粗分类标签、细分类标签作为样本数据集；
利用所述样本数据集训练预设模型，得到分类模型，所述分类模型包括多类粗分类器，每个粗分类器下设置有多个细分类器；
将第二网页进行分割，得到所述第二网页包含的多个第二网页元素，将所有第二网页元素输入所述分类模型，得到第二网页元素的分类结果，所述分类结果中每一个第二网页元素具有粗分类标签和细分类标签。

2.根据权利要求1所述方法，其特征在于，得到所述第一网页包含的对应的第一网页元素后，还包括：
采用字符串匹配的方法来对第一网页元素进行识别，去除重复的网页元素。

3.根据权利要求1所述方法，其特征在于：
所述粗分类标签包括：登录类、表单类、列状内容类、块状内容类、搜索类；
属于所述登录类下的细分类标签包括：用户密码登录、用户密码验证码登录、手机号短信确认登录；
属于所述表单类下的细分类标签包括：找回密码、填表、记录表、信息表；
属于所述列状内容类下属的多个小类包括：列状内容、列状目录；
属于所述块状内容类下的细分类标签包括：纯文本内容、文本图片内容；
属于所述搜索类下的细分类标签包括：普通搜索、复杂搜索。

4.根据权利要求1所述方法，其特征在于，收集多个第一网页作为原始数据集，对第一网页进行分割，得到第一网页包含的第一网页元素，包括：
使用预设的网页解析模块加载并分割第一网页，得到第一网页包含的第一网页元素；
提取第一网页的网页特征向量；
将第一网页元素和第一网页元素对应的粗分类标签、细分类标签作为样本数据集，包括：
将第一网页元素、第一网页元素对应的网页特征向量和第一网页元素对应的粗分类标签、细分类标签作为样本数据集。

【专利技术属性】
技术研发人员：易超，陈贞谛，张舒汇，贺赞贤，
申请(专利权)人：北京数立得科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人