网页元素分类方法技术

技术编号:27685730 阅读:15 留言:0更新日期:2021-03-17 03:54
本发明专利技术提供一种网页元素分类方法,涉及互联网技术领域,所述方法包括:收集多个第一网页作为原始数据集,分割所述第一网页,得到第一网页元素;将所述第一网页元素粗分为多个大类,再将属于所述大类的元素细分为多个小类,得到带粗分类标签和细分类标签的第一网页元素,将所有第一网页元素作为样本数据集;利用所述样本数据集训练预设模型,得到多类粗分类器和多个粗分类器下的细分类器组成的分类模型;将第二网页分割并将分割得到的第二网页元素输入所述分类模型,得到所述第二网页的已分类第二网页元素,所述已分类第二网页元素具有粗分类标签和细分类标签。本发明专利技术降低网页元素分类过程的复杂程度。

【技术实现步骤摘要】
网页元素分类方法
本专利技术涉及互联网
,具体涉及一种网页元素分类方法。
技术介绍
Web应用一般采用前后端分离设计,前端网页直接面向用户,后端进行业务处理(如数据库读写等)。以典型的新闻网站为例,前端网页通常在视觉上分为若干个模块,如登录模块,负责展示登录状况、个人信息详情入口,还有文章列表模块,底部网站详情模块等。这些模块对于用户而言容易区分,使得交互更加便利。然而,由于前端网页主要通过HTML,CSS和Javascript语言实现,但是,同一种视觉效果的网页如HTML文档结构在不同网站间差异巨大,随着因特网上的站点爆炸性地增长,信息检索、内容提取、模板去重等需求也在增长,但是网页结构之间的差异给信息检索和内容提取带来巨大挑战。尽管不同网页结构之间由于视觉设计、编码实现等原因存在着巨大差异,但是组成整个网页的不同模块语义仍是相似的,如登录、搜索、表格、列表、内容块等。因此,对网页的模块进行分类可以降低后续处理,包括信息检索、内容提取或模板去重的复杂度。现有的针对网页模块的分类方法也存在着各自的问题,如在基于DOM标签的经验规则分析中,由于CSS的出现,开发者实际上可以不用顾忌标签语义,如使用<table>组织整个页面,或者使用<div>实现列表。因此HTML的极端异质性使得基于规则的方法在测试数据中容易过拟合,从而无法很好的应用于真实场景的数据中。
技术实现思路
本专利技术实施例提供一种网页元素分类方法,以解决网页元素模块分类过程复杂程度高的问题。为了解决上述技术问题,本专利技术实施例提供了一种网页元素分类方法,所述方法包括:收集多个第一网页作为原始数据集,对第一网页进行分割,得到第一网页包含的第一网页元素;对所有第一网页元素进行粗分类,得到粗分类结果,对所述粗分类结果中的每一类细分,得到细分类结果,根据所述粗分类结果和所述细分类结果得到每一个第一网页元素的粗分类标签和细分类标签,将第一网页元素和第一网页元素对应的粗分类标签、细分类标签作为样本数据集;利用所述样本数据集训练预设模型,得到分类模型,所述分类模型包括多类粗分类器,每个粗分类器下设置有多个细分类器;将第二网页进行分割,得到所述第二网页包含的多个第二网页元素,将所有第二网页元素输入所述分类模型,得到第二网页元素的分类结果,所述分类结果中每一个第二网页元素具有粗分类标签和细分类标签。可选的,得到所述第一网页包含的对应的第一网页元素后,还包括:采用字符串匹配的方法来对第一网页元素进行识别,去除重复的网页元素。可选的,所述粗分类标签包括:登录类、表单类、列状内容类、块状内容类、搜索类;属于所述登录类下的细分类标签包括:用户密码登录、用户密码验证码登录、手机号短信确认登录;属于所述表单类下的细分类标签包括:找回密码、填表、记录表、信息表;属于所述列状内容类下属的多个小类包括:列状内容、列状目录;属于所述块状内容类下的细分类标签包括:纯文本内容、文本图片内容;属于所述搜索类下的细分类标签包括:普通搜索、复杂搜索。可选的,收集多个第一网页作为原始数据集,对第一网页进行分割,得到第一网页包含的第一网页元素,包括:使用预设的网页解析模块加载并分割第一网页,得到第一网页包含的第一网页元素;提取第一网页的网页特征向量;将第一网页元素和第一网页元素对应的粗分类标签、细分类标签作为样本数据集,包括:将第一网页元素、第一网页元素对应的网页特征向量和第一网页元素对应的粗分类标签、细分类标签作为样本数据集。可选的,所述方法还包括:定义第一网页元素的元素特征向量;将第一网页元素和第一网页元素对应的粗分类标签、细分类标签作为样本数据集,包括:将第一网页元素、第一网页元素对应的元素特征向量和第一网页元素对应的粗分类标签、细分类标签作为样本数据集。可选的,所述元素特征向量包括以下任意一者:数值型元素特征向量,所述数值型元素特征向量包括:网页元素各标签的数量;离散型元素特征向量,所述离散型元素特征向量包括:网页元素是否包含password字段。可选的,利用所述样本数据集训练预设模型,得到分类模型,包括:选择预设的机器学习库中的模型作为预设模型,设置超参数,使用所述样本数据集训练所选模型;其中,所述预设的机器学习库中的模型包括:逻辑斯蒂回归模型、支持向量机模型、多层神经网络模型、梯度提升树模型可选的,利用所述样本数据集训练预设模型,得到分类模型,包括:将所述样本数据集按照预设比例分为训练数据和测试数据;利用所述训练数据训练预设模型,得到分类模型,所述分类模型包括多类粗分类器,每类粗分类器下设置有多个细分类器。可选的,所述方法还包括:将所述测试数据中的第一网页元素输入所述分类模型中,得到分类结果,将所述分类结果与测试数据集中记录的粗分类标签和细分类标签进行对比,评估所述分类模型的分类效果。可选的,所述方法还包括:对所述多个已分类第二网页元素进行关键词匹配,当包含所述关键词的已分类第二网页元素的标签属于预设列表一时,为所述第二网页分配高等程度的检索权重,所述预设列表一包括块状类、列表类;当包含所述关键词的已分类第二网页元素的标签属于预设列表二时,为所述第二网页分配中等程度检索权重,所述预设列表二包括:登陆类、搜索类;将所述第二网页按照所述检索权重由大到小的顺序进行排序。通过本实施例的网页元素分类方法,收集多个第一网页作为原始数据集,对所述第一网页进行分割,得到所述第一网页包含的网页元素,对所述网页元素进行分类,所述分类的步骤为:先将所述网页元素粗分为多个大类,再将属于所述大类的元素细分为多个小类,得到带有粗分类标签和细分类标签的所述网页元素,将第一网页元素和第一网页元素对应的粗分类标签、细分类标签作为样本数据集,利用所述样本数据集训练预设模型,得到分类模型,所述分类模型包括多类粗分类器,每个粗分类器下设置有多个细分类器,将第二网页的网页元素输入所述分类模型,得到所述第二网页的多个已分类网页元素,所述已分类网页元素具有粗分类标签和细分类标签。该方法具有如下多个技术效果:第一、能够将网页分割为不同元素,并将不同元素进行分类,对于不同类别的元素可以用于辅助信息检索、内容提取等功能,从而简化网页处理的复杂度;第二、泛化能力更强,不容易在测试过程中出现过拟合。附图说明更清楚地说明本申请实施例的技术方案,下面将对本申请实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本申请一实施例示出的一种网页元素分类方法的流程图;图2是本申请一实施例示出的一种分类数据集生成的流程图;图3是本申请一实本文档来自技高网...

【技术保护点】
1.一种网页元素分类方法,其特征在于,包括:/n收集多个第一网页作为原始数据集,对第一网页进行分割,得到第一网页包含的第一网页元素;/n对所有第一网页元素进行粗分类,得到粗分类结果,对所述粗分类结果中的每一类细分,得到细分类结果,根据所述粗分类结果和所述细分类结果得到每一个第一网页元素的粗分类标签和细分类标签,将第一网页元素和第一网页元素对应的粗分类标签、细分类标签作为样本数据集;/n利用所述样本数据集训练预设模型,得到分类模型,所述分类模型包括多类粗分类器,每个粗分类器下设置有多个细分类器;/n将第二网页进行分割,得到所述第二网页包含的多个第二网页元素,将所有第二网页元素输入所述分类模型,得到第二网页元素的分类结果,所述分类结果中每一个第二网页元素具有粗分类标签和细分类标签。/n

【技术特征摘要】
1.一种网页元素分类方法,其特征在于,包括:
收集多个第一网页作为原始数据集,对第一网页进行分割,得到第一网页包含的第一网页元素;
对所有第一网页元素进行粗分类,得到粗分类结果,对所述粗分类结果中的每一类细分,得到细分类结果,根据所述粗分类结果和所述细分类结果得到每一个第一网页元素的粗分类标签和细分类标签,将第一网页元素和第一网页元素对应的粗分类标签、细分类标签作为样本数据集;
利用所述样本数据集训练预设模型,得到分类模型,所述分类模型包括多类粗分类器,每个粗分类器下设置有多个细分类器;
将第二网页进行分割,得到所述第二网页包含的多个第二网页元素,将所有第二网页元素输入所述分类模型,得到第二网页元素的分类结果,所述分类结果中每一个第二网页元素具有粗分类标签和细分类标签。


2.根据权利要求1所述方法,其特征在于,得到所述第一网页包含的对应的第一网页元素后,还包括:
采用字符串匹配的方法来对第一网页元素进行识别,去除重复的网页元素。


3.根据权利要求1所述方法,其特征在于:
所述粗分类标签包括:登录类、表单类、列状内容类、块状内容类、搜索类;
属于所述登录类下的细分类标签包括:用户密码登录、用户密码验证码登录、手机号短信确认登录;
属于所述表单类下的细分类标签包括:找回密码、填表、记录表、信息表;
属于所述列状内容类下属的多个小类包括:列状内容、列状目录;
属于所述块状内容类下的细分类标签包括:纯文本内容、文本图片内容;
属于所述搜索类下的细分类标签包括:普通搜索、复杂搜索。


4.根据权利要求1所述方法,其特征在于,收集多个第一网页作为原始数据集,对第一网页进行分割,得到第一网页包含的第一网页元素,包括:
使用预设的网页解析模块加载并分割第一网页,得到第一网页包含的第一网页元素;
提取第一网页的网页特征向量;
将第一网页元素和第一网页元素对应的粗分类标签、细分类标签作为样本数据集,包括:
将第一网页元素、第一网页元素对应的网页特征向量和第一网页元素对应的粗分类标签、细分类标签作为样本数据集。

【专利技术属性】
技术研发人员:易超陈贞谛张舒汇贺赞贤
申请(专利权)人:北京数立得科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1