一种同类元素确定方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:25042269 阅读:14 留言:0更新日期:2020-07-29 05:32
本申请涉及计算机技术领域,尤其涉及一种同类元素确定方法、装置、计算机设备及存储介质,用于提高确定同类元素的准确性。该方法包括:响应于针对目标网页中元素的选择操作,获得选择元素集;针对每个选择元素,确定选择元素在文档对象模型树中相对于到根节点的路径,获得选择路径集;针对所述选择路径集中每个选择路径,逐层向下生成每一层中各节点对应的选择器,获得第一选择器集;根据所述第一选择器集,获得第一候选同类元素集;根据所述第一候选同类元素集,获得目标同类元素集。

【技术实现步骤摘要】
一种同类元素确定方法、装置、计算机设备及存储介质
本申请涉及计算机
,尤其涉及一种同类元素确定方法、装置、计算机设备及存储介质。
技术介绍
网络爬虫(webcrawler),也可以称为网络蜘蛛(spider),是一种用来自动浏览万维网的网络机器人,可以保存所访问的页面元素信息。用户可以利用网络爬虫技术获取各网页的元素信息。目前,网络爬虫技术一般是通过分析网页的前端代码,查找选择元素相关的元素,获得最终的同类元素。这种方式仅简单地查找同类元素,得到的同类元素并不能满足用户的需求,得到的同类元素的准确性较低。
技术实现思路
本申请实施例提供一种同类元素确定方法、装置、计算机设备及存储介质,用于提高确定同类元素的准确性。第一方面,提供一种同类元素确定方法,包括:响应于针对目标网页中元素的选择操作,获得选择元素集;针对每个选择元素,确定选择元素在文档对象模型树中相对于到根节点的路径,获得选择路径集;针对所述选择路径集中每个选择路径,逐层向下生成每一层中各节点对应的选择器,获得第一选择器集;根据所述第一选择器集,获得第一候选同类元素集;根据所述第一候选同类元素集,获得目标同类元素集。第二方面,提供一种同类元素确定装置,包括:第一获得模块,用于响应于针对目标网页中元素的选择操作,获得选择元素集;确定模块,用于针对每个选择元素,确定选择元素在文档对象模型树中相对于到根节点的路径,获得选择路径集;生成模块,用于针对所述选择路径集中每个选择路径,逐层向下生成每一层中各节点对应的选择器,获得第一选择器集;第二获得模块,用于根据所述第一选择器集,获得第一候选同类元素集;第三获得模块,用于根据所述第一候选同类元素集,获得目标同类元素集。在一种可能的实施例中,所述第三获得模块具体用于:根据拒绝元素集,获得拒绝元素集以及各拒绝元素的相似元素组成的第一候选拒绝元素集;其中,拒绝元素集是根据目标网页中元素的拒绝操作生成的;删除所述第一候选同类元素集中的部分候选同类元素,获得第二候选同类元素集;其中,部分候选同类元素包括与所述选择元素集中元素不具有共有特征,但与所述第一候选拒绝元素集中元素具有共有特征的元素;根据第二候选同类元素集,获得目标同类元素。在一种可能的实施例中,所述第三获得模块具体用于:根据标签对选择路径集进行分组,得到分组选择路径集;按照对分组选择路径集对应的标签对拒绝路径集进行分组,得到分组拒绝路径集;其中,拒绝路径集是包括各拒绝元素在文档对象模型树中相对于到根节点的路径;针对每个分组拒绝路径,遍历分组拒绝路径中的各节点,得到第二候选拒绝元素集;从所述第二候选拒绝元素集中逐层去除对应分组选择路径集中的候选同类元素,得到第一候选拒绝元素集。在一种可能的实施例中,所述第三获得模块具体用于:确定所述第一候选拒绝元素集与所述第一候选同类元素集存在的共同元素集;根据所述共同元素集,调整所述第一选择器集,获得第三选择器集;其中,所述第三选择器集从所述目标网页中匹配出的元素排除所述共同元素集中部分或全部的元素;根据所述第三选择器集,获得第二候选同类元素。在一种可能的实施例中,所述第三获得模块具体用于:若所述第一候选拒绝元素集的数量大于阈值,则在所述第一选择器集中,删除部分第一选择器,获得第三选择器集;其中,部分第一选择器包括所述共同元素集中与不属于选择元素集的元素关联的第一选择器;若所述第一候选拒绝元素集的数量小于或等于阈值,则在所述第一选择器集中,删除部分第一选择器,获得第三选择器集;其中,部分第一选择器包括所述共同元素集中与所述第一候选拒绝元素集属于相同分类的元素关联的第一选择器。在一种可能的实施例中,所述生成模块具体用于:获得第三侯选同类元素集;其中,所述第三候选同类元素包括各选择路径中各节点;针对每个第三候选同类元素,确定出第三候选同类元素对应的选择器,获得第二选择器集;其中,每个第二选择器在所述目标网页中匹配出唯一的第三候选同类元素;针对第二选择器集中每个第二选择器,组合第二选择器,以及第二选择器表示的第三候选同类元素的上一层元素对应的第二选择器,确定第三候选同类元素对应的第一选择器,获得第一选择器集。在一种可能的实施例中,所述生成模块具体用于:若第三候选同类元素集存在多个第三候选同类元素,则获取多个候选同类元素的共有分类列表;针对每个第三候选同类元素,将共有分类列表,以及第三候选同类元素对应的标签确定为第三候选同类元素的第二选择器,获得第二选择器集;若第三候选同类元素集存在一个第三候选同类元素,则将第三候选同类元素的标志ID确定为第三候选同类元素的第二选择器,获得第二选择器集。在一种可能的实施例中,所述生成模块具体用于:针对所述选择路径集中每个选择路径,逐层向下生成每一层中各节点对应的选择器,获得第一选择器集,包括:针对每个选择路径,获得各节点对应的选择器,获得第四选择器集;针对每个第四选择器,将第四选择器,以及第四选择器关联的节点到根节点之间的特征进行组合,确定第四选择器对应的第五选择器,获得第五选择器集;针对第五选择器集中每个第五选择器,丢弃第五选择器集中部分祖先特征,获得第六选择器,获得第六选择器集;其中,祖先特征是指第四选择器关联的元素的上层节点的特征;根据各第六选择器与第五选择器集,得到第一选择器集。在一种可能的实施例中,所述生成模块具体用于:组合各第六选择器与第五选择器集,获得第七选择器集;在所述第七选择器集中,将优先级最高的第七选择器确定为第一选择器集;其中,第七选择器中包括的祖先特征的数量越少,元素在所述目标网页中的位置信息越少,则第七选择器对应的优先级越高。第三方面,提供一种计算机设备,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述至少一个处理器通过执行所述存储器存储的指令实现如第一方面中任一项所述的方法。第四方面,提供一种存储介质,所述存储介质存储有计算机指令,当所述计算机指令在计算机上运行时,使得计算机执行如第一方面中任一项所述的方法。由于本申请实施例采用上述技术方案,至少具有如下技术效果:本申请实施例中,利用每个选择元素集,查找根节点到选择元素的所有选择路径,生成选择路径中各节点的选择器,再利用这些选择器去匹配出候选同类元素,这样能够查找出与选择元素相关的更多的候选同类元素更多,进而在更多的候选同类元素中生成的目标同类元素,这样,生成的目标同类元素更符合用户需求,准确性更高。附图说明图1为本申请实施例提供的一种同类元素确定设备的结构示意图;图2为本申请实施例提供的一种同类元素确定方法的流程示意图一;图3为本申请实本文档来自技高网...

【技术保护点】
1.一种同类元素确定方法,其特征在于,包括:/n响应于针对目标网页中元素的选择操作,获得选择元素集;/n针对每个选择元素,确定选择元素在文档对象模型树中相对于到根节点的路径,获得选择路径集;/n针对所述选择路径集中每个选择路径,逐层向下生成每一层中各节点对应的选择器,获得第一选择器集;/n根据所述第一选择器集,获得第一候选同类元素集;/n根据所述第一候选同类元素集,获得目标同类元素集。/n

【技术特征摘要】
1.一种同类元素确定方法,其特征在于,包括:
响应于针对目标网页中元素的选择操作,获得选择元素集;
针对每个选择元素,确定选择元素在文档对象模型树中相对于到根节点的路径,获得选择路径集;
针对所述选择路径集中每个选择路径,逐层向下生成每一层中各节点对应的选择器,获得第一选择器集;
根据所述第一选择器集,获得第一候选同类元素集;
根据所述第一候选同类元素集,获得目标同类元素集。


2.如权利要求1所述的方法,其特征在于,根据所述第一候选同类元素集,获得目标同类元素集,包括:
根据拒绝元素集,获得拒绝元素集以及各拒绝元素的相似元素组成的第一候选拒绝元素集;其中,拒绝元素集是根据目标网页中元素的拒绝操作生成的;
删除所述第一候选同类元素集中的部分候选同类元素,获得第二候选同类元素集;其中,部分候选同类元素包括与所述选择元素集中元素不具有共有特征,但与所述第一候选拒绝元素集中元素具有共有特征的元素;
根据第二候选同类元素集,获得目标同类元素。


3.如权利要求2所述的方法,其特征在于,获得拒绝元素集以及各拒绝元素的相似元素组成的第一候选拒绝元素集,包括:
根据标签对选择路径集进行分组,得到分组选择路径集;
按照对分组选择路径集对应的标签对拒绝路径集进行分组,得到分组拒绝路径集;其中,所述拒绝路径集是包括各拒绝元素在文档对象模型树中相对于到根节点的路径;
针对每个分组拒绝路径,遍历分组拒绝路径中的各节点,得到第二候选拒绝元素集;
从所述第二候选拒绝元素集中逐层去除对应分组选择路径集中的候选同类元素,得到第一候选拒绝元素集。


4.如权利要求2或3所述的方法,其特征在于,删除所述第一候选同类元素集中的部分候选同类元素,获得第二候选同类元素集,包括:
确定所述第一候选拒绝元素集与所述第一候选同类元素集存在的共同元素集;
根据所述共同元素集,调整所述第一选择器集,获得第三选择器集;其中,所述第三选择器集从所述目标网页中匹配出的元素排除所述共同元素集中部分或全部的元素;
根据所述第三选择器集,获得第二候选同类元素。


5.如权利要求4所述的方法,其特征在于,根据所述共同元素集中各共同元素的分类,调整所述第一选择器集,获得第三选择器集,包括:
若所述第一候选拒绝元素集的数量大于阈值,则在所述第一选择器集中,删除部分第一选择器,获得第三选择器集;其中,部分第一选择器包括所述共同元素集中与不属于选择元素集的元素关联的第一选择器;
若所述第一候选拒绝元素集的数量小于或等于阈值,则在所述第一选择器集中,删除部分第一选择器,获得第三选择器集;其中,部分第一选择器包括所述共同元素集中与所述第一候选拒绝元素集属于相同分类的元素关联的第一选择器。


6.如权利要求1~3任一项所述的方法,其特征在于,针对所述选择路径集中每个选择路径,逐层向下生成每一层中各节点对应的选择器,获得第一选择器集,包括:
获得第三侯选同类元素集;其中,所述第三候选同类元素包括各选择路径中各节点;
针对每个第三候选同类元素,确定出第三候选同类元素对应的选择器,获得第二选择器集;其中,每个第二选择器在所述目标网页中匹配出唯一的第三候选同类元素;
针对第二选择器集中每个第二选择器,组合第二选择器,以及第二选择器表示的第三候选同类元素的上一层元素对应的第二选择器,确定第三...

【专利技术属性】
技术研发人员:于洋
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1