网页中的列表提取和可视化制造技术

技术编号:38323080 阅读:14 留言:0更新日期:2023-07-29 09:05
本公开提供了用于网页中的列表提取和可视化的方法、装置和计算机程序产品。可以检测目标网页中的至少一个锚点元素组,所述至少一个锚点元素组包括第一锚点元素组。可以对所述第一锚点元素组中的多个锚点元素执行边界检测,以获得与所述多个锚点元素分别关联的多个项目的边界,所述多个项目对应于所述目标网页中的第一原始列表。可以利用所述多个项目的边界,从所述目标网页中获得与所述多个项目分别对应的多组代表性元数据。可以将所述多组代表性元数据可视化为结构化列表。性元数据可视化为结构化列表。性元数据可视化为结构化列表。

【技术实现步骤摘要】
网页中的列表提取和可视化

技术介绍

[0001]在网络中存在大量的网页(web page),这些网页包含各种各样的信息。在一些场景下,网络用户可能需要在网络上找到感兴趣的网页,以便获得所期望的信息。搜索引擎提供商可以提供搜索服务,以辅助用户找到感兴趣的网页。例如,响应于来自用户的搜索查询,搜索服务可以向用户返回搜索结果页面,该搜索结果页面包括与搜索查询相关的网页的信息,例如,网页链接、摘要(snippet)等。

技术实现思路

[0002]提供本
技术实现思路
以便介绍一组概念,这组概念将在以下的具体实施方式中做进一步描述。本
技术实现思路
并非旨在标识所保护主题的关键特征或必要特征,也不旨在用于限制所保护主题的范围。
[0003]本公开的实施例提出了用于网页中的列表提取和可视化的方法、装置和计算机程序产品。可以检测目标网页中的至少一个锚点元素组,所述至少一个锚点元素组包括第一锚点元素组。可以对所述第一锚点元素组中的多个锚点元素执行边界检测,以获得与所述多个锚点元素分别关联的多个项目的边界,所述多个项目对应于所述目标网页中的第一原始列表。可以利用所述多个项目的边界,从所述目标网页中获得与所述多个项目分别对应的多组代表性元数据。可以将所述多组代表性元数据可视化为结构化列表。
[0004]应当注意,以上一个或多个方面包括以下详细描述以及权利要求中具体指出的特征。下面的说明书及附图详细提出了所述一个或多个方面的某些说明性特征。这些特征仅仅指示可以实施各个方面的原理的多种方式,并且本公开旨在包括所有这些方面和其等同变换。
>附图说明
[0005]以下将结合附图描述所公开的多个方面,这些附图被提供用以说明而非限制所公开的多个方面。
[0006]图1示出了示例性的列表网页。
[0007]图2示出了示例性的列表网页。
[0008]图3示出了现有的示例性搜索结果页面。
[0009]图4示出了根据实施例的网页中的列表提取和可视化的示例性过程。
[0010]图5示出了根据实施例的锚点元素组检测的示例性过程。
[0011]图6示出了根据实施例的示例性锚点元素组。
[0012]图7示出了根据实施例的边界检测的示例性过程。
[0013]图8A至图8F示出了根据实施例的迭代边界扩展示例。
[0014]图9A至图9F示出了根据实施例的迭代边界扩展示例。
[0015]图10示出了根据实施例的示例性边界检测结果。
[0016]图11示出了根据实施例的主列表确定的示例性过程。
element)组,来识别目标网页中可能包括的原始列表。锚点元素组中的锚点元素并不一定具有html列表标签。由于锚点元素可能具有原始列表中的项目的代表性信息,因此,对锚点元素组的检测将有助于发现目标网页中的原始列表。
[0027]在一个方面,本公开的实施例可以对锚点元素组中的多个锚点元素执行边界检测,以确定在目标网页中与该锚点元素组对应的原始列表中的多个项目的边界。在本文中,确定项目的边界可以指确定该项目中包括哪些具体元素,相应地,这些元素一起形成该项目。边界检测可以包括迭代边界扩展。对于每个锚点元素,通过迭代边界扩展可以找到可能与该锚点元素位于同一个项目内的元素,从而,该锚点元素和所找到的元素将定义出该项目的边界。边界检测还可以包括相似性检验。相似性检验可以被执行用于判断通过从不同的锚点元素进行扩展而确定的多个项目是否确实是同一个原始列表中的项目,例如,这些项目是否确实形成了一个原始列表。至少通过根据本公开实施例的边界检测,可以准确地识别出目标网页中的原始列表以及该原始列表中的各个项目。
[0028]在一个方面,如果目标网页包括两个或更多个原始列表,则本公开的实施例可以从这些原始列表中确定出主(dominant)列表。在本文中,主列表可以指例如在网页中占据主要位置、呈现主要内容等的列表。优选地,通过确定主列表并且仅对主列表执行后续的处理,本公开的实施例可以在最终所生成的结构化列表中仅包括关于主列表的信息,从而避免由关于并非是主列表的列表的信息所造成的干扰。
[0029]在一个方面,本公开的实施例可以从目标网页中获得原始列表中的不同项目的多组代表性元数据。例如,可以至少利用原始列表中的多个项目的边界,从目标网页中获得这些项目的多组代表性元数据。在一些实现方式中,所述多组代表性元数据可以是通过排序而从目标网页中的初始元数据中所选择的重要的、代表性的元数据。
[0030]在一个方面,本公开的实施例可以对所获得的多组代表性元数据进行可视化,以形成结构化列表。所述结构化列表可以作为例如目标网页的列表摘要。
[0031]本公开的实施例可以被应用于各种应用场景中。例如,在搜索服务中,本公开的实施例可以针对目标网页生成结构化列表,以便例如为目标网页建立列表摘要。相应地,搜索服务可以在搜索结果页面中呈现根据本公开实施例所生成的作为列表摘要的结构化列表。应当理解,本公开的实施例并不局限于被应用在搜索服务中,而是还可以被应用于需要对目标网页进行列表提取和可视化的任何应用场景中。
[0032]本公开的实施例所处理的目标网页可以是来自各种网站、在线服务等的各种列表网页。图1示出了示例性的列表网页。列表网页12是在网络上的一篇示例性文章,该文章可能位于例如学术网站、在线问答社区等中。该文章介绍了在中国的十大节日,例如,“春节”、“中秋节”、“端午节”等。该文章中的涉及所介绍的节日的部分形成了可视觉感知的列表122。例如,涉及“春节”的部分、涉及“中秋节”的部分、涉及“端午节”的部分等分别形成了列表122中的多个项目。
[0033]列表网页14是来自于例如图书销售网站、阅读交流网站等的网页。假设已经在网页14的左侧的“选项”栏中选择了多个选项,则在网页14的右侧呈现了符合所选择的选项的所推荐的四本书的介绍信息。以第一本书为例,该书的介绍信息可以包括例如封面照片144、文字介绍146等。所述四本书的介绍信息形成了可视觉感知的列表142。例如,每一本书的介绍信息形成了列表142中的一个项目。
[0034]列表网页16是来自某个点评论坛的针对示例性话题“X饭店”的网页,其包括多个用户关于“X饭店”的讨论线程。例如,网页16包括分别用于用户Tom、David、Jane等的多个显示区域。以用户Tom为例,用于Tom的显示区域包括例如Tom的头像、Tom的名字、Tom的评论的发布时间、Tom的评论的具体内容等。用于Tom的显示区域、用于David的显示区域、用于Jane的显示区域等形成了可视觉感知的列表162,并且这些显示区域分别形成了列表162中的多个项目。
[0035]图2示出了示例性的列表网页20。网页20可能来自例如在线购物网站等。在线购物网站通常会产生或提供大量的包括列表的网页,例如销售最佳网页、最受欢迎产品网页、产品分类网页、包含用户搜索的产品的网页等。网页20可以是用于呈现例如符合某些条件的手机的网页。假设已经在网页20的左侧的“选项”栏中选择了多个选项,则在网页20的本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种用于网页中的列表提取和可视化的方法,包括:检测目标网页中的至少一个锚点元素组,所述至少一个锚点元素组包括第一锚点元素组;对所述第一锚点元素组中的多个锚点元素执行边界检测,以获得与所述多个锚点元素分别关联的多个项目的边界,所述多个项目对应于所述目标网页中的第一原始列表;利用所述多个项目的边界,从所述目标网页中获得与所述多个项目分别对应的多组代表性元数据;以及将所述多组代表性元数据可视化为结构化列表。2.如权利要求1所述的方法,其中,所述检测至少一个锚点元素组包括:将所述目标网页中满足锚点元素约束的多个html元素识别为多个识别锚点元素;从所述目标网页中提取所述多个识别锚点元素中每个识别锚点元素的属性集合;以及基于所述多个识别锚点元素的多个属性集合,将所述多个识别锚点元素聚类成所述至少一个锚点元素组。3.如权利要求2所述的方法,其中,所述锚点元素约束包括以下至少之一:html元素具有图像标签;html元素具有标题标签;以及html元素表示日期,并且每个识别锚点元素的属性集合包括所述识别锚点元素的html标签属性、CSS类别以及XPath信息中至少之一。4.如权利要求1所述的方法,其中,所述边界检测包括:基于与所述目标网页对应的文档对象模型(DOM)树,分别以所述多个锚点元素为起点同步地执行迭代边界扩展,以获得分别源自于所述多个锚点元素的多棵项目树,其中,每棵项目树代表一个项目并且包括多个节点,并且每个节点对应于经由所述迭代边界扩展而确定的一个元素。5.如权利要求4所述的方法,其中,所述迭代边界扩展包括:对于每棵项目树,在每一步骤的迭代中,扩展到下一节点并且将所述下一节点包括到所述项目树中。6.如权利要求5所述的方法,其中,所述迭代边界扩展包括以下至少之一:执行兄弟节点扩展,以从当前节点向当前节点的兄弟节点进行扩展;以及执行父节点扩展,以在当前节点的所有兄弟节点都已被包括到所述项目树中之后,向所述当前节点的父节点进行扩展。7.如权利要求5所述的方法,其中,所述边界检测包括:确定当前步骤的迭代是否导致在所述项目树与所述多棵项目树中至少一棵其它项目树之间出现节点重叠;以及响应于确定出现所述节点重叠,停止执行所述迭代边界扩展,并且从所述多棵项目树中分别排除通过所述当前步骤的迭代而确定的节点。8.如权利要求7所述的方法,还包括:如果当前步骤的迭代是兄弟节点扩展,则在与所述当前步骤的迭代的方向相反的方向上对所述多棵项目树执行进一步的迭代边界扩展。9.如权利要求4所述的方法,其中,所述边界检测包括:
对所述多棵项目树执行相似性检验。10.如权利要求9所述的方法,其中,所述相似性检验是响应于确定所述多棵项目树中的至少一棵项目树中的节点的数量超出节点数量阈值而执行的。11.如权利要求9所述的方法,其中,所述相似性检验包括:计算在所述多棵项目树中的任意两棵项目树之间的树相似性;至少利用相似性阈值将所述多棵项目树划分成至少一个树集合,所述至少一个树集合中的每个树集合中的项目树在彼此之间具有不低于所述相似性阈值的树相似性;确定所述至少一个树集合中包含最多数量项目树的树集合中的项目树的数量是否低于树数量阈值;以及响应于确定所述项目树的数量低于所述树数量阈值,停止执行所述迭代边界扩展,并且从所述多棵项目树中分别排除通过预定数量先前步骤的迭代而确定的节点。12.如权利要求11所述的方法,其中,所述计算树相似性包括以下至少之一:至少利用基于所述两棵项目树的根节点之间的CSS相似性所计算的匹配权重,来计算...

【专利技术属性】
技术研发人员:罗会明陈曦陈鑫章越麟陈一宁姜大昕
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1