【技术实现步骤摘要】
页面内容的处理方法、装置、电子设备及可读存储介质
[0001]本公开涉及数据处理
,尤其涉及应用程序
,具体而言,本公开涉及一种页面内容的处理方法、装置、电子设备及可读存储介质。
技术介绍
[0002]随着互联网技术的快速发展,越来越多的应用程序会作为平台来接入第三方页面,使得应用程序内展示的内容得到丰富。由于第三方页面会的设计样式可能会存在较多差异,使得用户的使用体验不一致。
[0003]如果能够从三方页面中提取页面内容,将提取到的页面内容转换成平台统一的设计样式进行展示,就能够保证用户的使用体验的一致性。因此,如何有效地从第三方页面中提取页面内容成为了一个重要的技术问题。
技术实现思路
[0004]本公开为了解决上述缺陷中的至少一项,提供了一种页面内容的处理方法、装置、电子设备及可读存储介质。
[0005]根据本公开的第一方面,提供了一种页面内容的处理方法,该方法包括:
[0006]确定与待处理页面所属的页面类型对应的至少一种关键页面内容类型;
[0007]基于关键页面内容类型,从待处理页面的页面内容中确定关键内容块,关键内容块中包含与关键页面内容类型相对应的关键页面内容;
[0008]从关键内容块中提取关键页面内容。
[0009]根据本公开的第二方面,提供了一种页面内容的处理装置,该装置包括:
[0010]关键页面内容类型确定模块,用于确定与待处理页面所属的页面类型对应的至少一种关键页面内容类型;
[0011]关键内容块 ...
【技术保护点】
【技术特征摘要】
1.一种页面内容的处理方法,包括:确定与待处理页面所属的页面类型对应的至少一种关键页面内容类型;基于所述关键页面内容类型,从所述待处理页面的页面内容中确定关键内容块,所述关键内容块中包含与所述关键页面内容类型相对应的关键页面内容;从所述关键内容块中提取所述关键页面内容。2.根据权利要求1所述的方法,其中,所述基于所述关键页面内容类型,从所述待处理页面的页面内容中确定关键内容块,包括:确定与所述关键页面内容类型对应的内容块提取规则;基于所述内容块提取规则从所述待处理页面的页面内容中提取至少一项候选内容块;基于所述候选内容块确定关键内容块。3.根据权利要求2所述的方法,其中,所述基于所述候选内容块确定关键内容块,包括:确定所述关键页面内容类型对应的关键内容块判定规则;基于所述关键内容块判定规则从所述候选内容块中确定关键内容块。4.根据权利要求3所述的方法,其中,所述关键内容块判定规则包括多个,所述基于所述关键内容块判定规则从所述候选内容块中确定关键内容块,包括:从所述关键内容块判定规则中确定各所述候选内容块所满足的目标关键内容块判定规则;基于所述目标关键内容块判定规则对应的权重值,确定各所述候选内容块对应的权重评分;基于所述权重评分,从所述候选内容块中确定关键内容块。5.根据权利要求4所述的方法,其中,所述基于所述权重评分,从所述候选内容块中确定关键内容块,包括:将对应的权重评分最高的候选内容块确定为关键内容块。6.根据权利要求2
‑
5中任一项所述的方法,其中,所述关键页面内容类型为封面图像,所述封面图像对应的内容块提取规则包括将从所述待处理页面的页面内容中提取的各图像标签分别作为所述候选内容块。7.根据权利要求6所述的方法,其中,所述从所述关键内容块中提取所述关键页面内容,包括:将所述关键内容块对应的图像标签中包含的图像确定为所述关键页面内容。8.根据权利要求1
‑
7中任一项所述的方法,其中,在所述确定与待处理页面所属的页面类型对应的至少一种关键页面内容类型之前,所述方法还包括:基于待检测页面中包含的页面标签确定所述待检测页面的页面类型;将属于指定页面类型的所述待检测页面确定为所述待处理页面。9.根据权利要求8所述的方法,其中,所述基于待检测页面中包含的页面标签确定所述待检测页面的页面类型,包括:基于预设的页面类型与页面标签条件的关联关系,并基于待检测页面中包含页面标签所满足的页面标签条件,确定所述待检测页面的页面类型。10.根据权利要求9所述的方法,其中,所述页面标签条件包括以下至少一项:第一指定标签类型的页面标签的数量满足第一子页面标签条件;
页面标签的标签内容中包含字符的数量满足第二子页面标签条件;页面标签的标签内容中包含指定字符的情况满足第三子页面标签条件。11.根据权利要求1
‑
...
【专利技术属性】
技术研发人员:暴文宾,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。