页面内容的处理方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号:36871199 阅读:11 留言:0更新日期:2023-03-15 19:55
本公开提供了页面内容的处理方法、装置、电子设备及可读存储介质,涉及数据处理技术领域,尤其涉及应用程序技术领域。具体实现方案为:确定与待处理页面所属的页面类型对应的至少一种关键页面内容类型;基于关键页面内容类型,从待处理页面的页面内容中确定关键内容块,关键内容块中包含与关键页面内容类型相对应的关键页面内容;从关键内容块中提取关键页面内容。基于本方案,能够有效提取出页面中的关键页面内容,为后续进行页面样式转换,以保证用户的使用体验的一致性提供了基础。证用户的使用体验的一致性提供了基础。证用户的使用体验的一致性提供了基础。

【技术实现步骤摘要】
页面内容的处理方法、装置、电子设备及可读存储介质


[0001]本公开涉及数据处理
,尤其涉及应用程序
,具体而言,本公开涉及一种页面内容的处理方法、装置、电子设备及可读存储介质。

技术介绍

[0002]随着互联网技术的快速发展,越来越多的应用程序会作为平台来接入第三方页面,使得应用程序内展示的内容得到丰富。由于第三方页面会的设计样式可能会存在较多差异,使得用户的使用体验不一致。
[0003]如果能够从三方页面中提取页面内容,将提取到的页面内容转换成平台统一的设计样式进行展示,就能够保证用户的使用体验的一致性。因此,如何有效地从第三方页面中提取页面内容成为了一个重要的技术问题。

技术实现思路

[0004]本公开为了解决上述缺陷中的至少一项,提供了一种页面内容的处理方法、装置、电子设备及可读存储介质。
[0005]根据本公开的第一方面,提供了一种页面内容的处理方法,该方法包括:
[0006]确定与待处理页面所属的页面类型对应的至少一种关键页面内容类型;
[0007]基于关键页面内容类型,从待处理页面的页面内容中确定关键内容块,关键内容块中包含与关键页面内容类型相对应的关键页面内容;
[0008]从关键内容块中提取关键页面内容。
[0009]根据本公开的第二方面,提供了一种页面内容的处理装置,该装置包括:
[0010]关键页面内容类型确定模块,用于确定与待处理页面所属的页面类型对应的至少一种关键页面内容类型;
[0011]关键内容块确定模块,用于基于关键页面内容类型,从待处理页面的页面内容中确定关键内容块,关键内容块中包含与关键页面内容类型相对应的关键页面内容;
[0012]关键页面内容提取模块,用于从关键内容块中提取关键页面内容。
[0013]根据本公开的第三方面,提供了一种电子设备,该电子设备包括:
[0014]至少一个处理器;以及
[0015]与上述至少一个处理器通信连接的存储器;其中,
[0016]存储器存储有可被上述至少一个处理器执行的指令,指令被上述至少一个处理器执行,以使上述至少一个处理器能够执行上述页面内容的处理方法。
[0017]根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,该计算机指令用于使计算机执行上述页面内容的处理方法。
[0018]根据本公开的第五方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现上述页面内容的处理方法。
[0019]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特
征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0020]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0021]图1是本公开实施例提供的一种页面内容的处理方法的流程示意图;
[0022]图2是本公开实施例提供的一种页面转换系统的结构示意图;
[0023]图3是本公开实施例提供的另一种页面内容的处理方法的流程示意图;
[0024]图4是本公开实施例提供的一种页面内容的处理装置的结构示意图;
[0025]图5是本公开实施例提供的另一种页面内容的处理装置的结构示意图;
[0026]图6是用来实现本公开实施例的页面内容的处理的方法的电子设备的框图。
具体实施方式
[0027]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0028]相关技术中,平台方一般会预先配置一些提取规则来提取第三方页面中的页面内容,而后将所提取的页面内容转换成平台统一的设计样式进行展示,但是由于第三方页面中内容的多样性,预先配置的提取规则无法满足实际的使用需求,导致在从第三方页面中提取内容时可能会出现提取错误等情况,无法有效保证用户使用体验的一致性。
[0029]例如,针对目录页面,第三方页面的目录部分可能使用列表标签、段落标签、链接标签等多种形式实现,由于其内容结构的多样性,使得在通过提取规则提取目录信息时存在困难。
[0030]另外,第三方页面内也可能会存在一些不符合平台方要求的信息(如一些广告信息),如何避免将这类信息展示给用户,是一个亟待解决的技术问题。
[0031]本公开实施例提供的页面内容的处理方法、装置、电子设备及可读存储介质,旨在解决现有技术的如上技术问题中的至少一个。
[0032]图1示出了本公开实施例提供的一种页面内容的处理方法的流程示意图,如图1中所示,该方法主要可以包括:
[0033]步骤S110:确定与待处理页面所属的页面类型对应的至少一种关键页面内容类型;
[0034]步骤S120:基于关键页面内容类型,从待处理页面的页面内容中确定关键内容块,关键内容块中包含与关键页面内容类型相对应的关键页面内容;
[0035]步骤S130:从关键内容块中提取关键页面内容。
[0036]本公开实施例中,页面类型可以根据页面中的页面内容进行划分,例如,针对在线小说这一应用场景,页面类型可以包括详情页、目录页以及内容页。其中,详情页的页面内容具体可以包括书名、封面图像、内容简介等信息。目录页的页面内容可以包括小说的目录或者章节列表。内容页的页面内容可以包括小说正文的文本。又例如,针对在线影视这一应用场景,页面类型可以包括播放页,播放页的页面内容可以包括视频的标题,视频内容的简
介,以及视频播放窗口等。
[0037]关键页面内容可以为页面中的有效页面内容,关键页面内容在被提取后,可以用于后续的样式转换。
[0038]不同页面类型的页面,由于其包含的页面内容不同,使得从其中提取的关键页面内容所属的页面内容类型也不同,而页面类型与关键页面内容类型存在一定的相关性,因此,可以配置页面类型与关键页面内容类型的对应关系。
[0039]作为一个示例,页面类型为详情页,详情页中一般需要被提取的关键页面内容包括书名、封面图像以及简介信息。因此,可以将书名、封面图像以及简介信息作为关键内容类型,并将书名、封面图像以及简介信息分别与详情页建立对应关系。
[0040]作为一个示例,页面类型为目录页,目录页中一般需要被提取的关键页面内容包括目录信息。因此,可以将目录信息作为关键内容类型,并将目录信息与目录页建立对应关系。
[0041]作为一个示例,页面类型为内容页,内容页中一般需要被提取的关键页面内容包括正文内容以及章节信息。因此,可以将正文内容以及章节信息作为关键内容类型,并将正文内容以及章节信息分别与内容页建立对应关系。
[0042]本公开实施例中,关本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种页面内容的处理方法,包括:确定与待处理页面所属的页面类型对应的至少一种关键页面内容类型;基于所述关键页面内容类型,从所述待处理页面的页面内容中确定关键内容块,所述关键内容块中包含与所述关键页面内容类型相对应的关键页面内容;从所述关键内容块中提取所述关键页面内容。2.根据权利要求1所述的方法,其中,所述基于所述关键页面内容类型,从所述待处理页面的页面内容中确定关键内容块,包括:确定与所述关键页面内容类型对应的内容块提取规则;基于所述内容块提取规则从所述待处理页面的页面内容中提取至少一项候选内容块;基于所述候选内容块确定关键内容块。3.根据权利要求2所述的方法,其中,所述基于所述候选内容块确定关键内容块,包括:确定所述关键页面内容类型对应的关键内容块判定规则;基于所述关键内容块判定规则从所述候选内容块中确定关键内容块。4.根据权利要求3所述的方法,其中,所述关键内容块判定规则包括多个,所述基于所述关键内容块判定规则从所述候选内容块中确定关键内容块,包括:从所述关键内容块判定规则中确定各所述候选内容块所满足的目标关键内容块判定规则;基于所述目标关键内容块判定规则对应的权重值,确定各所述候选内容块对应的权重评分;基于所述权重评分,从所述候选内容块中确定关键内容块。5.根据权利要求4所述的方法,其中,所述基于所述权重评分,从所述候选内容块中确定关键内容块,包括:将对应的权重评分最高的候选内容块确定为关键内容块。6.根据权利要求2

5中任一项所述的方法,其中,所述关键页面内容类型为封面图像,所述封面图像对应的内容块提取规则包括将从所述待处理页面的页面内容中提取的各图像标签分别作为所述候选内容块。7.根据权利要求6所述的方法,其中,所述从所述关键内容块中提取所述关键页面内容,包括:将所述关键内容块对应的图像标签中包含的图像确定为所述关键页面内容。8.根据权利要求1

7中任一项所述的方法,其中,在所述确定与待处理页面所属的页面类型对应的至少一种关键页面内容类型之前,所述方法还包括:基于待检测页面中包含的页面标签确定所述待检测页面的页面类型;将属于指定页面类型的所述待检测页面确定为所述待处理页面。9.根据权利要求8所述的方法,其中,所述基于待检测页面中包含的页面标签确定所述待检测页面的页面类型,包括:基于预设的页面类型与页面标签条件的关联关系,并基于待检测页面中包含页面标签所满足的页面标签条件,确定所述待检测页面的页面类型。10.根据权利要求9所述的方法,其中,所述页面标签条件包括以下至少一项:第一指定标签类型的页面标签的数量满足第一子页面标签条件;
页面标签的标签内容中包含字符的数量满足第二子页面标签条件;页面标签的标签内容中包含指定字符的情况满足第三子页面标签条件。11.根据权利要求1

...

【专利技术属性】
技术研发人员:暴文宾
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1