用于更新网页库的方法和装置制造方法及图纸

技术编号:29873270 阅读:21 留言:0更新日期:2021-08-31 23:48
提供了一种用于更新网页库的方法和装置,本公开涉及计算机技术领域,尤其涉及搜索引擎技术领域。实现方案为:基于网页库获取数据集合,其中,该数据集合包括多个第一数据,该多个第一数据中的每一个第一数据在链接库中不存在对应的链接;以及基于该数据集合,更新该网页库。

【技术实现步骤摘要】
用于更新网页库的方法和装置
本公开涉及计算机
,尤其涉及搜索引擎
,具体涉及一种用于更新网页库的方法和装置、电子设备、计算机可读存储介质和计算机程序产品。
技术介绍
搜索引擎的工作流程包括数据收录步骤、索引建库步骤、在线排序步骤、用户展现步骤。其中,在数据收录步骤中,通过互联网获取各个网站的网页链接以存入链接库,再从链接库中抽取链接并基于抽取的链接从互联网上获取数据以被网页库收录。收录数据的网页库进一步用于后续索引建库步骤和在线排序步骤。网页库作为整个搜索引擎工作流程中的底层资源,对搜索引擎的搜索质量具有举足轻重的作用。在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认。
技术实现思路
本公开提供了一种用于更新网页库的方法、装置、电子设备、计算机可读存储介质和计算机程序产品。根据本公开的一方面,提供了一种用于更新网页库的方法,包括:基于网页库获取数据集合,其中,所述数据集合包括多个第一数据,所述多个第一数据中的每一个第一数据在链接库中不存在对应的链接;以及基于所述数据集合,更新所述网页库。根据本公开的另一方面,提供了一种用于更新网页库的装置,包括:获取单元,被配置用于基于网页库获取数据集合,其中,所述数据集合包括多个第一数据,所述多个第一数据中的每一个第一数据在链接库中不存在对应的链接;以及更新单元,被配置用于基于所述数据集合,更新所述网页库。根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器实现根据上述的方法。根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机实现根据上述的方法。根据本公开的一个或多个实施例,通过获取网页库中的数据集合,该数据集合包括在链接库中不存在对应的链接的第一数据,基于该数据集合,更新网页库,由于对在链接库中不存在对应的链接的第一数据进行了更新,使该不存在对应的链接的第一数据与所对应的网页的当前页面内容一致,从而提升该网页库的一致性,改善基于该网页库进行的搜索的结果的质量。应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。附图说明附图示例性地示出了实施例并且构成说明书的一部分,与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的,并不限制权利要求的范围。在所有附图中,相同的附图标记指代类似但不一定相同的要素。图1示出了根据本公开的实施例的可以在其中实施本文描述的各种方法的示例性系统的示意图;图2示出了根据相关技术的搜索引擎系统在用户和互联网之间进行搜索工作的示意图;图3示出了根据本公开的一些实施例的用于更新网页库的方法的流程图;图4示出了根据图3的一种用于更新网页库的方法中基于数据集合更新网页库的过程的流程图;图5示出了根据图4的一种用于更新网页库的方法中对数据集合中的多个数据进行抽样的过程的流程图;图6示出了根据图5的一种用于更新网页库的方法中对多个第一数据进行抽样的过程的流程图;图7示出了根据图5的一种用于更新网页库的方法中对多个第二数据进行抽样的过程的流程图;图8示出了根据图4的一种用于更新网页库的方法中对抽样数据集合中的多个数据中的各个数据进行调度更新的过程的流程图;图9示出根据本公开的一种用于更新网页库的装置的结构框图;以及图10示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。具体实施方式以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。在本公开中,除非另有说明,否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系,这种术语只是用于将一个元件与另一元件区分开。在一些示例中,第一要素和第二要素可以指向该要素的同一实例,而在某些情况下,基于上下文的描述,它们也可以指代不同实例。在本公开中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目的,而并非旨在进行限制。除非上下文另外明确地表明,如果不特意限定要素的数量,则该要素可以是一个也可以是多个。此外,本公开中所使用的术语“和/或”涵盖所列出的项目中的任何一个以及全部可能的组合方式。下面将结合附图详细描述本公开的实施例。图1示出了根据本公开的实施例可以将本文描述的各种方法和装置在其中实施的示例性系统100的示意图。参考图1,该系统100包括一个或多个客户端设备101、102、103、104、105和106、服务器120以及将一个或多个客户端设备耦接到服务器120的一个或多个通信网络110。客户端设备101、102、103、104、105和106可以被配置为执行一个或多个应用程序。在本公开的实施例中,服务器120可以运行使得能够执行向客户端设备用于更新网页库的方法的一个或多个服务或软件应用。在某些实施例中,服务器120还可以提供可以包括非虚拟环境和虚拟环境的其他服务或软件应用。在某些实施例中,这些服务可以作为基于web的服务或云服务提供,例如在软件即服务(SaaS)模型下提供给客户端设备101、102、103、104、105和/或106的用户。在图1所示的配置中,服务器120可以包括实现由服务器120执行的功能的一个或多个组件。这些组件可以包括可由一个或多个处理器执行的软件组件、硬件组件或其组合。操作客户端设备101、102、103、104、105和/或106的用户可以依次利用一个或多个客户端应用程序来与服务器120进行交互以利用这些组件提供的服务。应当理解,各种不同的系统配置是可能的,其可以与系统100不同。因此,图1是用于实施本文所描述的各种方法的系统的一个示例,并且不旨在进行限制。用户可以使用客户端设备101、102、103、104、105和/或106来基于服务器120更新的网页库,进行搜索。客户端设备可以提供使客户端设备的用户能够与客户端设备进行交互的接口。客户端设备还可以经由该接口向用户输出信息。尽管图1仅描绘了六种客户端设备,但是本领域技术人员将能够理解,本公开可以支持任何数量的客户端设备。客户端设备101、102、103、104、105和/或106可以包括各种类型的计算机本文档来自技高网...

【技术保护点】
1.一种用于更新网页库的方法,所述方法包括:/n基于网页库获取数据集合,其中,所述数据集合包括多个第一数据,所述多个第一数据中的每一个第一数据在链接库中不存在对应的链接;以及/n基于所述数据集合,更新所述网页库。/n

【技术特征摘要】
1.一种用于更新网页库的方法,所述方法包括:
基于网页库获取数据集合,其中,所述数据集合包括多个第一数据,所述多个第一数据中的每一个第一数据在链接库中不存在对应的链接;以及
基于所述数据集合,更新所述网页库。


2.根据权利要求1所述的方法,其中,所述数据集合还包括多个第二数据,所述多个第二数据中的每一个第二数据在所述链接库中具有对应的链接并且对应的调度时间超过预设值,其中,所述调度时间表征数据最近被调度的时间点距离当前时间点的时间长度。


3.根据权利要求2所述的方法,其中,所述基于所述数据集合,更新所述网页库包括:
对所述数据集合中的多个数据进行抽样,以获得包含多个数据的抽样数据集合;以及
对所述抽样数据集合中的多个数据中的各个数据进行更新。


4.根据权利要求3所述的方法,其中,所述对所述数据集合中的多个数据进行抽样,以获得包含多个数据的抽样数据集合包括:
对所述多个第一数据进行第一抽样,以获得第一抽样数据集合;以及
对所述多个第二数据进行第二抽样,以获得第二抽样数据集合,其中
所述第一抽样数据集合和所述多个第一数据之间的抽样比大于所述第二抽样数据集合和所述多个第二数据之间的抽样比。


5.根据权利要求4所述的方法,其中,所述基于所述数据集合,更新所述网页库还包括:
根据数据对应的网页特征与对应的预设检索目标的相关度,对所述数据集合中的各个数据进行分类,以使所述各个数据中的每一个数据均具有唯一的分类类型,其中,所述分类类型包括第一类型和第二类型,所述第一类型的数据的所述相关度大于所述第二类型的数据的所述相关度,以及其中,所述对所述多个第一数据进行第一抽样包括:
确定所述多个第一数据中每一个第一数据对应的第一子集,所述第一子集中的每一个第一数据具有相同的分类类型;
确定所述第一子集对应的抽样方法,所述对应的抽样方法被配置为使与所述第一类型对应的所述第一子集的抽样比大于与所述第二类型对应的所述第一子集的抽样比;以及
基于所述对应的抽样方法,对对应的所述第一子集进行抽样。


6.根据权利要求5所述的方法,其中,所述抽样方法包括下列各项中的任一项:
全采样;
随机抽样;
基于预设时间阈值,获取该第一子集中的最近被调度的时间点距离当前时间点的时间长度超过该预设时间阈值的第一数据;以及
基于预设站点质量评级,获取该第一子集中的对应站点质量高于该预设站点质量评级的第一数据。


7.根据权利要求5所述的方法,其中,所述对所述多个第二数据进行第二抽样包括:
确定所述多个第二数据中每一个第二数据对应的第二子集,所述第一子集中的每一个第二数据具有相同的分类类型;
确定所述第二子集对应的预设时间阈值,其中,所述对应的预设时间阈值被配置为与所述第一类型对应的所述对应的预设时间阈值小于或者等于与所述第二类型对应的所述对应的预设时间阈值;以及
基于对应的所述预设时间阈值,获取所述第二子集对应的第二抽样子集,其中,所述第二抽样子集中的每一个第二数据的所述调度时间超过对应的预设时间阈值。


8.根据权利要求3所述的方法,其中,所述对所述抽样数据集合中的多个数据中的各个数据进行更新包括:
确定所述抽样数据集合中的多个数据的各个数据的调度链接,其中所述调度链接包括所述第一抽样数据集合中的各个第二数据的对应的地址链接,以及所述第二抽样数据集合中的各个第二数据对应的站点链接;以及
基于所述调度链接,获取与所述调度链接对应的网页数据,其中,所述网页数据包括与所述地址链接对应的网页页面和与所述站点链接具有相同的站点地址的一个或多个网页页面。


9.根据权利要求1-8中任一项所述的方法,还包括:
对所述网页库执行一致性检查;以及其中,所述基于网页库获取数据集合包括:
响应于确定所述网页库的所述一致性检查的结果为不一致,获取所述往前网页库的所述数据集合。


10.根据权利要求9所述的方法,所述网页库包括经更新的所述网页库。


11.一种用于更新网页库的装置,包括:
获取单元,被配置用于基于网页库获取数据...

【专利技术属性】
技术研发人员:杨国强刘伟余文利陈由之王鹏张博林赛群
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1