System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 统一资源定位符去重方法、装置、电子设备及存储介质制造方法及图纸_技高网

统一资源定位符去重方法、装置、电子设备及存储介质制造方法及图纸

技术编号:44106157 阅读:3 留言:0更新日期:2025-01-24 22:32
本公开提供一种统一资源定位符去重方法、装置、电子设备及计算机可读存储介质,涉及互联网技术领域,该方法包括:构建内存数据库的位图;其中,位图中存储有统一资源定位符的多个第一哈希结果各自对应的第一映射值;获取待识别统一资源定位符,并确定待识别统一资源定位符的多个第二哈希结果;根据多个第二哈希结果查询位图,得到多个第二哈希结果各自对应的第二映射值;确定得到的第二映射值与第一映射值的匹配度,并根据匹配度判断待识别统一资源定位符是否为重复统一资源定位符。本公开能够在集群高并发的环境下,提高爬虫对URL的去重效率,减少中央处理器的占用。

【技术实现步骤摘要】

本公开涉及互联网,尤其涉及一种统一资源定位符去重方法、装置、电子设备及计算机可读存储介质。


技术介绍

1、现有网络爬虫的去重方案是直接通过map存储在内存中进行去重,在单体结构或低并发量场景下,去重效率比较可观。但是目前实际的客户大多数为大型企业用户,一般都会要求使用集群部署,且企业在大规模进行统一资源定位符(uniform resource locator,url)扫描时,实时的并发量颇高,如果依旧使用map存储实现url去重,会导致中央处理器内存的占用过高。

2、需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。


技术实现思路

1、本公开提供了一种统一资源定位符去重方法、装置、电子设备及计算机可读存储介质,至少在一定程度上降低url去重期间的中央处理器内存占用情况。

2、本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。

3、根据本公开的一个方面,提供一种统一资源定位符去重方法,上述统一资源定位符去重方法包括:

4、构建内存数据库的位图;其中,上述位图中存储有统一资源定位符的多个第一哈希结果各自对应的第一映射值;

5、获取待识别统一资源定位符,并确定上述待识别统一资源定位符的多个第二哈希结果;

6、根据多个上述第二哈希结果查询上述位图,得到多个上述第二哈希结果各自对应的第二映射值;

<p>7、确定得到的上述第二映射值与上述第一映射值的匹配度,并根据上述匹配度判断上述待识别统一资源定位符是否为重复统一资源定位符。

8、可选地,上述构建内存数据库的位图的步骤包括:采用不同的预设哈希算法分别对获取的统一资源定位符进行哈希处理,得到上述统一资源定位符的多个第一哈希结果;为上述统一资源定位符的每个上述第一哈希结果设置对应的第一映射值;将上述位图中空间存储位置对应的默认数值更新为上述第一映射值。

9、可选地,上述确定上述待识别统一资源定位符的多个第二哈希结果的步骤包括:采用不同的预设哈希算法分别计算上述待识别统一资源定位符的哈希值,得到上述待识别统一资源定位符的多个第二哈希结果。

10、可选地,上述根据多个上述第二哈希结果查询上述位图,得到多个上述第二哈希结果各自对应的第二映射值的步骤包括:获取上述位图中多个上述第一映射值各自对应的第一哈希结果;在有上述第二哈希结果包含于多个上述第一映射值各自对应的第一哈希结果中,将与上述第二哈希结果相同的第一哈希结果对应的第一映射值,确定为上述第二哈希结果对应的第二映射值;在有上述第二哈希结果未包含于多个上述第一映射值各自对应的第一哈希结果中,将上述位图中空间存储位置的默认数值,确定为上述第二哈希结果对应的第二映射值。

11、可选地,上述确定得到的上述第二映射值与上述第一映射值的匹配度的步骤包括:获取上述第一映射值的第一个数;确定与上述第一映射值相同的上述第二映射值的第二个数;根据上述第二个数与上述第一个数的比值,确定上述匹配度。

12、可选地,上述根据上述匹配度判断上述待识别统一资源定位符是否为重复统一资源定位符的步骤包括:获取匹配度阈值;在上述匹配度大于或者等于上述匹配度阈值的情况下,确定上述待识别统一资源定位符为重复统一资源定位符;在上述匹配度小于上述匹配度阈值的情况下,确定上述待识别统一资源定位符不为重复统一资源定位符。

13、可选地,上述在上述匹配度小于上述匹配度阈值的情况下,确定上述待识别统一资源定位符不为重复统一资源定位符的步骤之后,上述统一资源定位符去重方法还包括:为上述待识别统一资源定位符的多个上述第二哈希结果设置对应的第三映射值;采用上述第三映射值更新上述位图。

14、根据本公开的另一个方面,提供一种统一资源定位符去重装置,上述统一资源定位符去重装置包括:

15、位图构建模块,用于构建内存数据库的位图;其中,上述位图中存储有统一资源定位符的多个第一哈希结果各自对应的第一映射值;

16、哈希处理模块,用于获取待识别统一资源定位符,并确定上述待识别统一资源定位符的多个第二哈希结果;

17、数值查询模块,用于根据多个上述第二哈希结果查询上述位图,得到多个上述第二哈希结果各自对应的第二映射值;

18、去重识别模块,用于确定得到的上述第二映射值与上述第一映射值的匹配度,并根据上述匹配度判断上述待识别统一资源定位符是否为重复统一资源定位符。

19、根据本公开的再一个方面,提供一种电子设备,上述电子设备包括存储器、处理器以及存储在上述存储器中并可在上述处理器上运行的计算机程序,上述处理器执行上述计算机程序时实现如上述实施例中上述的统一资源定位符去重方法。

20、根据本公开的又一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,上述计算机程序被处理器执行时实现如上述实施例中上述的统一资源定位符去重方法。

21、本公开的实施例所提供的统一资源定位符去重方法、装置、电子设备及计算机可读存储介质,具备以下技术效果:

22、本公开通过采用构建内存数据库的位图,位图中存储有统一资源定位符的多个第一哈希结果各自对应的第一映射值,获取待识别统一资源定位符,并确定待识别统一资源定位符的多个第二哈希结果,根据多个第二哈希结果查询位图,得到多个第二哈希结果各自对应的第二映射值,确定得到的第二映射值与第一映射值的匹配度,并根据匹配度判断待识别统一资源定位符是否为重复统一资源定位符的技术方案,能够在集群高并发的环境下,提高爬虫对url的去重效率,减少中央处理器的占用,有利于充分统合集群中的多个服务,提高爬虫的整体性能。

23、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

本文档来自技高网
...

【技术保护点】

1.一种统一资源定位符去重方法,其特征在于,所述统一资源定位符去重方法包括:

2.如权利要求1所述的统一资源定位符去重方法,其特征在于,所述构建内存数据库的位图的步骤包括:

3.如权利要求1所述的统一资源定位符去重方法,其特征在于,所述确定所述待识别统一资源定位符的多个第二哈希结果的步骤包括:

4.如权利要求1所述的统一资源定位符去重方法,其特征在于,所述根据多个所述第二哈希结果查询所述位图,得到多个所述第二哈希结果各自对应的第二映射值的步骤包括:

5.如权利要求1所述的统一资源定位符去重方法,其特征在于,所述确定得到的所述第二映射值与所述第一映射值的匹配度的步骤包括:

6.如权利要求1至5中任意一项所述的统一资源定位符去重方法,其特征在于,所述根据所述匹配度判断所述待识别统一资源定位符是否为重复统一资源定位符的步骤包括:

7.如权利要求6所述的统一资源定位符去重方法,其特征在于,所述在所述匹配度小于所述匹配度阈值的情况下,确定所述待识别统一资源定位符不为重复统一资源定位符的步骤之后,所述统一资源定位符去重方法还包括:

8.一种统一资源定位符去重装置,其特征在于,所述统一资源定位符去重装置包括:

9.一种电子设备,所述电子设备包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的统一资源定位符去重方法。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的统一资源定位符去重方法。

...

【技术特征摘要】

1.一种统一资源定位符去重方法,其特征在于,所述统一资源定位符去重方法包括:

2.如权利要求1所述的统一资源定位符去重方法,其特征在于,所述构建内存数据库的位图的步骤包括:

3.如权利要求1所述的统一资源定位符去重方法,其特征在于,所述确定所述待识别统一资源定位符的多个第二哈希结果的步骤包括:

4.如权利要求1所述的统一资源定位符去重方法,其特征在于,所述根据多个所述第二哈希结果查询所述位图,得到多个所述第二哈希结果各自对应的第二映射值的步骤包括:

5.如权利要求1所述的统一资源定位符去重方法,其特征在于,所述确定得到的所述第二映射值与所述第一映射值的匹配度的步骤包括:

6.如权利要求1至5中任意一项所述的统一资源定位符去重方法,其特征在于,所述根据所述匹配度判断所述待识...

【专利技术属性】
技术研发人员:王菁华
申请(专利权)人:三六零数字安全科技集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1