System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本公开涉及互联网,尤其涉及一种统一资源定位符去重方法、装置、电子设备及计算机可读存储介质。
技术介绍
1、现有网络爬虫的去重方案是直接通过map存储在内存中进行去重,在单体结构或低并发量场景下,去重效率比较可观。但是目前实际的客户大多数为大型企业用户,一般都会要求使用集群部署,且企业在大规模进行统一资源定位符(uniform resource locator,url)扫描时,实时的并发量颇高,如果依旧使用map存储实现url去重,会导致中央处理器内存的占用过高。
2、需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
1、本公开提供了一种统一资源定位符去重方法、装置、电子设备及计算机可读存储介质,至少在一定程度上降低url去重期间的中央处理器内存占用情况。
2、本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
3、根据本公开的一个方面,提供一种统一资源定位符去重方法,上述统一资源定位符去重方法包括:
4、构建内存数据库的位图;其中,上述位图中存储有统一资源定位符的多个第一哈希结果各自对应的第一映射值;
5、获取待识别统一资源定位符,并确定上述待识别统一资源定位符的多个第二哈希结果;
6、根据多个上述第二哈希结果查询上述位图,得到多个上述第二哈希结果各自对应的第二映射值;
< ...【技术保护点】
1.一种统一资源定位符去重方法,其特征在于,所述统一资源定位符去重方法包括:
2.如权利要求1所述的统一资源定位符去重方法,其特征在于,所述构建内存数据库的位图的步骤包括:
3.如权利要求1所述的统一资源定位符去重方法,其特征在于,所述确定所述待识别统一资源定位符的多个第二哈希结果的步骤包括:
4.如权利要求1所述的统一资源定位符去重方法,其特征在于,所述根据多个所述第二哈希结果查询所述位图,得到多个所述第二哈希结果各自对应的第二映射值的步骤包括:
5.如权利要求1所述的统一资源定位符去重方法,其特征在于,所述确定得到的所述第二映射值与所述第一映射值的匹配度的步骤包括:
6.如权利要求1至5中任意一项所述的统一资源定位符去重方法,其特征在于,所述根据所述匹配度判断所述待识别统一资源定位符是否为重复统一资源定位符的步骤包括:
7.如权利要求6所述的统一资源定位符去重方法,其特征在于,所述在所述匹配度小于所述匹配度阈值的情况下,确定所述待识别统一资源定位符不为重复统一资源定位符的步骤之后,所述统一资源定位符去重方
8.一种统一资源定位符去重装置,其特征在于,所述统一资源定位符去重装置包括:
9.一种电子设备,所述电子设备包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的统一资源定位符去重方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的统一资源定位符去重方法。
...【技术特征摘要】
1.一种统一资源定位符去重方法,其特征在于,所述统一资源定位符去重方法包括:
2.如权利要求1所述的统一资源定位符去重方法,其特征在于,所述构建内存数据库的位图的步骤包括:
3.如权利要求1所述的统一资源定位符去重方法,其特征在于,所述确定所述待识别统一资源定位符的多个第二哈希结果的步骤包括:
4.如权利要求1所述的统一资源定位符去重方法,其特征在于,所述根据多个所述第二哈希结果查询所述位图,得到多个所述第二哈希结果各自对应的第二映射值的步骤包括:
5.如权利要求1所述的统一资源定位符去重方法,其特征在于,所述确定得到的所述第二映射值与所述第一映射值的匹配度的步骤包括:
6.如权利要求1至5中任意一项所述的统一资源定位符去重方法,其特征在于,所述根据所述匹配度判断所述待识...
【专利技术属性】
技术研发人员:王菁华,
申请(专利权)人:三六零数字安全科技集团有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。