一种网页信息排重的方法、装置及计算机可读存储介质制造方法及图纸

技术编号:11387990 阅读:52 留言:0更新日期:2015-05-02 00:10
本发明专利技术公开了一种网页信息排重的方法、装置及计算机可读存储介质,其中方法包括:利用各个网页信息的正文指纹值将网页信息进行分组,得到第一层分组;分别对各个第一层分组中的各个网页信息进行第二层分组;对各个第二层分组中的网页信息进行筛选,得到排重后的结果。采用本发明专利技术能提高网页排重的计算效率,以及平衡网页信息相似度计算过程中的误排和漏排问题。

【技术实现步骤摘要】
一种网页信息排重的方法、装置及计算机可读存储介质
本专利技术涉及信息处理技术,尤其涉及一种网页信息排重的方法、装置及计算机可读存储介质。
技术介绍
随着互联网技术的迅猛发展,互联网上的网页信息也越来越多。搜索引擎的索引数据通常可达百亿级别的网页信息,有统计结果表明,近似重复网页信息的数量占网页信息总数的比例高达全部页面的29%,而完全相同的页面大约占全部页面的22%,这意味着用户每次搜索得到的网页信息中,有相当大比例的内容是完全相同或者相似的。目前,网页信息排重的方法主要有:一、Shingling算法,包括:分别获取当前比对的两个网页信息中文档的特征集合;根据两个网页信息中文档的特征集合比较所述两个网页信息的重叠程度。其中,所述特征集合由文档的全部Shingle组合构成。但是,这种算法计算效率不高,如果网页信息数量大,运行时间会过长不实用。二、I-Match算法,包括:分别扫描需要去重的两个网页信息,根据全局特征词典,分别获得所述两个网页信息的特征词,对所有的特征词进行哈希计算得到唯一的数值作为所述网页信息的信息指纹;利用两个网页信息的信息指纹判断所述两个网页信息是否近似重复。但是,这种算法很容易出现由于特征词典覆盖不足,导致很多信息被过多过滤,进而出现误判为重复内容的情况。三、Simhash算法,包括:文档指纹计算和相似文档查找。其中,所述文档指纹计算为将网页信息中的文本文档转换为固定大小的二进制数值作为文档的信息指纹;所述相似性查找为根据进行对比的两个网页信息的信息指纹间的海明距离来衡量两个网页信息中文本的相似性。但是,这种算法灵敏度太高,容易导致漏排的情况发生。可见,现有技术中的网页信息排重的方法无法提高计算效率,以及无法有效平衡网页信息相似度计算过程中的误排和漏排问题。
技术实现思路
有鉴于此,本专利技术实施例的目的在于提供一种网页信息排重的方法、装置及计算机可读存储介质,能至少解决现有技术存在的上述问题。为达到上述目的,本专利技术的技术方案是这样实现的:一种网页信息排重的方法,所述方法包括:利用各个网页信息的正文指纹值将网页信息进行分组,得到第一层分组;分别对各个第一层分组中的各个网页信息进行第二层分组;对各个第二层分组中的网页信息进行筛选,得到排重后的结果。优选的,所述利用各个网页信息的正文指纹值将网页信息进行分组,得到第一层分组,包括:获取一个或多个网页信息,分别计算各个所述网页信息的正文指纹值,根据所述正文指纹值对各个网页信息进行分组,得到多个第一层分组。优选的,所述分别计算各个所述网页信息的正文指纹值,包括:依次提取网页信息的一个或多个特征因子,利用所述一个或多个特征因子组成所述网页信息对应的字符串;利用MD5算法对所述字符串进行计算,得到正文指纹值。优选的,所述利用各个网页信息的正文指纹值将网页信息进行分组之前,所述方法还包括:分别计算各个所述网页信息的综合权重值。优选的,所述分别对各个第一层分组中的各个网页信息进行第二层分组,包括:依次选取第一层分组作为当前分组,对所述当前分组中的一个或多个网页信息进行主域分组、和/或专项指纹分组、和/或分析标题simhash、和/或正文simhash分组、和/或主题分组得到一个或多个第二层分组。优选的,对各个第二层分组中的网页信息进行筛选,得到排重后的结果,包括:依次选取第二层分组作为当前分组,对所述当前分组中的各个网页信息进行排序;根据预设的优选保留策略,对当前分组中排序后的各个网页信息进行筛选;从所述当前分组中的筛选后得到的结果中选取指定数量个的网页信息作为排重后的结果。优选的,所述对当前分组中的各个网页信息进行排序,包括:对所述当前分组中的各个网页信息根据综合权重值进行排序;或者,对所述当前分组中的各个网页信息进行主题排序。一种网页信息排重的装置,所述装置包括:第一层分组模块、第二层分组模块和保留计算模块;其中,第一层分组模块,用于利用各个网页信息的正文指纹值将网页信息进行分组,得到第一层分组;第二层分组模块,用于分别对第一层分组模块得到的各个第一层分组中的各个网页信息进行第二层分组;保留计算模块,用于对第二层分组模块得到的各个第二层分组中的网页信息进行筛选,得到排重后的结果。优选的,所述装置还包括:因子获取模块和因子预处理模块;其中,因子获取模块,用于周期性的从云存储平台获取当前存储的一个或多个网页信息;因子预处理模块,用于获取因子获取模块中的一个或多个网页信息,分别计算各个所述网页信息的正文指纹值,根据所述正文指纹值对各个网页信息进行分组,得到多个第一层分组。优选的,所述因子预处理模块,具体用于依次提取网页信息的一个或多个特征因子,利用所述一个或多个特征因子组成所述网页信息对应的字符串;利用MD5算法对所述字符串进行计算,得到正文指纹值。优选的,所述装置还包括:综合权重计算模块,用于分别计算各个所述网页信息的综合权重值。优选的,所述第二层分组模块,具体用于依次选取第一层分组作为当前分组,对所述当前分组中的一个或多个网页信息进行主域分组、和/或专项指纹分组、和/或分析标题simhash分组、和/或正文simhash分组、和/或主题分组得到一个或多个第二层分组。优选的,所述装置还包括:排序模块,用于从第二层分组模块中得到的一个或多个第二层分组中,选取第二层分组作为当前分组,对所述当前分组中的各个网页信息进行排序;相应的,所述保留计算模块,具体用于根据预设的优选保留策略,对排序模块中当前分组中排序后的各个网页信息进行筛选;从所述当前分组中的筛选后得到的结果中选取指定数量个的网页信息作为排重后的结果。优选的,所述排序模块,具体用于对所述当前分组中的各个网页信息根据综合权重值进行排序;或者,对所述当前分组中的各个网页信息进行主题排序。一种计算机可读存储介质,该存储介质包括一组指令,当执行所述指令时,引起至少一个处理器执行包括以下的操作:利用各个网页信息的正文指纹值将网页信息进行分组,得到第一层分组;分别对各个第一层分组中的各个网页信息进行第二层分组;对各个第二层分组中的网页信息进行筛选,得到排重后的结果。优选的,所述存储介质还包括引起至少一个处理器执行以下操作的指令,所述操作包括:获取一个或多个网页信息,分别计算各个所述网页信息的正文指纹值,根据所述正文指纹值对各个网页信息进行分组,得到多个第一层分组。优选的,所述存储介质还包括引起至少一个处理器执行以下操作的指令,所述操作包括:依次提取网页信息的一个或多个特征因子,利用所述一个或多个特征因子组成所述网页信息对应的字符串;利用MD5算法对所述字符串进行计算,得到正文指纹值。优选的,所述存储介质还包括引起至少一个处理器执行以下操作的指令,所述操作包括:分别计算各个所述网页信息的综合权重值。优选的,所述存储介质还包括引起至少一个处理器执行以下操作的指令,所述操作包括:依次选取第一层分组作为当前分组,对所述当前分组中的一个或多个网页信息进行主域分组、和/或专项指纹分组、和/或分析标题simhash、和/或正文simhash分组、和/或主题分组得到一个或多个第二层分组。优选的,所述存储介质还包括引起至少一个处理器执行以下操作的指令,所述操作包括:依次选取第二层分组作为当前分组,对所述当前分组中的各个网页信本文档来自技高网
...

【技术保护点】
一种网页信息排重的方法,其特征在于,所述方法包括:利用各个网页信息的正文指纹值将网页信息进行分组,得到第一层分组;分别对各个第一层分组中的各个网页信息进行第二层分组;对各个第二层分组中的网页信息进行筛选,得到排重后的结果。

【技术特征摘要】
1.一种网页信息排重的方法,其特征在于,所述方法包括:利用各个网页信息的正文指纹值将网页信息进行分组,将相同所述正文指纹值的一个或多个网页信息分为同一个分组,得到第一层分组;依次选取第一层分组作为当前分组,对所述当前分组中的一个或多个网页信息进行主域分组、和/或专项指纹分组、和/或分析标题simhash分组、和/或正文simhash分组、和/或主题分组得到一个或多个第二层分组;对各个第二层分组中的网页信息进行筛选,得到排重后的结果。2.根据权利要求1所述的方法,其特征在于,所述利用各个网页信息的正文指纹值将网页信息进行分组,得到第一层分组,包括:获取一个或多个网页信息,分别计算各个所述网页信息的正文指纹值,根据所述正文指纹值对各个网页信息进行分组,得到多个第一层分组。3.根据权利要求2所述的方法,其特征在于,所述分别计算各个所述网页信息的正文指纹值,包括:依次提取网页信息的一个或多个特征因子,利用所述一个或多个特征因子组成所述网页信息对应的字符串;利用MD5算法对所述字符串进行计算,得到正文指纹值。4.根据权利要求2所述的方法,其特征在于,所述利用各个网页信息的正文指纹值将网页信息进行分组之前,所述方法还包括:分别计算各个所述网页信息的综合权重值。5.根据权利要求1所述的方法,其特征在于,对各个第二层分组中的网页信息进行筛选,得到排重后的结果,包括:依次选取第二层分组作为当前分组,对所述当前分组中的各个网页信息进行排序;根据预设的优选保留策略,对当前分组中排序后的各个网页信息进行筛选;从所述当前分组中的筛选后得到的结果中选取指定数量个的网页信息作为排重后的结果。6.根据权利要求5所述的方法,其特征在于,所述对当前分组中的各个网页信息进行排序,包括:对所述当前分组中的各个网页信息根据综合权重值进行排序;或者,对所述当前分组中的各个网页信息进行主题排序。7.一种网页信息排重的装置,其特征在于,所述装置包括:第一层分组模块、第二层分组模块和保留计算模块;其中,第一层分组模块,用于利用各个网页信息的正文指纹值将网页信息进行分组,将相同所述正文指纹值的一个或多个网页信息分为同一个分组,得到第一层分组;第二层分组模块,用于依次选取第一层分组作为当前分组,对所述当前分组中的一个或多个网页信息进行主域分组、和/或专项指纹分组、和/或分析标题simhash分组、和/或正文simhash分组、和/或主题分组得到一个或多个第二层分组;保留计算模块,用于对第二层分组模块得到的各个第二层分组中的网页信息进行筛选,得到排重后的结果。8.根据权利要求7所述的装置,其特征在于,所述装置还包括:因子获取模块和因子预处理模块;其中,因子获取模块,用于周期性的从云存储平台获取当前存储的一个或多个网页信息;因子预处理模块,用于获取因子获取模块中的一个或多个网页信息,分别计算各个所述网页信息的正文指纹值,根据所述正文指纹值对各个网页信息进行分组,得到多个第一层分组。9.根据权利要求8所述的装置,其特征在于,所述因子预处理模块,具体用于依次提取网页信息的一个或多个特...

【专利技术属性】
技术研发人员:康秋生杜建强吕晟
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1