本发明专利技术公开了一种网页相似度计算方法及装置,包括:获取待对比的两个网页的网页信息;从所述两个网页的网页信息中分别提取出内容信息、结构信息和图片信息;从所述两个网页的所述内容信息中分别提取出内容特征向量,并计算内容特征向量相似度;从所述两个网页的所述结构信息中分别提取出结构特征向量,并计算结构特征向量相似度;从所述两个网页的所述图片信息中分别提取出图片特征向量,计算图片特征向量相似度;根据所述内容特征向量相似度、结构特征向量相似度和图片特征向量相似度,计算得到所述两个网页的最终相似度。本发明专利技术提出的网页相似度计算方法及装置,其相似度计算效果较好。
【技术实现步骤摘要】
本专利技术涉及数据处理
,特别是指一种网页相似度计算方法及装置。
技术介绍
目前互联网上的重复网页非常多,因此,从不同的网站抓取到相似网页的可能性非常高。比如,同一条新闻出现时,网上会以各种形式进行转载复制传播,从而导致两个网页的相似程度非常高,这种相似程度高的网页,可以是同一个网站上的网页,也可以不是同一个网站上的网页。搜索引擎在收录网页的时候,通常会对两个网页进行比较,看看两个网页是否相似,对相似度高的网页进行去重或者聚合展现。现有的相似度计算方法包括几种:1)利用URL去重;2)利用内容计算相似;3)利用链接关系计算相似;4)利用网页的结构特征(DOM树结构)计算相似。利用URL去重,只能做到简单的去重,无法解决不同URL,内容相似的问题;利用链接关系进行相似度计算还不是很成熟,链接关系只是网页中权重较小信息,效果不是很好;利用网页的结构特征计算,也只能解决网页结构完全一致的重复,而网站制作时一般都自己的网页结构,纯粹的网站结构上的抄袭已经比较少用,而且从实际效果看引入网页结构特征对于相似度计算的贡献也不多。目前业界,一般多数还是利用内容信息从网页中提取内容,计算相似,但是对于内容信息提取困难的网页(比如正文及摘要较少、大量图片出现、正文位置很难识别、Meta属性伪造等网站等),利用现有方法就很难做到较好的判断。
技术实现思路
有鉴于此,本专利技术的目的在于提出一种相似度计算效果较好的网页相似度计算方法及装置。基于上述目的本专利技术提供的网页相似度计算方法,包括:获取待对比的两个网页的网页信息;从所述两个网页的网页信息中分别提取出内容信息、结构信息和图片信息;从所述两个网页的所述内容信息中分别提取出内容特征向量,并计算内容特征向量相似度;从所述两个网页的所述结构信息中分别提取出结构特征向量,并计算结构特征向量相似度;从所述两个网页的所述图片信息中分别提取出图片特征向量,计算图片特征向量相似度;根据所述内容特征向量相似度、结构特征向量相似度和图片特征向量相似度,计算得到所述两个网页的最终相似度。在一些实施方式中,从所述两个网页的网页信息中分别提取出内容信息的步骤包括:对所述网页信息的内容进行渲染,得到不包括图片的网页的完整信息;从所述网页的完整信息中提取出内容信息,所述内容信息包括网页元信息和网页正文中靠前的预定数量的文字。在一些实施方式中,从所述两个网页的网页信息中分别提取出结构信息的步骤包括:对所述网页信息的内容进行渲染,得到不包括图片的网页的完整信息;根据所述网页的完整信息,构造得到DOM树,并对所述DOM树进行裁剪。在一些实施方式中,从所述两个网页的网页信息中分别提取出图片信息的步骤包括:提取所述网页信息中正文部分的图片URL信息;根据所述图片URL信息,提取得到与网页正文有关的关键图片URL列表;根据所述关键图片URL列表,抓取得到关键图片列表;和/或,根据所述网页信息中的网页URL信息,将网页转换为网页图片;从所述网页图片中分析得到网页正文图片。在一些实施方式中,所述最终相似度的计算公式为:最终相似度=内容特征向量相似度*第一权重值+结构特征向量相似度*第二权重值+图片特征向量相似度*第三权重值。本专利技术的另一方面还提供了一种网页相似度计算装置,包括:网页信息获取模块,用于获取待对比的两个网页的网页信息;信息提取模块,用于从所述两个网页的网页信息中分别提取出内容信息、结构信息和图片信息;内容相似度计算模块,用于从所述两个网页的所述内容信息中分别提取出内容特征向量,并计算内容特征向量相似度;结构相似度计算模块,用于从所述两个网页的所述结构信息中分别提取出结构特征向量,并计算结构特征向量相似度;图片相似度计算模块,用于从所述两个网页的所述图片信息中分别提取出图片特征向量,并计算图片特征向量相似度;最终相似度计算模块,用于根据所述内容特征向量相似度、结构特征向量相似度和图片特征向量相似度,计算得到所述两个网页的最终相似度。在一些实施方式中,所述信息提取模块,具体用于:对所述网页信息的内容进行渲染,得到不包括图片的网页的完整信息;从所述网页的完整信息中提取出内容信息,所述内容信息包括网页元信息和网页正文中靠前的预定数量的文字。在一些实施方式中,所述信息提取模块,具体用于:对所述网页信息的内容进行渲染,得到不包括图片的网页的完整信息;根据所述网页的完整信息,构造得到DOM树,并对所述DOM树进行裁剪。在一些实施方式中,所述信息提取模块,具体用于:提取所述网页信息中正文部分的图片URL信息;根据所述图片URL信息,提取得到与网页正文有关的关键图片URL列表;根据所述关键图片URL列表,抓取得到关键图片列表;和/或,根据所述网页信息中的网页URL信息,将网页转换为网页图片;从所述网页图片中分析得到网页正文图片。在一些实施方式中,所述最终相似度的计算公式为:最终相似度=内容特征向量相似度*第一权重值+结构特征向量相似度*第二权重值+图片特征向量相似度*第三权重值。从上面所述可以看出,本专利技术实施例提供的网页相似度计算方法及装置,从网页信息中提取出内容信息、结构信息和图片信息,从中提取出相应的内容特征向量、结构特征向量和图片特征向量,将待对比的两个网页的内容特征向量、结构特征向量和图片特征向量分别进行比较,并相应计算得到内容特征向量相似度、结构特征向量相似度和图片特征向量相似度,从而计算得到最终相似度;所述最终相似度,其中包含了网页的内容特征、结构特征和图片特征的相似度计算,从而得到较为全面的相似度,能够很好地体现出两个网页之间的相似度。采用上述方法,可依次将待对比的网页进行两两对比,也可以将某个网页作为基准网页,将其他网页与其对比,通过判断最终相似度是否高于预设相似度阈值,即可排除掉相似网页,从而剔除重复内容的网页。附图说明图1为本专利技术提供的网页相似度计算方法的一个实施例的流程示意图;图2为本专利技术提供的网页相似度计算方法的另一个实施例的流程示意图;图3为本专利技术提供的网页相似度计算装置实施例的模块结构示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本专利技术进一步详细说明。需要说明的是,本专利技术实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本专利技术实施例的限定,后续实施例对此不再一一说明。本专利技术的第一个方面,提出了一种相似度计算效果较好的网页相似度计算方法。如图1所示,为本专利技术提供的网页相似度计算方法的一个实施例的流程示意图。所述网页相似度计算方法,包括以下步骤:步骤101:获取待对比的两个网页的网页信息;步骤102:从所述两个网页的网页信息中分别提取出内容信息、结构信息和图片信息;步骤103:从所述两个网页的所述内容信息中分别提取出内容特征向量(例如多维文本特征),并计算内容特征向量相似度;步骤104:从所述两个网页的所述结构信息中分别提取出结构特征向量(例如多维DOM树特征),并计算结构特征向量相似度;步骤105:从所述两个网页的所述图片信息中分别提取出图片特征向量,并计算图片特征向量相似度;步骤106:根据所述内容特征向本文档来自技高网...
【技术保护点】
一种网页相似度计算方法,其特征在于,包括:获取待对比的两个网页的网页信息;从所述两个网页的网页信息中分别提取出内容信息、结构信息和图片信息;从所述两个网页的所述内容信息中分别提取出内容特征向量,并计算内容特征向量相似度;从所述两个网页的所述结构信息中分别提取出结构特征向量,并计算结构特征向量相似度;从所述两个网页的所述图片信息中分别提取出图片特征向量,计算图片特征向量相似度;根据所述内容特征向量相似度、结构特征向量相似度和图片特征向量相似度,计算得到所述两个网页的最终相似度。
【技术特征摘要】
1.一种网页相似度计算方法,其特征在于,包括:获取待对比的两个网页的网页信息;从所述两个网页的网页信息中分别提取出内容信息、结构信息和图片信息;从所述两个网页的所述内容信息中分别提取出内容特征向量,并计算内容特征向量相似度;从所述两个网页的所述结构信息中分别提取出结构特征向量,并计算结构特征向量相似度;从所述两个网页的所述图片信息中分别提取出图片特征向量,计算图片特征向量相似度;根据所述内容特征向量相似度、结构特征向量相似度和图片特征向量相似度,计算得到所述两个网页的最终相似度。2.根据权利要求1所述的方法,其特征在于,从所述两个网页的网页信息中分别提取出内容信息的步骤包括:对所述网页信息的内容进行渲染,得到不包括图片的网页的完整信息;从所述网页的完整信息中提取出内容信息,所述内容信息包括网页元信息和网页正文中靠前的预定数量的文字。3.根据权利要求1所述的方法,其特征在于,从所述两个网页的网页信息中分别提取出结构信息的步骤包括:对所述网页信息的内容进行渲染,得到不包括图片的网页的完整信息;根据所述网页的完整信息,构造得到DOM树,并对所述DOM树进行裁剪。4.根据权利要求1所述的方法,其特征在于,从所述两个网页的网页信息中分别提取出图片信息的步骤包括:提取所述网页信息中正文部分的图片URL信息;根据所述图片URL信息,提取得到与网页正文有关的关键图片URL列表;根据所述关键图片URL列表,抓取得到关键图片列表;和/或,根据所述网页信息中的网页URL信息,将网页转换为网页图片;从所述网页图片中分析得到网页正文图片。5.根据权利要求1所述的方法,其特征在于,所述最终相似度的计算公式为:最终相似度=内容特征向量相似度*第一权重值+结构特征向量相似度*第二权重值+图片特征向量相似度*第三权重值。6.一种网页相似度计算装置,...
【专利技术属性】
技术研发人员:谭露,
申请(专利权)人:乐视控股北京有限公司,乐视网信息技术北京股份有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。