网页相似度计算方法及装置制造方法及图纸

技术编号：14311031 阅读：91 留言：0更新日期：2016-12-27 18:52

本发明专利技术公开了一种网页相似度计算方法及装置，包括：获取待对比的两个网页的网页信息；从所述两个网页的网页信息中分别提取出内容信息、结构信息和图片信息；从所述两个网页的所述内容信息中分别提取出内容特征向量，并计算内容特征向量相似度；从所述两个网页的所述结构信息中分别提取出结构特征向量，并计算结构特征向量相似度；从所述两个网页的所述图片信息中分别提取出图片特征向量，计算图片特征向量相似度；根据所述内容特征向量相似度、结构特征向量相似度和图片特征向量相似度，计算得到所述两个网页的最终相似度。本发明专利技术提出的网页相似度计算方法及装置，其相似度计算效果较好。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据处理
，特别是指一种网页相似度计算方法及装置。
技术介绍
目前互联网上的重复网页非常多，因此，从不同的网站抓取到相似网页的可能性非常高。比如，同一条新闻出现时，网上会以各种形式进行转载复制传播，从而导致两个网页的相似程度非常高，这种相似程度高的网页，可以是同一个网站上的网页，也可以不是同一个网站上的网页。搜索引擎在收录网页的时候，通常会对两个网页进行比较，看看两个网页是否相似，对相似度高的网页进行去重或者聚合展现。现有的相似度计算方法包括几种：1)利用URL去重；2)利用内容计算相似；3)利用链接关系计算相似；4)利用网页的结构特征(DOM树结构)计算相似。利用URL去重，只能做到简单的去重，无法解决不同URL，内容相似的问题；利用链接关系进行相似度计算还不是很成熟，链接关系只是网页中权重较小信息，效果不是很好；利用网页的结构特征计算，也只能解决网页结构完全一致的重复，而网站制作时一般都自己的网页结构，纯粹的网站结构上的抄袭已经比较少用，而且从实际效果看引入网页结构特征对于相似度计算的贡献也不多。目前业界，一般多数还是利用内容信息从网页中提取内容，计算相似，但是对于内容信息提取困难的网页(比如正文及摘要较少、大量图片出现、正文位置很难识别、Meta属性伪造等网站等)，利用现有方法就很难做到较好的判断。
技术实现思路
有鉴于此，本专利技术的目的在于提出一种相似度计算效果较好的网页相似度计算方法及装置。基于上述目的本专利技术提供的网页相似度计算方法，包括：获取待对比的两个网页的网页信息；从所述两个网页的网页信息中分别提取出内容信息、结构信...

【技术保护点】
一种网页相似度计算方法，其特征在于，包括：获取待对比的两个网页的网页信息；从所述两个网页的网页信息中分别提取出内容信息、结构信息和图片信息；从所述两个网页的所述内容信息中分别提取出内容特征向量，并计算内容特征向量相似度；从所述两个网页的所述结构信息中分别提取出结构特征向量，并计算结构特征向量相似度；从所述两个网页的所述图片信息中分别提取出图片特征向量，计算图片特征向量相似度；根据所述内容特征向量相似度、结构特征向量相似度和图片特征向量相似度，计算得到所述两个网页的最终相似度。

【技术特征摘要】
1.一种网页相似度计算方法，其特征在于，包括：获取待对比的两个网页的网页信息；从所述两个网页的网页信息中分别提取出内容信息、结构信息和图片信息；从所述两个网页的所述内容信息中分别提取出内容特征向量，并计算内容特征向量相似度；从所述两个网页的所述结构信息中分别提取出结构特征向量，并计算结构特征向量相似度；从所述两个网页的所述图片信息中分别提取出图片特征向量，计算图片特征向量相似度；根据所述内容特征向量相似度、结构特征向量相似度和图片特征向量相似度，计算得到所述两个网页的最终相似度。2.根据权利要求1所述的方法，其特征在于，从所述两个网页的网页信息中分别提取出内容信息的步骤包括：对所述网页信息的内容进行渲染，得到不包括图片的网页的完整信息；从所述网页的完整信息中提取出内容信息，所述内容信息包括网页元信息和网页正文中靠前的预定数量的文字。3.根据权利要求1所述的方法，其特征在于，从所述两个网页的网页信息中分别提取出结构信息的步骤包括：对所述网页信息的内容进行渲染，得到不包括图片的网页的完整信息；根据所述网页的完整信息，构造得到DOM树，并对所述DOM树进行裁剪。4.根据权利要求1所述的方法，其特征在于，从所述两个网页的网页信息中分别提取出图片信息的步骤包括：提取所述网页信息中正文部分的图片URL信息；根据所述图片URL信息，提取得到与网页正文有关的关键图片URL列表；根据所述关键图片URL列表，抓取得到关键图片列表；和/或，根据所述网页信息中的网页URL信息，将网页转换为网页图片；从所述网页图片中分析得到网页正文图片。5.根据权利要求1所述的方法，其特征在于，所述最终相似度的计算公式为：最终相似度＝内容特征向量相似度*第一权重值+结构特征向量相似度*第二权重值+图片特征向量相似度*第三权重值。6.一种网页相似度计算装置，...

【专利技术属性】
技术研发人员：谭露，
申请(专利权)人：乐视控股北京有限公司，乐视网信息技术北京股份有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人