基于元搜索引擎搜索结果的去重方法技术

技术编号:13448334 阅读:65 留言:0更新日期:2016-08-01 16:45
基于元搜索引擎搜索结果的去重方法,本发明专利技术涉及元搜索引擎搜索结果的去重方法。本发明专利技术是要解决现有技术不能对格式不同的URL的相同网页和重定向的网页进行去重、根据标点符号周边的信息、标点符号的位置以及词频的模糊匹配不能全面地代表句子与文章问题,而提出的基于元搜索引擎搜索结果的去重方法。该方法是通过一、根据URL地址判断是否是重复网页;二、分别计算两个网页的标题相似度和两个网页摘要的相似度;三、根据标题相似度和摘要的相似度计算网页的相似度:步骤四、如果相似度值Sim(A,B)大于阈值,则就认为两个网页是重复的等步骤实现的。本发明专利技术应用于元搜索引擎搜索结果的去重领域。

【技术实现步骤摘要】

【技术保护点】
基于元搜索引擎搜索结果的去重方法,其特征在于,基于元搜索引擎搜索结果的去重方法具体是按照以下步骤进行的:步骤一、将两个或两个以上的返回网页的URL格式统一化,判断格式统一化后的两个或两个以上的返回网页的URL地址是否一致,如果URL地址是相同的,则认为是重复网页;基于URL地址的判断分为两种情况:一种是对URL地址规范化直接比较方法,一种是针对URL地址的重定向情形的判断方法;步骤二、如果通过步骤一判断不是重复网页,分别计算两个网页的标题相似度cos(bp,bq)和两个网页摘要的相似度cos(X,Y);其中,bp和bq为任意两个网页标题;X和Y为两个网页摘要语句权重向量;步骤三、根据标题相似度cos(bp,bq)和摘要的相似度cos(X,Y)计算网页的相似度Sim(M,N):Sim(M,N)=α*cos(bp,bq)+β*cos(X,Y)     (12)其中,α,β是权重因子,α+β=1;步骤四、如果相似度值Sim(M,N)大于阈值,则就认为两个网页是重复的,否则,两个网页不是重复的;Sim(M,N)为网页M和N的相似度值。

【技术特征摘要】

【专利技术属性】
技术研发人员:王红滨董宇欣王让李自金刘广强张玉鹏杨楠刘红丽刘天宇冯梦园
申请(专利权)人:哈尔滨工程大学
类型:发明
国别省市:黑龙江;23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1