【技术实现步骤摘要】
【技术保护点】
基于元搜索引擎搜索结果的去重方法,其特征在于,基于元搜索引擎搜索结果的去重方法具体是按照以下步骤进行的:步骤一、将两个或两个以上的返回网页的URL格式统一化,判断格式统一化后的两个或两个以上的返回网页的URL地址是否一致,如果URL地址是相同的,则认为是重复网页;基于URL地址的判断分为两种情况:一种是对URL地址规范化直接比较方法,一种是针对URL地址的重定向情形的判断方法;步骤二、如果通过步骤一判断不是重复网页,分别计算两个网页的标题相似度cos(bp,bq)和两个网页摘要的相似度cos(X,Y);其中,bp和bq为任意两个网页标题;X和Y为两个网页摘要语句权重向量;步骤三、根据标题相似度cos(bp,bq)和摘要的相似度cos(X,Y)计算网页的相似度Sim(M,N):Sim(M,N)=α*cos(bp,bq)+β*cos(X,Y) (12)其中,α,β是权重因子,α+β=1;步骤四、如果相似度值Sim(M,N)大于阈值,则就认为两个网页是重复的,否则,两个网页不是重复的;Sim(M,N)为网页M和N的相似度值。
【技术特征摘要】
【专利技术属性】
技术研发人员:王红滨,董宇欣,王让,李自金,刘广强,张玉鹏,杨楠,刘红丽,刘天宇,冯梦园,
申请(专利权)人:哈尔滨工程大学,
类型:发明
国别省市:黑龙江;23
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。