The invention provides a method and apparatus for scanning to a network oriented new media page links, this method includes: field dismantling of the target site of URL; the dismantling of field segmentation, feature value generating links segmentation based on the results of the students into the link characteristics; value characteristics and link feature library the stored value, to determine whether to repeat the URL target site URL. The invention overcomes the defects of the existing technology on the website URL to generate feature values and compare URL repeated scanning efficiency is low and the work intensity of the existing defects and characteristic values, can achieve rapid URL to scan, to improve the accuracy, reduce the intensity of work.
【技术实现步骤摘要】
一种面向网络新媒体的页面链接去重扫描方法及装置
本专利技术涉及互联网
,尤其涉及一种面向网络新媒体的页面链接去重扫描方法及装置。
技术介绍
网站通过伪静态技术,存在大量相似URL(UniformResourceLocator,统一资源定位符)链接、相似页面结构的页面。在扫描过程中对相似URL进行过滤去重,可防止对相似页面进行重复爬取,避免了爬虫记录重复数据,也加快了爬行速度。对于网站URL去重扫描,目前较主流的方法有两种:1)URL特征值法:直接将网页URL作为去重特征值。2)Hash特征值法:将网页URL做Hash运算,得到Hash值作为去重特征值。3)URL种子特征法:根据URL出现的种子特征编写正则表达式,将URL转换为统一特征串作为去重特征值。上述方案能够获得去重特征值,实现URL的过滤去重,但是去重效率较低。
技术实现思路
本专利技术要解决的技术问题是,提供一种面向网络新媒体的网页链接去重扫描方法及装置,在网站URL爬行过程中,减少爬行工作强度,提供工作效率。本专利技术采用的技术方案是,面向网络新媒体的页面链接去重扫描方法,包括:步骤一,对目标网站URL进行字段拆解处理;步骤二,对拆解得到的字段进行分段处理,基于分段处理的结果生成链接特征值;步骤三,将生成的链接特征值与链接特征库存储的特征值进行比较,以判断出目标网站URL是否为重复URL。进一步的,步骤一,具体包括:将所述目标网站URL拆解为六个字段,包括:主机名HOST字段、高层路径UPPERPATH字段、低层路径LOWERPATH字段、文件名FILENAME字段、文件后缀名FILEEXTE ...
【技术保护点】
一种面向网络新媒体的页面链接去重扫描方法,其特征在于,包括:步骤一,对目标网站URL进行字段拆解处理;步骤二,对拆解得到的字段进行分段处理,基于分段处理的结果生成链接特征值;步骤三,将生成的链接特征值与链接特征库存储的特征值进行比较,以判断出目标网站URL是否为重复URL。
【技术特征摘要】
1.一种面向网络新媒体的页面链接去重扫描方法,其特征在于,包括:步骤一,对目标网站URL进行字段拆解处理;步骤二,对拆解得到的字段进行分段处理,基于分段处理的结果生成链接特征值;步骤三,将生成的链接特征值与链接特征库存储的特征值进行比较,以判断出目标网站URL是否为重复URL。2.根据权利要求1所述的面向网络新媒体的页面链接去重扫描方法,其特征在于,步骤一,具体包括:将所述目标网站URL拆解为六个字段,包括:主机名HOST字段、高层路径UPPERPATH字段、低层路径LOWERPATH字段、文件名FILENAME字段、文件后缀名FILEEXTENSION字段和请求QUERY字段。3.根据权利要求2所述的面向网络新媒体的页面链接去重扫描方法,其特征在于,所述UPPERPATH字段与LOWERPATH字段的拆解方式,包括:对HOST字段相同的URL路径进行同层级字符距离计算,层级间字符距离最小的层级对应字段为UPPERPATH字段,其余层级对应的字段为LOWERPATH字段。4.根据权利要求2所述的面向网络新媒体的页面链接去重扫描方法,其特征在于,在步骤二中,所述对拆解得到的字段进行分段处理,包括:对HOST字段和UPPERPATH字段进行哈希算法Hash处理,生成Hash特征值;对LOWERPATH字段和FILENAME字段进行逆正则处理,生成逆正则特征值;将FILEEXTENSION字段和QUERY字段直接作为其他特征值。5.根据权利要求4所述的面向网络新媒体的页面链接去重扫描方法,其特征在于,所述逆正则处理,包括:顺序针对字母和数字进行如下处理:将字母和数字替换为对应的元字符,若同一元字符连续出现多次,则在该元字符前显示该元字符出现的次数。6.根据权利要求4所述的面向网络新媒体的页面链接去重扫描方法,其特征在于,在步骤二中,所述基于分段处理的结果生成链接特征值,包括:将Hash特征值、逆正则特征值和其他特征值共同组成链接特征值。7.根据权利要求1~6中任一项所述的面向网络新媒体的页面链接去重扫描方法,其特征在于,步骤三,包括:若生成的链接特征值与链接特征库存储的特征值匹配,则将所述目标网站URL判定为重复URL;若生成的链接特征值与链接特征库存储的特征值不匹配,则将所述目标网站URL判定为不重复URL,同时将链接...
【专利技术属性】
技术研发人员:何晶,尹亚光,张伟,施玉海,
申请(专利权)人:国家新闻出版广电总局广播科学研究院,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。