The embodiment of the invention provides a method and apparatus for clustering URL, the method comprises: acquiring a plurality of URL, and to determine the mode of pattern at least one component corresponding to any URL, then according to at least one component of any URL in the corresponding pattern, make sure any URL corresponding to pattern, and then according to multiple URL corresponding to the pattern, the clustering of multiple URL. The invention is applicable to the method and device for clustering URL, and can be applied to cluster the acquired massive URL according to pattern.
【技术实现步骤摘要】
对URL进行聚类的方法及装置
本专利技术涉及计算机网络
,具体而言,本专利技术涉及一种对URL进行聚类的方法及装置。
技术介绍
随着信息技术的发展,互联网也随着发展,网页数量也越来越多,不同网页通过不同统一资源定位符(英文全称:UniformResourceLocator,英文缩写:URL)来进行标识,由于网页数量较多,网页分析人员需要根据网页的特征对海量的网页进行分析,以对海量的网页进行划分,从而实现后续分析确定每类网页的特征及质量。目前,网页分析人员通过一一点击URL人工打开对应的网页,并根据每个网页的具体内容进行类型划分,然而,当网页分析人员通过一一点击URL对网页进行分析时,由于获取到的URL较多,仅通过人工,对网页进行聚类,将耗费大量的时间,并且导致网页分析人员对网页进行聚类的效率较低。
技术实现思路
为克服上述技术问题或者至少部分地解决上述技术问题,特提出以下技术方案:本专利技术的实施例根据一个方面,提供了一种对统一资源定位符URL进行聚类的方法,包括:获取多个URL,并确定任一URL中至少一个组件对应的模式pattern;根据所述任一URL中至少一个组件对应的pattern,确定所述任一URL对应的pattern;根据所述多个URL分别对应的pattern,对所述多个URL进行聚类。具体地,所述确定任一URL中至少一个组件对应的模式pattern,包括:将任一URL解析为多个组件;根据预定的分隔符,将所述多个组件中至少一个组件对应的字符串分别划分为字符串分段;按照预置的pattern对应规则,确定至少一个字符串分段对应的pattern;基于 ...
【技术保护点】
一种对统一资源定位符URL进行聚类的方法,其特征在于,所述方法包括:获取多个URL,并确定任一URL中至少一个组件对应的模式pattern;根据所述任一URL中至少一个组件对应的pattern,确定所述任一URL对应的pattern;根据所述多个URL分别对应的pattern,对所述多个URL进行聚类。
【技术特征摘要】
1.一种对统一资源定位符URL进行聚类的方法,其特征在于,所述方法包括:获取多个URL,并确定任一URL中至少一个组件对应的模式pattern;根据所述任一URL中至少一个组件对应的pattern,确定所述任一URL对应的pattern;根据所述多个URL分别对应的pattern,对所述多个URL进行聚类。2.根据权利要求1所述的方法,其特征在于,所述确定任一URL中至少一个组件对应的模式pattern,包括:将任一URL解析为多个组件;根据预定的分隔符,将所述多个组件中至少一个组件对应的字符串分别划分为字符串分段;按照预置的pattern对应规则,确定至少一个字符串分段对应的pattern;基于所述至少一个字符串分段对应的pattern,确定任一URL中至少一个组件对应的pattern。3.根据权利要求1或2所述的方法,其特征在于,所述预置的pattern对应规则包括以下至少一项:若字符串分段仅包括数字,则确定该字符串分段的pattern为第一标识符;若字符串分段仅包括字母,则确定该字符串分段的pattern为第二标识符;若字符串分段包括数字以及字母,且数字位于字母之前,则确定该字符串分段的pattern为第三标识符;若字符串分段包括字母以及数字,且字母位于数字之前,则确定该字符串分段的pattern为第四标识符;若字符串分段为字符交叉混合形式,则确定该字符串分段的pattern为第五标识符。4.根据权利要求1-3任一项所述的方法,其特征在于,所述确定任一URL中至少一个组件对应的模式pattern的步骤之前,还包括:按照预置的聚类需求规则,确定URL中待确定pattern的组件。5.根据权利要求1-4任一项所述的方法,其特征在于,所述根据所述多个URL分别对应的pattern,对所述多个URL进行聚类的步骤,包括:针对所述多个URL,将pattern相同的URL聚合为一类。...
【专利技术属性】
技术研发人员:郑燕琴,
申请(专利权)人:北京奇虎科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。