对URL进行聚类的方法及装置制造方法及图纸

技术编号:15499857 阅读:67 留言:0更新日期:2017-06-03 21:59
本发明专利技术实施例提供了一种对URL进行聚类的方法及装置,该方法包括:获取多个URL,并确定任一URL中至少一个组件对应的模式pattern,然后根据任一URL中至少一个组件对应的pattern,确定任一URL对应的pattern,然后根据多个URL分别对应的pattern,对多个URL进行聚类。本发明专利技术适用于对对URL进行聚类的方法及装置可以适用于将获取到的海量的URL按照pattern进行聚类。

Method and device for clustering URL

The embodiment of the invention provides a method and apparatus for clustering URL, the method comprises: acquiring a plurality of URL, and to determine the mode of pattern at least one component corresponding to any URL, then according to at least one component of any URL in the corresponding pattern, make sure any URL corresponding to pattern, and then according to multiple URL corresponding to the pattern, the clustering of multiple URL. The invention is applicable to the method and device for clustering URL, and can be applied to cluster the acquired massive URL according to pattern.

【技术实现步骤摘要】
对URL进行聚类的方法及装置
本专利技术涉及计算机网络
,具体而言,本专利技术涉及一种对URL进行聚类的方法及装置。
技术介绍
随着信息技术的发展,互联网也随着发展,网页数量也越来越多,不同网页通过不同统一资源定位符(英文全称:UniformResourceLocator,英文缩写:URL)来进行标识,由于网页数量较多,网页分析人员需要根据网页的特征对海量的网页进行分析,以对海量的网页进行划分,从而实现后续分析确定每类网页的特征及质量。目前,网页分析人员通过一一点击URL人工打开对应的网页,并根据每个网页的具体内容进行类型划分,然而,当网页分析人员通过一一点击URL对网页进行分析时,由于获取到的URL较多,仅通过人工,对网页进行聚类,将耗费大量的时间,并且导致网页分析人员对网页进行聚类的效率较低。
技术实现思路
为克服上述技术问题或者至少部分地解决上述技术问题,特提出以下技术方案:本专利技术的实施例根据一个方面,提供了一种对统一资源定位符URL进行聚类的方法,包括:获取多个URL,并确定任一URL中至少一个组件对应的模式pattern;根据所述任一URL中至少一个组件对应的pattern,确定所述任一URL对应的pattern;根据所述多个URL分别对应的pattern,对所述多个URL进行聚类。具体地,所述确定任一URL中至少一个组件对应的模式pattern,包括:将任一URL解析为多个组件;根据预定的分隔符,将所述多个组件中至少一个组件对应的字符串分别划分为字符串分段;按照预置的pattern对应规则,确定至少一个字符串分段对应的pattern;基于所述至少一个字符串分段对应的pattern,确定任一URL中至少一个组件对应的pattern。可选地,所述预置的pattern对应规则包括以下至少一项:若字符串分段仅包括数字,则确定该字符串分段的pattern为第一标识符;若字符串分段仅包括字母,则确定该字符串分段的pattern为第二标识符;若字符串分段包括数字以及字母,且数字位于字母之前,则确定该字符串分段的pattern为第三标识符;若字符串分段包括字母以及数字,且字母位于数字之前,则确定该字符串分段的pattern为第四标识符;若字符串分段为字符交叉混合形式,则确定该字符串分段的pattern为第五标识符。可选地,所述确定任一URL中至少一个组件对应的模式pattern的步骤之前,还包括:按照预置的聚类需求规则,确定URL中待确定pattern的组件。具体地,所述根据所述多个URL分别对应的pattern,对所述多个URL进行聚类的步骤,包括:针对所述多个URL,将pattern相同的URL聚合为一类。本专利技术的实施例根据另一个方面,还提供了一种对统一资源定位符URL进行聚类的装置,包括:获取模块,用于获取多个URL;确定模块,用于确定任一URL中至少一个组件对应的模式pattern;所述确定模块,还用于根据所述任一URL中至少一个组件对应的pattern,确定所述任一URL对应的pattern;聚类模块,用于根据所述多个URL分别对应的pattern,对所述多个URL进行聚类。具体地,所述确定模块包括:解析单元、划分单元、确定单元;所述解析单元,用于将任一URL解析为多个组件;所述划分单元,用于根据预定的分隔符,将所述多个组件中至少一个组件对应的字符串分别划分为字符串分段;所述确定单元,用于按照预置的pattern对应规则,确定至少一个字符串分段对应的pattern;所述确定单元,还用于基于所述至少一个字符串分段对应的pattern,确定任一URL中至少一个组件对应的pattern。可选地,所述预置的pattern对应规则包括以下至少一项:若字符串分段仅包括数字,则确定该字符串分段的pattern为第一标识符;若字符串分段仅包括字母,则确定该字符串分段的pattern为第二标识符;若字符串分段包括数字以及字母,且数字位于字母之前,则确定该字符串分段的pattern为第三标识符;若字符串分段包括字母以及数字,且字母位于数字之前,则确定该字符串分段的pattern为第四标识符;若字符串分段为字符交叉混合形式,则确定该字符串分段的pattern为第五标识符。可选地,所述确定模块,还用于按照预置的聚类需求规则,确定URL中待确定pattern的组件。具体地,所述聚类模块,具体用于针对所述多个URL,将pattern相同的URL聚合为一类。本专利技术提供了一种对URL进行聚类的方法及装置,与现有技术相比,本专利技术通过获取多个URL,并确定任一URL中至少一个组件对应的模式pattern,然后根据任一URL中至少一个组件对应的pattern,确定任一URL对应的pattern,然后根据多个URL分别对应的pattern,对多个URL进行聚类,通过确定各个URL中每个URL中至少一个组件对应的pattern,能够根据各个URL分别对应的pattern,对海量的网页URL进行分析聚类,而不需要网页分析人员通过一一点击URL,并人工进行分析,才可以实现对网页进行聚类,大大降低了对网页进行聚类的时间;同时,通过pattern对URL聚类的方式准确性较高,避免了人工操作时可能发生的错误几率,在整体上提高对网页进行聚类的效率。本专利技术附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明本专利技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1为本专利技术实施例中对URL进行聚合的方法流程图;图2为本专利技术实施例中一种对URL进行聚合的装置结构示意图;图3为本专利技术实施例中另一种对URL进行聚合的装置结构示意图。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本专利技术,而不能解释为对本专利技术的限制。本
技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本专利技术的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。本
技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本专利技术所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。本
技术人员可以理解,这里所使用的“终端”、“终端设备”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和本文档来自技高网
...
对URL进行聚类的方法及装置

【技术保护点】
一种对统一资源定位符URL进行聚类的方法,其特征在于,所述方法包括:获取多个URL,并确定任一URL中至少一个组件对应的模式pattern;根据所述任一URL中至少一个组件对应的pattern,确定所述任一URL对应的pattern;根据所述多个URL分别对应的pattern,对所述多个URL进行聚类。

【技术特征摘要】
1.一种对统一资源定位符URL进行聚类的方法,其特征在于,所述方法包括:获取多个URL,并确定任一URL中至少一个组件对应的模式pattern;根据所述任一URL中至少一个组件对应的pattern,确定所述任一URL对应的pattern;根据所述多个URL分别对应的pattern,对所述多个URL进行聚类。2.根据权利要求1所述的方法,其特征在于,所述确定任一URL中至少一个组件对应的模式pattern,包括:将任一URL解析为多个组件;根据预定的分隔符,将所述多个组件中至少一个组件对应的字符串分别划分为字符串分段;按照预置的pattern对应规则,确定至少一个字符串分段对应的pattern;基于所述至少一个字符串分段对应的pattern,确定任一URL中至少一个组件对应的pattern。3.根据权利要求1或2所述的方法,其特征在于,所述预置的pattern对应规则包括以下至少一项:若字符串分段仅包括数字,则确定该字符串分段的pattern为第一标识符;若字符串分段仅包括字母,则确定该字符串分段的pattern为第二标识符;若字符串分段包括数字以及字母,且数字位于字母之前,则确定该字符串分段的pattern为第三标识符;若字符串分段包括字母以及数字,且字母位于数字之前,则确定该字符串分段的pattern为第四标识符;若字符串分段为字符交叉混合形式,则确定该字符串分段的pattern为第五标识符。4.根据权利要求1-3任一项所述的方法,其特征在于,所述确定任一URL中至少一个组件对应的模式pattern的步骤之前,还包括:按照预置的聚类需求规则,确定URL中待确定pattern的组件。5.根据权利要求1-4任一项所述的方法,其特征在于,所述根据所述多个URL分别对应的pattern,对所述多个URL进行聚类的步骤,包括:针对所述多个URL,将pattern相同的URL聚合为一类。...

【专利技术属性】
技术研发人员:郑燕琴
申请(专利权)人:北京奇虎科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1