一种网站聚类的方法及装置制造方法及图纸

技术编号:15747396 阅读:130 留言:0更新日期:2017-07-03 04:46
本发明专利技术实施例公开了一种网站聚类的方法及装置,由于本发明专利技术实施例提供的方法采用了将聚类中心集中的第三距离的预测值大于或者等于两倍的第一距离的预测值对应的第二聚类中心点进行过滤的技术方案,所获得的聚类结果会包括以领域信息、结构信息和访客信息为基准维度对网站集群中的每一个网站进行聚类后的聚类信息,从而能够根据获得的聚类结果为后续的网站建设提供数据支持,并且在当前聚类距离遍历过程中无需计算第二聚类中心点与样本点之间的距离,也无需计算第二样本点与其他待遍历聚类中心点之间的距离,因此,减少了计算第二样本点与其他待遍历聚类中心点之间的距离所消耗的时间及计算量,提高了数据聚类的计算效率。

Method and device for clustering website

The embodiment of the invention discloses a method and a device for Web Clustering, the method provided by the embodiment of the invention adopts the forecast of third distance clustering center value of prediction of the first distance is greater than or equal to two times the value of the technical scheme for filtering second clustering centers of the corresponding clustering results will be in the field of information, including the information structure and visitor information for clustering information benchmark dimensions for cluster for each site in the cluster, which can provide according to the results of clustering for website construction follow-up data support, and without calculating the cluster center and between the second sample points in the current clustering distance traversing distance in the process, no need to calculate the sample point between second and the other to traverse the cluster center distance, therefore, reduce the sample and calculation of second points The computation time and the time consumed by other distances between the clusters are improved, so the computational efficiency of data clustering is improved.

【技术实现步骤摘要】
一种网站聚类的方法及装置
本专利技术涉及数据处理
,尤其涉及一种网站聚类的方法及装置。
技术介绍
随着时代的发展,网站成为人们获取信息的重要渠道,各式各样的网站向人们展示各种信息。例如,音乐类网站向人们展示音乐,视频类网站向人们展示视频,新闻类网站向人们展示新闻等等。各式各样的网站采用的结构也不一样,例如有的网站采用扁平结构,有的网站采用多元化结构,这会给人们以不同的使用体验,人们会根据自己的喜欢选择对应的网站,所以网站各自的访问人数存在不同。人们对这些网站的访问数据都会被搜录到相应的大数据中后,从而便于通过对大数据包含的信息进行分析,如分析出哪些类型的网站更加受到用户的喜欢,为后续的网站建设提供数据支持。目前,通常使用聚类算法对这类大数据进行分析,例如,在对样本集S{S1,S2,S3…Sn}中的样本进行聚类时,采用如下第一种方案:在K次迭代中,对于任意一个样本Si,求其到聚类中心集M{M1,M2…Mj…Mk}中各个聚类中心点的距离,将该Si划分到距离最近的聚类中心点所在的类集中;利用均值的方法,更新聚类中心集M中的聚类中心点;计算本次迭代产生的类集与上次迭代产生的类集之间的差值,直到该差值满足预置误差条件为止。此方法在进行计算聚类中心点的聚类集时,需要将样本集S中的每个样本分别与聚类中心集M中的每个聚类中心点进行距离计算,即需要进行n*k次点对点的距离计算,计算量较大,耗时较长。为了解决上述第一种方案存在的计算量大,耗时较长的问题目前现有技术中还提供了第二种方案,该方案相对于第一种方案将Si划分到距离最近的聚类中心点所在类集的操作过程进行了改进,改进的方案具体如下:计算聚类中心集M{M1,M2…Mj…Mk}中任意两个聚类中心点之间的距离,并保存;通过三角形不等式原理,即计算Luj与2Lui之间的距离,其中,Luj为聚类中心点Mu与聚类中心点Mj之间的距离,其中,聚类中心点Mu为Si与当前距离Si最近的聚类中心点,聚类中心点Mj为当前遍历过程中待遍历的的聚类中心点,Lui为Si与聚类中心点Mu之间的距离;若Luj大于或者等于2Liu,忽略掉聚类中心点Mj,并继续遍历下一个聚类中心点,或者,遍历完成后,将该Si划分到Mu所在的类集中;若Luj小于2Liu,则计算Si与Mj之间的距离Lij,其中,Lij为样本点Si与聚类中心点Mj之间的距离;当Lij小于Lui时,设置Lui=Lij,Mu=Mj,继续遍历下一个聚类中心点,或者,遍历完成后,将该Si划分到Mu所在的类集中。通过上述两种方案,即能够通过对大数据进行聚类而获得大数据中的聚类信息,但是,在实施第二种方案时,专利技术人发现其存在如下问题:在判断某个聚类中心点是否为样本的聚类中心点时,在确定出样本Si与聚类中心集M中最近的聚类中心点Mu之后,基于三角形不等式原理,将聚类中心集M中不可能是Si的聚类中心点进行丢弃,无需计算丢弃的聚类中心点与样本Si之间的距离,能够在一定程度上降低计算量,缩短计算时长;但是,对于一些聚类中心点较多,聚类更精细的需求而言,由于每次迭代过程均需要计算聚类中心点两两之间的距离,导致计算量较大,耗时较长。因此,现有技术中聚类算法存在因每次迭代过程均需要计算聚类中心点两两之间的距离而导致计算量较大,耗时较长的技术问题。
技术实现思路
本专利技术实施例通过提供一种网站聚类的方法及装置,用以解决现有技术中聚类算法存在的因每次迭代过程均需要计算聚类中心点两两之间的距离而导致计算量较大,耗时较长的技术问题。本专利技术实施例第一方面提供了一种网站聚类的方法,其特征在于,包括:获得针对网站集群的样本集以及所述样本集的聚类中心集,所述样本集中每个样本点包括网站集群中每个网站的描述信息,所述描述信息至少包括领域信息、结构信息和访客信息;针对所述样本集中的每一个样本点,依次遍历聚类中心集中的每一个聚类中心点,确定所述每一个样本点与所述聚类中心集中距离最近的聚类中心点,并将所述每一个样本点划分到所述聚类中心集中距离最近的聚类中心点对应的集合中,获得所述聚类中心集中的每一个聚类中心点对应的聚类集;获得所述聚类集中样本点的平均值,并根据所述平均值更新所述聚类中心集;根据第一聚类中心点上一次更新前后的自身差值获取第一距离的预测值;其中,所述第一距离为需要进行数据聚类的样本点与所述第一聚类中心点之间的距离,所述第一聚类中心点为聚类距离遍历中与所述样本点距离最近的聚类中心点;根据第二距离、所述第一聚类中心点上一次更新前后的自身差值以及第二聚类中心点上一次更新前后的自身差值获取第三距离的预测值,其中,所述第二距离为上一次聚类距离遍历过程中所述第一聚类中心点与第二聚类中心点之间的距离,所述第二聚类中心点为当前聚类距离遍历过程中待遍历的聚类中心点;按照三角形不等式规则将所述第一距离的预测值与所述第三距离的预测值进行比较;若所述第三距离的预测值大于或者等于两倍的所述第一距离的预测值,则将所述第二聚类中心点丢弃,以便进行聚类距离遍历时,不再计算所述样本点与所述第二聚类中心点之间的距离以及所述第二聚类中心点与其他待遍历聚类中心点之间的距离;基于已丢弃所述第二聚类中心点的聚类中心集进行所述距离遍历,获得所述样本集的聚类结果,所述聚类结果包括以所述领域信息、所述结构信息和所述访客信息为基准维度对所述网站集群中的每一个网站进行聚类后的聚类信息。可选地,在所述获得所述样本集的聚类结果之后,所述方法还包括:对所述聚类结果进行分析,以对所述聚类方法进行评价。可选地,所述对所述聚类结果进行分析,以对所述聚类方法进行评价,具体包括:通过熵值验证算法或纯度验证算法对所述聚类结果进行分析;在所述熵值验证算法获得的所述聚类结果的熵值小于第一预设值时,确定所述聚类方法满足预设需求;或者在所述纯度验证算法获得的所述聚类结果的纯度大于第二预设值时,确定所述聚类方法满足所述预设需求。可选地,所述方法还包括:若所述第三距离的预测值小于两倍的所述第一距离的预测值,则根据上一次更新后的所述第一聚类中心点对所述第二聚类中心点进行数据聚类处理。可选地,所述根据上一次更新后的所述第一聚类中心点对所述第二聚类中心点进行数据聚类处理,包括:计算所述上一次更新后的所述第一聚类中心点与所述样本点之间的距离,得到第一距离的实际值;按照三角形不等式规则将所述第一距离的实际值与所述第三距离的预测值进行比较;若所述第三距离的预测值大于或者等于两倍的所述第一距离的实际值,则将所述第二聚类中心点丢弃,以便进行聚类距离遍历时,不再计算所述样本点与所述第二聚类中心点之间的距离以及所述第二聚类中心点与其他待遍历聚类中心点之间的距离;若所述第三距离的预测值小于两倍的所述第一距离的实际值,则计算第四距离,并确定所述第四距离是否小于所述第一距离的实际值;其中,所述第四距离为所述样本点与所述第二聚类中心点的距离;若所述第四距离小于所述第一距离的实际值,则将所述第二聚类中心点确定为当前距离遍历过程中与所述样本点距离最近的聚类中心点;若所述第四距离大于或者等于所述第一距离的实际值,则将所述上一次更新后的所述第一聚类中心点确定为当前距离遍历过程中与所述样本点距离最近的聚类中心点。可选地,所述将所述第二聚类中心点确定为当前距离遍历过本文档来自技高网
...
一种网站聚类的方法及装置

【技术保护点】
一种网站聚类的方法,其特征在于,包括:获得针对网站集群的样本集以及所述样本集的聚类中心集,所述样本集中每个样本点包括网站集群中每个网站的描述信息,所述描述信息至少包括领域信息、结构信息和访客信息;针对所述样本集中的每一个样本点,依次遍历聚类中心集中的每一个聚类中心点,确定所述每一个样本点与所述聚类中心集中距离最近的聚类中心点,并将所述每一个样本点划分到所述聚类中心集中距离最近的聚类中心点对应的集合中,获得所述聚类中心集中的每一个聚类中心点对应的聚类集;获得所述聚类集中样本点的平均值,并根据所述平均值更新所述聚类中心集;根据第一聚类中心点上一次更新前后的自身差值获取第一距离的预测值;其中,所述第一距离为需要进行数据聚类的样本点与所述第一聚类中心点之间的距离,所述第一聚类中心点为聚类距离遍历中与所述样本点距离最近的聚类中心点;根据第二距离、所述第一聚类中心点上一次更新前后的自身差值以及第二聚类中心点上一次更新前后的自身差值获取第三距离的预测值,其中,所述第二距离为上一次聚类距离遍历过程中所述第一聚类中心点与第二聚类中心点之间的距离,所述第二聚类中心点为当前聚类距离遍历过程中待遍历的聚类中心点;按照三角形不等式规则将所述第一距离的预测值与所述第三距离的预测值进行比较;若所述第三距离的预测值大于或者等于两倍的所述第一距离的预测值,则将所述第二聚类中心点丢弃,以便进行聚类距离遍历时,不再计算所述样本点与所述第二聚类中心点之间的距离以及所述第二聚类中心点与其他待遍历聚类中心点之间的距离;基于已丢弃所述第二聚类中心点的聚类中心集进行所述距离遍历,获得所述样本集的聚类结果,所述聚类结果包括以所述领域信息、所述结构信息和所述访客信息为基准维度对所述网站集群中的每一个网站进行聚类后的聚类信息。...

【技术特征摘要】
1.一种网站聚类的方法,其特征在于,包括:获得针对网站集群的样本集以及所述样本集的聚类中心集,所述样本集中每个样本点包括网站集群中每个网站的描述信息,所述描述信息至少包括领域信息、结构信息和访客信息;针对所述样本集中的每一个样本点,依次遍历聚类中心集中的每一个聚类中心点,确定所述每一个样本点与所述聚类中心集中距离最近的聚类中心点,并将所述每一个样本点划分到所述聚类中心集中距离最近的聚类中心点对应的集合中,获得所述聚类中心集中的每一个聚类中心点对应的聚类集;获得所述聚类集中样本点的平均值,并根据所述平均值更新所述聚类中心集;根据第一聚类中心点上一次更新前后的自身差值获取第一距离的预测值;其中,所述第一距离为需要进行数据聚类的样本点与所述第一聚类中心点之间的距离,所述第一聚类中心点为聚类距离遍历中与所述样本点距离最近的聚类中心点;根据第二距离、所述第一聚类中心点上一次更新前后的自身差值以及第二聚类中心点上一次更新前后的自身差值获取第三距离的预测值,其中,所述第二距离为上一次聚类距离遍历过程中所述第一聚类中心点与第二聚类中心点之间的距离,所述第二聚类中心点为当前聚类距离遍历过程中待遍历的聚类中心点;按照三角形不等式规则将所述第一距离的预测值与所述第三距离的预测值进行比较;若所述第三距离的预测值大于或者等于两倍的所述第一距离的预测值,则将所述第二聚类中心点丢弃,以便进行聚类距离遍历时,不再计算所述样本点与所述第二聚类中心点之间的距离以及所述第二聚类中心点与其他待遍历聚类中心点之间的距离;基于已丢弃所述第二聚类中心点的聚类中心集进行所述距离遍历,获得所述样本集的聚类结果,所述聚类结果包括以所述领域信息、所述结构信息和所述访客信息为基准维度对所述网站集群中的每一个网站进行聚类后的聚类信息。2.根据权利要求1所述的方法,其特征在于,在所述获得所述样本集的聚类结果之后,所述方法还包括:对所述聚类结果进行分析,以对所述聚类方法进行评价。3.根据权利要求2所述的方法,其特征在于,所述对所述聚类结果进行分析,以对所述聚类方法进行评价,具体包括:通过熵值验证算法或纯度验证算法对所述聚类结果进行分析;在所述熵值验证算法获得的所述聚类结果的熵值小于第一预设值时,确定所述聚类方法满足预设需求;或者在所述纯度验证算法获得的所述聚类结果的纯度大于第二预设值时,确定所述聚类方法满足所述预设需求。4.根据权利要求1所述的方法,其特征在于,所述方法还包括:若所述第三距离的预测值小于两倍的所述第一距离的预测值,则根据上一次更新后的所述第一聚类中心点对所述第二聚类中心点进行数据聚类处理。5.根据权利要求3所述的方法,其特征在于,所述根据上一次更新后的所述第一聚类中心点对所述第二聚类中心点进行数据聚类处理,包括:计算所述上一次更新后的所述第一聚类中心点与所述样本点之间的距离,得到第一距离的实际值;按照三角形不等式规则将所述第一距离的实际值与所述第三距离的预测值进行比较;若所述第三距离的预测值大于或者等于两倍的所述第一距离的实际值,则将所述第二聚类中心点丢弃,以便进行聚类距离遍历时,不再计算所述样本点与所述第二聚类中心点之间的距离以及所述第二聚类中心点与其他待遍历聚类中心点之间的距离;若所述第三距离的预测值小于两倍的所述第一距离的实际值,则计算第四距离,并确定所述第四距离是否小于所述第一距离的实际值;其中,所述第四距离为所述样本点与所述第二聚类中心点的距离;若所述第四距离小于所述第一距离的实际值,则将所述第二聚类中心点确定为当前距离遍历过程中与所述样本点距离最近的聚类中心点;若所述第四距离大于或者等于所述第一距离的实际值,则将所述上一次更新后的所述第一聚类中心点确定为当前距离遍历过程中与所述样本点距离最近的聚类中心点。6.根据权利要求5所述的方法,其特征在于,所述将所述第二聚类中心点确定为当前距离遍历过程中与所述样本点距离最近的聚类中心点,包括:若所述第四距离小于所述第一距离的实际值,并且当前聚类距离遍历完成,则将所述第二聚类中心点赋值给所述上一次更新后的所述第一聚类中心点,以及将所述第四距离赋值给所述第一距离的实际值;若所述第四距离小于所述第一距离的实际值,并且当前聚类...

【专利技术属性】
技术研发人员:杨诗向园洪春晓吕俊
申请(专利权)人:北京奇虎科技有限公司奇智软件北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1