用户行为的聚类方法和系统技术方案

技术编号:11211050 阅读:148 留言:1更新日期:2015-03-26 20:33
本发明专利技术提供一种用户行为的聚类方法及系统。根据所述聚类方法,先计算所获取的多个用于表示用户行为的多维数据点之间的距离,并提取所计算的距离在预设的距离范围内的各数据点;再建立由所提取的各数据点为节点、数据点之间的距离为边的最小生成树;以及按照所述最小生成树中的边由大到小的排序,并根据预设的条件将各所述边由大到小进行分割,将分割后的由边相连的各所述节点组成一种用户行为的聚类。本发明专利技术在用户行为的数据点之间建立最小生成树,能够简单、直接的用数据点之间的距离反应出用户行为的相似程度,再根据距离长短来划分用户行为的聚类,实现了以低运算量、高聚类精度来得到用户行为的聚类。

【技术实现步骤摘要】
用户行为的聚类方法和系统
本专利技术涉及一种聚类方法,特别是涉及一种用户行为的聚类方法和系统。
技术介绍
随着用户在网络上的行为种类越来越多,技术人员通过用户在网络上的各种行为 所留下的数据进行分析,来统计、分析用户行为。其中,将用户行为的多维数据进行聚类是 一种进行数据统计、分析用户行为的手段。 目前的聚类方法利用k-means方法来对多维数据进行聚类,这种方式主要适用于 数据量不大的应用场景,例如,医学影像等专业领域。而对于网络上的用户行为的多维数据 (如几十个维度的数据),使用现有方式则需要大量的运算,使用复杂度极高。因此,需要特 别针对用户行为的聚类方法进行改进。
技术实现思路
鉴于以上所述现有技术的缺点,本专利技术的目的在于提供一种用户行为的聚类方法 和系统,用于解决现有技术中用户行为的数据的聚类运算量过大、使用不简便的问题。 为实现上述目的及其他相关目的,本专利技术提供一种用户行为的聚类方法,其至少 包括:1)计算所获取的多个用于表示用户行为的多维数据点之间的距离,并提取所计算的 距离在预设的距离范围内的各数据点;2)建立由所提取的各数据点为节点、数据点之间的 距离为边的最小生成树;3)按照所述最小生成树中的边由大到小的排序,并根据预设的条 件将各所述边由大到小进行分割,将分割后的由边相连的各所述节点组成一种用户行为的 聚类。 优选地,所述步骤2)还包括:2-1)依次将所提取的每个数据点至所提取的其他数 据点之间的距离在预设的距离范围内的各数据点划分为一个超球体,其中,各所述超球体 之间存在部分重叠的数据点;2-2)建立各所述超球体中的数据点的最小生成子树,将各所 述最小生成子树连接起来,以构成最小生成树。 优选地,在执行步骤3)之前,所述聚类方法还执行步骤4):至少一次的将所述最 小生成树中只有一条边的数据点予以删减。 优选地,所述步骤3 )还包括:利用公¥本文档来自技高网...

【技术保护点】
一种用户行为的聚类方法,其特征在于,至少包括:1)计算所获取的多个用于表示用户行为的多维数据点之间的距离,并提取所计算的距离在预设的距离范围内的各数据点;2)建立由所提取的各数据点为节点、数据点之间的距离为边的最小生成树;3)按照所述最小生成树中的边由大到小的排序,并根据预设的条件将各所述边由大到小进行分割,将分割后的由边相连的各所述节点组成一种用户行为的聚类。

【技术特征摘要】
1. 一种用户行为的聚类方法,其特征在于,至少包括: 1) 计算所获取的多个用于表示用户行为的多维数据点之间的距离,并提取所计算的距 离在预设的距离范围内的各数据点; 2) 建立由所提取的各数据点为节点、数据点之间的距离为边的最小生成树; 3) 按照所述最小生成树中的边由大到小的排序,并根据预设的条件将各所述边由大到 小进行分割,将分割后的由边相连的各所述节点组成一种用户行为的聚类。2. 根据权利要求1所述的用户行为的聚类方法,其特征在于,所述步骤2)还包括: 2-1)依次将所提取的每个数据点至所提取的其他数据点之间的距离在预设的距离范 围内的各数据点划分为一个超球体,其中,各所述超球体之间存在部分重叠的数据点; 2-2)建立各所述超球体中的数据点的最小生成子树,将各所述最小生成子树连接起 来,以构成最小生成树。3. 根据权利要求1所述的用户行为的聚类方法,其特征在于,在执行步骤3)之前,所述 聚类方法还执行步骤4):至少一次的将所述最小生成树中只有一条边的数据点予以删减。4. 根据权利要求1或3所述的用户行为的聚类方法,其特征在于,所述步骤3)还包括: 利用公式来确定每条边两端的节点之间 的距离因数,其中,m、η为一条边两端的节点,cut(m,η)为节点m和节点η之间的距离,Am、An分别为在所述最小生成树上从所述节点m/节点η延伸至预设数量范围内、距离最小的各 节点的集合,其中,集合Am中不包含节点η,集合An中不包含节点m,assoc(Am)和assoc(An) 分别集合A1^An中各节点之间的最小距离之和; 按照各节点之间的距离因数Mcut(m,η)由大到小的排序,根据预设的条件将各所述 距离因数所对应的边进行分割,将分割后的由边相连的各所述节点组成一种用户行为的聚 类。5. -种用户行为的聚类系统,其特征在于,至少包括: 提取模...

【专利技术属性】
技术研发人员:范志刚许春玲李明齐
申请(专利权)人:中国科学院上海高等研究院
类型:发明
国别省市:上海;31

网友询问留言 已有1条评论
  • 来自[北京市电信互联网数据中心] 2015年03月26日 20:48
    汉字,一般表示做(作为),表因为某人做某事。有时也表被动。
    0
1