一种基于Gower系数的多维度时空密度聚类方法技术

技术编号:23764524 阅读:266 留言:0更新日期:2020-04-11 19:08
本发明专利技术涉及一种基于Gower系数的多维度时空密度聚类方法,属于时空密度聚类技术领域。本发明专利技术先建立一个多维度时空信息数据库,每一条数据作为一个对象点。然后将数据进行算法的计算,大致步骤如下:1.从库中选取一个不在任何簇中的时空核心对象p

A multi-dimensional spatiotemporal density clustering method based on Gower coefficient

【技术实现步骤摘要】
一种基于Gower系数的多维度时空密度聚类方法
本专利技术涉及一种基于Gower系数的多维度时空密度聚类方法,属于时空数据聚类

技术介绍
Gower相似系数简称Gower系数,也称为Gower距离,是聚类分析中常用的一种分类度量标准。样本之间相似程度越高,其Gower系数越接近1;相似程度越低,其Gower系数越接近0;Gower系数相差不大的样本可以归为一类。基于Gower系数进行分类筛选的核心是计算样本之间的Gower系数。ST-DBSCAN算法是扩展了DBSCAN的扫描维度,采用时空邻近域的概念去评估时空邻近域内的时空实体的密度。因此,ST-DBSCAN与DBSCAN一样,也是基于密度的时空聚类分析方法,与一些聚类算法相比,它不需要预先决定簇的数量,并可以发现任何形状的簇。时空数据的挖掘随着科技的进步变得尤其重要,时空聚类算法也已广泛应用于道路交通、犯罪统计、降雨规律等多个领域,但还没用应用到职位发展趋势的分析领域中。
技术实现思路
本专利技术要解决的技术问题是一种基于Gower系数的多维度时空密度聚类方法,将Gower系数应用到时空密度聚类算法中来对分类变量数据集进行相似度计算,计算结果作为对数据集进一步聚类的依据,从而将局限于三维空间数据的聚类分析扩展到了多维度的时空密度聚类中来。本专利技术采用的技术方案是:一种基于Gower系数的多维度时空密度聚类方法,包括如下步骤:Step1、建立一个多维度的时空信息数据库,库中数据地址的经度为x,纬度为y,数据发生时间为z,分类变量属性为X,一条信息数据为一个对象点pi(x,y,z,X),i为数据序号,所有对象的集合为D;Step2、从D依次选取一个对象点pi(x,y,z,X),判断其是否已属于现有簇中,是则重新选取下一个对象点,否则进行下一步;Step3、判断对象点pi(x,y,z,X)是否为时空核心对象,且是否满足Gower相似系数阈值,若两个条件同时满足则进行下一步,否则回到Step2中重新选取下一个对象点;Step4、搜寻时空核心对象点pi(x,y,z,X)的所有时空相邻点qi,若qi不属于任何已有的簇,则将qi放入新建的簇A中,若qi属于已有的簇则不进行操作;Step5、判断簇A中的各对象是否为时空核心对象,是则对该时空核心对象重复Step4的操作,否则将不再进行下一步操作;Step6、重复上述步骤Step2到Step5的工作,直到D中所有对象都属于某个簇,或为时空孤立点。Step7、将上述得到的簇标签赋值给职位数据库新建的字段“簇标签”中。Step8、将数据库中所有对象的经度x、纬度y、时间z、簇标签分别展现到三维散点图对应点的横轴、纵轴、竖轴和点的颜色上,分类变量X展现到点的属性上;同时统计出不同簇中各个维度上值的数据量进行进一步的数据信息分析。具体地,所述步骤Step1中,三维的职位招聘数据库中每条职位信息都包含职位发布时间及就业地址的地理经度和纬度这三个字段,对象点pi(x,y,z,X)中的i为正整数。具体地,所述步骤Step2中,簇为聚类后点的集合,不属于任何一个簇的点为时空孤立点,即噪声。具体地,所述步骤Step3中,给出以下几个定义:时空相邻点:首先人为设定空间阈值为spatial_threshold,时间阈值为temporal_threshold。对于时空对象pt(xt,yt,zt)来讲,若pw(xw,yw,zw)到pt的空间距离ΔS满足公式(1),时间距离ΔT满足公式(2),则pw为pt的时空相邻点;ΔS=|Distance((xw,yw)-(xt,yt))|≤spatial_threshold(1)ΔT=|zt-zw|≤temporal_threshold(2)时空邻域:给定一个时空对象p,p的所有时空相邻点围成的时空领域即为对象p的时空邻域;时空核心对象:首先人为设定一个最小相邻点阈值MinPts,若在p的时空邻域内,p的时空相邻点数量ΔN满足公式(3),则称p为时空核心对象;ΔN≥MinPts(3)具体地,所述步骤Step3中,针对是否满足Gower系数阈值的判断,给出以下定义:样本Xi=(Xi1,Xi2,...,Xim)′与Xj=(Xj1,Xj2,...,Xjm)′间的Gower相似系数Gij定义为:式中,m为样本Xi、Xj中的分类变量属性个数,k代指样本中第k个分类变量属性,Rk为样本中变量Xk的极差。Gower系数阈值G大小为人为设定,若时空核心对象满足公式(6),则称其满足Gower系数阈值。Gij≥G(6)具体地,所述步骤Step4中,簇A中的A为簇的标签,不同的簇拥有不同的标签,标签可以为字母或数字。具体地,所述步骤Step8中,不同的簇标签则对应不同的点颜色,没有簇标签的点即为噪声,其颜色可设为黑色。本专利技术的有益效果是:本专利技术先建立一个多维度时空信息数据库,每一条数据作为一个对象点。然后将数据进行算法的计算,大致步骤如下:1.从库中选取一个不在任何簇中的时空核心对象pi;2.搜寻与pi时空直接密度可达对象qi,将qi加入新建的簇中;3.判断簇中的各对象是否为时空核心对象,同时是否满足Gower相似系数阈值,是则重复上一步操作;4.重复上述所有步骤,直到数据库中所有对象都属于某个簇,或为时空孤立点。本专利技术与现有技术相比,主要弥补了原始ST-DBSCAN算法无法完成分类变量数据集进行聚类的缺陷,本专利技术在不改变ST-DBSCAN算法对空间、时间属性聚类功能和算法时间复杂度的基础上,增加了分类变量属性的聚类功能,从而将时空聚类算法从三维扩展到了更多维度的数据中。附图说明图1是本专利技术总体流程图;图2是本专利技术步骤Step3详细流程图;图3是本专利技术具体实施方式中所举例子中Step8的可视化三维散点图。具体实施方式下面结合附图和具体实施例,对本专利技术作进一步的说明。实施例1:如图1-3所示,一种基于Gower系数的多维度时空密度聚类方法,包括如下步骤:Step1、建立一个多维度的时空信息数据库,库中数据地址的经度为x,纬度为y,数据发生时间为z,分类变量属性为X,一条信息数据为一个对象点pi(x,y,z,X),i为数据序号,所有对象的集合为D;Step2、从D依次选取一个对象点pi(x,y,z,X),判断其是否已属于现有簇中,是则重新选取下一个对象点,否则进行下一步;Step3、判断对象点pi(x,y,z,X)是否为时空核心对象,且是否满足Gower相似系数阈值,若两个条件同时满足则进行下一步,否则回到Step2中重新选取下一个对象点;Step4、搜寻时空核心对象点pi(x,y,z,X)的所有时空相邻点qi,若qi不属于任何已有的簇,则将qi放入新建的簇A中,若qi属于已有的簇则不进行操作;Step本文档来自技高网...

【技术保护点】
1.一种基于Gower系数的多维度时空密度聚类方法,其特征在于:包括如下步骤:/nStep1、建立一个多维度的时空信息数据库,库中数据地址的经度为x,纬度为y,数据发生时间为z,分类变量属性为X,一条信息数据为一个对象点p

【技术特征摘要】
1.一种基于Gower系数的多维度时空密度聚类方法,其特征在于:包括如下步骤:
Step1、建立一个多维度的时空信息数据库,库中数据地址的经度为x,纬度为y,数据发生时间为z,分类变量属性为X,一条信息数据为一个对象点pi(x,y,z,X),i为数据序号,所有对象的集合为D;
Step2、从D依次选取一个对象点pi(x,y,z,X),判断其是否已属于现有簇中,是则重新选取下一个对象点,否则进行下一步;
Step3、判断对象点pi(x,y,z,X)是否为时空核心对象,且是否满足Gower相似系数阈值,若两个条件同时满足则进行下一步,否则回到Step2中重新选取下一个对象点;
Step4、搜寻时空核心对象点pi(x,y,z,X)的所有时空相邻点qi,若qi不属于任何已有的簇,则将qi放入新建的簇A中,若qi属于已有的簇则不进行操作;
Step5、判断簇A中的各对象是否为时空核心对象,是则对该时空核心对象重复Step4的操作,否则将不再进行下一步操作;
Step6、重复上述步骤Step2到Step5的工作,直到D中所有对象都属于某个簇,或为时空孤立点;
Step7、将上述得到的簇标签赋值给职位数据库新建的字段“簇标签”中;
Step8、将数据库中所有对象的经度x、纬度y、时间z、簇标签分别展现到三维散点图对应点的横轴、纵轴、竖轴和点的颜色上,分类变量X展现到点的属性上;同时统计出不同簇中各个维度上值的数据量进行进一步的数据信息分析。


2.根据权利要求1所述的基于Gower系数的多维度时空密度聚类方法,其特征在于:所述步骤Step1中,三维的职位招聘数据库中每条职位信息都包含职位发布时间及就业地址的地理经度和纬度这三个字段,对象点pi(x,y,z,X)中的i为正整数。


3.根据权利要求1所述的基于Gower系数的多维度时空密度聚类方法,其特征在于:所述步骤Step2中,簇为聚类后点的集合,不属于任何一个簇的点为时空孤立点,即噪声。


4.根据权利要求1所述的基于Gower系数的多维度时空...

【专利技术属性】
技术研发人员:宋耀莲王慧东徐文林
申请(专利权)人:昆明理工大学
类型:发明
国别省市:云南;53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1