【技术实现步骤摘要】
一种基于KMeans算法的关联规则方法
本专利技术属于物联网信息
,尤其对具有时间差的数据信息关联的挖掘方法。
技术介绍
随着改革开放的深入,我国的经济得到空前的发展,城市化水平不断提高,我们进入了数据爆炸式增长即大数据的时代,这些数据被有效的收集,存储,它们具有大量,多样性,高速度和价值等特征。如果能进行很好的挖掘里面数据的信息,将能够极大的促进相关行业的发展以及经济的发展。目前,在大数据背景前提下,挖掘数据里面的信息能为热点,其中之一的算法就是关联算法来挖掘数据里面的信息,但是,普遍的思想就是截取相同的时间段依次计算频繁项的支持度与置信度,而然对于具有时间差的数据,该方法带来的问题就是计算支持度时,重复的计算数据的支持度,这样使得支持度比真实值都要大,关联效果不精确。针对这种问题,本次专利技术提出了基于KMeans聚类算法的关联方法,这样使得计算支持度与置信度的值非常接近真实值。
技术实现思路
本专利技术要解决的技术问题是,提供一种基于KMeans算法的关联规则方法,实现对具有时间差且存在重复数据的两者数据的关联信息的挖掘。区别于现在的一般关联算法,本专利技术在传统的关联算法中应用了聚类算法,将时间差作为聚类中的距离,测量时间距离,然后在某一个簇中挖掘频繁项,不考虑与之无关的其他时间上的数据信息,最后用关联算法得出支持度与置信度,例如,道路上的汽车,要想将车主手机的imsi数据和车牌号数据做关联匹配,通过wifi探针获取imsi数据与摄像头获取车牌号,但是当一辆汽车通过两 ...
【技术保护点】
1.一种基于KMeans法的关联规则方法,其特征在于,所述方法包括以下步骤:/n步骤一:设有几条关联正确的数据的样本,分别测量获取每条样本中第一类数据中数据a的时间和获取第二类数据中数据b的时间,两者做时间差,记录时间差,也就是在获取第一类某个数据的时间获取第二类数据中与之有较大关联概率的数据的时间,并计算它们之间的平均数与方差。/n步骤二:数据处理:获取第一类某数据的时候,也会获取很多第一类其他的数据,第二类数据也如此,所以,在获取两类数据后,将获取的数据分别存放在数据库不同的表格中,将数据进行时间由小到大排序,可能会存在很短时间内重复获取相同的数据,因此需要设置时间t(t的大小,需要看实际情况)将t时间内相同的数据源去重。/n步骤三:运用KMeans算法,聚类中距离一般是欧式距离,这里改为步骤一中测试获取两类数据的时间差的平均数和方差的结合作为距离,记为T。/n步骤四:进行簇类的查找,取某个时间第一类数据中数据a同时寻找数据a对应的时间距离查找所有符合距离的数据b,将这些数据b记为B,同时将数据B作为数据a在这个时刻的簇中的数据。/n步骤五:经过步骤四,可以获得数据a的所有时间上的 ...
【技术特征摘要】
1.一种基于KMeans法的关联规则方法,其特征在于,所述方法包括以下步骤:
步骤一:设有几条关联正确的数据的样本,分别测量获取每条样本中第一类数据中数据a的时间和获取第二类数据中数据b的时间,两者做时间差,记录时间差,也就是在获取第一类某个数据的时间获取第二类数据中与之有较大关联概率的数据的时间,并计算它们之间的平均数与方差。
步骤二:数据处理:获取第一类某数据的时候,也会获取很多第一类其他的数据,第二类数据也如此,所以,在获取两类数据后,将获取的数据分别存放在数据库不同的表格中,将数据进行时间由小到大排序,可能会存在很短时间内重复获取相同的数据,因此需要设置时间t(t的大小,需要看实际情况)将t时间内相同的数据源去重。
步骤三:运用KMeans算法,聚类中距离一般是欧式距离,这里改为步骤一中测试获取两类数据的时间差的平均数和方差的结合作为距离,记为T。
步骤四:进行簇类的查找,取某个时间第一类数据中数据a同时寻找数据a对应的时间距离查找所有符合距离的数据b,将这些数据b记为B,同时将数据B作为数据a在这个时刻的簇中的数据。
步骤五:经过步骤四,可以获得数据a的所有时间上的所有簇数据,通过频次筛选法将所有簇里面的数据出现的总次数较少的删除,将这些删除的数据作为异常数据。
步骤六:通过步骤五,将第一类数据中某个数据和它的所有相关的簇数据提取出来,通过关联算法,关联出最有可能的关联数据。
2.根据权利要求1所述的一种基于KMeans算法的关联规则方法,其特征在于,步骤一中所得到时间戳方法包括以下步骤:
步骤一:测试m次获取某一时刻第一类任意一个数据和下一时刻获取第二类任意一个数据的时间差,记录所有的时间差信息:T=(t1,t2,t3,t4,…,tm);
步骤二:根据步骤一中T数据集,获取平均数与方差,计算公式为:
其中,Tavg和Tσ代表时间数据的平均数和方差。
3.根据权利要求1所述的一种基于KMeans算法的关联规则方法,其特征在于,步骤二所述的数据处理中的去重与分组过程具体如下:
将获得的第一类数据与第二类数据分别存放在两个不同的数据库表格中,获取采集数据起始时间与终止时间,以三分钟为时间段进行数据分段,在每段中去掉重复的数据,两种数据都要进行此方法操作,这样能够排除因设备在短时间内重复采集数据对结果的不利影响。
4.根据权利要求1所述的一种基于KMeans算法的关联规则方法,其特征在于,步骤三所述计算时间戳距离方法如下:
T...
【专利技术属性】
技术研发人员:张涛,秦岭,杨小健,
申请(专利权)人:南京工业大学,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。