一种基于基站标号轨迹的运动模式挖掘方法,包括如下步骤:(1)历史基站标号轨迹数据集构建:对用户智能手机当前所连接基站的标号进行连续采集,形成历史基站标号轨迹数据集;(2)基站间相似度计算:基于历史基站标号轨迹数据集分析基站间的切换模式,在此基础上估计基站间的相似度;(3)运动模式挖掘:将基站间相似度融入基于前缀扩展的序列模式挖掘算法,从历史基站标号轨迹数据集中挖掘出运动模式。本发明专利技术提供了一种准确度较高、适用性良好的基于基站标号轨迹的运动模式挖掘方法。
【技术实现步骤摘要】
本专利技术涉及移动计算和数据挖掘技术,具体涉及一种基于基站标号轨迹的运动模式挖掘方法。
技术介绍
运动模式挖掘即从运动物体(如车辆、行人)的历史运动轨迹数据中挖掘出运动规律。目前的运动模式挖掘方法大多要求历史运动轨迹数据包含明确的位置信息。例如文献1(H.Cao、N.Mamoulis、D.W.Cheung,Discoveryofperiodicpatternsinspatiotemporalsequences,IEEETransactionsonKnowledgeandDataEngineering,19(2007):453-467;即H.Cao、N.Mamoulis、D.W.Cheung,挖掘时空序列数据中的周期模式,IEEE知识与数据工程汇刊,19(2007):453-467)中将历史位置轨迹数据抽象为线段聚类序列,然后从线段聚类序列中挖掘运动模式,文献2(L.Chen、M.Lv、Q.Ye等人,Apersonalroutepredictionsystembasedontrajectorydatamining,InformationSciences,181(2011):1264-1284;即L.Chen、M.Lv、Q.Ye等人,一种基于轨迹数据挖掘的个人路径预测系统,信息科学,181(2011):1264-1284)中基于空间划分将历史位置轨迹数据抽象为网格序列,然后从网格序列中挖掘运动模式。然而,智能手机的定位方式具有很大的局限性,阻碍了这些方法在智能手机上的应用:(1)智能手机可通过GPS设备进行定位,其局限性在于:GPS定位能耗过大,持续使用GPS设备将会快速消耗智能手机的电池容量。(2)智能手机可通过无线信号源(如基站、WiFi)进行定位,其局限性在于:需要频繁的通过网络查询无线信号源的实际位置(由于只有特定的运营商才拥有这些信息),持续使用无线信号源定位将会极大的增加网络流量。针对这些问题,目前出现了少量基于基站标号轨迹数据进行运动模式挖掘的工作。例如,文献3(G.D.Katsaros、Ulusoy等人,Adataminingapproachforlocationpredictioninmobileenvironments,Data&KnowledgeEngineering54(2005):121-146;即G.D.Katsaros、Ulusoy等人,移动环境下一种面向位置预测的数据挖掘方法,数据与知识工程,54(2005):121-146)中提出了一种基于基站切换图的运动模式挖掘算法,文献4(M.Bayir、M.Demirbas、N.Eagle,Mobilityprofiler:Aframeworkfordiscoveringmobilityprofilesofcellphoneusers,PervasiveandMobileComputing,6(2010):435-454;即M.Bayir、M.Demirbas、N.Eagle,运动画像:一种面向移动用户的运动规律挖掘框架,普适与移动计算,6(2010):435-454)中提出了一种基于基站振荡图的运动模式挖掘算法。然而,这些工作没有考虑基站间相似度,而是将一条基站标号轨迹看成一个字符串,因此通过非常相似(即距离非常接近)但标号不同的基站的轨迹会被看作完全不同的字符串,导致大量运动模式丢失。随着城市中基站密度的增大,该问题会越来越严重。此外,文献5(M.Lv、L.Chen、Y.Shen等人,Measuringcell-idtrajectorysimilarityformobilephonerouteclassification,Knowledge-BasedSystems,89(2015):181-191;即M.Lv、L.Chen、Y.Shen等人,面向移动用户路径分类的基站标号轨迹相似度计算方法,知识系统,89(2015):181-191)中尝试考虑基站间相似度对基站标号轨迹进行分析。然而,该工作对基站相似度的计算方法基于经验公式,准确度很低。因此,该工作提出的方法只能发现轨迹聚类,而无法发现运动模式。
技术实现思路
为了克服已有运动模式挖掘方法的准确度较低、适用性较差的不足,本专利技术提供了一种准确度较高、适用性良好的基于基站标号轨迹的运动模式挖掘方法。本专利技术解决其技术问题所采用的技术方案是:一种基于基站标号轨迹的运动模式挖掘方法,包括如下步骤:(1)历史基站标号轨迹数据集构建:首先对用户智能手机当前所连接基站的标号进行连续采集,然后对采集到的数据进行轨迹分割得到若干基站标号轨迹数据以形成历史基站标号轨迹数据集;(2)基站间相似度计算:基于历史基站标号轨迹数据集分析基站间的切换模式,在此基础上估计基站间的相似度;(3)运动模式挖掘:将基站间相似度融入基于前缀扩展的序列模式挖掘算法,从历史基站标号轨迹数据集中挖掘运动模式,步骤如下:(3-1)算法准备:算法准备包括如下步骤:(3-1-1)建立基站切换有向图G:图的结点代表基站,结点c1到c2的边代表在历史基站标号轨迹中出现过c1直接切换到c2的情况,即发生切换时c1和c2在轨迹中是相邻的,则G(c)代表基站c可以直接切换到的基站的集合;(3-1-2)建立基站相似度邻接链表T:表头向量中每个头结点代表一个基站,头结点c指向的单链表包含了所有与基站c相似度大于指定阈值的基站,该单链表的表结点按照相似度从大到小排列,则T(c)[i]代表与基站c相似度第i大的基站,其中基站间相似度由步骤(2)计算得到;(3-1-3)初始化算法:算法初始化工作包括:设置前缀集all_prefixes为空;设置当前前缀cur_prefix为空字符串;设置当前投影序列集PS为历史基站标号轨迹数据集,并设置每个投影序列P的置信度P.conf为1;(3-2)生成频繁基站集:若cur_prefix为空字符串,则从所有基站中寻找频繁基站;反之,则从G(lc)中寻找频繁基站,其中lc为cur_prefix最后一个字符所代表的标号对应的基站;从一个基站集CS中寻找频繁基站的方法为:对CS中每一个基站c,首先计算当前投影序列集中每一条投影序列对其的支持度,然后求和;最后,支持度总和大于指定阈值的基站即为频繁基站;投影序列P对基站c的支持度support(c,P)的计算公式如下:其中,P.conf代表P的置信度;(3-3)生成投影序列集:对频繁基站集中的每个基站c,过程如下:(3-3-1)更新当前前缀cur_prefix,并将更本文档来自技高网...
【技术保护点】
一种基于基站标号轨迹的运动模式挖掘方法,其特征在于:包括如下步骤:(1)历史基站标号轨迹数据集构建:首先对用户智能手机当前所连接基站的标号进行连续采集,然后对采集到的数据进行轨迹分割得到若干基站标号轨迹数据以形成历史基站标号轨迹数据集;(2)基站间相似度计算:基于历史基站标号轨迹数据集分析基站间的切换模式,在此基础上估计基站间的相似度;(3)运动模式挖掘:将基站间相似度融入基于前缀扩展的序列模式挖掘算法,从历史基站标号轨迹数据集中挖掘运动模式,步骤如下:(3‑1)算法准备:算法准备包括如下步骤:(3‑1‑1)建立基站切换有向图G:图的结点代表基站,结点c1到c2的边代表在历史基站标号轨迹中出现过c1直接切换到c2的情况,即发生切换时c1和c2在轨迹中是相邻的,则G(c)代表基站c可以直接切换到的基站的集合;(3‑1‑2)建立基站相似度邻接链表T:表头向量中每个头结点代表一个基站,头结点c指向的单链表包含了所有与基站c相似度大于指定阈值的基站,该单链表的表结点按照相似度从大到小排列,则T(c)[i]代表与基站c相似度第i大的基站,其中基站间相似度由步骤(2)计算得到;(3‑1‑3)初始化算法:算法初始化工作包括:设置前缀集all_prefixes为空;设置当前前缀cur_prefix为空字符串;设置当前投影序列集PS为历史基站标号轨迹数据集,并设置每个投影序列P的置信度P.conf为1;(3‑2)生成频繁基站集:若cur_prefix为空字符串,则从所有基站中寻找频繁基站;反之,则从G(lc)中寻找频繁基站,其中lc为cur_prefix最后一个字符所代表的标号对应的基站;从一个基站集CS中寻找频繁基站的方法为:对CS中每一个基站c,首先计算当前投影序列集中每一条投影序列对其的支持度,然后求和;最后,支持度总和大于指定阈值的基站即为频繁基站;投影序列P对基站c的支持度support(c,P)的计算公式如下:其中,P.conf代表P的置信度;(3‑3)生成投影序列集:对频繁基站集中的每个基站c,过程如下:(3‑3‑1)更新当前前缀cur_prefix,并将更新的cur_prefix加入前缀集all_prefixes;(3‑3‑2)设置新投影序列集NPS为空;(3‑3‑3)对当前投影序列集中的每个投影序列P,基于c和P生成一个新的投影序列NP,若NP不为空则加入NPS;(3‑4)迭代算法:若新投影序列集NPS不为空,则将NPS作为当前投影序列集,转向步骤(3‑2);(3‑5)生成运动模式:对all_prefixes中的每一个前缀,将其代表的字符串转化为对应的基站序列,该基站序列即为一个运动模式。...
【技术特征摘要】
1.一种基于基站标号轨迹的运动模式挖掘方法,其特征在于:包括如下步骤:
(1)历史基站标号轨迹数据集构建:首先对用户智能手机当前所连接基站的
标号进行连续采集,然后对采集到的数据进行轨迹分割得到若干基站标号轨迹数
据以形成历史基站标号轨迹数据集;
(2)基站间相似度计算:基于历史基站标号轨迹数据集分析基站间的切换模
式,在此基础上估计基站间的相似度;
(3)运动模式挖掘:将基站间相似度融入基于前缀扩展的序列模式挖掘算法,
从历史基站标号轨迹数据集中挖掘运动模式,步骤如下:
(3-1)算法准备:算法准备包括如下步骤:
(3-1-1)建立基站切换有向图G:图的结点代表基站,结点c1到c2的边代表在
历史基站标号轨迹中出现过c1直接切换到c2的情况,即发生切换时c1和c2在轨
迹中是相邻的,则G(c)代表基站c可以直接切换到的基站的集合;
(3-1-2)建立基站相似度邻接链表T:表头向量中每个头结点代表一个基站,
头结点c指向的单链表包含了所有与基站c相似度大于指定阈值的基站,该单链
表的表结点按照相似度从大到小排列,则T(c)[i]代表与基站c相似度第i大的基
站,其中基站间相似度由步骤(2)计算得到;
(3-1-3)初始化算法:算法初始化工作包括:设置前缀集all_prefixes为空;设
置当前前缀cur_prefix为空字符串;设置当前投影序列集PS为历史基站标号轨迹
数据集,并设置每个投影序列P的置信度P.conf为1;
(3-2)生成频繁基站集:若cur_prefix为空字符串,则从所有基站中寻找频繁
基站;反之,则从G(lc)中寻找频繁基站,其中lc为cur_prefix最后一个字符所代
表的标号对应的基站;
从一个基站集CS中寻找频繁基站的方法为:对CS中每一个基站c,首先计
算当前投影序列集中每一条投影序列对其的支持度,然后求和;最后,支持度总
和大于指定阈值的基站即为频繁基站;
投影序列P对基站c的支持度support(c,P)的计算公式如下:
其中,P.conf代表P的置信度;
(3-3)生成投影序列集:对频繁基站集中的每个基站c,过程如下:
(3-3-1)更新当前前缀cur_prefix,并将更新的cur_prefix加入前缀集
all_prefixes;
(3-3-2)设置新投影序列集NPS为空;
(3-3-3)对当前投影序列集中的每个投影序列P,基于c和P生成一个新的投
影序列NP,若NP不为空则加入NPS;
(3-4)迭代算法:若新投影序列集NPS不为空,则将NPS作为当前投影序列
集,转向步骤(3-2);
(3-5)生成运动模式:对all_prefixes中的每一个前缀,将其代表的字符串转
化为对应的基站序列,该基站序列即为一个运动模式。
2.如权利要求1所述的一种基于基站标号轨迹的运动模式挖掘方法,其特征在于:
所述步骤(2)中,采用回归算法估计基站间的相似度,步骤如下:
(2-1)构造训练数据集:给定一个历史基站标号轨迹数据集,首先通过特定的
网络服务接口(如OpenCellID)查询其中包含的所有基站的实际位置;然后,基
于基站实际位置计算每对基站间的实际物理距离;最后,基于基站间实际物理距
离计算每对基站间的相似度真实值;基站c1和c2的相...
【专利技术属性】
技术研发人员:吕明琪,
申请(专利权)人:浙江工业大学,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。