基于改进的相似性搜索技术的域内交通流量模式发现方法技术

技术编号:10458644 阅读:153 留言:0更新日期:2014-09-24 14:33
本发明专利技术属于数据挖掘领域,为了更好地对域内交通流量特定模式进行挖掘,本发明专利技术提出了一种基于改进的相似性搜索技术的域内交通流量模式发现方法。该方法主要是在DTW相似性搜索技术上进行了改进,减少了DTW技术的计算开销。改进的DTW相似性搜索技术的核心是融合了下界函数技术及角色互换思想,同时在此基础上增加计算提前终止阈值ε,减少越界后的计算。本发明专利技术通过降低DTW技术的计算开销,提高了域内交通流量特定模式发现的速率和准确率。通过信息的迁移完成当前特定模式状态的研判工作,以便能够预防城市道路安全中具有重大威胁性事件的再次发生。

【技术实现步骤摘要】
基于改进的相似性搜索技术的域内交通流量模式发现方法
本专利技术属于数据挖掘领域,为了更好地对域内交通流量特定模式进行挖掘,本专利技术提出了一种基于改进的相似性搜索技术的域内交通流量模式发现方法。
技术介绍
域内交通流量数据主要记载了在选定时间段内,通过道路该区域的交通实体数。其具有时间相关性,表现为流量分布随时间变化而变化,在不同的时间段,交通流呈现不同的特征。因此,时间序列是交通流量的一个很好的表征工具。通过对交通流时间序列的模式进行挖掘,可以认识交通系统的内部特征,揭示其运行规律。其中特定模式的发现,有利于通过当前所得到的异常数据完成对历史数据的回溯,并通过历史信息完成对当前异常的解析工作,并及时做出反应。关于时间序列的相似性搜索问题是指,搜索时间序列数据库并查询出与拟查询对象时间序列之间存在有相似性关系的时间序列。为了能够更好的对时间序列相似性搜索技术进行描述,对该问题进行如下定义:定义1:时间序列S,时间序列S是由一列元素组成的即S={s1,s2,s3,…,sn},其中n为整个时间序列S的长度。定义2:组成元素si,组成元素si由采样时间ti和样本值组成ri,可记为si=[ti,ri]。定义3:子序列Si,k,即时间序列S中的一段序列,其元素组成由i至k,序列顺序与S中保持一致,记为子序列Si,k=si,si+1,si+2,…,sk,其中1≤i≤k≤n。定义4:查询序列(特定模式)Q,查询序列Q是由一列元素组成的,即Q={q1,q2,q3,…,qm},其中m为查询序列Q的长度,该序列中即为所需要查询的特定模式。定义5:相似性搜索,即在长度为n的时间序列S中,查找出与长度为m的查询序列Q间具有相似性描述(两序列间相似性度量结果)满足初设阈值ε的所有子序列Si,k的集合,可记作R={Si,k∈S|Dis(Si,k,Q)≤ε}。定义6:最佳相似性搜索,即在长度为n的时间序列S中,查找出与长度为m的查询序列Q间具有最佳相似性描述(两序列间相似性度量结果最为接近)的子序列Si,k,用公式表示为Dis(Si,k,Q)<Dis(Sa,b,Q),其中1≤a≤n,1≤b≤n。大量研究发现DTW(动态时间弯曲)技术和欧氏距离这两种相似性度量方法都能够很好的完成时间序列的相似性描述工作,但是由于欧式距离无法处理存在相位偏移序列的这一问题,因此本专利技术选择基于DTW技术的时间序列相似性搜索作为进一步的研究目标。定义7:DTW技术,设存在两条时间序列数据Q={q1,q2,q3,…,qn}与S={s1,s2,…,sm},其长度分别为n与m,则存在两序列构成的大小为n×m的矩阵M,其中矩阵元素(i,j)对应的是序列Q与S中的元素Qi和Si之间的基准距离,即(i,j)=Dbase(qi,sj),其中基准距离函数Dbase通常选用均方欧式距离。在此基础上,序列Q与S的元素之间距离之和的最小值的可以使用弯曲路径W={w1,w2,w3,…,wk,…,wL}进行表达,其中Max(m,n)≤L≤m+n-1;wk=(i,j)k。该路径的选择一般是采用动态规划方法从起点(1,1)出发到终点(m,n)的最小化累积距离路径,该路径一般被认为是最优的,其公式表述如下所示:然而,经过研究发现DTW技术的时间复杂度为O(nm),与欧式距离相比计算花销巨大。不仅如此,若在相似性搜索技术中采用滑动窗口技术完成初始子序列的生成工作,那么对于一条长度为n的时间序列S来说,若查询序列Q的长度为m,则初始子序列规模为n-m+1。这样,可以计算用于完成查询序列匹配工作的计算量将会达到惊人的o(nm2)。因此,如何解决相似性分析中基础度量函数——DTW技术的高时间复杂度这一问题,已经成为了相似性度量研究中的重要部分。大量的文献研究发现,目前最为有效的减少DTW技术计算开销的方法为——下界函数技术。定义8:下界函数DLower_BF,定义Dis表示为对象空间Space中两条时间序列间的距离度量函数,若存在有对任意的时间序列Spacei,Spacej∈Space,且满足0≤DLower_BF(Spacei,Spacej)≤Dis(Spacei,Spacej),则将DLower_BF定义为距离度量函数Dis的下界函数。下界函数技术的核心思想就是使用一种简单有效的函数完成对两条时间序列间DTW度量的粗略估计,并将估计结果中一定大于阀值的部分进行提前剔除,最终在完成DTW度量时只针对选入候选集中的较少部分序列进行度量计算,从而降低整个DTW度量中所需要的计算开销。经过多次的计算发现,LB_Keogh方法是目前下界距离函数中比较先进的技术。在LB_Keogh方法中只是针对查询序列Q={q1,q2,q3,…,qm}进行下界函数的计算工作。而经过对比发现,若将查询序列与比对子序列Si,k进行角色互换,即对子序列Si,k使用LB_Keogh方法完成下界函数的计算在一般情况下其计算出来的下界函数是不一样的。因此,这种角色互换思想能够进一步的降低DTW技术的计算开销。
技术实现思路
为了能够更好的降低DTW技术的计算开销。本专利技术通过融合“角色互换”和“下界函数”这两种思想,提出了一种新的减少DTW技术度量计算的方法,如下:若存在两条时间序列S={s1,s2,s3,…,sn}与Q={q1,q2,q3,…,qn},则定义新序列Q_Ui、Q_Li、S_Ui及S_Li如下:Q_Ui=Max(qi-r,qi-r+1,qi-r+2,…,qi+r);(2)Q_Li=Min(qi-r,qi-r+1,qi-r+2,…,qi+r);(3)S_Ui=Max(si-r,si-r+1,si-r+2,…,si+r);(4)S_Li=Min(si-r,si-r+1,si-r+2,…,si+r);(5)Q_Ui为时间序列Q在以i点为中心以r为弯曲窗口的范围内的最大值组成的序列串Q_Li为时间序列Q在以i点为中心以r为弯曲窗口的范围内的最小值组成的序列串S_Ui为时间序列S在以i点为中心以r为弯曲窗口的范围内的最大值组成的序列串S_Li为时间序列S在以i点为中心以r为弯曲窗口的范围内的最小值组成的序列串同时有:则有:其中,ε为计算提前终止阈值,r为全局约束所定义的弯曲窗口,a、b为参与距离计算的数据点数量,i代表第i个数据点,1≤i≤n;Acc_Dis(S,Q)取Acc的最小值,当Acc_Dis(S,Q)<0时,定义下界距离为无穷大;上述定义的新的计算方法,其核心技术是融合下界函数技术及角色互换思想,同时在此基础上增加计算提前终止阈值ε,减少越界后的计算。根据上述所提出的改进方法给出域内交通流量特定模式发现整体技术框架,如图1所示。本专利技术提供的技术方案如下:基于相似性搜索技术的域内交通流量模式发现方法,其特征是,包括如下步骤:1)时间序列数据提取:时间序列S,即S={s1,s2,s3,…,sn},序列长度为n;查询序列(特定模式)Q,即Q={q1,q2,q3,…,qm},序列长度为m;2)初设阈值ε;3)标准化将序列Q标准化为4)fori=1ton-m+15)将子序列Si,k标准化为6)计算7)ifthen8)计算9)ifthen10)计算11)12)如果小于Min则并记录Si,k;13)else删除不相似子序列Si,本文档来自技高网
...
基于改进的相似性搜索技术的域内交通流量模式发现方法

【技术保护点】
基于改进的相似性搜索技术的域内交通流量模式发现方法,其特征在于,包括如下步骤:1)时间序列数据提取:构造域内交通流量时间序列S={s1,s2,s3,…,sn},序列长度为n;构造日交通流量查询序列(特定模式)Q={q1,q2,q3,…,qm},序列长度为m;2)初设计算提前终止阈值ε;ε是计算提前终止阈值,其作用体现在,当两个序列间的下界函数值大于ε时,则认为这两个序列不相似,不需要再进行相似性距离计算,从而减少了动态时间弯曲(DTW)技术的计算开销;3)标准化序列Q;序列标准化方法为:设序列Q={q1,q2,q3,…,qm}的标准化序列为则:q^i=(qi-μ)σ]]>其中,μ为序列Q={q1,q2,q3,…,qm}的均值,σ为序列Q={q1,q2,q3,…,qm}的标准差,1≤i≤m;4)利用滑动窗口技术划分S的子序列Si,k,其中,1≤i≤n‑m+1,m≤k≤n;5)标准化Si,k;子序列标准化方法为:设子序列Si,k={si,si+1,si+2,…,sk}的标准化序列为则:s^i=(si-μ)σ]]>μ=Σiksi/(k-i+1)]]>σ2=Σik(si-μ)2/(k-i+1)]]>其中,μ为序列Si,k={si,si+1,si+2,…,sk}的均值,σ为序列Si,k={si,si+1,si+2,…,sk}的标准差,i,k的取值来自于滑动窗口技术;6)利用LB_Kim下界技术预先排除明显的子序列;计算LB_Kim下界距离判断是否成立,成立则跳到步骤4),不成立则跳到步骤7);LB_Kim下界距离为:若存在两条时间序列S={s1,s2,s3,…,sn}与Q={q1,q2,q3,…,qm},则DLB_Kim(S,Q)=L∞(Feature(S),Feature(Q))=Max|First(S)-First(Q)||Last(S)-Last(Q)||Greatest(S)-Greatest(Q)||Smallest(S)-Smallest(Q)|]]>7)计算查询序列的标准化序列与子序列的标准化序列的下界函数此处的下界函数为:若存在两条时间序列S={s1,s2,s3,…,sn}与Q={q1,q2,q3,…,qn},则定义新序列Q_Ui、Q_Li、S_Ui及S_Li如下:Q_Ui=Max(qi‑r,qi‑r+1,qi‑r+2,…,qi+r);Q_Li=Min(qi‑r,qi‑r+1,qi‑r+2,…,qi+r);S_Ui=Max(si‑r,si‑r+1,si‑r+2,…,si+r);S_Li=Min(si‑r,si‑r+1,si‑r+2,…,si+r);Q_Ui为时间序列Q在以i点为中心以r为弯曲窗口的范围内的最大值组成的序列串;Q_Li为时间序列Q在以i点为中心以r为弯曲窗口的范围内的最小值组成的序列串;S_Ui为时间序列S在以i点为中心以r为弯曲窗口的范围内的最大值组成的序列串;S_Li为时间序列S在以i点为中心以r为弯曲窗口的范围内的最小值组成的序列串;同时有:Acc_Dis(S,Q)=MinAcc=[ϵ2-Σi=1a(si-Q_Ui)2ifsi>Q_Ui(si-Q_Li)2ifSi<Q_Li0otherwise1≤a≤nAcc=[ϵ2-Σi=1b(qi-S_Ui)2ifqi>S_Ui(qi-S_Li)2ifqi<S_Li0otherwis1≤b≤n]]>则有:DLB_LWeng=∞ifAcc_Dis(S,Q)<0ϵ2-Acc_Dis(S,Q)otherwise]]>其中,ε为步骤2)中的计算提前终止阈值,r为全局约束所定义的弯曲窗口,a、b为参与距离计算的数据点数量,i代表第i个数据点,1≤i≤n;Acc_Dis(S,Q)取Acc的最小值,当Acc_Dis(S,Q)<0时,定义下界距离为无穷大,则停止计算,认为该子序列与查询序列不相似;以上新定义的下界函数可以使DTW的实际计算量大幅度下降;8)判断是否成立,成立则跳到步骤12),否则跳到步骤9);9)计算查询序列的标准化序列与子序列的标准化序列的动态时间弯曲(DTW)距离10)将Si,k加入候选集R,R={Si,k∈S|Dis(S^i,k,Q^)≤ϵ};]]>11)判断是否小于之前的历史最小值Min,若小于则将赋给Min,并记录Si,k,由此找出最佳相似子序列,返回步骤4);12)如果则认为查询序列Q与子序列Si,k不相似,删除子序列Si,k,直接返回步骤4);13)查询序列Q与所有可能子序列计算相似性之后返回候选集R和最相似子...

【技术特征摘要】
1.基于改进的相似性搜索技术的域内交通流量模式发现方法,其特征在于,包括如下步骤:1)时间序列数据提取:构造域内交通流量时间序列S={s1,s2,s3,...,sn},序列长度为n;构造日交通流量查询序列Q={q1,q2,q3,...,qm},序列长度为m;2)初设计算提前终止阈值ε;ε是计算提前终止阈值,其作用体现在,当两个序列间的下界函数值大于ε时,则认为这两个序列不相似,不需要再进行相似性距离计算,从而减少了动态时间弯曲(DTW)技术的计算开销;3)标准化序列Q;序列标准化方法为:设序列Q={q1,q2,q3,...,qm}的标准化序列为则:其中,μ为序列Q={q1,q2,q3,...,qm}的均值,σ为序列Q={q1,q2,q3,...,qm}的标准差,1≤i≤m;4)利用滑动窗口技术划分S的子序列Si,k,其中,1≤i≤n-m+1,m≤k≤n;5)标准化Si,k;子序列标准化方法为:设子序列Si,k={Si,si+1,si+2,...,sk}的标准化序列为则:其中,μ为序列Si,k={si,si+1,si+2,...,sk}的均值,σ为序列Si,k={si,si+1,si+2,...,sk}的标准差,i,k的取值来自于滑动窗口技术;6)利用LB_Kim下界技术预先排除明显的子序列;计算LB_Kim下界距离判断是否成立,成立则跳到步骤4),不成立则跳到步骤7);LB_Kim下界距离为:若存在两条时间序列S={s1,s2,s3,...,sn}与Q={q1,q2,q3,...,qm},则7)计算查询序列的标准化序列与子序列的标准化序列的下界函数此处的下界函数为:若存在两条时间序列S={s1,s2,s3,...,sn}与Q={q1,q2,q3,...,qn},则定义...

【专利技术属性】
技术研发人员:于重重田嫦丽谭励吴子珺
申请(专利权)人:北京工商大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1