本发明专利技术针对存在突变点的不等长序列相似度度量问题,公开了一种基于DTW的平权1-范数不等长序列相似度度量算法,该算法基于DTW构造不等长序列的绝对距离矩阵,并按行或列提取最小绝对距离矩阵中的最小值形成最小绝对距离集合,为处理突变点对序列距离度量的影响,采用最小绝对距离集合的平权1-范数作为距离度量,最后根据距离度量与相似度关系,形成存在突变点的不等长序列相似度度量。
【技术实现步骤摘要】
【专利摘要】本专利技术针对存在突变点的不等长序列相似度度量问题,公开了一种基于DTW的平权1-范数不等长序列相似度度量算法,该算法基于DTW构造不等长序列的绝对距离矩阵,并按行或列提取最小绝对距离矩阵中的最小值形成最小绝对距离集合,为处理突变点对序列距离度量的影响,采用最小绝对距离集合的平权1-范数作为距离度量,最后根据距离度量与相似度关系,形成存在突变点的不等长序列相似度度量。【专利说明】一种基于DTW的平权1-范数不等长序列相似度度量算法
本专利技术涉及数据融合算法,尤其涉及一种不等长序列的数据挖掘算法。
技术介绍
作为一种不确定性数据,序列数据是数据挖掘领域主要研究的对象,广泛存在于经济预测,医学研究,气象预报、网络安全和军事科学等领域。随着信息技术的飞速发展,数据量越来越大,蕴含的信息也越来越多,无疑进入了大数据时代。如何挖掘隐含在这些数据中有效的信息和知识,近年来得到了广泛的研究。序列数据是由很多数据点组成的高维数据,这些数据点的长度随着时间变化可能不一致,对这些长度不一致的序列数据进行挖掘是数据挖掘的关键问题。序列相似度度量方法是数据挖掘的重要过程和基本方法,相似度度量是衡量不同对象之间的相互关系的方法,关于不等长序列的相似度度量方法说法不一,特别是当数据受到某种干扰而导致数据突变的情况,在实际处理过程中遇到了很多困难和挑战。动态时间弯曲(dynamic time warping, DTW)是不等长序列相似度度量的常用方法,它是对不等长序列分别沿时间轴进行排序,构造一个不同维矩阵,矩阵中的元素表示不等长序列点之间的距离,对应时间轴分别选取每个时刻的最小距离作为此刻的距离,形成最小绝对距离集合,最后将每个时刻的最小绝对距离连接就形成了一条弯曲路径,将得到的弯曲距离作为不等长序列的度量。DTW在处理图1所示的不等长序列度量时精度较高,但是在实际的序列数据处理过程中,由于传感器在量测目标的特征时往往会受到主动或被动等各种因素的干扰,而导致某个或某些量测数据偏离实际数据较大而出现突变点,如图2所示。由于DTW在进行距离计算时一般采用最小绝对距离中的最大值作为序列的距离度量,此时如果按照DTW进行计算存在突变点的情况无疑会使序列之间的距离度量变大,产生较大的误差,导致本来而除去突变点外序列本身是相似的序列判定为不相关的序列,如何减小这些突变点对序列度量的影响值得考虑。一种方法可以增加检测环节,而某条序列是否存在突变点事先是不能预测的,这样既会引入新的误差又增加了处理时间,没有得到广泛应用。所以,本专利技术从寻找存在突变点的不等长序列的度量方法的角度出发,公开了一种基于DTW的平权1-范数不等长序列相似度度量算法。
技术实现思路
为了解决存在突变点时的不等长序列的相似度度量问题,本专利技术公开了一种基于DTff的平权1-范数不等长序列相似度度量算法。该算法首先基于DTW计算两条不等长序列之间的绝对距离矩阵,并对绝对距离矩阵按行或列进行最小距离提取形成最小绝对距离集合,之后为消弱突变点的影响,对最小绝对距离集合中的元素进行平权1-范数求和,以减弱突变点的影响。之后根据距离与相似度的关系,计算其相似度,最后组合这些相似度得到不等长序列之间的相似度。本专利技术提出的一种基于DTW的平权1-范数不等长序列相似度度量算法流程如图3所示,主要包括以下技术措施。①专利技术的条件和序列的表示 如果把一条序列看成是传感器对某个目标的一个特征描述,则将很多条序列组成一个序列组就可以看成是传感器对某个目标的多个特征描述。如果有多个传感器对目标进行特征描述,则会有很多个序列组,融合这些序列组对目标的特征描述,就可以得到多传感器对目标的特征判断。如果传感器在量测目标的特征时受到等各种因素的干扰,而导致某个或某些量测数据偏离实际数据较大而出现存在图2所示的突变点序列,就会使得序列间不能直接按照DTW进行度量,本专利技术基于DTW提出一种度量存在突变点的不等长序列之间的关系的方法来实现多传感器对描述目标的特征判断。首先对长度为I的某条序列定义:【权利要求】1.一种基于DTW的平权1-范数不等长序列相似度度量算法,是一种数据挖掘算法,其特征是:基于DTW构造不等长序列的绝对距离矩阵,通过提取最小值形成最小绝对距离集合,采用最小绝对距离集合的平权1-范数作为距离度量,最后根据距离度量与相似度关系,形成存在突变点的不等长序列相似度度量。2.根据权利要求1所述的基于DTW的平权1-范数不等长序列相似度度量算法,所述的平权1-范数是:用最小绝对距离集合长度作为平权,在1-范数的基础上加平权处理。3.根据权利要求1所述的基于DTW的平权1-范数不等长序列相似度度量算法,所述的提取最小值形成最小绝对距离集合是:当绝对距离矩阵的行向量长度小于列向量长度时,就按行向量提取最小值形成最小绝对距离集合;反之,按列向量提取最小值形成最小绝对距离集合。【文档编号】G06F19/00GK103942444SQ201410176753【公开日】2014年7月23日 申请日期:2014年4月29日 优先权日:2014年4月29日 【专利技术者】关欣, 孙贵东, 衣晓, 赵志勇 申请人:衣晓本文档来自技高网...
【技术保护点】
一种基于DTW的平权1‑范数不等长序列相似度度量算法,是一种数据挖掘算法,其特征是:基于DTW构造不等长序列的绝对距离矩阵,通过提取最小值形成最小绝对距离集合,采用最小绝对距离集合的平权1‑范数作为距离度量,最后根据距离度量与相似度关系,形成存在突变点的不等长序列相似度度量。
【技术特征摘要】
【专利技术属性】
技术研发人员:关欣,孙贵东,衣晓,赵志勇,
申请(专利权)人:衣晓,
类型:发明
国别省市:山东;37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。