一种用于发现多个时间序列之间的距离的方法,其中多个时间序列中的每个个体时间序列包括数据,其中数据是不确定数据,该方法包括:从多个时间序列选择至少两个时间序列;计算在给定时刻的两个序列之间的第一差值;将第一差值与值表进行映射;使用值表来计算第二差值,其中第二差值是时间序列之间的相似性的测量。
【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及标识多个时间序列之间的距离。
技术介绍
用于相似性搜索和数据挖掘的距离测量经常聚焦于不确定数据,比如从传感器网络产生的数据。然而,近来已经转向认识到在许多应用领域中应当捕获并且考虑这样的数据的不确定性。但是,没有许多方式应对时间序列或者流传输数据。通常,与时间序列中的不同时隙对应的值具有不同误差贡献。需要一种用于执行数据挖掘任务、比如时间序列聚类和分类的技术。常规距离度量无法对不确定数据有效。论文"A framework for clustering uncertain data streams" (C. C. Aggarwal 和P.S.Yu,2008)提出一种用于对不确定数据流聚类的框架。该论文假设已知关于不确定性的一些统计量。基于这一点而创建微聚类,并且在新数据点到来时基于预计相似性值来动态更新微聚类。这一方式因此不适用于一般数据挖掘任务。论文〃 Probabilistic similarity search for uncertain time series" (J. Aβ falg、H. Kriegel, P.Krger 和 M. Renz. , SSDBM,2009)和"Proud :Aprob abilistic approach to processing similarity queries over uncertain data streams" (M. Yeh> K. Wu、P. S. Yu和M. Chen, EDBT, 2009)介绍了用于时间序列数据的概率有界范围查询(PBRQ) 的符号表示。给定距离界限e和概率阈值τ,如果两个时间序列之间的距离的概率等于或者小于e等于或者大于τ,则认为这两个时间序列相似。这是一种相似性搜索的方式。APfalg等人假设时间序列的不确定性由在每个时隙的采样集合代表。因此,不确定时间序列T代表规律性时间序列S(T)的集合,其中通过针对每个时隙挑选一个采样点来构造每个规律性时间序列。两个不确定时间序列Tl与Τ2之间的距离被定义为在来自 S(Tl)和S(T2)的所有组合之间的距离的集合。并非所有应用领域针对每个时隙提供多个采样点。这一方式也未在计算上高效。Mi-Yen Yeh等人的方式处理的是针对数据流的不确定性。将在每个时间点的不确定性建模为仅均值和标准差已知的连续随机变量。在两个时间序列之间的距离是随机变量。这足以用于计算概率有界范围查询的结果,但是它不允许直接计算在两个时间序列之间的距离。这一方式的另一限制在于,为了使PBRQ的计算更高效并且允许及早削减候选, 而假设不确定偏差对于序列的所有时间点而言相同。美国专利公开US20090327185" Systems for Structural Clustering of Time Sequences"公开了一种将两个时间序列中的误差分布的非线性纳入考虑之中的距离函数。通过确立与接收的时间序列数据有关的结构特征、确定在不同时间序列之间的距离,并且基于该距离将不同时间序列分割成包含时间序列中的至少一个时间序列的聚类,从而在不同时间序列之间执行结构聚类。美国专利公开US20100002538"Determining the Structure of aTowed Seismic Spread Element"公开了一种在确定在地震源之间的位置/距离中考虑读数/测量值的非高斯误差分布的方法。美国专利公开US20090222472" Method and Apparatus for Aggregation in Uncertain Data"公开了一种通过考虑一阶和二阶误差统计量来计算在误差引起的值之间的距离的特征。美国专利公开US20030093227" Statistical Combining of Cell Expression Profiles"公开了一种特征,其中距离函数通过使用来自多个重复实验的数据来考虑值中的误差分布的非线性,以生成针对每个数据点的置信度值、增加灵敏度并且消除系统性实验偏置。生成不确定数据的基于传感器的系统变得越来越重要。另外,传感器在工业控制系统中发挥重要作用。在多数情况下,存在与传感器关联的某一误差量。没有用于处置不确定数据中误差的有效技术就不可能高效处理并且有效使用传感器数据。
技术实现思路
本专利技术的实施例主要地涉及一种用于发现在多个时间序列之间的距离的方法、系统和计算机程序产品,其中多个时间序列中的每个个体时间序列包括数据,并且其中时间序列的数据值是不确定的。从多个时间序列选择至少两个时间序列。计算在给定时刻的两个序列之间的差值,并且在计算的差值与值表之间进行映射。使用值表来计算新差值,并且使用差值来计算距离值,其中距离值是对时间序列之间的相似性的测量。提供计算的新距离值作为例如有利地用于与可以与其它时间序列相关联的数据挖掘任务的输入。还公开了其它实施例。根据第一方面,本专利技术相应地提供一种用于发现在多个时间序列之间的距离的方法,其中多个时间序列中的每个个体时间序列包括数据,其中数据是不确定数据,该方法包括从多个时间序列选择至少两个时间序列;计算在给定时刻两个序列之间的第一差值; 映射第一差值与值表;使用值表来计算第二差值,其中第二差值是对时间序列之间的相似性的测量。根据第二方面,本专利技术相应地提供一种至少包括处理器和存储器的数据处理系统,该系统被配置用于发现在多个时间序列之间的距离,其中多个时间序列中的每个个体时间序列包括数据,其中数据是不确定数据,该系统包括选择器,用于从多个时间序列选择至少两个时间序列;第一计算部件,用于计算在给定时刻两个序列之间的第一差值;映射器,用于映射第一差值与值表;第二计算部件,用于使用值表来计算第二差值,其中第二差值是对时间序列之间的相似性的测量。根据第三方面,本专利技术相应地提供一种包括计算机程序代码的计算机程序单元, 该计算机程序代码在向计算机系统中加载并且在计算机系统上被执行时使计算机执行如上文描述的方法的步骤。附图说明将参照以下附图仅通过示例描述本专利技术的优选实施例图I是图2至图5中所示一般实施例可以实施于其上的、至少包括处理器和存储器的诸如计算机系统之类的数据处理系统的一个示例性实施例;图2是根据本专利技术一个一般实施例的典型传感器网络设置和从多个传感器收集数据的方法的一个示例性实施例;图3是根据本专利技术一个一般实施例的方法的流程图的一个示例性实施例;图4是根据本专利技术一个一般实施例的方法的流程图的一个示例性实施例;并且图5是根据本专利技术一个一般实施例的方法的流程图的一个示例性实施例。具体实施方式在对于附图中的具有相同标号的步骤和/或特征的任一幅或者多幅图进行参考时,除非出现相反意图,那些步骤和/或特征出于本说明书的目的而具有相同功能或者操作。“计算机”或者“数据处理系统”意指任何能够如下操作的设备执行方法、如这里描述的那样产生压缩位图、或者在多个压缩位图之间和在压缩与未压缩位图之间执行逻辑比较,在如这里公开的那样,该设备包括但不限于微处理器、微控制器、数字状态机、现场可编程门阵列(FPGA)、数字信号处理器、具有微处理器和模拟或者数字输出设备的共同定位式集成存储器系统、具有由数字或者模拟信号协议连接的微处理器和逻辑本文档来自技高网...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】...
【专利技术属性】
技术研发人员:S·R·萨朗吉,K·穆尔蒂,
申请(专利权)人:国际商业机器公司,
类型:
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。