用于处理时间序列的方法和装置制造方法及图纸

技术编号:12661878 阅读:118 留言:0更新日期:2016-01-06 20:46
本发明专利技术的各实施方式提供了用于处理时间序列的方法和装置。在一个实施方式中,提供了一种处理时间序列的方法,包括:按照时间将时间序列划分为多个窗口,针对多个窗口中的当前窗口执行如下处理:从当前窗口中提取相似子序列的至少一个分组;以及基于至少一个分组中的每个分组中的相似子序列与候选列表中的k个特征子序列的比较,更新候选列表,其中k个特征子序列是在时间序列的至少已处理部分中出现次数最多的k个特征子序列。在一个实施方式中,提供了在时间序列中进行搜索的方法,包括:响应于接收到搜索请求,返回候选列表以作为搜索结果,其中候选列表是基于本发明专利技术的方法中的候选列表。采用本发明专利技术的方法和装置,可以更为有效地管理时间序列。

【技术实现步骤摘要】

本专利技术的各实施方式涉及时间序列(TimeSeries),更具体地,涉及用于处理时间序列的方法和装置
技术介绍
随着计算机、数据通信以及实时监控等技术的发展,时间序列数据库(TimeSeriesDatabase)已经被广泛应用于例如设备监控、生产线管理、金融分析等诸多方面。时间序列是指按照时间顺序排列的测量值的集合,在此可以将存储测量值的节点称为数据点(DataPoint)或者数据事件(DataEvent)。时间序列数据库是指用于存储这些测量值的数据库。测量值可以包括各种数据,例如在监控桥梁安全性的应用环境中,被采集数据可以包括由特定传感器采集的压力数据和/或压强数据;在天气预报应用环境中,被采集数据可以包括温度、湿度、压力、风力(例如,包括大小和方向),等等。相似性搜索(SimilaritySearch)是指在时间序列中搜索相类似的子序列。时间序列通常包括海量数据,并且该时间序列可能会不断地由新近的测量值来实时地更新。例如,在监控桥梁安全性的应用环境中,在桥梁上可能部署有分别用于实时地测量各处的压力的数万个传感器。例如,当以1秒甚至更高的频率来更新数据库时,将产生巨大的数据量。应当注意,在相似性搜索中并不要求各个子序列之间的完全匹配,而是在各个子序列之间可以具有一定的差异,例如,差异边界可以是e。相似性搜索中的一个重要方面是在时间序列中搜索motif。简言之,motif是指时间序列中的子序列(subsequence),该子序列长度为m并且在差异边界为e的情况下在时间序列中曾经出现至少s次。在时间序列数据库中,motif是用于后期处理(例如,获取关联规则、聚类和分类等)的一个重要基础。目前,已经开发出用于加速相似性搜索的技术方案。然而在这些技术方案中,由于数据计算量太大而不能实时地处理采集到的时间序列、或者由于仅能够实时地处理在长度有限的滑动窗口范围内的时间序列,还存在诸多缺陷。因而,如何在数据量急速膨胀的时间序列中进行搜索,例如如何找到出现次数最多的前k个(可以指定k的具体数值)motif,成为目前时间序列数据库领域的一个研究热点。
技术实现思路
因而,期望开发一种能够有效地处理时间序列的技术方案,还期望开发一种能够在时间序列中进行高效搜索的技术方案。进一步,期望上述技术方案可以随着时间序列的更新而实时地进行处理和搜索。根据本专利技术的一个方面,提供了一种处理时间序列的方法,包括:按照时间将时间序列划分为多个窗口,针对多个窗口中的当前窗口执行如下处理:从当前窗口中提取相似子序列的至少一个分组;以及基于至少一个分组中的每个分组中的相似子序列与候选列表中的k个特征子序列的比较,更新候选列表,其中k个特征子序列是在时间序列的至少已处理部分中出现次数最多的k个特征子序列。根据本专利技术的一个方面,一种用于处理时间序列的装置,包括:划分模块,配置用于按照时间将时间序列划分为多个窗口;提取模块,配置用于针对多个窗口中的当前窗口执行如下处理:从当前窗口中提取相似子序列的至少一个分组;以及更新模块,配置用于基于至少一个分组中的每个分组中的相似子序列与候选列表中的k个特征子序列的比较,更新候选列表,其中k个特征子序列是在时间序列的至少已处理部分中出现次数最多的k个特征子序列。在本专利技术的一个实施方式中,提供了在时间序列中进行搜索的方法,包括:响应于接收到搜索请求,返回候选列表以作为搜索结果,其中候选列表是基于本专利技术的方法中的候选列表。在本专利技术的一个实施方式中,提供了一种用于在时间序列中进行搜索的装置,包括:搜索模块,配置用于响应于接收到搜索请求,返回候选列表以作为搜索结果,其中所述候选列表是根据本专利技术所述的装置中的候选模块。采用本专利技术所述的方法和装置,可以大大减少搜索期间的计算复杂度,进而实现高效的搜索。附图说明通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其他目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。图1示意性示出了适于用来实现本专利技术实施方式的示例性计算机系统/服务器12的框图;图2示意性示出了在时间序列数据库中进行搜索的示意图;图3示意性示出了根据本专利技术一个实施方式的用于处理时间序列的技术方案的架构图;图4示意性示出了根据本专利技术一个实施方式的用于处理时间序列的方法的流程图;图5示意性示出了根据本专利技术一个实施方式的候选列表中的节点的示意图;图6示意性示出了根据本专利技术一个实施方式的更新候选列表的方法的流程图;图7示意性示出了根据本专利技术一个实施方式的划分窗口的示意图;以及图8示意性示出了根据本专利技术一个实施方式的用于处理时间序列的装置的框图。具体实施方式下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。图1示出了适于用来实现本专利技术实施方式的示例性计算机系统/服务器12的框图。图1显示的计算机系统/服务器12仅仅是一个示例,不应对本专利技术实施方式的功能和使用范围带来任何限制。如图1所示,计算机系统/服务器12以通用计算设备的形式表现。计算机系统/服务器12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。计算机系统/服务器12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。计...
用于处理时间序列的方法和装置

【技术保护点】
一种用于处理时间序列的方法,包括:按照时间将所述时间序列划分为多个窗口,针对所述多个窗口中的当前窗口执行如下处理:从所述当前窗口中提取相似子序列的至少一个分组;以及基于所述至少一个分组中的每个分组中的相似子序列与候选列表中的k个特征子序列的比较,更新所述候选列表,其中所述k个特征子序列是在所述时间序列的至少已处理部分中出现次数最多的k个特征子序列。

【技术特征摘要】
1.一种用于处理时间序列的方法,包括:
按照时间将所述时间序列划分为多个窗口,针对所述多个窗口中
的当前窗口执行如下处理:
从所述当前窗口中提取相似子序列的至少一个分组;以及
基于所述至少一个分组中的每个分组中的相似子序列与候
选列表中的k个特征子序列的比较,更新所述候选列表,
其中所述k个特征子序列是在所述时间序列的至少已处理部分
中出现次数最多的k个特征子序列。
2.根据权利要求1所述的方法,其中从所述当前窗口中提取相
似子序列的至少一个分组包括:
响应于两个相似子序列之间的距离不大于阈值距离,将所述两个
相似子序列加入相同的分组。
3.根据权利要求2所述的方法,其中所述距离是基于所述两个
相似子序列的相应时间点处的数据之间的差异计算的。
4.根据权利要求1-3中的任一项所述的方法,其中所述候选列
表进一步包括所述k个特征子序列的相应出现次数,以及基于所述
至少一个分组中的每个分组中的相似子序列与候选列表中的k个特
征子序列的比较,更新所述候选列表进一步包括:基于所述比较以
及所述相应出现次数,更新所述候选列表。
5.根据权利要求4所述的方法,其中基于所述比较以及所述相
应出现次数,更新所述候选列表包括:针对所述至少一个分组中的
当前分组,
从所述当前分组中的相似子序列提取所述当前分组的特征子序
列;以及
基于所述候选列表中是否包括与所述当前分组的所述特征子序
列相匹配的特征子序列以及所述相应出现次数,更新所述候选列表。
6.根据权利要求5所述的方法,其中基于所述候选列表中是否
包括与所述当前分组的所述特征子序列相匹配的特征子序列以及所

\t述相应出现次数,更新所述候选列表包括:
响应于所述候选列表中包括与所述当前分组的所述特征子序列
相匹配的特征子序列,基于所述当前分组的所述特征子序列更新所
述相匹配的特征子序列,以及更新所述相匹配的特征子序列的出现
次数;否则
基于所述时间序列的相似度索引以及所述相应出现次数,更新所
述候选列表。
7.根据权利要求6所述的方法,其中基于所述时间序列的相似
度索引以及所述相应出现次数,更新所述候选列表包括:
响应于基于所述相似度索引确定所述当前分组的所述特征子序
列在所述时间序列中的支持度上限不低于所述候选列表中的特征子
序列的出现次数的最小值,计算所述当前分组中的所述相似子序列
在所述时间序列中的出现次数;以及
响应于计算的出现次数不低于所述最小值,更新所述候选列表。
8.根据权利要求7所述的方法,其中响应于计算的出现次数不
低于所述最小值,更新所述候选列表包括:
利用所述当前分组的所述特征子序列以及计算的出现次数,更新
所述候选列表。
9.根据权利要求1-3中的任一项所述的方法,其中所述多个窗
口中的两个相邻窗口包括在时间上重叠的部分。
10.根据权利要求1-3中的任一项所述的方法,其中所述方法随
着所述时间序列的更新而周期性地被执行。
11.一种用于处理时间序列的装置,包括:
划分模块,配置用于按照时间将所述时间序列划分为多个窗口;
提取模块,配置用于针对所述多个窗口中的当前窗口执行如下处
理:从所述当前窗口中提取相似子序列的...

【专利技术属性】
技术研发人员:陈垚亮黄胜陈晓艳刘凯徐林昊陆薇徐晓旻
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1