当前位置: 首页 > 专利查询>河海大学专利>正文

一种基于嵌入式索引的水文时间序列相似性搜索方法技术

技术编号:12337797 阅读:82 留言:0更新日期:2015-11-18 10:49
本发明专利技术公开了一种基于嵌入式索引的水文时间序列相似性搜索方法,按如下步骤进行:离线准备阶段对原始时间序列中的每个位置,计算对应的嵌入式索引向量,离线准备阶段实现了水文时间序列洪峰分割,串行聚类,初始参考序列集生成,参考集训练和时间序列嵌入索引计算;在线搜索阶段利用查询序列和参考集序列进行索引向量的计算,在原始序列的嵌入式索引欧氏向量空间中搜索,找到比较相似的点作为候选点集合,对候选点精炼后进行原始DTW度量,找到最终的相似序列。本发明专利技术将相似性搜索映射到欧氏向量空间中进行搜索,很大程度上提高了搜索效率。

【技术实现步骤摘要】

本专利技术涉及,属于数据挖掘领域与信息

技术介绍
随着水文时间序列数据的不断增长,如何快速准确的从历史水文数据库中找出与给定时间段相似的水文过程是一个值得深入研究的课题。特别的,在防汛中经常需要在历史洪水序列中快速寻找相似洪峰过程,此时水文时间序列相似性分析更具重要的现实意义。时间序列的相似性度量是时间序列数据挖掘的基础问题,主要方法有欧式距离、动态模式匹配、动态时间弯曲(DTW)距离、斜率距离等。其中动态模式匹配能够找出相似序列的大体位置,但不能精确度量。欧式距离能够精确度量但易受噪声和时间轴上弯曲度影响,DTff距离则存在着时间复杂度过高的缺点。
技术实现思路
为了尽量提高相似性度量的时间效率,针对以上相似性度量存在的问题,本专利技术提供,通过嵌入索引把子序列匹配过程转换成欧式向量空间上的最近邻搜索,提高了搜索的速度。为达到上述目的,本专利技术采用的技术方案如下:—种基于嵌入式索引的水文时间序列相似性搜索方法,包括以下步骤:I)离线准备阶段,具体包括:1-1)对水文时间序列进行洪峰分割,具体是指根据水文时间序列的状态趋势变化关系寻找洪峰模式的起止时间点,然后采用起止时间点间的子序列代表洪峰模式,最终完成洪峰模式的提取;1-2)串行聚类,具体是指对于所述步骤1-1)分割得到的洪峰模式子序列集分成多个组,使组内的子序列之间相似性最高而组间差异性大于某一设定值;1-3)生成初始参考序列集;1-4)对参考序列集进行训练;1-5)对水文时间序列进行嵌入索引计算,具体是指把得到的参考序列集对原始序列进行嵌入索引的计算,通过参考序列把原始序列映射到欧氏向量空间中;2)在线搜索阶段,具体包括:2-1)查询序列索引,计算查询序列与参考序列集中每一个参考序列的DTW距离,将查询序列映射到欧式空间向量中;2-2)欧式空间搜索,对于每一个查询序列,与嵌入式序列索引空间中的每一个向量之间进行欧氏距离的计算,取距离最小的前k个向量作为候选集;2-3)后选集生成,根据得到的候选集,判断最初始的起始位置,根据起始位置进行匹配并不断的沿着时间序列移动位置;2-4)候选集精炼,在候选集相邻范围内进行原始DTW的匹配;2-5)匹配序列生成,根据匹配结果,选择相似性最高的原始序列作为最终的匹配结果。前述的步骤1-1)中洪峰分割包括以下步骤:1-1-1)小波平滑去噪,是指对有噪声的水文时间序列进行小波平滑去噪处理;1-1-2)阈值粗分割,是指首先遍历水文时间序列,获取水文时间序列中的所有极值点;再次遍历水文时间序列,寻找第一个大于水位阈值的极值点,将其作为起始点,接着寻找下一个极值点,使该极值点刚好小于水位阈值,将该极值点作为终止点,以起始点和终止点间的序列作为子时间序列,对水文时间序列进行分割,直到遍历完水文时间序列;1-1-3)洪峰选择细分割,是指对根据水位阈值粗分割得到的子时间序列再次进行分割,提取子时间序列中的所有极大值和极小值构成极大值序列和极小值序列,从极小值序列中选取第一个极小值点,再从极大值序列中选择第一个大于极小值点的极大值,然后从极小值序列中选择第一个大于选择的极大值点的极小值,以两个极小值作为分割点对子时间序列进行分割,直到遍历完子时间序列。前述的步骤1-2)中串行聚类包括以下步骤:1-2-1)选取凝聚点,所述凝聚点的选择包括以下几种方式:a、按实际经验选择;b、将样本数据分为k类,计算每一类的样本均值作为该类的凝聚点;c、将全部样本的均值作为第一个凝聚点,然后依次考察,若考察样本与现有凝聚点距离大于某一阈值则作为新的凝聚点;d、选择密度最大的样本点作为第一个凝聚点;1-2-2)进行初始分类,是指样本按某种准则向凝聚点聚集,得到初始分类;1-2-3)判断分类是否合理,如果合理,则转入步骤1-2-5),如果不合理,则转入步骤1-2-4);所述判断分类是否合理的规则为:评判簇内的子时间序列相似性和簇间的差异性;1-2-4)修改分类,按照某种距离最优性规则逐步修改分类,直到分类合理为止;1-2-5)生成最终分类。前述的步骤1-3)中,选取最初的所有子时间序列作为初始参考序列集。前述的步骤1-4)中,对参考序列集进行训练包括以下步骤:1-4-1)最大方差训练,是指利用序列与剩余序列之间的距离方差来衡量序列之间的差异性,如果距离方差大于某一设定值,则表明在该参考序列集中,该序列与剩余序列之间的距离不稳定,通过最大方差训练从参考序列集中得到具有相同特征的序列;1-4-2)最小相关性训练,是指利用统计学的相关性分析,剔除所述步骤1-4-1)中得到的距离不稳定的序列中相关性过大的序列;1-4-3)最大过滤训练,是指利用来自同一时间序列总体中的查询序列作为训练序列集,使用无监督方法对参考序列集进行逐步判别训练,设置参考序列集对训练序列集的误差作为参考序列集训练结果的评价标准。前述的步骤1-5)对水文时间序列进行嵌入索引计算包括以下步骤:1-5-1)初始化索引位置,是指采用滑动窗口的形式构建索引,将原始序列映射到欧式向量空间中,确定原始序列的长度并初始化索引的起始位置;1-5-2)判断是否对原始序列都建立索引,如果原始序列对于所有参考序列集都建立索引并达到了原始序列的末尾,则索引结束;如果原始序列并没有都建立索引,则窗口向后移动;1-5-3)判断对于所有参考序列是否都建立索引,是指判断是否所有的参考序列都对于原始序列建立了索引,如果所有的参考序列都对于原始序列建立了索引,则转到步骤1-5-2),否则选择下一个参考序列并计算索引;1-5-4)计算参考序列集与原始时间序列的DTW距离,是指对于每一个参考序列集,计算其与原始序列滑动窗口的DTW距离;1-5-5)存储索引向量并存储索引向量对应的DTW距离,是指将索引向量以及索引向量对应的DTW距离存储到欧式向量空间中,在线搜索则搜索此欧式向量空间。前述的步骤2-1)中,查询序列索引计算公式如式(I)所示:F (Q) = (D (R1, Q),D (R2, Q),...,D (Rd, Q))⑴其中,Q为查询序列,R1, R2,……,Rd为参考序列集中的参考序列,D(R11Q)表示参考序列集中的参考序列R1和查询序列Q的DTW距离,i = 1,2,……,d,F(Q)为查询序列计算得到的索引。有益效果:与现有技术相比,本专利技术所提供的快速水文时间序列相似性搜索方法,在引入时间序列嵌入索引的基础上,结合水文时间序列的特点提出水文时间序列的快速搜索方法,该方法通过序列分割、聚类和参考集训练从原始序列中获取参考序列集,在此基础上通过索引计算方法,将相似性搜索过程映射到欧氏向量空间的搜索,从而提高了搜索效率。本专利技术还研究了符合水文时间序列特征的参考序列的选择方法和欧式索引向量空间的优化方法,提高了嵌入式索引搜索的有效性,能够满足防洪调度中快速洪水过程相似搜索的要求。【附图说明】图1为本专利技术的水文时间序列嵌入式索引搜索流程图;图2为本专利技术实施例的时间序列洪峰分割流程图;图3为本专利技术实施例的动态聚类流程图;图4为本专利技术实施例的参考序列集训练流程图;图5为本专利技术实施例的嵌入式索引生成流程图。【具体实施方式】现结合附图和【具体实施方式】对本专利技术作进一步详细说明。本专利技术将动态时间弯曲距离应用于水文本文档来自技高网...

【技术保护点】
一种基于嵌入式索引的水文时间序列相似性搜索方法,其特征在于,包括以下步骤:1)离线准备阶段,具体包括:1‑1)对水文时间序列进行洪峰分割,具体是指根据水文时间序列的状态趋势变化关系寻找洪峰模式的起止时间点,然后采用起止时间点间的子序列代表洪峰模式,最终完成洪峰模式的提取;1‑2)串行聚类,具体是指对于所述步骤1‑1)分割得到的洪峰模式子序列集分成多个组,使组内的子序列之间相似性最高而组间差异性大于某一设定值;1‑3)生成初始参考序列集;1‑4)对参考序列集进行训练;1‑5)对水文时间序列进行嵌入索引计算,具体是指把得到的参考序列集对原始序列进行嵌入索引的计算,通过参考序列把原始序列映射到欧氏向量空间中;2)在线搜索阶段,具体包括:2‑1)查询序列索引,计算查询序列与参考序列集中每一个参考序列的DTW距离,将查询序列映射到欧式空间向量中;2‑2)欧式空间搜索,对于每一个查询序列,与嵌入式序列索引空间中的每一个向量之间进行欧氏距离的计算,取距离最小的前k个向量作为候选集;2‑3)后选集生成,根据得到的候选集,判断最初始的起始位置,根据起始位置进行匹配并不断的沿着时间序列移动位置;2‑4)候选集精炼,在候选集相邻范围内进行原始DTW的匹配;2‑5)匹配序列生成,根据匹配结果,选择相似性最高的原始序列作为最终的匹配结果。...

【技术特征摘要】

【专利技术属性】
技术研发人员:万定生肖艳王亚明余宇峰李士进张鹏程
申请(专利权)人:河海大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1