当前位置: 首页 > 专利查询>河海大学专利>正文

交通数据流的聚集查询方法及系统技术方案

技术编号:10652657 阅读:184 留言:0更新日期:2014-11-19 15:06
本发明专利技术公开了交通数据流的聚集查询方法及系统,属于信息技术处理领域。方法获取移动对象的时空信息生成交通数据流,将数据空间划分为子单元,把频率相似的邻近的单元分组成少数的桶,基于桶的频率计算桶的卡尔曼增益,并用二叉划分树来索引桶形成当前时间戳的BPT索引,在当前时间戳结束后将BPT序列化形成历史索引;进行聚集查询,当桶频率变化过大时,利用桶频率最优估计值代替计算聚集查询值。系统包括:信息收集模块、数据处理模块、索引处理模块、应用服务模块和索引存储模块。本发明专利技术能够有效的抑制交通数据流查询过程中异常点的最大相对误差,保障聚集查询方法的可用性。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了交通数据流的聚集查询方法及系统,属于信息技术处理领域。方法获取移动对象的时空信息生成交通数据流,将数据空间划分为子单元,把频率相似的邻近的单元分组成少数的桶,基于桶的频率计算桶的卡尔曼增益,并用二叉划分树来索引桶形成当前时间戳的BPT索引,在当前时间戳结束后将BPT序列化形成历史索引;进行聚集查询,当桶频率变化过大时,利用桶频率最优估计值代替计算聚集查询值。系统包括:信息收集模块、数据处理模块、索引处理模块、应用服务模块和索引存储模块。本专利技术能够有效的抑制交通数据流查询过程中异常点的最大相对误差,保障聚集查询方法的可用性。【专利说明】交通数据流的聚集查询方法及系统
本专利技术涉及交通数据流的聚集查询方法及系统,属于信息技术处理领域。
技术介绍
随着物联网、社交网络和云计算技术等的蓬勃发展,大量的业务应用产生了呈指 数级别增长的数据流数据,使得对数据进行分析和挖掘,发现其中蕴含的自然规律和人类 活动信息,已经变得前所未有的迫切;通过扫描大量数据元组获取统计和概要信息的聚集 查询作为数据分析最常见的查询方式被广泛使用;例如:为了分析和控制交通流、缓解交 通压力,交通监控系统经常关注特定时段内特定路段上移动车辆的近似概要信息(如:南 京市新街口上下班高峰期大约有多少辆车通过?)。由于数据流具有实时性、无限性、瞬时 性、流速不定性以及元数据无穷性等特点,尽管云计算技术具有天生的并行计算能力,也难 以对整个数据集进行聚集查询以在较短时间内获取精确的查询结果,所以,在实际应用中 往往利用高质量的近似聚集查询结果以代替精确结果。虽然近年来,近似聚集查询的研究 成果显著;但是面对人们对查询精度要求的逐步提高,滑动窗口技术、随机采样技术、小波 技术、草图索引结构、直方图技术等典型的近似聚集查询方法均以平均查询误差的大小去 衡量算法的优劣,忽略了能够产生最大相对误差或者较大相对误差的异常点对方法本身性 能的影响(聚集查询方法的可用性往往是由最大相对误差决定),使得近似聚集查询的精 度已经无法替代精确查询。 针对这种情况,本专利技术运用卡尔曼滤波器原理对交通流经典聚集查询方法进行改 进,通过校正状态先验估计以获得后验估计的方法,利用桶的频率最优估计计算异常点聚 集值,有效地抑制异常点的最大相对误差,为聚集查询方法的可用性提供可靠保障。
技术实现思路
本专利技术所要解决的技术问题是针对现有近似聚集查询技术忽略了能够产生最大 相对误差的不足,采用运用卡尔曼滤波器原理通过校正状态先验估计以获得后验估计的方 法,利用桶的频率最优估计计算异常点聚集值,提出了一种交通数据流的聚集查询方法及 系统。 本专利技术为实现上述专利技术目的采用如下技术方案: 交通数据流的聚集查询方法,包括如下步骤: 步骤1,采集移动对象信息,将移动对象信息转化为计算机可处理的数据形式,在 系统时间戳到来时数据流; 步骤2,在系统时间戳到来时生成、更新索引文件: 步骤2-1,初始化第一个系统时间戳的数据流生成的索引文件:采用合理直方图 将数据空间分割为ω ·ω的单元,以当前时间戳内单元内的移动对象数量表示该单元的频 率,再将频率相似的邻近单元组成一个桶,形成η个桶,0〈η < Β,ω为分辨率,Β为桶数目的 上限, 对于每个桶:以桶中所有单元的平均频率作为该桶的频率,计算该桶中各单元平 均频率方差的平均值、该桶的方差以及卡尔曼增益; 步骤2-2,在下一系统时间戳到来时,利用卡尔曼滤波原理更新索引文件: 步骤2-2-1,当第c单元中的数据变化时,记数据变化量为d,更新第c单元的频率 6 : C =LF。= Fe+d,其中:f为前一时间戳单元c的频率,1彡c彡c〇2,d为任意实数; 步骤2-2-2,遍历当前时间戳的索引文件找到包含数据量变化单元的桶,对于第b 个桶,第b个桶包含有nb个单元,b〈n,nb〈c〇 · ω : 更新第 b 个桶的频率 fb:,/6=/&-+<Ag = /62-/6-2, 更新第b个桶中各单元频率平方的平均值gb、方差vb : ^ (?/,-? + ^g)/nh, v, - gh - fl , 更新第b个桶中第i单元的卡尔曼增益,Fi为第i单元的频率: 【权利要求】1.交通数据流的聚集查询方法,其特征在于包括如下步骤: 步骤1,采集移动对象信息,将移动对象信息转化为计算机可处理的数据形式,在系统 时间戳到来时数据流; 步骤2,在系统时间戳到来时生成、更新索引文件: 步骤2-1,初始化第一个系统时间戳的数据流生成的索引文件:采用合理直方图将数 据空间分割为ω · ω的单元,以当前时间戳内单元内的移动对象数量表示该单元的频率, 再将频率相似的邻近单元组成一个桶,形成η个桶,0〈η<Β,ω为分辨率,Β为桶数目的上 限, 对于每个桶:以桶中所有单元的平均频率作为该桶的频率,计算该桶中各单元平均频 率方差的平均值、该桶的方差以及卡尔曼增益; 步骤2-2,在下一系统时间戳到来时,利用卡尔曼滤波原理更新索引文件: 步骤2-2-1,当第c单元中的数据变化时,记数据变化量为d,更新第c单元的频率F。: t =€,巧=€ +?/,其中:C为前一时间戳单元c的频率,1彡c彡ω2, d为任意实数; 步骤2-2-2,遍历当前时间戳的索引文件找到包含数据量变化单元的桶,对于第b个 桶,第b个桶包含有n b个单元,b〈n,nb〈c〇 · ω : 更新第 b 个桶的频率 fb :,/; = /6- + < Ag = :, 更新第b个桶中各单元频率平方的平均值gb、方差vb : gh 二、nh.gh + Ng)/nh,vh 二 gh -片, 更新第b个桶中第i单元的卡尔曼增益,匕为第i单元的频率:当Fi>fb时,第i单元的卡尔曼增益为: 当匕< fb时,第i单元的卡尔曼增益为 计算出第b个桶中频率大于平均频率的单元数目nbl,更新第b个桶的卡尔曼增益Kgb : KSh =?,"*%; +(/?/?_/7m),A^ ! 1 ^ i ^ nbl ^ nb ; 步骤2-2-3-A,对于需要分裂的桶,计算每个需要分裂桶的最高分割利益和最优划分位 置,按照最优划分位置将需要分裂的桶分为两个子桶,并且设置前一系统时间戳内两个子 桶的频率均与分裂前桶的频率相等,重复步骤2-2-1 ; 步骤2-2-3-B,对于不需要分裂的桶,在索引中桶的数量达到上限时,利用最小合并惩 罚原理将频率集中的多个桶合并为一个桶,重复步骤2-2-1 ; 步骤2-2-3-C,对于不需要分裂的桶,在索引中桶的数量未达上限且当前系统时间戳尚 未结束的情况下,返回步骤1 ; 步骤2-2-3-D,对于不需要分裂的桶,在索引中通的数量未达上限且当前时间戳结束的 情况下,提取当前时间戳的索引文件生成历史索引; 步骤3,在生成更新索引文件的同时,根据用户的查询请求SUM(r,ts,te)对空间区域 r进行交通数据流查询,提取查询时间区间的系统时间戳,对于每个时间戳执行空 间聚集查询:遍历当前时间戳t的索引文件,利用如下表达式求得当前时间戳下空间区本文档来自技高网
...
交通数据流的聚集查询方法及系统

【技术保护点】
交通数据流的聚集查询方法,其特征在于包括如下步骤:步骤1,采集移动对象信息,将移动对象信息转化为计算机可处理的数据形式,在系统时间戳到来时数据流;步骤2,在系统时间戳到来时生成、更新索引文件:步骤2‑1,初始化第一个系统时间戳的数据流生成的索引文件:采用合理直方图将数据空间分割为ω·ω的单元,以当前时间戳内单元内的移动对象数量表示该单元的频率,再将频率相似的邻近单元组成一个桶,形成n个桶,0<n≤B,ω为分辨率,B为桶数目的上限,对于每个桶:以桶中所有单元的平均频率作为该桶的频率,计算该桶中各单元平均频率方差的平均值、该桶的方差以及卡尔曼增益;步骤2‑2,在下一系统时间戳到来时,利用卡尔曼滤波原理更新索引文件:步骤2‑2‑1,当第c单元中的数据变化时,记数据变化量为d,更新第c单元的频率Fc:其中:为前一时间戳单元c的频率,1≤c≤ω2,d为任意实数;步骤2‑2‑2,遍历当前时间戳的索引文件找到包含数据量变化单元的桶,对于第b个桶,第b个桶包含有nb个单元,b<n,nb<ω·ω:更新第b个桶的频率fb:,fb=fb-+d,Δg=fb2-fb-2,]]>更新第b个桶中各单元频率平方的平均值gb、方差vb:gb=(nb·gb-+Δg)/nb,vb=gb-fb2,]]>更新第b个桶中第i单元的卡尔曼增益,Fi为第i单元的频率:当Fi>fb时,第i单元的卡尔曼增益为:当Fi≤fb时,第i单元的卡尔曼增益为:计算出第b个桶中频率大于平均频率的单元数目nb1,更新第b个桶的卡尔曼增益Kgb:Kgb=nb1·Kgi++(nb-nb1)·Kgi-,]]>1≤i≤nb1≤nb;步骤2‑2‑3‑A,对于需要分裂的桶,计算每个需要分裂桶的最高分割利益和最优划分位置,按照最优划分位置将需要分裂的桶分为两个子桶,并且设置前一系统时间戳内两个子桶的频率均与分裂前桶的频率相等,重复步骤2‑2‑1;步骤2‑2‑3‑B,对于不需要分裂的桶,在索引中桶的数量达到上限时,利用最小合并惩罚原理将频率集中的多个桶合并为一个桶,重复步骤2‑2‑1;步骤2‑2‑3‑C,对于不需要分裂的桶,在索引中桶的数量未达上限且当前系统时间戳尚未结束的情况下,返回步骤1;步骤2‑2‑3‑D,对于不需要分裂的桶,在索引中通的数量未达上限且当前时间戳结束的情况下,提取当前时间戳的索引文件生成历史索引;步骤3,在生成更新索引文件的同时,根据用户的查询请求SUM(r,ts,te)对空间区域r进行交通数据流查询,提取查询时间区间[ts,te]的系统时间戳,对于每个时间戳执行空间聚集查询:遍历当前时间戳t的索引文件,利用如下表达式求得当前时间戳下空间区域r在各桶的聚集查询值:SUM=fbi·Sintr·ω2,vbi≤(fbi-fbi-)2[fbi-+Kgbi(fbi-fbi-)]·Sintr·ω2,vbi>(fbi-fbi-)2,]]>SUM为空间区域r在第bi个桶的聚集查询值,Sintr为空间区域r与第bi个桶相交区域的面积,fbi为当前时间戳第bi个桶的平均频率,为前一时间戳t‑第bi个桶的平均频率,vbi第bi个桶的方差,将每个时间戳的查询值求和形成最终的聚集查询值。...

【技术特征摘要】

【专利技术属性】
技术研发人员:冯钧唐志贤朱忠华査显月杜丙帅许潇王超朱跃龙李士进万定生
申请(专利权)人:河海大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1