当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于轨迹大数据最近邻查询的个性化推荐方法技术

技术编号:15724725 阅读:108 留言:0更新日期:2017-06-29 11:00
本发明专利技术公开了一种基于轨迹大数据最近邻查询的个性化推荐方法。本发明专利技术基于轨迹大数据最近邻查询,设计高效的存储和索引结构来处理轨迹大数据。本发明专利技术首先对轨迹大数据进行抽取、降噪、转换和存储处理,而后对被存储的轨迹数据建立全局的R树索引和局部的R树索引,并对每个分区建立基于轨迹编号集合的索引和基于轨迹数目的索引。在用户提交查询时,通过访问本发明专利技术的索引结构,进行基于轨迹大数据最近邻查询以提供个性化推荐服务。本发明专利技术很好地满足了大数据环境下轨迹最近邻查询的需求,极大地提高了轨迹大数据最近邻查询的处理效率,提供了最佳的性能。

【技术实现步骤摘要】
一种基于轨迹大数据最近邻查询的个性化推荐方法
本专利技术涉及计算机空间数据库领域中的索引和查询技术,特别是涉及一种基于轨迹大数据最近邻查询的个性化推荐方法。
技术介绍
随着带有GPS的设备爆炸式增长和广泛普及,时空轨迹数据(譬如人、车辆和动物等)正以极快的速度增长,并用于支撑基于位置的服务、城市计算、用户个性化推荐、动物行为研究等许多领域的应用和服务。在当前的大数据时代,针对轨迹大数据的查询算法也越来越受到关注。其中,基于轨迹大数据的最近邻查询是一个重要的查询方法,并具有重要的实际应用价值。针对轨迹大数据的最近邻查询是指从轨迹数据集中找出到一个指定查询对象距离最近的轨迹。基于轨迹大数据最近邻查询能够应用于基于位置的服务(如个性化推荐)。设计一种方法以高效地管理、预处理和分析这样大规模的轨迹数据,支持最近邻查询,可以促进轨迹大数据处理技术的发展和应用,并为各相关领域和应用的轨迹数据分析提供便利,促进个性化推荐服务的发展。然而,设计这样的方法面临着两个挑战。第一,轨迹数据的现有规模非常大且增长速度非常快,但目前最有效的轨迹处理算法大多是基于集中式而不易扩展的系统架构,由于数据量过大,单个机器处理的效率太低甚至无法使用。第二,近年来针对多维数据设计和构建的分布式框架也并不完全适用于大规模轨迹数据的处理任务。若不对这些系统进行修改,则无法集成针对轨迹数据的优化来高效地支持轨迹大数据环境下的最近邻查询算法。
技术实现思路
本专利技术很好地弥补了上述两个缺陷,提出了一种基于轨迹大数据最近邻查询的个性化推荐方法。本专利技术解决其技术问题采用的技术方案的步骤如下:一种基于轨迹大数据最近邻查询的个性化推荐方法,该方法包括如下步骤:步骤(1):从原始的大数据中抽取有效的轨迹大数据;步骤(2):对步骤(1)中抽取出来的轨迹大数据进行降噪处理;步骤(3):将步骤(2)中已经降噪过的轨迹大数据转换成不同的形式,并利用HDFS进行存储;步骤(4):对步骤(3)中已经存储的轨迹大数据建立全局的R树索引和局部的R树索引;步骤(5):利用步骤(4)建立的索引结构对每个分区建立基于轨迹编号集合的索引和基于轨迹数目的索引;步骤(6):用户提交个性化推荐查询,通过访问步骤(4)和步骤(5)建立的索引结构,进行轨迹大数据最近邻查询,并根据轨迹大数据最近邻查询的结果向用户进行个性化推荐。进一步的,所述步骤(1)具体为:从原始的数大据抽取时空大数据,而后将时空大数据按照时间进行组合,进而拼接成有效的轨迹大数据。进一步的,所述步骤(2)具体为:对步骤(1)中抽取出来的轨迹大数据进行离群点检测和异常点检测,并对检测的结果进行评估,从而删除或者矫正相应的离群点或异常点。进一步的,所述步骤(3)具体为:对步骤(2)中降噪后的轨迹大数据进行转换,转换成时空点、轨迹点和轨迹段三种形式,并存储在HDFS中。进一步的,所述步骤(4)中建立全局的R树索引和局部的R树索引的具体步骤如下:(4.1)将存储在HDFS中的轨迹大数据切分到各个分区中,同时保证数据切分的负载均衡;(4.2)对各个分区建立基于R树的局部索引,并将必要的分区信息返回到主节点中;(4.3)主节点根据各个分区的信息建立基于R树的全局索引,并将建好索引的数据通过具象化的方式存储在HDFS中。进一步的,所述步骤(5)具体为:利用步骤(4)建立的索引结构,在各个分区中分别计算当前分区的轨迹编号集合和轨迹数目,并根据各个分区的轨迹编号集合建立基于轨迹编号集合的索引,根据各个分区的轨迹数目建立基于轨迹数目的索引,最后存储到HDFS中。本专利技术具有的有益效果是:本专利技术充分结合了Map-Reduce架构和现有的空间数据库中的索引技术以及最近邻查询技术在轨迹大数据环境下的研究和实现成果,创新性地提出基于R树的全局索引和基于R树的局部索引这两层索引,并基于这两层索引提出了基于轨迹编号集合的索引和基于轨迹数目的索引,不仅真正意义上实现了轨迹大数据环境下的最近邻查询,还对查询过程进行了进一步优化,大大提高了最近邻查询的容量和效率,提供了轨迹大数据环境下查找某个空间对象的最近轨迹对象的服务从而实现个性化推荐,使用者可以根据应用需求选择最适合的参数,以提供最好的性能和服务。附图说明图1是本专利技术数据处理实施步骤流程图。图2是轨迹大数据最近邻查询工作原理示意图。图3(a)是基于轨迹编号集合的索引示例图,图3(b)是基于轨迹数目的索引示例图。具体实施方式先结合附图和具体实施案例对本专利技术的技术方案作进一步说明。1.如图1所示,本专利技术中数据处理实施步骤流程如下:步骤(1):从原始的大数据中抽取有效的轨迹大数据;步骤(2):对步骤(1)中抽取出来的轨迹大数据进行降噪处理;步骤(3):将步骤(2)中已经降噪过的轨迹大数据转换成不同的形式,并利用HDFS进行存储;步骤(4):对步骤(3)中已经存储的轨迹大数据建立全局的R树索引和局部的R树索引;步骤(5):利用步骤(4)建立的索引结构对每个分区建立基于轨迹编号集合的索引和基于轨迹数目的索引;步骤(6):用户提交个性化推荐查询,通过访问步骤(4)和步骤(5)建立的索引结构,进行轨迹大数据最近邻查询,并根据轨迹大数据最近邻查询的结果向用户进行个性化推荐。2.如图3(a)和(b)所示,建立基于轨迹编号集合的索引和基于轨迹数目的索引的过程如下:(1)基于轨迹编号集合的索引收集并维持每一个分区所包含的轨迹编号的集合。基于轨迹编号集合的索引,通过对不同分区的轨迹编号集合进行并集操作可以消除不同分区的重复轨迹编号,从而提升了查询的效率。如图3(a)所示,目前存在四个分区,第一个分区里包含τ1,τ2和τ3三条轨迹,所以我们将(1,2,3)这个三元组插入到第一个分区的基于轨迹编号集合的索引中。同理,第二个分区里包括τ2和τ4两条轨迹,所以我们将(2,4)这个二元组插入到第二个分区的基于轨迹编号集合的索引中。剩下的分区以此类推。(2)基于轨迹数目的索引是在分区信息的基础上建立的层次结构,即父节点维持子节点中所有轨迹的数目。如图3(b)所示,第一个分区里包含τ1,τ2和τ3三条轨迹,第二个分区里包括τ2和τ4两条轨迹,第三个分区包括τ1和τ5两条轨迹,第四个分区包括τ2,τ6和τ7三条轨迹。节点N3对应第一个分区,因此其轨迹数目为3,节点N4对应第二个分区,其轨迹数目为2,节点N5的轨迹数目为2,节点N6的轨迹数目为3。节点N1是节点N3和N4的父节点,包括τ1,τ2,τ3和τ4四条轨迹,其轨迹数目为4。同理,节点N2的轨迹数目为5,节点N0的轨迹数目为7。2.如图2所示,轨迹大数据的最近邻查询工作原理如下:步骤(1):接收用户提交的查询knn(k,p,W)并传入系统中;步骤(2):针对步骤(1)提交的查询knn(k,p,W),用户选择通过访问基于轨迹编号集合的索引或者基于轨迹数目的索引构建上界U;步骤(3):基于步骤(2)得到的上界U、查询点p和分区W构建候选集;步骤(4):对步骤(3)的得到的候选集中的每一个分区wi运行当前分区的最近邻查询,并记录结果;步骤(5):遍历步骤(4)中得到的所有分区的最近邻结果,找出最近的k条轨迹,更新结果列表;步骤(6):根据在步骤(5)得到的最终结果,向用户进行个性化推荐;所述的本文档来自技高网...
一种基于轨迹大数据最近邻查询的个性化推荐方法

【技术保护点】
一种基于轨迹大数据最近邻查询的个性化推荐方法,其特征在于:该方法包括如下步骤:步骤(1):从原始的大数据中抽取有效的轨迹大数据。步骤(2):对步骤(1)中抽取出来的轨迹大数据进行降噪处理。步骤(3):将步骤(2)中已经降噪过的轨迹大数据转换成不同的形式,并利用HDFS进行存储。步骤(4):对步骤(3)中已经存储的轨迹大数据建立全局的R树索引和局部的R树索引。步骤(5):利用步骤(4)建立的索引结构对每个分区建立基于轨迹编号集合的索引和基于轨迹数目的索引。步骤(6):用户提交个性化推荐查询,通过访问步骤(4)和步骤(5)建立的索引结构,进行轨迹大数据最近邻查询,并根据轨迹大数据最近邻查询的结果向用户进行个性化推荐。

【技术特征摘要】
1.一种基于轨迹大数据最近邻查询的个性化推荐方法,其特征在于:该方法包括如下步骤:步骤(1):从原始的大数据中抽取有效的轨迹大数据。步骤(2):对步骤(1)中抽取出来的轨迹大数据进行降噪处理。步骤(3):将步骤(2)中已经降噪过的轨迹大数据转换成不同的形式,并利用HDFS进行存储。步骤(4):对步骤(3)中已经存储的轨迹大数据建立全局的R树索引和局部的R树索引。步骤(5):利用步骤(4)建立的索引结构对每个分区建立基于轨迹编号集合的索引和基于轨迹数目的索引。步骤(6):用户提交个性化推荐查询,通过访问步骤(4)和步骤(5)建立的索引结构,进行轨迹大数据最近邻查询,并根据轨迹大数据最近邻查询的结果向用户进行个性化推荐。2.根据权利要求1所述的基于轨迹大数据最近邻查询的个性化推荐方法,其特征在于:所述步骤(1)具体为:从原始的数大据抽取时空大数据,而后将时空大数据按照时间进行组合,进而拼接成有效的轨迹大数据。3.根据权利要求1所述的基于轨迹大数据最近邻查询的个性化推荐方法,其特征在于:所述步骤(2)具体为:对步骤(1)中抽取出来的轨迹大数据进行离群点检测和异常点检测,并对...

【专利技术属性】
技术研发人员:高云君丁欣陈瑞鲍虎军
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1