【技术实现步骤摘要】
一种负载自适应的分布式空间文本流数据处理系统
[0001]本专利技术属于流数据处理领域,尤其涉及一种负载自适应的分布式空间文本流数据处理系统。
技术介绍
[0002]基于地理位置的服务的发展导致了空间文本数据的爆炸式增长。社交媒体用户使用微博和微信等社交平台发布含有位置信息的帖子,生活服务平台例如美团等提供外卖和跑腿等同城服务,打车软件也会基于顾客位置信息来给附近的出租车司机发放订单。这些服务在便民的同时也促使了大规模地理标记文本数据流的产生,这些包含空间信息的文本数据含有大量有价值的信息,因此一个具备实时性和高吞吐量的空间文本流数据处理系统尤为重要。
[0003]现有技术通常使用Hadoop或Spark等框架来处理大规模数据集。通过扩展Hadoop来支持空间文本数据并行处理的SpatialHadoop和Hadoop
‑
GIS是基于磁盘的空间分析系统,对于流式空间文本数据的实时性不够好。GeoSpark和LocationSpark是基于Spark的分布式空间数据分析系统,前者采用了quadtree和R
‑
tree两种空间索引结构来支持空间链接,范围查询和kNN查询;后者通过查询调度器和本地查询执行器扩展了Spark。这些基于磁盘和内存的系统侧重于静态空间数据,不适合大规模流数据,存在巨大的通信成本和负载不均衡问题。
技术实现思路
[0004]本专利技术的目的在于针对现有技术不适合空间文本流数据,以及通信成本高和负载不均衡等缺陷,提供一种负载自适应的分布式空间 ...
【技术保护点】
【技术特征摘要】
1.一种负载自适应的分布式空间文本流数据处理系统,其特征在于,该系统包括:数据输入层,用于读取流式空间文本数据对象和空间查询,并进行解析和预处理后,得到包含标识符、地理位置、文本数据和产生时间的空间文本数据对象四元列表以及包含标识符、查询范围、关键字和查询持续时间的空间查询四元列表;分区路由层,根据来自数据输入层的流式空间文本数据对象和空间查询的四元列表进行空间分区的路由操作;匹配处理层,基于分区路由层的空间分区,在空间查询的持续时间内,存储并连续匹配满足查询空间范围和查询关键字集合的空间文本数据对象;负载均衡层,用于实时监控和收集匹配处理层中匹配处理层的负载信息,并在负载失衡时,调用负载自适应策略,并对局部空间分区重新划分,以满足负载均衡;数据存储层,用于存储匹配处理层中的过时数据。2.如权利要求1所述的一种负载自适应的分布式空间文本流数据处理系统,其特征在于,所述数据输入层将空间文本数据对象的流数据进行解析,处理成后续容易操作的四元列表;所述空间文本数据对象为含有位置信息的文本数据,将其处理为四元列表L
o
=[oid,loc,text,ts],oid为数据对象标识符,loc为地理位置,text为文本数据,ts为产生时间;所述空间查询为包含空间范围和关键字限定的过滤查询,将其处理为四元列表L
q
=[qid,MBR,text,t],qid为查询标识符,MBR为查询空间范围的矩形边界,text为查询关键字集合,t为查询持续时间。3.如权利要求1所述的一种负载自适应的分布式空间文本流数据处理系统,其特征在于,所述分区路由层对空间文本数据对象和空间查询进行索引和搜索空间分区;每一个空间分区对应连续单元格组成的矩形区域,空间分区中的每一个单元格均包含该空间分区的标识符信息和边界信息;空间文本数据对象的loc信息确定唯一的空间分区,而查询的空间范围会覆盖多个空间分区。4.如权利要求3所述的一种负载自适应的分布式空间文本流数据处理系统,其特征在于,空间分区所占据的矩形区域的划分具有顺序,首先在横向或纵向上进行第一维度的切分,形成候选空间分区,然后再对候选空间分区在另一个维度上进行切分,以形成空间分区:定义两个二元组(xmin,ymin),(xmax,ymax)来表示空间分区的位置,(xmin,ymin)为空间分区的左下角单元格坐标,(xmax,ymax)为空间分区的右上角单元格坐标。空间查询在遍历所覆盖的空间分区时,通过<y不变,xmax+1>的方法向右移动,遍历同一候选空间分区中的其他空间分区,然后再将x变为此候选空间分区的第一个主单元格横坐标,对y进行ymin
‑
1操作,向下移动,到达其他候选空间分区,从而遍历空间查询所覆盖的所有空间分区;定义一个主单元格,即空间查询所覆盖的空间分区的左上角单元格。在进行邻近空间分区搜索时只访问主单元格。5.如权利要求4所述的一种负载自适应的分布式空间文本流数据处理系统,其特征在于,在邻近搜索时,当向右移动到未被查询空间范围覆盖到的空间分区时,改变y值进入其他候选空间分区进行遍历;当向下移动到未被查询空间范围覆盖到的空间分区,则路由操作结束。6.如权利要求1所述的一种负载自适应的分布式空间文本流数据处理系统,其特征在
于,所述匹配处理层由多个处理单元组成,每一个空间分区对应一个处理单元,每个处理单元都维护...
【专利技术属性】
技术研发人员:高杨,王新根,黄滔,陈伟,牛诗雅,
申请(专利权)人:浙江邦盛科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。