一种基于Hadoop+Hbase的农业时序数据组织方法技术

技术编号:7759272 阅读:468 留言:0更新日期:2012-09-14 01:25
一种基于Hadoop+Hbase的农业时序数据组织方法,属于农业经济技术信息的分析领域。主要解决了具有时间属性的农业经济技术海量数据在Hadoop+Hbase云计算基础平台上的科学组织问题,用于海量数据的存储。技术方案的要点是在数据组织存储阶段,利用多数农业经济技术数据具有时间属性、较晚的数据被查询的概率较高的的实际情况下,在原始数据中增加与实际时间数据辅助的反向时序数据,反向时序值与实际时间值在数值上是负相关的,因此实际时间越晚反向时序值越小,升序排列越靠前,在顺序查找时越能较快查到。在数据查询阶段,将用户在查询条件中提供的实际时间值转换为反向时序值,组成主键键值,实现快速查询。

【技术实现步骤摘要】

农业经济技术信息的分析领域。ニ
技术介绍
目前农业信息化发展迅速,农业网站建设、农业电子商务、农业市场信息、农业经济信息通过国际互联网迅速富集,在移动互联网迅速发展的未来,农业经济技术信息还有爆发式增长的趋势。这ー方面是农业信息化发展、农业产业化、农业现代化发展的必然结果,另一方面也为我们采集、存储、利用这些海量信息为农业生产服务提出了新的需求。当今,以Hadoop为代表的Key-Value NoSQL云计算技术,以其廉价、稳定、通用,已经逐渐成为各个行业进行海量数据采集、存储和分析的主要平台。其技术在应用中不断得到改进和发展。但是,在农业海量信息处理领域,还是刚刚起歩。结合农业生产和经营的特点形成的海量数据,以及围绕这些数据形成的数据处理利用的需求,都还缺乏很多公知的技术手段进行高效的处理。本专利技术解决的问题是在云计算基础平台Hadoop之上部署的大型数据库Hbase,然后存储。在利用中发现查询结果发挥很慢,用户体验很差。经过研究发现与数据的组织方式有很大关系,因为Hadoop是基于主键顺序查找数据的,主键顺序设计不合理,就会直接影响查询结果返回的速度。很多数据都是具有时间顺序属性的,例如农产品的农贸市场价格信息是按照年月日的顺序采集、存储的,再如农产品期货市场价格信息是按照年月日和时分秒的顺序采集、存储的,还有农业气象的数据也是按照年月日和时分秒的时间顺序采集、存储的。越早的数据时间值越小,主键的字母序越是排在前面,查询就快,越新的数据时间值越大,主键的字母序越是排在后面,查询就慢。因为多数情况下,用户是使用最新的数据,所以就会频繁出现查询速度慢的情况。
技术实现思路
本专利技术的目的是研究一种对于具有时间属性的农业经济技术数据的组织方法,以便解决存储在Hadoop+Hbase云计算基础平台上的农业经济技术数据查询速度慢的问题。为实现本专利技术的目的提供一种对于具有时间顺序的农业经济技术数据的组织方法,包括下列步骤步骤100.在数据组织阶段,为农业经济技术数据増加反向时序数据。步骤200.在数据查询阶段,将用户在查询条件中提供的实际时间值转换为反向时序值,组成主键,进行查询。所述步骤100,具体包括如下步骤步骤110.选定实际时间的时间粒度时间按粒度大小可依次分为年度、年度+月份、年+月+日、年+月+日+小时、年+月+日+小时+分钟、年+月+日+小时+分钟+秒钟、年+月+日+小吋+分钟+秒钟+毫秒等多种类型。要根据需要选定其中ー种。步骤120.设定历史參照时序值设定ー个历史的时刻为历史參照时间点,它是与、实际时间的时间粒度一致的时间值,该时间值应当比需要存储数据的时间值都要小,通常是在实际时间中不可能出现的久远的历史时刻。进ー步将这个时间值转化为一个长整型正数,即历史參照时序值,其数值等于I;步骤130.设定未来參照时序值设定ー个未来很遥远的本系统存储的数据不能抵达的未来时间点,它是与实际时间的时间粒度一致的时间值,该时间值应当比需要存储数据的时间值都要大。进ー步根据历史參照时序值将这个时间值转化为ー个长整型正数,即未来參照时序值。该未来參照时序值的字符个数定义为时间内容在主键中占据的标准字符个数。步骤140.设置ー个时间字段和一个反向时序字段时间字段用于存放该数据集的实际时间值。反向时序字段用于存放该数据集的反向时序值,反向时序值与实际时间值 对应存放; 步骤150.计算反向时序值为每ー个实际时间值计算对应的反向时序值。反向时序值=未来參照时序值-实际时序值。其中实际时序值等于实际时间值以历史參照时间值为參照转换的一个长整型正数,是实际时间值距离历史參照时间值的时间单位个数。实际时序值越大,反向时序值越小。步骤160.用反向时序值组建主键。将反向时序值作为主键的重要一部分,组建数据的主键与其它数据一起存入数据库。注意,如果反向时序值的字符个数没有达到标准字符宽度,要在左侧用O补齐后在组合主键键值。所述步骤200中,包括如下步骤·步骤210.将用户选择的实际时间值,转化为实际时序值。实际时序值等于用户选择的实际时间值距离以历史參照时间值的时间单位个数,为ー个长整型正数。步骤220.计算对应的反向时序值反向时序值=未来參照时序值-实际时序值。步骤230.利用反向时序值组合成数据主键的键值。如果反向时序值的字符个数没有达到标准字符宽度,要在左侧用O补齐后在组合主键键值。步骤240.按主键键值查询Hbase数据库,从查询结果中可以获得与反向时序值对应的实际时间的数据。 本专利技术的优点或积极效果是本专利技术不需改变直接适应基础平台Hadoop+Hbase,方法简单,易于实施,适用多数的有时间顺序属性的数据,又能显著提高查询速度,改善客户体验。四附图说明图I是本专利技术提出的基于Hadoop+Hbase的海量农业经济技术数据组织存储和查询方法的步骤流程图;图2是本专利技术提出的计算反向时序字段数据的具体步骤流程图;图3是本专利技术提出的根据用户查询的实际时间值換算主键键值的具体步骤流程图。五具体实施例方式下面结合流程图和实例进ー步说明本专利技术实施方式。应当理解,此处描述的具体实施例仅仅用以解释本专利技术,并不用干限制本专利技术。如图I所示,本专利技术可分为数据组织阶段和数据查询阶段,包括下列步骤步骤100.在数据组织阶段,为农业经济技术数据増加反向时序数据。对于具有时间属性的农业经济和技术数据,存储量是随着时间延续不断增长的,因此原始数据中的实际时间通常是越来越晚的,其数值是越来越大的。所以,如果按照原始数据中实际时间值建立主键,则实际时间早实际时间值小的数据就会先被查询到,而实际时间晚实际时间值大的数据就会后被查询到,因此查询结果返回就慢。而我们为原始数据增加的辅助性数据反向时序字段,其反向时序值与实际时间值呈反相关,实际时间值越大,反向时序值越小,用来组建主键就容易查询到了。所以,本步骤是计算与实际时间值对应的反向时序值,并增加到原始数据中去。结合图2说明以下详细步骤 步骤110.设定时间类型做主键的时间类型按时间按粒度大小可依次分为年度、年度+月份、年+月+日、年+月+日+小时、年+月+日+小吋+分钟、年+月+日+小时+分钟+秒钟、年+月+日+小吋+分钟+秒钟+毫秒等多种类型。要根据需要选定其中一种,以下以年+月+日为例说明。步骤120.设定历史时间点及历史參照时序值先设定ー个历史时间点,它与实际时间的时间粒度一致,应比需要存储数据的时间值都小。设定对应该历史时间值的历史參照时序值为I。针对所选择的时间类型,设定历史參照时序值。先设定历史时间点,本实施例时间类型为年+月+日,所以历史时间点设定为公元1900年I月I日,对应的历史參照时序值为I。步骤130.设定未来參照时序值先设定未来參照时间值,针对农业经济技术数据可设定为公元5000年12月31日。因为该未来參照时间值距历史參照时间值的时间单位个数即天数为1132618,所以,可得到对应的未来參照时序值为1132618。该未来參照时序值共有7个字符,所以本实施例的标准字符个数为7。步骤140.设定时间字段和反向时序字段先设定ー个类型为年+月+日的时间字段,存放该数据集的实际时间值;再设定ー个具有标准字符个数7的反向时序字段,存放该数据集的反向时序值。反向时序值与实际时间值在同一本文档来自技高网
...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:崔文顺郭作玉崔硕王昕曹亚男
申请(专利权)人:农业部信息中心北京华夏神农信息技术有限公司廊坊市大华夏神农信息技术有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1