一种对象数据分析方法及装置制造方法及图纸

技术编号:15039352 阅读:218 留言:0更新日期:2017-04-05 13:08
本发明专利技术实施例公开了一种对象数据分析方法及装置。该方法包括:获取接入数据并置于Hadoop分布式文件系统HDFS中,所述接入数据包括数据生成时间;根据所述数据生成时间提取所述HDFS中的所述接入数据,得到对应预设时间段的对象追溯数据;根据所述预设时间段筛选所述对象追溯数据,得到对象基本数据。本发明专利技术实施例通过由接入数据提取得对象追溯数据,再经筛选得对象基本数据,以对象的角度从海量的数据中分析出有价值的信息。

【技术实现步骤摘要】

本专利技术实施例涉及大数据分析技术,尤其涉及一种对象数据分析方法及装置。
技术介绍
伴随着云时代,大数据引起了越来越多的关注。大数据形式多样化且种类繁多,涉及到大量非结构化数据、半结构化数据和结构化数据。信息技术的不断发展,信息系统的使用规模越来越大且复杂度也与日俱增,对数据底层的数据要求也随之相应变化。在这种情况下,底层数据结构一旦发生变化,必然引起应用系统做出连锁的改动。信息量的膨胀以及数据结构的灵活多变,要求更小、更快、也更简单地描述数据结构;能够“向后”兼容等需求也被提上日程。如何从海量数据中分析出有价值的信息成为亟待解决的问题。
技术实现思路
本专利技术实施例提供一种对象数据分析方法及装置,可以从海量数据中分析出有价值的信息。第一方面,本专利技术实施例提供了一种对象数据分析方法,包括:获取接入数据并置于Hadoop分布式文件系统HDFS中,所述接入数据包括数据生成时间;根据所述数据生成时间提取所述HDFS中的所述接入数据,得到对应预设时间段的对象追溯数据;根据所述预设时间段筛选所述对象追溯数据,得到对象基本数据。第二方面,本专利技术实施例还提供了一种对象数据分析装置,包括:接收数据获取模块,用于获取接入数据并置于Hadoop分布式文件系统HDFS中,所述接入数据包括数据生成时间;对象追溯数据获取模块,与所述接收数据获取模块相连,用于根据所述数据生成时间提取所述HDFS中的所述接入数据,得到对应预设时间段的对象追溯数据;对象基本数据获取模块,与所述对象追溯数据获取模块相连,用于根据所述预设时间段筛选所述对象追溯数据,得到对象基本数据。本实施例通过由接入数据提取得对象追溯数据,再经筛选得对象基本数据,以对象的角度从海量的数据中分析出有价值的信息。附图说明图1是本专利技术实施例一提供的对象数据分析方法流程图;图2是本专利技术实施例二提供的对象数据分析方法流程图;图3是本专利技术实施例三提供的对象数据分析方法流程图;图4是本专利技术实施例四提供的对象数据分析装置结构示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。实施例一图1是本专利技术实施例一提供的对象数据分析方法流程图。本实施例可适用于分析HDFS中的对象数据的情况,该方法可以由对象数据分析装置来执行,该装置可以由软件和/或硬件方式实现,该装置可以集成在任何提供数据分析的设备中,例如典型的是服务器,如HBase数据库等。该方法包括:S101、获取接入数据并置于Hadoop分布式文件系统HDFS中,所述接入数据包括数据生成时间。接入数据包括数据生成时间,也可以包括数据来源。获取不同时间生成不同来源的接入数据,再用HDFS来存储大量的接入数据。Hadoop分布式文件系统HDFS被设计成适合运行在通用硬件上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。S102、根据所述数据生成时间提取所述HDFS中的所述接入数据,得到对应预设时间段的对象追溯数据。规定如身份证号码不为空等的数据提取策略,根据所述数据生成时间,通过Map-Reduce对HDFS上的接入数据进行对象化提取,形成对应预设时间段的对象追溯数据。对象的属性值是日渐丰富的,对象追溯数据指的是录入了对象所有属性值的数据。Map-Reduce是一种编程模型,是一种编程方法,抽象理论。Map-Reduce是Hadoop的核心组件之一,可以通过Map-Reduce很容易在Hadoop平台上进行分布式的计算编程。S103、根据预设时间段筛选对象追溯数据,得到对象基本数据。对象追溯数据中,有些属性值是准确和有用的,另外一些属性值是不准和没用的。例如源自社交软件上的个人信息可能不够真实,源自公安系统的个人信息就比较可靠,这是应以公安系统的信息为准。根据预设时间段或数据来源,将对象追溯数据按照一定的归并规则进行合并得到对象基本数据。进一步地,所述接入数据、所述对象追溯数据及所述对象基本数据包含标识信息。对象中的部分属性值记录最可靠的数据,如身份证号、手机号、MAC、IMSI等,这类属性值可作为对象的唯一标识。所述接入数据、所述对象追溯数据及所述对象基本数据通过标识信息联系在一起。现实数据都有对应的对象,比如身份证号、手机号、虚拟账号、或上网终端等都有对应的使用者,本实施例以对象的角度进行数据建模,对象追溯数据及对象基本数据都是以对象的角度对HDFS中的数据进行分析。本实施例通过由接入数据提取得对象追溯数据,再经筛选得对象基本数据,以对象的角度从海量的数据中分析出有价值的信息。实施例二图2是本专利技术实施例二提供的对象数据分析方法流程图。实施例二以上述实施例为基础,在根据预设时间段筛选对象追溯数据得到对象基本数据后,增加了将数据按Protobuf格式进行序列化保存以及将序列化的数据按Protobuf格式进行反序列化使用的步骤。本实施例提供的对象数据分析方法包括以下步骤:步骤S201、步骤S202、步骤S203、步骤S204和步骤S205。其中,步骤S201、步骤S202及步骤S203分别与实施例一中的步骤S101、步骤S102及步骤S103相同,相同的步骤不再赘述。S201、获取接入数据并置于Hadoop分布式文件系统HDFS中,所述接入数据包括数据生成时间。S202、根据所述数据生成时间提取所述HDFS中的所述接入数据,得到对应预设时间段的对象追溯数据。S203、根据预设时间段筛选对象追溯数据,得到对象基本数据。S204、将所述对象追溯数据按序列化结构数据格式Protobuf进行序列化并保存,将所述对象基本数据按所述Protobuf格式进行序列化并保存。Protobuf是一种序列化结构数据格式,相较其他格式,Protobuf在描述数据结构、存储空间及数据交换方式等方面有优势。将所述对象追溯数据按Protobuf的SerializeToOstream函数进行序列化并保存,将所述对象基本数据按Protobuf的SerializeToOstream函数进行序列化并保存。序列化的对象追溯数据可以保存在对象追溯表,序列化的对象基本数据可以保存在对象基本表。对象追溯表和对象基本表可以位于HBase数据库中。S205、将所述序列化的对象追溯数据按所述Protobuf格式进行反序列化后使用,将所述序列化的对象基本数据按所述Protobuf格式进行反序列化后使用。将所述序列化的对象追溯数据按Protobuf的ParseFromIstream函数进行反序列化,将所述序列化的对象基本数据按Protobuf的ParseFromIstream函数进行反序列化。经过反序列化后,得到的对象追溯数据和对象基本数据就可以被业务系统使用。本实施例通过将数据按Protobuf格式进行序列化保存以及将序列化的数据按Protobuf格式进行反序列化使用,实现了大量对象追溯数据和对象基本数据的高效存取。实施例三图3是本专利技术实施例三本文档来自技高网...

【技术保护点】
一种对象数据分析方法,其特征在于,包括:获取接入数据并置于Hadoop分布式文件系统HDFS中,所述接入数据包括数据生成时间;根据所述数据生成时间提取所述HDFS中的所述接入数据,得到对应预设时间段的对象追溯数据;根据所述预设时间段筛选所述对象追溯数据,得到对象基本数据。

【技术特征摘要】
1.一种对象数据分析方法,其特征在于,包括:获取接入数据并置于Hadoop分布式文件系统HDFS中,所述接入数据包括数据生成时间;根据所述数据生成时间提取所述HDFS中的所述接入数据,得到对应预设时间段的对象追溯数据;根据所述预设时间段筛选所述对象追溯数据,得到对象基本数据。2.根据权利要求1所述的对象数据分析方法,其特征在于,所述获取接入数据并置于HDFS中包括:接收所述接入数据;对所述接入数据进行格式化处理,并将格式化处理后的接入数据存入所述HDFS。3.根据权利要求1所述的对象数据分析方法,其特征在于,在所述根据所述预设时间段筛选所述对象追溯数据,得到对象基本数据之后,还包括:将所述对象追溯数据按序列化结构数据格式Protobuf进行序列化并保存,将所述对象基本数据按所述Protobuf格式进行序列化并保存;将所述序列化的对象追溯数据按所述Protobuf格式进行反序列化后使用,将所述序列化的对象基本数据按所述Protobuf格式进行反序列化后使用。4.根据权利要求1所述的对象数据分析方法,其特征在于,所述得到对应预设时间段的对象追溯数据包括:将提取的接入数据按照预设的第一数据格式生成对应预设时间段的对象追溯数据;所述得到对象基本数据包括:将筛选后的对象追溯数据按照预设的第二数据格式生成对象基本数据。5.根据权利要求1-4任一项所述的对象数据分析方法,其特征在于,所述接入数据、所述对象追溯数据及所述对象基本数据包含标识信息;所述根据所述预设时间段筛选所述对象追溯数据,得到对象基本数据包括:根据发生时间优先策略合并所述对象追溯数据得到所述对象基本数据。6.一种对象数据分析装置,其特征在于,包括:接收数据获取模块,用于获取接入数据并置于Hadoo...

【专利技术属性】
技术研发人员:徐世强
申请(专利权)人:北京锐安科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1