本发明专利技术提供了一种基于视图截面的大数据采集方法及装置,应用于大数据技术领域,该方法包括:分析视图中每个字段的更新频率;按照字段的更新频率,将字段分类放入不同类型的视图,并获取不同类型的视图的初始视图截面,其中,后续视图截面的记录在初始视图截面进行更新;根据不同类型的视图的更新策略,对不同类型的视图进行记录的更新。本发明专利技术可以实现视图截面的大数据采集,效率高,节省空间。节省空间。节省空间。
【技术实现步骤摘要】
基于视图截面的大数据采集方法及装置
[0001]本专利技术涉及大数据
,尤其涉及一种基于视图截面的大数据采集方法及装置。
技术介绍
[0002]目前,在生成历史视图截面的时候,往往会每天存储许多长期不发生改变的字段值,具体方法为:建立一个包含所有字段的大视图。每日将所有的字段都保存在大视图中,无论字段是否发生变更。这样存在两个问题:第一,效率低下:对包含所有字段的大视图采集每日的增量数据时,由于很多长期不更新的字段也要重复采集,造成视图生成效率上的浪费。第二,浪费空间:对长期不更新的数据还要每日进行重复采集,造成数据冗余,浪费大量数据存储空间。因此,目前缺乏一种视图截面的大数据采集方法。
技术实现思路
[0003]本专利技术实施例提出一种基于视图截面的大数据采集方法,用以实现视图截面的大数据采集,效率高,节省空间,该方法包括:
[0004]分析视图中每个字段的更新频率;
[0005]按照字段的更新频率,将字段分类放入不同类型的视图,并获取不同类型的视图的初始视图截面,其中,后续视图截面的记录在初始视图截面进行更新;
[0006]根据不同类型的视图的更新策略,对不同类型的视图进行记录的更新。
[0007]本专利技术实施例提出一种基于视图截面的大数据采集装置,用以实现视图截面的大数据采集,效率高,节省空间,该装置包括:
[0008]字段更新频率分析模块,用于分析视图中每个字段的更新频率;
[0009]视图分类模块,用于按照字段的更新频率,将字段分类放入不同类型的视图,并获取不同类型的视图的初始视图截面,其中,后续视图截面的记录在初始视图截面进行更新;
[0010]记录更新模块,用于根据不同类型的视图的更新策略,对不同类型的视图进行记录的更新。
[0011]本专利技术实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于视图截面的大数据采集方法。
[0012]本专利技术实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述基于视图截面的大数据采集方法。
[0013]本专利技术实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现上述基于视图截面的大数据采集方法。
[0014]在本专利技术实施例中,分析视图中每个字段的更新频率;按照字段的更新频率,将字段分类放入不同类型的视图,并获取不同类型的视图的初始视图截面,其中,后续视图截面的记录在初始视图截面进行更新;根据不同类型的视图的更新策略,对不同类型的视图进
行记录的更新。在上述过程中,实现了将一个包含所有字段的大视图分解成几个小视图,同时按更新频率分级,将一些字段值不经常更新的字段放入一个或多个视图,经常更新的字段放入其他几个视图中;小视图的整条记录任一字段变更,不记录全部数据,只记录部分,提高了效率,且不会浪费大量数据存储空间。
附图说明
[0015]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
[0016]图1为本专利技术实施例中基于视图截面的大数据采集方法的流程图;
[0017]图2为本专利技术实施例中对不同类型的视图进行记录的更新的流程图;
[0018]图3为本专利技术实施例中视图截面更新的具体流程图;
[0019]图4为本专利技术实施例中基于视图截面的大数据采集装置的示意图;
[0020]图5为本专利技术实施例中计算机设备的示意图。
具体实施方式
[0021]为使本专利技术实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本专利技术实施例做进一步详细说明。在此,本专利技术的示意性实施例及其说明用于解释本专利技术,但并不作为对本专利技术的限定。
[0022]在本说明书的描述中,所使用的“包含”、“包括”、“具有”、“含有”等,均为开放性的用语,即意指包含但不限于。参考术语“一个实施例”、“一个具体实施例”、“一些实施例”、“例如”等的描述意指结合该实施例或示例描述的具体特征、结构或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。各实施例中涉及的步骤顺序用于示意性说明本申请的实施,其中的步骤顺序不作限定,可根据需要作适当调整。
[0023]首先,对本专利技术实施例涉及的术语进行解释。
[0024]视图截面:视图在更新每日各个字段的值的时候,会增加一条包含所有字段最新的值的记录,该条记录就是当日视图截面。把历史的每天当日全部字段的值进行存储,就可以得到历史视图截面。
[0025]图1为本专利技术实施例中基于视图截面的大数据采集方法的流程图,如图1所示,该方法包括:
[0026]步骤101,分析视图中每个字段的更新频率;
[0027]步骤102,按照字段的更新频率,将字段分类放入不同类型的视图,并获取不同类型的视图的初始视图截面,其中,后续视图截面的记录在初始视图截面进行更新;
[0028]步骤103,根据不同类型的视图的更新策略,对不同类型的视图进行记录的更新。
[0029]在本专利技术实施例中,实现了将一个包含所有字段的大视图分解成几个小视图,同时按更新频率分级,将一些字段值不经常更新的字段放入一个或多个视图,经常更新的字
段放入其他几个视图中;小视图的整条记录任一字段变更,不记录全部数据,只记录部分,提高了效率,且不会浪费大量数据存储空间。
[0030]在步骤101中,分析视图中每个字段的更新频率,因此,需要分析采集的字段哪些是长期不发生更新的,哪些是经常更新的。假设有以下字段:姓名、日期、身高、性别、年龄、体重、血压、心率。现在对一个用户的身体情况进行监视。将视图的主键设定为客户编号+数据日期。身高、性别、姓名这几个字段的值基本不会发生改变,年龄虽然会发生更新,但更新频率为一年一次,频率较低。但是体重、血压、心率这些字段的值每天都会发生改变。
[0031]在步骤102中,按照字段的更新频率,将字段分类放入不同类型的视图,例如,姓名、身高、性别、年龄这几个字段更新频率较低,放入基本信息视图。体重、血压、心率更新频率较高,放入健康状况信息视图。
[0032]图2为本专利技术实施例中对不同类型的视图进行记录的更新的流程图,在一实施例中,根据不同类型的视图的更新策略,对不同类型的视图进行记录的更新,包括:
[0033]步骤201,在视图的类型对应的字段的更新频率小于第一阈值时,保留该视图的上次的截面数据,并更新上次记录的主键值;
[00本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于视图截面的大数据采集方法,其特征在于,包括:分析视图中每个字段的更新频率;按照字段的更新频率,将字段分类放入不同类型的视图,并获取不同类型的视图的初始视图截面,其中,后续视图截面的记录在初始视图截面进行更新;根据不同类型的视图的更新策略,对不同类型的视图进行记录的更新。2.如权利要求1所述的基于视图截面的大数据采集方法,其特征在于,根据不同类型的视图的更新策略,对不同类型的视图进行记录的更新,包括:在视图的类型对应的字段的更新频率小于第一阈值时,保留该视图的上次的截面数据,并更新上次记录的主键值;在视图的类型对应的字段的更新频率大于第二阈值时,保留该视图的上次的截面数据,增加一条所有字段的更新记录。3.如权利要求2所述的基于视图截面的大数据采集方法,其特征在于,视图的主键为客户编号和数据日期。4.如权利要求3所述的基于视图截面的大数据采集方法,其特征在于,更新上次记录的主键值,包括:更新上次记录的数据日期。5.一种基于视图截面的大数据采集装置,其特征在于,包括:字段更新频率分析模块,用于分析视图中每个字段的更新频率;视图分类模块,用于按照字段的更新频率,将字段分类放入不同类型的视图,并获取不同类型的视图的初始视图截面,其中,后续视图截面的记...
【专利技术属性】
技术研发人员:江文雅,彭丰华,
申请(专利权)人:中国银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。