一种大数据的筛选方法技术

技术编号:16644876 阅读:28 留言:0更新日期:2017-11-26 17:22
本发明专利技术实施例提供了一种大数据的筛选方法,所述方法包括:按照目标维度筛选维度对待筛选的大数据组中的大数据进行筛选分析;将满足预设条件要求的、对应于所述目标筛选维度下的至少一个维度子项的数据保存为下一轮的待筛选数据组;根据预设的筛选维度的数量和目标要求,确定筛选轮数是否结束满足预设筛选数量;如果是,结束所述大数据的筛选过程。应用本发明专利技术实施例,本发明专利技术通过多轮筛选分析对数据进行逐步筛选,不会因数据量过大造成系统负担过大从而崩溃的问题,且目标要求根据待筛选数据组在该轮筛选分析的参考值设置,提高了筛选分析的准确度。

A screening method for big data

The embodiment of the invention provides a method for screening large data, the method comprises the following steps: according to the dimensions of screening screening analysis to dimensions of big data big data in the screening group; will meet the requirements, the corresponding preset to the target selection under the dimension of at least one dimension sub data saved as the next round of the screening data and target screening group; according to the number of dimensions of the design requirements, to determine whether the number of screening round ends meet preset screening number; if it is the end of the screening process, the big data. The embodiment of the invention, the invention through the analysis of data of stepwise selection of several rounds of screening, not because of the large amount of data caused by the excessive burden to the collapse of the system, and the objectives and requirements according to the screening data set value is set on the basis of analysis of the round of screening reference, improve the accuracy of the analysis of the selected screen.

【技术实现步骤摘要】
一种大数据的筛选方法
本专利技术涉及数据处理领域,特别是涉及一种大数据的筛选方法。
技术介绍
随着信息化的高速发展,大数据应运而生,为了弥补传统方法无法处理如此量大且非结构的大数据的缺陷,人们研究出了云计算,以云计算为基础的信息存储、分享和挖掘手段,可以便宜、有效地将这些大量、高速、多变化的终端大数据存储下来,然而如何对这些数据进行筛选分析,并且使用筛选结果从不同维度对企业决策进行指导已经成为热门话题。现有技术中,对数据的筛选分析方法仅是对数据在某单一维度下进行展开分析,或者在多个维度下进行组合筛选。单一维度下的筛选缺陷在于如果数据信息点隐藏在多个筛选维度下,则很难被找到;组合筛选的缺陷在于确定某一维度子项以进行数据分析时,子项的选择很大程度取决于做出判断的人的经验,导致容易出现错误的判断情况。无论是单一维度的筛选方式或是组合维度的筛选方式,针对筛选过程中因选择了错误的筛选维度而无法得到最终的筛选结果时,均需要重新进行筛选,严重影响筛选效率。例如,在视频领域,通常在操作平台上通过不同筛选维度的组合实现对目标信息的流量或者卡顿情况的监测分析,筛选维度包括:地域、城市、操作系统、浏览器、性别、年龄段等,现有技术的监测方法是根据先前经验在所有筛选维度中分别选取其子项对目标信息进行组合筛选分析,如果该目标信息恰好为问题信息点,则完成监测,否则重新选取筛选维度子项的其它排列组合进行筛选分析完成监测。该方法虽然能实现对视频流量、视频卡顿等信息的监测,但整个处理过程信息处理量大,导致处理器负担较大,处理效率低,不利于推广应用。并且,即使利用该方法找到了疑似问题的信息点,由于存在大量其他排列组合的可能,因此也很难确认该信息点就是最优的。
技术实现思路
本专利技术实施例的目的在于提供一种大数据的筛选方法,以提高筛选分析的准确度。为了达到上述目的,本专利技术实施例公开了一种大数据的筛选方法,所述方法包括:按照目标维度筛选维度对待筛选的大数据组中的大数据进行筛选分析;将满足预设条件要求的、对应于所述目标筛选维度下的至少一个维度子项的数据保存为下一轮的待筛选数据组;根据预设的筛选维度的数量和目标要求,确定筛选轮数是否结束满足预设筛选数量;如果是,结束所述大数据的筛选过程。可选的,根据预设的筛选维度的数量和目标要求,确定筛选轮数是否结束满足预设筛选数量之前,在所述方法还包括:建立查询结果表,将每一轮的筛选结果放入所述查询结果表中;所述根据预设的筛选维度的数量和目标要求,确定筛选轮数是否结束满足预设筛选数量,包括:根据预设的筛选维度的数量和目标要求,根据所述查询结果表确定筛选轮数是否结束满足预设筛选数量。可选的,所述查询结果的索引包括,根据筛选条件建立索引,通过保存在所述索引中的页码找到查询结果表中对应的记录。可选的,在所述将满足目标要求的、对应于所述筛选维度下的至少一个维度子项的数据保存为下一轮的待筛选数据组后,生成和保存相应的筛选路径,且在每一轮筛选分析能够撤回,在撤回后,所述撤回的筛选分析下已生成和保存的筛选路径被删除。可选的,所述目标要求是所述待筛选数据组中的数据在各维度子项下对应的数值最大或最小,并且最大数值和最小数值之差的绝对值大于预定阈值;或各维度子项下数据对应的数值相对于参考值的波动范围大于预定范围。其中,所述多轮筛选分析的轮数根据筛选维度的数量和目标要求来确定。本专利技术提供的筛选分析方法及系统,通过多个筛选维度对待处理数据进行逐步筛选,形成多轮筛选分析,每一轮筛选分析都是将上一轮的筛选结果作为本轮筛选分析待筛选数据组,使得每轮筛选分析都比上一轮筛选分析的数据量小,因此与现有技术一次性在多个筛选条件下进行组合筛选相比,不容易因数据量过大造成系统负担过大从而崩溃的问题,且每一轮筛选分析中要满足的目标要求均根据其待筛选数据组在该轮的筛选子项下的参考值设置,提高了筛选分析的准确度。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的大数据的筛选方法的流程示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。图1为本专利技术实施例提供的大数据的筛选方法的流程示意图,该方法包括步骤:S101,按照目标维度筛选维度对待筛选的大数据组中的大数据进行筛选分析。S102,将满足预设条件要求的、对应于所述目标筛选维度下的至少一个维度子项的数据保存为下一轮的待筛选数据组。S103,根据预设的筛选维度的数量和目标要求,确定筛选轮数是否结束满足预设筛选数量,如果是,执行S104。S104,结束所述大数据的筛选过程。该筛选分析方法中多轮筛选分析的轮数由筛选维度的数量和目标要求确定。本专利技术实施例中通过对数据具有的属性进行设定,并把适配的属性设定为可筛选的属性,即得到筛选维度。图1所示实施例的筛选分析方法通过多个筛选维度对数据进行多轮筛选分析得到筛选结果,每一轮筛选分析都是将上一轮的筛选结果作为本轮筛选分析待筛选数据组,使得每轮筛选分析都比上一轮筛选分析的数据量小,因此与现有技术一次性在多个筛选条件下进行组合筛选相比,不容易因数据量过大造成系统负担过大从而崩溃的问题,且每一轮筛选分析中要满足的目标要求均根据其待筛选数据组在该轮的筛选子项下的参考值设置,提高了筛选分析的准确度。当某一轮的筛选分析未得到满足目标要求的数据时,若不再重新选择筛选维度进行筛选分析,则表明之前的筛选路径有误,此时,还包括步骤S204:撤回有误的筛选分析,删除撤回的筛选分析下已生成和保存的筛选路径。在筛选分析过程中,如果发现某一轮的选择的维度子项有错误,筛选路径不正确,通过撤回该轮筛选分析并删除该筛选路径,使得多轮筛选分析中除去该轮筛选分析得到的数据成为下一轮的待筛选数据组,可以避免从最初始的数据重新选择删除了该轮维度子项的筛选维度或其子项进行筛选分析的麻烦。本专利技术实施例的进一步优化,本专利技术实施例中的目标要求包括:待筛选数据组中的数据对应的数值最大、待筛选数据组中的数据对应的数值最小以及最大数值和最小数值之差的绝对值大于预定阈值;或各维度子项下数据对应的数值相对于参考值的波动范围大于预定范围。预定阈值、参考值和预定范围根据历史数据库中的历史数据来确定。本专利技术实施例可以将系统存有的大量的历史结果数据作为参考,并以此设定阈值和范围,利用待筛选数据组中在维度子项下的最大值、最小值和预定阈值或参考值和预定范围进行筛选分析,且每次筛选分析得到的筛选结果均保存在历史数据库中,为以后的筛选分析作指导,历史数据库不断被越来越准确的数据扩充和更新,相对现有技术中根据个人经验做出的选择进行筛选分析来说准确度更高。示例性的,业想要在服务平台上查看某特定时段内用户观看视频使用的流量以发现隐藏的信息时,先设置多个筛选维度,如地域、操作系统、浏览器等,其中本文档来自技高网
...
一种大数据的筛选方法

【技术保护点】
一种大数据的筛选方法,其特征在于,所述方法包括:按照目标维度筛选维度对待筛选的大数据组中的大数据进行筛选分析;将满足预设条件要求的、对应于所述目标筛选维度下的至少一个维度子项的数据保存为下一轮的待筛选数据组;根据预设的筛选维度的数量和目标要求,确定筛选轮数是否结束满足预设筛选数量;如果是,结束所述大数据的筛选过程。

【技术特征摘要】
1.一种大数据的筛选方法,其特征在于,所述方法包括:按照目标维度筛选维度对待筛选的大数据组中的大数据进行筛选分析;将满足预设条件要求的、对应于所述目标筛选维度下的至少一个维度子项的数据保存为下一轮的待筛选数据组;根据预设的筛选维度的数量和目标要求,确定筛选轮数是否结束满足预设筛选数量;如果是,结束所述大数据的筛选过程。2.根据权利要求1所述的大数据筛选方法,其特征在于,根据预设的筛选维度的数量和目标要求,确定筛选轮数是否结束满足预设筛选数量之前,在所述方法还包括:建立查询结果表,将每一轮的筛选结果放入所述查询结果表中;所述根据预设的筛选维度的数量和目标要求,确定筛选轮数是否结束满足预设筛选数量,包括:根据预设的筛选维度的数量和目标要求,根据所述查询结果表确定筛选轮数是否...

【专利技术属性】
技术研发人员:徐秋养
申请(专利权)人:佛山市深研信息技术有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1