The invention discloses a method based on large data computing method and device, wherein, the method includes: S1, access to the business needs of the users, and according to the needs of the business to determine the business target data quantity; S2, determine the target data magnitude is larger than a preset threshold; S3, if greater than a preset threshold value, is the business of offline S4, calculation; Ruo Xiaoyu is equal to a preset threshold value, obtaining the current target data set, and determine the target data set to calculate the required memory is larger than a preset memory, if more than a preset memory, the current target data set by clustering iteration, otherwise, by a single iteration of the target data set calculation; S5, judgment the iterative calculation is up to N times, if reached, otherwise executing step S6, and repeat step S4; S6, return to the iterative calculation of node Fruit. The calculation method and the device based on the large data of the embodiment of the invention improve the calculation efficiency, the real-time performance is high, and the resource is saved.
【技术实现步骤摘要】
本专利技术涉及计算机
,尤其涉及一种基于大数据的计算方法和装置。
技术介绍
大数据分析是近些年新兴的计算机科学领域,数据分析人员可从结构化的数据中分析出业务需要的报表。随着业务量的快速增长,相关的数据也在高速累积。目前,主要通过hadoop大数据分析系统对海量的数据进行离线或在线的分析。首先,业务人员将自己的业务需求发送给数据分析人员进行需求分析。其次,数据分析人员从海量的原始数据中进行数据挖掘,以一定的维度或者特定的算法获取很多业务中间宽表。最后,将业务需求转换为hadoop大数据分析系统可识别的指令,从大量的业务中间宽表中以一定的维度提取符合业务需求的报表,最终将结果展现给业务人员。但是,通过上述方法对数据进行分析,存在以下几个问题:1、业务中间宽表为按照一定维度获取的,如果要获取更细粒度的数据,当前的业务中间宽表可能无法支持。如果以最细粒度构建业务中间宽表,会浪费大量的存储空间。2、业务报表为基于特定的业务需求,离线挖掘的结果。如果业务人员想按照另一个维度来进行分析时,需要重新计算,并生成新的报表,成本高。3、不支持T+0的增量数据,必须等第二天才能看到结果,实时性差。4、针对每个业务需求,均要对海量的数据进行全量的计算,而业务人员有可能只会使用到其中一小部分,造成大量的存储资源和计算资源浪费。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的一个目的在于提出一种基于大数据的计算方法,能够提高计算效率,实时性高,节省资源。本专利技术的第二个目的在于提出一种基于大数据的计算装置。为了实现上述目的,本专利技 ...
【技术保护点】
一种基于大数据的计算方法,其特征在于,包括以下步骤:S1、获取用户的业务需求,并根据所述业务需求确定所述业务的目标计算数据量级;S2、判断所述目标计算数据量级是否大于预设阈值;S3、若大于所述预设阈值,则对所述业务进行离线计算;S4、若小于等于所述预设阈值,则获取当前目标数据集合,并判断计算所述当前目标数据集合所需内存是否大于预设内存,若大于所述预设内存,则通过集群对所述当前目标数据集合进行迭代计算,否则,通过单机对所述当前目标数据集合进行迭代计算;S5、判断所述迭代计算是否达到N次,若达到,则执行步骤S6,否则,重复执行步骤S4;以及S6、返回迭代计算结果。
【技术特征摘要】
1.一种基于大数据的计算方法,其特征在于,包括以下步骤:S1、获取用户的业务需求,并根据所述业务需求确定所述业务的目标计算数据量级;S2、判断所述目标计算数据量级是否大于预设阈值;S3、若大于所述预设阈值,则对所述业务进行离线计算;S4、若小于等于所述预设阈值,则获取当前目标数据集合,并判断计算所述当前目标数据集合所需内存是否大于预设内存,若大于所述预设内存,则通过集群对所述当前目标数据集合进行迭代计算,否则,通过单机对所述当前目标数据集合进行迭代计算;S5、判断所述迭代计算是否达到N次,若达到,则执行步骤S6,否则,重复执行步骤S4;以及S6、返回迭代计算结果。2.如权利要求1所述的方法,其特征在于,所述根据所述业务需求确定所述业务的目标计算数据量级,包括:根据所述业务需求获取目标数据集合,并根据所述目标数据集合确定所述业务的目标计算量,以及根据所述目标计算量确定对应的目标计算数据量级。3.如权利要求1所述的方法,其特征在于,所述预设阈值基于集群硬件配置和性能获得。4.如权利要求1所述的方法,其特征在于,所述通过集群对所述当前目标数据集合进行迭代计算,包括:对所述当前目标数据集合进行分区,并通过所述集...
【专利技术属性】
技术研发人员:朱坤,蔡永保,张凤婷,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛;KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。