一种数据预处理方法、装置及其存储介质制造方法及图纸

技术编号:26890760 阅读:15 留言:0更新日期:2020-12-29 16:07
本发明专利技术公开了一种数据预处理方法、装置及其存储介质,该方法包括当预定的至少一个预调用触发条件触发时,从预设的数据源中获取与所述预调用触发条件具有共同数据特征的热点数据,其中,所述热点数据为预调用触发条件触发时数据源中待进行预处理的数据;对所述热点数据进行调用前的预处理;将预处理后的热点数据分配为多组数据;将分配后的多组数据分别根据预定规则存储在多个存储单元中。通过上述的方法对数据源中海量数据进行了分类,将有可能需要进行预处理的数据进行预先的预处理,并分别存储在不同的存储单元中,提供了一种在大数据处理中的高可用技术方案。解决了在数据处理量巨大的条件下,现有技术无法满足性能需求的技术问题。

【技术实现步骤摘要】
一种数据预处理方法、装置及其存储介质
本专利技术涉及计算机领域,尤其是指一种数据预处理方法、装置及其存储介质。
技术介绍
随着大数据的发展,数据处理的复杂程度不断提高。比如在电商领域,对支付数据和对应的期限数据需要进行海量数据的处理。以电商的白条业务为例,属于一款信贷产品,每笔交易、每一次领取优惠券、每次额度提升,都需要严格的风险控制。在巨量的消费限额、历史单量、逾期天数等数据面前,不仅数据的处理量激增,还需要对这些数据进行预处理(流水中计算、统计汇总等),以便用户调用或系统自动调用,但是现在的处理方式在高并发的交易时,无法满足性能上的要求。以今年双十一为例,来自整个交易链路的查询QPS已超过40W(即数据的调用),而以标准物理机(128G内存,32核CPU)来看,性能测试得到的数据,仅可同时支持3000TPS和10000QPS,远远无法满足大促流量峰值的数据处理要求。所以专利技术人发现现有技术中至少存在如下问题,由于数据处理量巨大状态下,现有技术无法满足性能需求的技术问题。
技术实现思路
本申请提供了一种数据预处理方法,该方法包括:当预定的至少一个预调用触发条件触发时,从预设的数据源中获取与所述预调用触发条件具有共同数据特征的热点数据,其中,所述热点数据为预调用触发条件触发时数据源中待进行预处理的数据;对所述热点数据进行调用前的预处理;将预处理后的热点数据分配为多组数据;将分配后的多组数据分别根据预定规则存储在多个存储单元中。可选地,将分配后的多组数据分别根据预定规则存储在预建的多个存储单元中包括:将预建的多个存储单元按第二预定方式分配为多个存储单元集群;获取所述存储单元集群中的存储单元状态,其中,所述存储单元状态为存储单元是否可以存储热点数据;根据所述存储单元状态按预定条件选取目标集群,其中,所述目标集群为多个所述存储单元集群中符合预定条件的集群;将分配后的多组数据根据预定规则存储在所述目标集群的存储单元中。可选地,所述将分配后的多组数据分别根据预定规则存储在预建的多个存储单元中,其中,所述存储单元用于数据的存储和读取步骤后,该方法还包括:接收权限配置信息,其中,所述权限配置信息为获取所述存储单元中数据的权限配置;获取所述权限配置信息的生效指令;根据所述生效指令按所述权限配置信息对本地的权限配置进行更新。可选地,所述将分配后的多组数据分别根据预定规则存储在预建的多个存储单元中步骤后,该方法还包括:接收用于调用所述存储单元数据的调用指令;根据本地的权限配置对所述调用指令进行识别,得到符合权限配置的调用指令;根据符合权限配置的调用指令调用所述存储单元中存储的数据。可选地,所述存储单元具有多个存储相同数据的冗余存储单元。本申请还提供了一种数据预处理装置,该装置包括:获取模块,用于当预定的至少一个预调用触发条件触发时,从预设的数据源中获取与所述预调用触发条件具有共同数据特征的热点数据,其中,所述热点数据为预调用触发条件触发时数据源中待进行预处理的数据;预处理模块,用于对所述热点数据进行调用前的预处理;分配模块,用于将预处理后的热点数据分配为多组数据;存储模块,用于将分配后的多组数据分别根据预定规则存储在预建的多个存储单元中,其中,所述存储单元用于数据的存储和读取。可选地,该装置还包括:所述分配模块,用于将预建的多个存储单元按第二预定方式分配为多个存储单元集群;所述获取模块,用于获取所述存储单元集群中的存储单元状态,其中,所述存储单元状态为存储单元是否可以存储热点数据;选取模块,用于根据所述存储单元状态按预定条件选取目标集群,其中,所述目标集群为多个所述存储单元集群中符合预定条件的集群;所述存储模块,用于将分配后的多组数据根据预定规则存储在所述目标集群的存储单元中。可选地,该装置还包括:接收模块,用于接收权限配置信息,其中,所述权限配置信息为获取所述存储单元中数据的权限配置;所述获取模块,用于获取所述权限配置信息的生效指令;更新模块,用于根据所述生效指令按所述权限配置信息对本地的权限配置进行更新。本申请还提供了一种数据预处理装置,所述装置包括:处理器和存储器;所述存储器中存储有可被所述处理器执行的应用程序,用于使得所述处理器执行如所述的数据预处理方法的步骤。本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述的数据预处理方法的步骤。如上可见,基于上述实施例,通过上述的方法对数据源中海量数据进行了分类,将有可能需要进行预处理的数据进行预先的预处理,并分别存储在不同的存储单元中,提供了一种在大数据处理中的高可用技术方案。解决了在数据处理量巨大的条件下,现有技术无法满足性能需求的技术问题。附图说明图1为一个实施例中数据处理方法流程100的示意图;图2为一个实施例中数据处理方法流程200的示意图;图3为一个实施例中数据处理方法流程300的示意图;图4为一个实施例中数据处理方法流程400的示意图;图5为一个实施例中数据处理方法流程500的示意图;图6为一些实施例中数据处理方法应用场景600的示意图;图7为一些实施例中数据处理方法应用场景700的示意图;图8为一些实施例中数据处理方法应用场景800的示意图;图9为一个实施例中数据处理装置架构900示意图。具体实施方式为使本专利技术的目的、技术方案及优点更加清楚明白,以下参照附图并举实施例,对本专利技术进一步详细说明。图1为一个实施例中数据处理方法流程100的示意图,如图1所示,在一实施例中,本申请提供了一种数据预处理方法,该方法包括:S101,当预定的至少一个预调用触发条件触发时,从预设的数据源中获取与所述预调用触发条件具有共同数据特征的热点数据,其中,所述热点数据为预调用触发条件触发时数据源中待进行预处理的数据;在本步骤中提供了一种从数据源获取热点数据的具体方法,预定预调用触发条件是对热点数据进行选取的具有预设关联性的条件,其关联性体现在具有共同数据特征,以此对数据源的热点数据进行获取。需要指出的是预定预调用触发条件可以是多个,当所有预定预调用触发条件都符合要求后,从数据源中获取热点数据。另外,热点数据是亟待进行调用前预处理的数据。S102,对所述热点数据进行调用前的预处理;在本步骤中提供了一种预处理方法,在数据源中存储着大量的数据,这些数据中有一些需要进行预处理。比如,白条业务中的流水计算和统计汇总,这些待预处理的数据应该与上述预定预调用触发条件具有关联,即上述的热点数据。简言之,预处理所需的数据就是热点数据。S103,将预处理后的热点数据分配为多组数据;在本步骤中将预处理后的热点数据按照一定的预定原则进行分配,以便后本文档来自技高网...

【技术保护点】
1.一种数据预处理方法,其特征在于,该方法包括:/n当预定的至少一个预调用触发条件触发时,从预设的数据源中获取与所述预调用触发条件具有共同数据特征的热点数据,其中,所述热点数据为预调用触发条件触发时数据源中待进行预处理的数据;/n对所述热点数据进行调用前的预处理;/n将预处理后的热点数据分配为多组数据;/n将分配后的多组数据分别根据预定规则存储在多个存储单元中。/n

【技术特征摘要】
1.一种数据预处理方法,其特征在于,该方法包括:
当预定的至少一个预调用触发条件触发时,从预设的数据源中获取与所述预调用触发条件具有共同数据特征的热点数据,其中,所述热点数据为预调用触发条件触发时数据源中待进行预处理的数据;
对所述热点数据进行调用前的预处理;
将预处理后的热点数据分配为多组数据;
将分配后的多组数据分别根据预定规则存储在多个存储单元中。


2.根据权利要求1所述的数据预处理方法,其特征在于,将分配后的多组数据分别根据预定规则存储在预建的多个存储单元中包括:
将预建的多个存储单元按第二预定方式分配为多个存储单元集群;
获取所述存储单元集群中的存储单元状态,其中,所述存储单元状态为存储单元是否可以存储热点数据;
根据所述存储单元状态按预定条件选取目标集群,其中,所述目标集群为多个所述存储单元集群中符合预定条件的集群;
将分配后的多组数据根据预定规则存储在所述目标集群的存储单元中。


3.根据权利要求1或2所述的数据预处理方法,其特征在于,所述将分配后的多组数据分别根据预定规则存储在预建的多个存储单元中,其中,所述存储单元用于数据的存储和读取步骤后,该方法还包括:
接收权限配置信息,其中,所述权限配置信息为获取所述存储单元中数据的权限配置;
获取所述权限配置信息的生效指令;
根据所述生效指令按所述权限配置信息对本地的权限配置进行更新。


4.根据权利要求1或2所述的数据预处理方法,其特征在于,所述将分配后的多组数据分别根据预定规则存储在预建的多个存储单元中步骤后,该方法还包括:
接收用于调用所述存储单元数据的调用指令;
根据本地的权限配置对所述调用指令进行识别,得到符合权限配置的调用指令;
根据符合权限配置的调用指令调用所述存储单元中存储的数据。


5.根据权利要求1所述的数据预处理方法,其特征在于,所述存储单元具有多个存储相同数据的冗...

【专利技术属性】
技术研发人员:郭泽渊
申请(专利权)人:京东数字科技控股有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1