一种数据处理方法、装置、设备及存储介质制造方法及图纸

技术编号:35999331 阅读:11 留言:0更新日期:2022-12-17 23:16
本发明专利技术公开了一种数据处理方法、装置、设备及存储介质。该方法包括:接收两组待处理数据,并分别确定与每组待处理数据相对应的数据处理组;对于各组待处理数据,将与当前待处理数据相对应的数据处理组分别发送至相应的分布式节点,以使分布式节点确定相应数据处理组的数据处理结果;基于各组待处理数据所对应的数据处理结果和每组待处理数据中的待处理子数据的数量,确定是否保留两组待处理数据。本发明专利技术实施方案,通过分布式系统在两总体差异性分析中的运用,扩大了计算系统整体内存,实现了对海量数据的分析处理,同时提高了数据处理效率。效率。效率。

【技术实现步骤摘要】
一种数据处理方法、装置、设备及存储介质


[0001]本专利技术涉及计算机
,尤其涉及一种数据处理方法、装置、设备及存储介质。

技术介绍

[0002]随着社会信息化程度日益加深,大数据正逐渐演变成不可或缺的战略资源。各行各业每天都在产生大量的数据,因此对大数据的处理分析成为各行业间的竞争热点。
[0003]虽然已有统计分析工具,对大数据进行处理分析,然而在对两总体进行差异显著性分析中,现有方法通常在一台计算机上进行:首先会将数据读入计算机内存,然后在内存中完成相关的计算步骤。
[0004]上述做法通常局限于单一计算机,受限于单一计算机的内存容量,在对大数据集进行处理的过程中,时常出现内存溢出的情况,导致数据处理过程不顺畅,效率低。

技术实现思路

[0005]本专利技术提供了一种数据处理方法、装置、设备及存储介质,通过分布式系统在数据分析处理中的应用,扩大了处理数据的容量,实现了高效、顺畅完成大数据集的计算工作问题。
[0006]第一方面,本专利技术实施例提供了一种数据处理方法,应用于分布式系统中,该分布式系统包括多个分布式节点,该方法包括:
[0007]接收两组待处理数据,并分别确定与每组待处理数据相对应的数据处理组;其中,待处理数据中包括多个待处理子数据,每组待处理数据所对应的数据处理组的数量相同;
[0008]对于各组待处理数据,将与当前待处理数据相对应的数据处理组分别发送至相应的分布式节点,以使分布式节点确定相应数据处理组的数据处理结果;
[0009]基于各组待处理数据所对应的数据处理结果和每组待处理数据中的待处理子数据的数量,确定是否保留两组待处理数据。
[0010]第二方面,本专利技术实施例还提供了一种数据处理装置,应用于数据处理中,该数据处理装置包括:
[0011]第一数据处理模块,用于接收两组待处理数据,并分别确定与每组待处理数据相对应的数据处理组;
[0012]第二数据处理模块,用于对于各组待处理数据,将与当前待处理数据相对应的数据处理组分别发送至相应的分布式节点,以使分布式节点确定相应数据处理组的数据处理结果;
[0013]第三数据处理模块,用于基于各组待处理数据所对应的数据处理结果和每组待处理数据中的待处理子数据的数量,确定是否保留两组待处理数据。
[0014]第三方面,本专利技术实施例还提供了一种数据处理设备,该设备包括:一个处理器或多个处理器;以及与一个或多个处理器通信连接的存储器;其中存储器存储有可被至少一
个处理器执行的计算机程序,计算机程序被至少一个处理器执行,以使至少一个处理器能够执行本专利技术实施例中任一项数据处理方法。
[0015]第四方面,本专利技术实施例还提供了一种计算机可读存储介质,其特征在于,计算机可读存储介质存储有计算机指令,计算机指令用于使处理器执行时实现本专利技术实施例中任一项数据处理方法。
[0016]本专利技术实施例的技术方案,通过运用分布式系统,接收两组待处理数据,并分别确定与每组待处理数据相对应的数据处理组;对于各组待处理数据,将与当前待处理数据相对应的数据处理组分别发送至相应的分布式节点,以使分布式节点确定相应数据处理组的数据处理结果;基于各组待处理数据所对应的数据处理结果和每组待处理数据中的待处理子数据的数量,确定是否保留两组待处理数据。通过分布式系统在两总体差异性分析中的运用,扩大了计算系统整体内存,实现了对海量数据的分析处理,同时提高了数据处理效率。
[0017]应当理解,本部分所描述的内容并非旨在标识本专利技术的实施例的关键或重要特征,也不用于限制本专利技术的范围。本专利技术的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0018]为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,仅仅用于解释本专利技术,而非对本专利技术的限定。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。
[0019]图1是根据本专利技术实施例一提供的一种数据处理方法的流程图;
[0020]图2是根据本专利技术实施例二提供的一种数据处理方法的流程图;
[0021]图3是根据本专利技术实施例三提供的一种数据处理装置的结构示意图;
[0022]图4是实现本专利技术实施例的数据处理方法的电子设备结构示意图。
具体实施方式
[0023]为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。
[0024]需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“目标”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0025]在介绍本专利技术实施例技术方案之前,首先对应用场景进行详细的说明。本专利技术实施例是利用分布式系统,处理在不同条件下产生的两组数据,分析不同条件对数据的影响是否有显著差异,如分析服用不同品牌的降压药对患者血压控制效果是否有显著差异、使用不同教学方法对两个班级成绩的影响是否显著等。其中确定两组数据是否存在显著性差异的过程中,用到的方法为T检验,T检验是利用T分布曲线,检验两个总体之间的差异是否显著时常用的检验方法。T分布曲线接近正态分布曲线,其横坐标为T统计量,用来衡量对两个总体进行多次随机抽样得到的样本均值的偏差大小。在T检验中,通常用到假设检验的方法:假设两个相互独立的总体之间没有差异,即原假设H0:μ1=μ2;备择假设H1:μ1≠μ2。其中μ1、μ2分别两个总体的均值,由于总体数据过于庞大,于是用样本均值来代替总体均值进行计算分析。
[0026]T统计量对应的概率,即P值。在T分布曲线中,曲线与横坐标之间的面积为1,每个T统计量都对应一个概率,表示当原假设成立时,T值出现的概率。
[0027]以P=α为界限,当P<α,则P值在预设范围内。说明这次抽样得到的T值属于小概率事件,或极端事件。那么在原假设成立的前提下出现了极端事件,则拒绝原假设H0,接受备择假设H1,即两个总体之间有显著差异。反之则接受原假设H0。可选的,α的大小根据实际情况设置,本实施例在此不做限定。
[0028]实施例一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,应用于分布式系统中,所述分布式系统包括多个分布式节点,所述方法包括:接收两组待处理数据,并分别确定与每组待处理数据相对应的数据处理组;其中,所述待处理数据中包括多个待处理子数据,每组待处理数据所对应的数据处理组的数量相同;对于各组待处理数据,将与当前待处理数据相对应的数据处理组分别发送至相应的分布式节点,以使所述分布式节点确定相应数据处理组的数据处理结果;基于各组待处理数据所对应的数据处理结果和每组待处理数据中的待处理子数据的数量,确定是否保留所述两组待处理数据。2.根据权利要求1所述的方法,其特征在于,所述分布式节点处理至少一个数据处理组。3.根据权利要求1所述的方法,其特征在于,所述分布式节点确定相应数据处理组的数据处理结果,包括:对所述数据处理组中的各待处理子数据进行均值处理,得到第一均值;或,对所述数据处理组中的各待处理子数据求和处理,得到所述数据处理组的累加值。4.根据权利要求1所述的方法,其特征在于,所述数据处理结果包括第一均值,所述基于各组待处理数据所对应的数据处理结果和每组待处理数据中的待处理子数据的数量,确定是否保留所述两组待处理数据,包括:对于各组待处理数据,获取当前组待处理数据所对应的第一均值,确定目标均值,并基于所述目标均值,确定均值方差;基于各组待处理数据的目标均值、均值方差以及待处理子数据的数量,确定统计结果;若所述统计结果在T分布所对应的预设范围之内,则保留所述两组待处理数据。5.根据权利要求1所述的方法,其特征在于,所述数据处理结果包括累加值,所述基于各组待处理数据所对应的数据处理结果和每组待处理数据中的待处理子数据的数量,确定是否保留所述两组待处理数据,包括:对于各组待处理数据,获取当前组待处理数据所对应的累加值,并基于所述...

【专利技术属性】
技术研发人员:张春烽张俊锋刘伟业冯闪李登高
申请(专利权)人:联仁健康医疗大数据科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1