一种基于数据简并的大数据转换方法与装置制造方法及图纸

技术编号:30272753 阅读:76 留言:0更新日期:2021-10-09 21:30
本申请揭示了一种基于数据简并的大数据转换方法,分别进行模数转化处理,以得到数字信号集合;进行聚类处理,以得到多个数据子集,并得到多个相似度集合;获取多个标准数据;生成多个虚拟数字数据,并对所述多个虚拟数字数据进行人工标记处理,从而得到多个样本数据;对预设的深度神经网络模型进行训练,以得到数字规律预测模型;得到多个预测结果;构成一号数据集,构成二号数据集;分别进行哈希计算,从而得到多个哈希值,并建立映射关系;进行数据简并处理,以得到多个三元素数据组合;执行大数据存储操作,实现了数据简并的目的,从而减轻了大数据的存储压力,并且还提高了大数据的信息安全性。信息安全性。信息安全性。

【技术实现步骤摘要】
一种基于数据简并的大数据转换方法与装置


[0001]本申请涉及到大数据领域,特别是涉及到一种基于数据简并的大数据转换方法与装置。

技术介绍

[0002]医疗及医学教育领域中的大数据分析,是在大量的传感器进行大数据采集的基础上实施的,这些传感器采集得到的数据(一般为模拟信号数据)数量繁多,需要耗费大量的存储资源来存储,因此形成庞大的存储压力。而传统的大数据存储方案中,未能有效解决存储压力大的问题。

技术实现思路

[0003]本申请一种基于数据简并的大数据转换方法,应用于大数据转化终端,包括:S1、接收来自于预设的多个数据传感器进行感测处理而得到的模拟信号集合,并根据预设的模数转化方法,对所述模拟信号集合中的模拟信号分别进行模数转化处理,以得到数字信号集合;S2、根据预设的数据聚类方法,对所述数字信号集合进行聚类处理,以得到多个数据子集,并根据预设的相似度计算方法,对每个数据子集中的全部成员进行相似度计算处理,以得到与所述多个数据子集分别对应的多个相似度集合;S3、根据所述多个相似度集合,从每个数据子集中分别筛选出一个标准数据,从而获取与所述多个数据子集一一对应的多个标准数据,并生成所述多个标准数据分别对应的代号;S4、采用预设的数据模拟方法,生成多个虚拟数字数据,并对所述多个虚拟数字数据进行人工标记处理,以将存在数字规律的虚拟数字数据标记上对应的标签,从而得到多个样本数据;其中,不存在数字规律的虚拟数字数据被默认标记上零号标签,具有不同数字规律的虚拟数字数据被标记上不同的标签;S5、使用所述多个样本数据对预设的深度神经网络模型进行训练,以得到数字规律预测模型;其中,训练过程中采用反向传播算法来更新各层网络的参数;S6、将所述数字信号集合中,除所述多个标准数据之外的其他数据,依次输入所述数字规律预测模型中进行处理,以得到所述数字规律预测模型对应输出的多个预测结果;其中,当预测结果为具有数字规律时,预测结果还附带有数字规律标签;S7、将预测结果为不具有数字规律的数据构成一号数据集,并将预测结果为具有数字规律的数据构成二号数据集;S8、根据预设的哈希算法,对所述二号数据集中的所有数据分别进行哈希计算,从而得到多个哈希值,并建立数据

哈希值

数字规律标签

数据子集

标准数据代号的映射关系;S9、根据所述映射关系,对所述二号数据集中的所有数据进行数据简并处理,以得
到多个三元素数据组合;其中,每个三元素数据组合由处于同一个映射关系中的哈希值、数字规律标签和标准数据代号构成;S10、执行大数据存储操作,以存储所述一号数据集、所述多个标准数据和所述多个三元素数据组合。
[0004]进一步地,所述根据预设的相似度计算方法,对每个数据子集中的全部成员进行相似度计算处理,以得到与所述多个数据子集分别对应的多个相似度集合的步骤,包括:S201、进行第一次划分操作,以对第一个数据子集中的全部成员分别进行t等分划分处理,从而对应得到多个二进制符号段序列;S202、进行第一批相似度计算操作,以从所述多个二进制符号段序列中随机选出一个参考二进制符号段序列,并根据公式:,计算出参考二进制符号段序列与一个其他二进制符号段序列之间的相似度值Q,从而得到多个相似度值;其中,p为预设的大于1的参数,Wi为参考二进制符号段序列的第i个二进制符号段,Ei为另一个被计算的二进制符号段序列的第i个二进制符号段;S203、进行第一次相似度集合构建操作,以将所述多个相似度值组成对应于第一个数据子集的第一个相似度集合;S204、依次进行第二次划分操作、第二批相似度计算操作、第二次相似度集合构建操作、

、第m次划分操作、第m批相似度计算操作、第m次相似度集合构建操作,从而得到对应于第二个数据子集的第二个相似度集合、

、对应于第m个数据子集的第m个相似度集合;其中,共有m个数据子集,m为大于2的整数。
[0005]进一步地,所述根据所述多个相似度集合,从每个数据子集中分别筛选出一个标准数据,从而获取与所述多个数据子集一一对应的多个标准数据的步骤,包括:S301、判断第一个相似度集合中的所有成员是否均大于预设的相似度阈值;S302、若第一个相似度集合中的所有成员均大于预设的相似度阈值,则将所述参考二进制符号段序列作为从第一个数据子集中筛选出来的标准数据。
[0006]进一步地,所述判断第一个相似度集合中的所有成员是否均大于预设的相似度阈值的步骤S301之后,包括:S3011、若第一个相似度集合中的所有成员不均大于预设的相似度阈值,则随机选出新的参考二进制符号段序列,并根据公式:
,计算出所述新的参考二进制符号段序列与一个其他二进制符号段序列之间的相似度值R,从而得到多个新的相似度值;其中,p为预设的大于1的参数,Ti为所述新的参考二进制符号段序列的第i个二进制符号段,Yi为另一个被计算的二进制符号段序列的第i个二进制符号段;S3012、判断所述多个新的相似度值是否均大于预设的相似度阈值;S3013、若所述多个新的相似度值均大于预设的相似度阈值,则将所述新的参考二进制符号段序列作为从第一个数据子集中筛选出来的标准数据。
[0007]进一步地,所述使用所述多个样本数据对预设的深度神经网络模型进行训练,以得到数字规律预测模型的步骤S5,包括:S501、根据预设比例,将所述多个样本数据划分为多个训练数据和多个验证数据;S502、将所述多个训练数据输入所述深度神经网络模型中进行训练,以得到初步预测模型;S503、采用所述多个验证数据对所述初步预测模型进行验证处理,并判断验证处理的结果是否为验证通过;S504、若验证处理的结果为验证通过,则将所述初步预测模型记为数字规律预测模型。
[0008]本申请提供一种基于数据简并的大数据转换装置,应用于大数据转化终端,包括:数字信号集合获取单元,用于接收来自于预设的多个数据传感器进行感测处理而得到的模拟信号集合,并根据预设的模数转化方法,对所述模拟信号集合中的模拟信号分别进行模数转化处理,以得到数字信号集合;相似度计算单元,用于根据预设的数据聚类方法,对所述数字信号集合进行聚类处理,以得到多个数据子集,并根据预设的相似度计算方法,对每个数据子集中的全部成员进行相似度计算处理,以得到与所述多个数据子集分别对应的多个相似度集合;标准数据筛选单元,用于根据所述多个相似度集合,从每个数据子集中分别筛选出一个标准数据,从而获取与所述多个数据子集一一对应的多个标准数据,并生成所述多个标准数据分别对应的代号;样本数据生成单元,用于采用预设的数据模拟方法,生成多个虚拟数字数据,并对所述多个虚拟数字数据进行人工标记处理,以将存在数字规律的虚拟数字数据标记上对应的标签,从而得到多个样本数据;其中,不存在数字规律的虚拟数字数据被默认标记上零号标签,具有不同数字规律的虚拟数字数据被标记上不同的标签;数字规律预测模型获取单元,用于使用所述多个样本数据对预设的深度神经网络模型进行训练,以得到数字规律预测模型;其中,训练过本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于数据简并的大数据转换方法,其特征在于,应用于大数据转化终端,包括:S1、接收来自于预设的多个数据传感器进行感测处理而得到的模拟信号集合,并根据预设的模数转化方法,对所述模拟信号集合中的模拟信号分别进行模数转化处理,以得到数字信号集合;S2、根据预设的数据聚类方法,对所述数字信号集合进行聚类处理,以得到多个数据子集,并根据预设的相似度计算方法,对每个数据子集中的全部成员进行相似度计算处理,以得到与所述多个数据子集分别对应的多个相似度集合;S3、根据所述多个相似度集合,从每个数据子集中分别筛选出一个标准数据,从而获取与所述多个数据子集一一对应的多个标准数据,并生成所述多个标准数据分别对应的代号;S4、采用预设的数据模拟方法,生成多个虚拟数字数据,并对所述多个虚拟数字数据进行人工标记处理,以将存在数字规律的虚拟数字数据标记上对应的标签,从而得到多个样本数据;其中,不存在数字规律的虚拟数字数据被默认标记上零号标签,具有不同数字规律的虚拟数字数据被标记上不同的标签;S5、使用所述多个样本数据对预设的深度神经网络模型进行训练,以得到数字规律预测模型;其中,训练过程中采用反向传播算法来更新各层网络的参数;S6、将所述数字信号集合中,除所述多个标准数据之外的其他数据,依次输入所述数字规律预测模型中进行处理,以得到所述数字规律预测模型对应输出的多个预测结果;其中,当预测结果为具有数字规律时,预测结果还附带有数字规律标签;S7、将预测结果为不具有数字规律的数据构成一号数据集,并将预测结果为具有数字规律的数据构成二号数据集;S8、根据预设的哈希算法,对所述二号数据集中的所有数据分别进行哈希计算,从而得到多个哈希值,并建立数据

哈希值

数字规律标签

数据子集

标准数据代号的映射关系;S9、根据所述映射关系,对所述二号数据集中的所有数据进行数据简并处理,以得到多个三元素数据组合;其中,每个三元素数据组合由处于同一个映射关系中的哈希值、数字规律标签和标准数据代号构成;S10、执行大数据存储操作,以存储所述一号数据集、所述多个标准数据和所述多个三元素数据组合。2.根据权利要求1所述的基于数据简并的大数据转换方法,其特征在于,所述根据预设的相似度计算方法,对每个数据子集中的全部成员进行相似度计算处理,以得到与所述多个数据子集分别对应的多个相似度集合的步骤,包括:S201、进行第一次划分操作,以对第一个数据子集中的全部成员分别进行t等分划分处理,从而对应得到多个二进制符号段序列;S202、进行第一批相似度计算操作,以从所述多个二进制符号段序列中随机选出一个参考二进制符号段序列,并根据公式:
,计算出参考二进制符号段序列与一个其他二进制符号段序列之间的相似度值Q,从而得到多个相似度值;其中,p为预设的大于1的参数,Wi为参考二进制符号段序列的第i个二进制符号段,Ei为另一个被计算的二进制符号段序列的第i个二进制符号段;S203、进行第一次相似度集合构建操作,以将所述多个相似度值组成对应于第一个数据子集的第一个相似度集合;S204、依次进行第二次划分操作、第二批相似度计算操作、第二次相似度集合构建操作、

、第m次划分操作、第m批相似度计算操作、第m次相似度集合构建操作,从而得到对应于第二个数据子集的第二个相似度集合、

、对应于第m个数据子集的第m个相似度集合;其中,共有m个数据子集,m为大于2的整数。3.根据权利要求2所述的基于数据简并的大数据转换方法,其特征在于,所述根据所述多个相似度集合,从每个数据子集中分别筛选出一个标准数据,从而获取与所述多个数据子集一一对应的多个标准数据的步骤,包括:S301、判断第一个相似度集合中的所有成员是否均大于预设的相似度阈值;S302、若第一个相似度集合中的所有成员均大于预设的相似度阈值,则将所述参考二进制符号段序列作为从第一个数据子集中筛选出来的标准数据。4.根据权利要求3所述的基于数据简并的大数据转换方法,其特征在于,所述判断第一个相似度集合中的所有成员是否均大于预设的相似度阈值的步骤S301之后,包括:S3011、若第一个相似度集合中的所有成员不均大于预设的相似度阈值,则随机选出新的参考二进制符号段序列,并根据公式:,计算出所述新的参考二进制符号段序列与一个其他二进制符号段序列之间的相似度值R,从而得到多个新的相似度值;其中,p为预设的大于1的参数,Ti为所述新的参考二进制符号段序列的第i个二进制符号段,Yi为另一个被计算的二进制符号段序列的第i个二进制符号段;S3012、判断所述多个新的相似度值是否均大于预设的相似度阈值;S3013、若所述多个新的相似度值均大于预设的相似度阈值,则将所述新的参考二进制符号段序列作为从第一个数据子集中筛选出来的标准数据。5.根据权利要求1所述的基于数据简并的大数据转换方法,其特征在于,所述使用所述
多个样本数据对预设的深度神经网络模型进行训练,以得到数字规律预测模型的步骤S5,包括:S501、根据预设比例,将所述多个样本数据划分为多个训练数据和多个验证数据;S502、将所述多个训练数据输入所述深度神经网络模型中进行训练,以得到初步预测模型;S503、采用所述多个验证数据对所述初步预测模型进行验证处理,并判断验证处理的结果是否为验证通过;S504、若验证处理的结果为验证通过,则将所述初步预测模型记为数字规律预测模型。...

【专利技术属性】
技术研发人员:曾承
申请(专利权)人:武汉泰乐奇信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1