缺失数据处理方法及装置、电子设备和存储介质制造方法及图纸

技术编号:23766610 阅读:13 留言:0更新日期:2020-04-11 20:10
本公开是关于一种缺失数据处理方法、缺失数据处理方法装置、电子设备以及计算机可读存储介质,涉及数据挖掘技术领域,可以应用于对患者医疗数据的缺失数据进行识别和填充的场景。该缺失数据处理方法包括:获取原始数据,对原始数据进行降维处理和聚类处理,以得到聚类数据;其中,原始数据包括多维度患者医疗数据;基于原始数据确定时间间隔阈值,并根据时间间隔阈值对聚类数据添加间隔标签,以得到序列化数据;根据间隔标签从序列化数据中确定待判定数据,并确定待判定数据的支持度和置信度;根据支持度和置信度判断待判定数据是否为缺失数据。本公开可以识别出多维度患者医疗数据中的缺失数据,并对缺失数据进行推断填充。

Missing data processing methods and devices, electronic equipment and storage media

【技术实现步骤摘要】
缺失数据处理方法及装置、电子设备和存储介质
本公开涉及数据挖掘
,具体而言,涉及一种缺失数据处理方法、缺失数据处理装置、电子设备以及计算机可读存储介质。
技术介绍
时间序列数据分析是基于长时间观测数据,分析事物发生趋势的分析方法。患者全生命周期诊疗数据是典型的多维度时间序列数据,由于患者跨地区就医频繁发生,诊疗信息存储于跨地区多家医院中,因此,患者诊疗全生命周期数据往往无法完整搜集,从而产生随机性缺失。在经济、社会等领域相关研究中,时间序列数据中多个观测时间点之间存在着自然的内在联系,往往可通过线性回归方法对缺失数据进行推断。而在医疗领域中,患者的诊疗路径选择往往基于专业人士对患者当前病程状态的评价,而该类评价往往难以在数据中充分体现,从而造成基于线性回归算法的缺失数据推断手段难以合理地对诊疗全生命周期数据进行数据填充。需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
本公开的目的在于提供一种缺失数据处理方法、缺失数据处理装置、电子设备以及计算机可读存储介质,进而至少在一定程度上克服无法基于既有的患者医疗数据准确推断出是否存在数据缺失,并对缺失数据进行填充的问题。本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本专利技术的实践而习得。根据本公开的第一方面,提供一种缺失数据处理方法,包括:获取原始数据,对所述原始数据进行降维处理和聚类处理,以得到聚类数据;其中,所述原始数据包括多维度患者医疗数据;基于所述原始数据确定时间间隔阈值,并根据所述时间间隔阈值对所述聚类数据添加间隔标签,以得到序列化数据;根据所述间隔标签从所述序列化数据中确定待判定数据,并确定所述待判定数据的支持度和置信度;根据所述支持度和所述置信度判断所述待判定数据是否为缺失数据。可选的,所述原始数据包含多个维度,所述对所述原始数据进行降维处理和聚类处理,以得到聚类数据,包括:确定所述原始数据在各所述维度中分别对应的值域;根据所述多个维度以及所述值域对所述原始数据进行向量化处理,以得到向量化数据;对所述向量化数据进行降维处理以生成降维数据;对所述降维数据进行所述聚类处理,以得到所述聚类数据。可选的,所述对所述向量化数据进行降维处理以生成降维数据,包括:对所述向量化数据进行零均值化处理,得到均值化数据;确定所述均值化数据对应的协方差矩阵,并计算所述协方差矩阵的特征值和特征向量;确定目标维度数量,并获取所述目标维度数量个特征值分别对应的特征向量;根据确定出的所述特征向量对所述向量化数据进行转换处理,以生成所述降维数据。可选的,所述对所述降维数据进行所述聚类处理,以得到所述聚类数据,包括:获取目标数量;其中,所述目标数量为目标维度数量;对所述降维数据进行聚类处理,生成目标数量个分类类别;基于所述原始数据确定各所述分类类别对应的模式数据以及各所述模式数据分别对应的模式概率。可选的,所述根据所述时间间隔阈值对所述聚类数据添加间隔标签,以得到序列化数据,包括:根据所述聚类数据确定多个模式数据,对各所述模式数据进行序列化处理:如果所述模式数据归属于对应的分类类别,则采用所述分类类别的分类标识替换所述模式数据;如果所述模式数据未归属于对应的分类类别,则采用未分类标识替换所述模式数据;如果两个相邻模式数据之间的时间间隔值大于所述时间间隔阈值,则将所述间隔标签添加至所述两个相邻模式数据之间。可选的,所述基于所述原始数据确定时间间隔阈值,包括:获取所述原始数据的数据分布结果,根据所述数据分布结果确定所述时间间隔阈值。可选的,所述确定所述待判定数据的支持度和置信度,包括:根据所述间隔标签确定与所述待判定数据对应的第一模式数据与第二模式数据;根据所述第一模式数据、所述第二模式数据以及所述间隔标签分别确定所述支持度和所述置信度。可选的,所述根据所述支持度和所述置信度判断所述待判定数据是否为缺失数据,包括:获取预设阈值;其中,所述预设阈值用于与所述支持度或所述置信度进行对比;如果所述支持度与所述置信度大于或等于所述预设阈值,则将所述待判定数据确定为非缺失数据;如果所述支持度或所述置信度小于所述预设阈值,则将所述待判定数据确定为所述缺失数据。根据本公开的第二方面,提供一种缺失数据处理方法,包括:确定缺失数据以及与缺失数据对应的序列化数据;基于所述序列化数据确定与所述缺失数据对应的参考数据;根据所述参考数据对所述缺失数据进行数据推断处理和数据填充处理。可选的,所述缺失数据包括间隔标签,所述根据所述参考数据对所述缺失数据进行数据推断处理和数据填充处理,包括:确定所述缺失数据中包含的所述间隔标签以及标签位置信息;根据所述标签位置信息从所述参考数据中确定参考填充数据;根据所述参考填充数据对所述缺失数据进行填充处理。可选的,所述根据所述参考填充数据对所述缺失数据进行填充处理,包括:根据所述标签位置信息将所述参考填充数据插入至所述缺失数据以替换所述间隔标签;迭代执行下述步骤以进行对所述缺失数据的填充处理:判断所述缺失数据中是否包含与所述参考填充数据对应的第一原始数据;若是,则采用所述第一原始数据对所述缺失数据进行填充处理;若否,则确定第二原始数据,并采用所述第二原始数据对所述缺失数据进行填充处理;其中,所述第二原始数据为所述参考填充数据中模式概率最大的原始数据。根据本公开的第三方面,提供一种缺失数据处理装置,包括:降维聚类处理模块,用于获取原始数据,对所述原始数据进行降维处理和聚类处理,以得到聚类数据;其中,所述原始数据包括多维度患者医疗数据;序列化处理模块,用于基于所述原始数据确定时间间隔阈值,并根据所述时间间隔阈值对所述聚类数据添加间隔标签,以得到序列化数据;数据信息确定模块,用于根据所述间隔标签从所述序列化数据中确定待判定数据,并确定所述待判定数据的支持度和置信度;判断模块,用于根据所述支持度和所述置信度判断所述待判定数据是否为缺失数据。可选的,降维聚类处理模块包括降维聚类处理单元,用于确定所述原始数据在各所述维度中分别对应的值域;根据所述多个维度以及所述值域对所述原始数据进行向量化处理,以得到向量化数据;对所述向量化数据进行降维处理以生成降维数据;对所述降维数据进行所述聚类处理,以得到所述聚类数据。可选的,降维聚类处理单元包括降维处理子单元,用于对所述向量化数据进行零均值化处理,得到均值化数据;确定所述均值化数据对应的协方差矩阵,并计算所述协方差矩阵的特征值和特征向量;确定目标维度数量,并获取所述目标维度数量个特征值分别对应的特征向量;根据确定出的所述特征向量对所述向量化数据进行转换处理,以生成所述降维数据。可选的,降维聚类处理单元包括聚类处理子单元,用于获取目标数量;其中,所述目标数量为目标维度数量;对所述降维数据进行聚类处理,生成目标数量个分类类别;基于所述原始数据确定各所述分类类别对应的模式数据以及各所述模式数据分别对应的模式概率。可选的,序列化处理本文档来自技高网...

【技术保护点】
1.一种缺失数据处理方法,其特征在于,包括:/n获取原始数据,对所述原始数据进行降维处理和聚类处理,以得到聚类数据;其中,所述原始数据包括多维度患者医疗数据;/n基于所述原始数据确定时间间隔阈值,并根据所述时间间隔阈值对所述聚类数据添加间隔标签,以得到序列化数据;/n根据所述间隔标签从所述序列化数据中确定待判定数据,并确定所述待判定数据的支持度和置信度;/n根据所述支持度和所述置信度判断所述待判定数据是否为缺失数据。/n

【技术特征摘要】
1.一种缺失数据处理方法,其特征在于,包括:
获取原始数据,对所述原始数据进行降维处理和聚类处理,以得到聚类数据;其中,所述原始数据包括多维度患者医疗数据;
基于所述原始数据确定时间间隔阈值,并根据所述时间间隔阈值对所述聚类数据添加间隔标签,以得到序列化数据;
根据所述间隔标签从所述序列化数据中确定待判定数据,并确定所述待判定数据的支持度和置信度;
根据所述支持度和所述置信度判断所述待判定数据是否为缺失数据。


2.根据权利要求1所述的缺失数据处理方法,其特征在于,所述原始数据包含多个维度,所述对所述原始数据进行降维处理和聚类处理,以得到聚类数据,包括:
确定所述原始数据在各所述维度中分别对应的值域;
根据所述多个维度以及所述值域对所述原始数据进行向量化处理,以得到向量化数据;
对所述向量化数据进行降维处理以生成降维数据;
对所述降维数据进行所述聚类处理,以得到所述聚类数据。


3.根据权利要求2所述的缺失数据处理方法,其特征在于,所述对所述向量化数据进行降维处理以生成降维数据,包括:
对所述向量化数据进行零均值化处理,得到均值化数据;
确定所述均值化数据对应的协方差矩阵,并计算所述协方差矩阵的特征值和特征向量;
确定目标维度数量,并获取所述目标维度数量个特征值分别对应的特征向量;
根据确定出的所述特征向量对所述向量化数据进行转换处理,以生成所述降维数据;
其中,所述对所述降维数据进行所述聚类处理,以得到所述聚类数据,包括:
获取目标数量;其中,所述目标数量为目标维度数量;
对所述降维数据进行聚类处理,生成目标数量个分类类别;
基于所述原始数据确定各所述分类类别对应的模式数据以及各所述模式数据分别对应的模式概率。


4.根据权利要求3所述的缺失数据处理方法,其特征在于,所述根据所述时间间隔阈值对所述聚类数据添加间隔标签,以得到序列化数据,包括:
根据所述聚类数据确定多个模式数据,对各所述模式数据进行序列化处理:
如果所述模式数据归属于对应的分类类别,则采用所述分类类别的分类标识替换所述模式数据;
如果所述模式数据未归属于对应的分类类别,则采用未分类标识替换所述模式数据;
如果两个相邻模式数据之间的时间间隔值大于所述时间间隔阈值,则将所述间隔标签添加至所述两个相邻模式数据之间。


5.根据权利要求1所述的缺失数据处理方法,其特征在于,所述确定所述待判定数据的支持度和置信度,包括:
根据所述间隔标签确定与所述待判定数据对应的第一模式数据与第二模式数据;
根据所述第一模式数据、所述第二模式数据以及所述间隔标签分别确定所述支持度和所述置信度。


6.根据权利要求1所述的缺失数据处理方法,其特征在于,所述根据所述支持度和所述置信度判断所述待判定数据是否为缺失数据,包括:
如果所述支持度与所述置信度大于或等于预...

【专利技术属性】
技术研发人员:徐阳马颖娜黄博
申请(专利权)人:天津开心生活科技有限公司天津新开心生活科技有限公司
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1