缺失数据处理方法及装置、电子设备和存储介质制造方法及图纸

技术编号：23766610 阅读：13 留言：0更新日期：2020-04-11 20:10

本公开是关于一种缺失数据处理方法、缺失数据处理方法装置、电子设备以及计算机可读存储介质，涉及数据挖掘技术领域，可以应用于对患者医疗数据的缺失数据进行识别和填充的场景。该缺失数据处理方法包括：获取原始数据，对原始数据进行降维处理和聚类处理，以得到聚类数据；其中，原始数据包括多维度患者医疗数据；基于原始数据确定时间间隔阈值，并根据时间间隔阈值对聚类数据添加间隔标签，以得到序列化数据；根据间隔标签从序列化数据中确定待判定数据，并确定待判定数据的支持度和置信度；根据支持度和置信度判断待判定数据是否为缺失数据。本公开可以识别出多维度患者医疗数据中的缺失数据，并对缺失数据进行推断填充。

Missing data processing methods and devices, electronic equipment and storage media

全部详细技术资料下载

【技术实现步骤摘要】
缺失数据处理方法及装置、电子设备和存储介质
本公开涉及数据挖掘
，具体而言，涉及一种缺失数据处理方法、缺失数据处理装置、电子设备以及计算机可读存储介质。
技术介绍
时间序列数据分析是基于长时间观测数据，分析事物发生趋势的分析方法。患者全生命周期诊疗数据是典型的多维度时间序列数据，由于患者跨地区就医频繁发生，诊疗信息存储于跨地区多家医院中，因此，患者诊疗全生命周期数据往往无法完整搜集，从而产生随机性缺失。在经济、社会等领域相关研究中，时间序列数据中多个观测时间点之间存在着自然的内在联系，往往可通过线性回归方法对缺失数据进行推断。而在医疗领域中，患者的诊疗路径选择往往基于专业人士对患者当前病程状态的评价，而该类评价往往难以在数据中充分体现，从而造成基于线性回归算法的缺失数据推断手段难以合理地对诊疗全生命周期数据进行数据填充。需要说明的是，在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
本公开的目的在于提供一种缺失数据处理方法、缺失数据处理装置、电子设备以及计算机可读存储介质，进而至少在一定程度上克服无法基于既有的患者医疗数据准确推断出是否存在数据缺失，并对缺失数据进行填充的问题。本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本专利技术的实践而习得。根据本公开的第一方面，提供一种缺失数据处理方法，包括：获取原始数据，对所述原始数据进行降维处理和聚类处理，以得到聚类数据；其中，所...

【技术保护点】
1.一种缺失数据处理方法，其特征在于，包括：/n获取原始数据，对所述原始数据进行降维处理和聚类处理，以得到聚类数据；其中，所述原始数据包括多维度患者医疗数据；/n基于所述原始数据确定时间间隔阈值，并根据所述时间间隔阈值对所述聚类数据添加间隔标签，以得到序列化数据；/n根据所述间隔标签从所述序列化数据中确定待判定数据，并确定所述待判定数据的支持度和置信度；/n根据所述支持度和所述置信度判断所述待判定数据是否为缺失数据。/n

【技术特征摘要】
1.一种缺失数据处理方法，其特征在于，包括：
获取原始数据，对所述原始数据进行降维处理和聚类处理，以得到聚类数据；其中，所述原始数据包括多维度患者医疗数据；
基于所述原始数据确定时间间隔阈值，并根据所述时间间隔阈值对所述聚类数据添加间隔标签，以得到序列化数据；
根据所述间隔标签从所述序列化数据中确定待判定数据，并确定所述待判定数据的支持度和置信度；
根据所述支持度和所述置信度判断所述待判定数据是否为缺失数据。

2.根据权利要求1所述的缺失数据处理方法，其特征在于，所述原始数据包含多个维度，所述对所述原始数据进行降维处理和聚类处理，以得到聚类数据，包括：
确定所述原始数据在各所述维度中分别对应的值域；
根据所述多个维度以及所述值域对所述原始数据进行向量化处理，以得到向量化数据；
对所述向量化数据进行降维处理以生成降维数据；
对所述降维数据进行所述聚类处理，以得到所述聚类数据。

3.根据权利要求2所述的缺失数据处理方法，其特征在于，所述对所述向量化数据进行降维处理以生成降维数据，包括：
对所述向量化数据进行零均值化处理，得到均值化数据；
确定所述均值化数据对应的协方差矩阵，并计算所述协方差矩阵的特征值和特征向量；
确定目标维度数量，并获取所述目标维度数量个特征值分别对应的特征向量；
根据确定出的所述特征向量对所述向量化数据进行转换处理，以生成所述降维数据；
其中，所述对所述降维数据进行所述聚类处理，以得到所述聚类数据，包括：
获取目标数量；其中，所述目标数量为目标维度数量；
对所述降维数据进行聚类处理，生成目标数量个分类类别；
基于所述原始数据确定各所述分类类别对应的模式数据以及各所述模式数据分别对应的模式概率。

4.根据权利要求3所述的缺失数据处理方法，其特征在于，所述根据所述时间间隔阈值对所述聚类数据添加间隔标签，以得到序列化数据，包括：
根据所述聚类数据确定多个模式数据，对各所述模式数据进行序列化处理：
如果所述模式数据归属于对应的分类类别，则采用所述分类类别的分类标识替换所述模式数据；
如果所述模式数据未归属于对应的分类类别，则采用未分类标识替换所述模式数据；
如果两个相邻模式数据之间的时间间隔值大于所述时间间隔阈值，则将所述间隔标签添加至所述两个相邻模式数据之间。

5.根据权利要求1所述的缺失数据处理方法，其特征在于，所述确定所述待判定数据的支持度和置信度，包括：
根据所述间隔标签确定与所述待判定数据对应的第一模式数据与第二模式数据；
根据所述第一模式数据、所述第二模式数据以及所述间隔标签分别确定所述支持度和所述置信度。

6.根据权利要求1所述的缺失数据处理方法，其特征在于，所述根据所述支持度和所述置信度判断所述待判定数据是否为缺失数据，包括：
如果所述支持度与所述置信度大于或等于预...

【专利技术属性】
技术研发人员：徐阳，马颖娜，黄博，
申请(专利权)人：天津开心生活科技有限公司，天津新开心生活科技有限公司，
类型：发明
国别省市：天津;12

全部详细技术资料下载我是这个专利的主人