一种信息处理方法、信息处理装置和电子设备制造方法及图纸

技术编号：34288452 阅读：22 留言：0更新日期：2022-07-27 08:52

本申请实施例公开了一种信息处理方法，该方法包括：基于数据集的M类属性数据对应的缺失预测模式，确定数据集的第n行数据中参考属性数据的占比最大、且为缺失值的第m类属性数据，以作为迭代补齐缺失值的起始对象；其中，1≤m≤M，1≤n≤N，且M和N均为大于等于2的整数；确定参考属性数据中各类参考属性数据对第m类属性数据的影响权重；基于各类参考属性数据和各类参考属性数据对应的影响权重，补齐第n行数据中的第m类属性数据的缺失值。本申请的实施例同时还公开了一种信息处理装置和电子设备。备。备。

全部详细技术资料下载

【技术实现步骤摘要】
一种信息处理方法、信息处理装置和电子设备

[0001]本申请涉及但不限于信息
，尤其涉及一种信息处理方法、信息处理装置和电子设备。

技术介绍

[0002]数据是各种数据分析和数据挖掘项目的基础，如果待分析的数据不完整，将影响分析结果。针对数据集中的一行数据中存在多项缺失的情况，目前没有匹配的缺失值补齐方案。

技术实现思路

[0003]本申请实施例期望提供一种信息处理方法、信息处理装置和电子设备。
[0004]本申请的技术方案是这样实现的：
[0005]一种信息处理方法，所述方法包括：
[0006]基于数据集的M类属性数据对应的缺失预测模式，确定所述数据集的第n行数据中参考属性数据的占比最大、且为缺失值的第m类属性数据，以作为迭代补齐缺失值的起始对象；其中，1≤m≤M，1≤n≤N，且所述M和N均为大于等于2的整数；
[0007]确定所述参考属性数据中各类参考属性数据对所述第m类属性数据的影响权重；
[0008]基于所述各类参考属性数据和所述各类参考属性数据对应的影响权重，补齐所述第n行数据中的所述第m类属性数据的缺失值。
[0009]一种信息处理装置，所述信息处理装置包括：
[0010]处理模块，用于基于数据集的M类属性数据对应的缺失预测模式，确定所述数据集的第n行数据中参考属性数据的占比最大、且为缺失值的第m类属性数据，以作为迭代补齐缺失值的起始对象；其中，1≤m≤M，1≤n≤N，且所述M和N均为大于等于2的整数；
[0011]所述...

【技术保护点】

【技术特征摘要】
1.一种信息处理方法，所述方法包括：基于数据集的M类属性数据对应的缺失预测模式，确定所述数据集的第n行数据中参考属性数据的占比最大、且为缺失值的第m类属性数据，以作为迭代补齐缺失值的起始对象；其中，1≤m≤M，1≤n≤N，且所述M和N均为大于等于2的整数；确定所述参考属性数据中各类参考属性数据对所述第m类属性数据的影响权重；基于所述各类参考属性数据和所述各类参考属性数据对应的影响权重，补齐所述第n行数据中的所述第m类属性数据的缺失值。2.根据权利要求1所述的方法，所述方法还包括：确定所述第n行数据中参考属性数据的占比最大、且为缺失值的第m+x类属性数据作为迭代补齐缺失值的下一对象，直至补齐所述第n行数据中所有为缺失值的各类属性数据；其中，x为不等于0的整数。3.根据权利要求1所述的方法，所述方法还包括：获得L行数据中每一行的所述各类参考属性数据用于预测所述第m类属性数据的缺失值时的沙普利值；其中，所述L行数据中每行数据与所述第n行数据包含的属性数据的类别属性相同，1<L，且所述L为整数；基于所述各类参考属性数据中每一类参考属性数据用于预测所述第m类属性数据的缺失值时的L个沙普利值，确定所述每一类参考属性数据用于预测所述第m类属性数据的缺失值时对应的影响权重。4.根据权利要求1所述的方法，所述确定所述参考属性数据中各类参考属性数据对所述第m类属性数据的影响权重，包括：确定与所述第m类属性数据对应的第m个预测模型；至少将所述参考属性数据中各类参考属性数据输入所述第m个预测模型，以使所述第m个预测模型基于所述各类参考属性数据确定所述各类参考属性数据对应的影响权重；相应的，所述基于所述各类参考属性数据和所述各类参考属性数据对应的影响权重，补齐所述第n行数据中的所述第m类属性数据的缺失值，包括：通过所述第m个预测模型，基于所述各类参考属性数据和所述各类参考属性数据对应的影响权重，预测得到所述第n行数据中的所述第m类属性数据的缺失值。5.根据权利要求4所述的方法，所述方法还包括：从所述数据集中确定出非缺失的属性数据占比满足阈值条件的W行数据；其中，所述W行数据中第w行数据与所述第n行数据包含的属性数据的类别属性相同，1≤w≤W，所述W为大于2的整数，且所述数据集的总行数大于等于N与W之和；以所述第m类属性数据作为...

【专利技术属性】
技术研发人员：莫森，
申请(专利权)人：联想北京有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人