一种信息处理方法、信息处理装置和电子设备制造方法及图纸

技术编号:34288452 阅读:22 留言:0更新日期:2022-07-27 08:52
本申请实施例公开了一种信息处理方法,该方法包括:基于数据集的M类属性数据对应的缺失预测模式,确定数据集的第n行数据中参考属性数据的占比最大、且为缺失值的第m类属性数据,以作为迭代补齐缺失值的起始对象;其中,1≤m≤M,1≤n≤N,且M和N均为大于等于2的整数;确定参考属性数据中各类参考属性数据对第m类属性数据的影响权重;基于各类参考属性数据和各类参考属性数据对应的影响权重,补齐第n行数据中的第m类属性数据的缺失值。本申请的实施例同时还公开了一种信息处理装置和电子设备。备。备。

【技术实现步骤摘要】
一种信息处理方法、信息处理装置和电子设备


[0001]本申请涉及但不限于信息
,尤其涉及一种信息处理方法、信息处理装置和电子设备。

技术介绍

[0002]数据是各种数据分析和数据挖掘项目的基础,如果待分析的数据不完整,将影响分析结果。针对数据集中的一行数据中存在多项缺失的情况,目前没有匹配的缺失值补齐方案。

技术实现思路

[0003]本申请实施例期望提供一种信息处理方法、信息处理装置和电子设备。
[0004]本申请的技术方案是这样实现的:
[0005]一种信息处理方法,所述方法包括:
[0006]基于数据集的M类属性数据对应的缺失预测模式,确定所述数据集的第n行数据中参考属性数据的占比最大、且为缺失值的第m类属性数据,以作为迭代补齐缺失值的起始对象;其中,1≤m≤M,1≤n≤N,且所述M和N均为大于等于2的整数;
[0007]确定所述参考属性数据中各类参考属性数据对所述第m类属性数据的影响权重;
[0008]基于所述各类参考属性数据和所述各类参考属性数据对应的影响权重,补齐所述第n行数据中的所述第m类属性数据的缺失值。
[0009]一种信息处理装置,所述信息处理装置包括:
[0010]处理模块,用于基于数据集的M类属性数据对应的缺失预测模式,确定所述数据集的第n行数据中参考属性数据的占比最大、且为缺失值的第m类属性数据,以作为迭代补齐缺失值的起始对象;其中,1≤m≤M,1≤n≤N,且所述M和N均为大于等于2的整数;
[0011]所述处理模块,还用于确定所述参考属性数据中各类参考属性数据对所述第m类属性数据的影响权重;
[0012]所述处理模块,还用于基于所述各类参考属性数据和所述各类参考属性数据对应的影响权重,补齐所述第n行数据中的所述第m类属性数据的缺失值。
[0013]一种电子设备,所述电子设备包括:处理器、存储器和通信总线;
[0014]所述通信总线用于实现处理器和存储器之间的通信连接;
[0015]所述处理器用于执行存储器中存储的信息处理程序,以实现上述的信息处理方法的步骤。
[0016]一种计算机存储介质,所述计算机存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上述的信息处理方法的步骤。
[0017]本申请实施例所提供的信息处理方法、信息处理装置和电子设备,基于数据集的M类属性数据对应的缺失预测模式,确定数据集的第n行数据中参考属性数据的占比最大、且为缺失值的第m类属性数据,以作为迭代补齐缺失值的起始对象;其中,1≤m≤M,1≤n≤N,
且M和N均为大于等于2的整数;确定参考属性数据中各类参考属性数据对第m类属性数据的影响权重;基于各类参考属性数据和各类参考属性数据对应的影响权重,补齐第n行数据中的第m类属性数据的缺失值。本申请提供的方法在补齐缺失值的过程中,即使一行数据中存在多个缺失值,也可以实现补齐,并且既采用各类参考属性数据本身,又采用各类参考属性数据对应的影响权重进行综合分析,能够得到代表第m类属性数据的缺失值的真实值。
附图说明
[0018]图1为本申请的实施例提供的信息处理方法的流程示意图一;
[0019]图2为本申请的实施例提供的信息处理方法的流程示意图二;
[0020]图3为本申请的实施例提供的信息处理方法的流程示意图三;
[0021]图4为本申请的实施例提供的信息处理方法的流程示意图四;
[0022]图5为本申请的实施例提供的信息处理方法的流程示意图五;
[0023]图6为本申请的实施例提供的模型训练的流程示意图;
[0024]图7为本申请的实施例提供的一种信息处理装置的结构示意图;
[0025]图8为本申请的实施例提供的一种电子设备的结构示意图。
具体实施方式
[0026]为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0027]本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
[0028]本申请的实施例提供一种信息处理方法,该信息处理方法应用于电子设备,参照图1所示,该方法包括以下步骤:
[0029]步骤101、基于数据集的M类属性数据对应的缺失预测模式,确定数据集的第n行数据中参考属性数据的占比最大、且为缺失值的第m类属性数据,以作为迭代补齐缺失值的起始对象。
[0030]其中,1≤m≤M,1≤n≤N,且M和N均为大于等于2的整数。
[0031]本申请实施例中,第m类属性数据对应的缺失预测模式,用于指示剩余M

1类属性数据中每一类参考属性数据用于预测第m类属性数据时对应的影响权重的大小。
[0032]示例性的,影响权重大于第一阈值,则表征影响权重的较大,影响权重小于第二阈值,则表征影响权重的较小,其中,第一阈值大于等于第二阈值。进一步地,缺失预测模式可以用有序标识值表示,影响权重大于第一阈值,对应的标识值为第一数值,影响权重小于第二阈值,对应的标识值为第二数值;例如,第一数值为1,第二数值为0。以M=10为例,所有10类属性数据中位于位置1的第1类属性数据对应的缺失预测模式为0011001010,则表征剩余
9类属性数据中位于位置3、位置4、位置7、位置9对应的类的属性数据用于预测第1类属性数据时对应的影响权重大于,剩余9类属性数据中位于位置2、位置5、位置6、位置8、位置10对应的类的属性数据用于预测第1类属性数据时对应的影响权重。当然,第m类属性数据对应的缺失预测模式还可以用其他形式表示,本申请不作具体限定。
[0033]本申请实施例中,第n行数据中参考属性数据的占比最大,指的是在第n行数据中为缺失值的各类属性数据中,第m类属性数据的参考属性数据的存在数量大于剩余M

1类属性数据的参考属性数据的存在数量。示例性的,仍旧以M=10为例,所有10类属性数据中位于位置1的第1类属性数据对应的缺失预测模式为0011001010,而且第1类属性数据对应的参考属性数据如剩余9类属性数据中位于位置3、位置4、位置7、位置9对应的类的属性数据均存在,则第1类属性数据的参考属性数据的存在数量为4。假设所有10类属性数据中位于位置2的第2类属性数据对应的缺失预测模式为1001010001,而本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种信息处理方法,所述方法包括:基于数据集的M类属性数据对应的缺失预测模式,确定所述数据集的第n行数据中参考属性数据的占比最大、且为缺失值的第m类属性数据,以作为迭代补齐缺失值的起始对象;其中,1≤m≤M,1≤n≤N,且所述M和N均为大于等于2的整数;确定所述参考属性数据中各类参考属性数据对所述第m类属性数据的影响权重;基于所述各类参考属性数据和所述各类参考属性数据对应的影响权重,补齐所述第n行数据中的所述第m类属性数据的缺失值。2.根据权利要求1所述的方法,所述方法还包括:确定所述第n行数据中参考属性数据的占比最大、且为缺失值的第m+x类属性数据作为迭代补齐缺失值的下一对象,直至补齐所述第n行数据中所有为缺失值的各类属性数据;其中,x为不等于0的整数。3.根据权利要求1所述的方法,所述方法还包括:获得L行数据中每一行的所述各类参考属性数据用于预测所述第m类属性数据的缺失值时的沙普利值;其中,所述L行数据中每行数据与所述第n行数据包含的属性数据的类别属性相同,1<L,且所述L为整数;基于所述各类参考属性数据中每一类参考属性数据用于预测所述第m类属性数据的缺失值时的L个沙普利值,确定所述每一类参考属性数据用于预测所述第m类属性数据的缺失值时对应的影响权重。4.根据权利要求1所述的方法,所述确定所述参考属性数据中各类参考属性数据对所述第m类属性数据的影响权重,包括:确定与所述第m类属性数据对应的第m个预测模型;至少将所述参考属性数据中各类参考属性数据输入所述第m个预测模型,以使所述第m个预测模型基于所述各类参考属性数据确定所述各类参考属性数据对应的影响权重;相应的,所述基于所述各类参考属性数据和所述各类参考属性数据对应的影响权重,补齐所述第n行数据中的所述第m类属性数据的缺失值,包括:通过所述第m个预测模型,基于所述各类参考属性数据和所述各类参考属性数据对应的影响权重,预测得到所述第n行数据中的所述第m类属性数据的缺失值。5.根据权利要求4所述的方法,所述方法还包括:从所述数据集中确定出非缺失的属性数据占比满足阈值条件的W行数据;其中,所述W行数据中第w行数据与所述第n行数据包含的属性数据的类别属性相同,1≤w≤W,所述W为大于2的整数,且所述数据集的总行数大于等于N与W之和;以所述第m类属性数据作为...

【专利技术属性】
技术研发人员:莫森
申请(专利权)人:联想北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1