System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于数据处理,具体涉及一种数据补全方法及装置。
技术介绍
1、随着技术的发展,在金融领域,银行等金融机构开始越来越多地使用金融决策模型来辅助决策,金融机构会收集客户的相关数据,并将收集的数据经处理后输入相应的金融决策模型来得到决策结果,该决策结果可为金融机构做出正确的决策提供参考。
2、然而,在对客户的相关数据进行收集的过程中,由于数据获取方式上的限制、测量误差等原因,使得很多客户的相关数据都是不完备的,而数据完整性会影响到整个金融决策模型的决策结果准确性。具体来说,由于金融业务信息、客户信息的数据来源多样性、无效数据干扰、涉及隐私或数据保护等原因,往往会造成部分关键数据值缺失的情况出现,从而导致获取到的关键特征值出现空缺,利用这样的不完备数据对金融决策模型进行训练或将不完备数据输入金融决策模型进行预测,将使得金融决策模型的训练结果或预测结果出现较大偏差。举例来说,对企业数据进行建模数据梳理时,企业类型、行业、人员规模、注册资本等信息会与企业的运营状况有直接且密切的联系,然而很难精确地获取企业的相关信息,而这会进一步地影响与企业对应的相关金融模型的授信评估等业务分析结果。同时,对于这样的企业数据,也较难通过查询其他数据源来填补缺失的数据。
3、目前,现有的数据补全方法大致可分为两大类。一类是基于概率统计学的方法,然而此类方法忽略了数据属性之间的相互关系。另一种是基于粗糙集的理论数据分析方法,虽然基于粗糙集的数据补全方法充分考虑了数据属性和数据对象之间的关系,但是忽略了数据不同属性之间的差异。因此
技术实现思路
1、本专利技术是为解决上述问题而进行的,目的在于提供一种不依赖于额外数据源、且能够提高数据补全的准确性的数据补全方法及装置,本专利技术采用了如下技术方案:
2、本专利技术提供了一种数据补全方法,其特征在于,包括以下步骤:步骤s1,获取待补全数据,并将该待补全数据输入数据补全模型中,该数据补全模型包括推理网络和生成网络;步骤s2,所述推理网络将所述待补全数据对应的特征变量转换为隐变量,并生成所述隐变量的变分概率分布;步骤s3,所述生成网络对所述隐变量进行多次重要性采样,得到多个采样值;步骤s4,所述生成网络基于所述变分概率分布生成由所述隐变量到所述特征变量的似然概率分布;步骤s5,所述生成网络基于所述变分概率分布、所述似然概率分布以及所述隐变量的先验分布得到原始权重;步骤s6,所述生成网络基于所述原始权重和所述重要性采样的次数得到重要性权重;步骤s7,所述生成网络在多个所述采样值上求解特征变量对应的条件期望值,并基于所述重要性采样的次数、所述重要性权重和所述条件期望值得到所述待补全数据的缺失部分,从而得到补全后数据。
3、本专利技术提供的数据补全方法,还可以具有这样的技术特征,其中,步骤s5中,所述原始权重的表达式为:式中,x0为待补全数据中的观测值,zk为第k个隐变量,θ为生成网络的参数,γ为推理网络的参数,步骤s6中,所述重要性权重的表达式为:式中,k为重要性采样的次数,步骤s7中,所述缺失部分的表达式为:式中,xm为待补全数据中的缺失值,e[xm|zk]为条件期望值。
4、本专利技术提供的数据补全方法,还可以具有这样的技术特征,其中,步骤s2中,所述推理网络生成的所述变分概率分布为多元高斯分布,其表达式为:qγ(z|x)=n(μγ(x),σγ(x)),式中,x为特征变量,μγ表示推理网络中输出高斯分布均值向量的网络结构,∑γ表示推理网络中输出高斯分布协方差矩阵的网络结构,步骤s5中,所述隐变量的所述先验分布为标准多元高斯分布,其表达式为:p(z)=n(0,i),式中,i为单位矩阵。
5、本专利技术提供的数据补全方法,还可以具有这样的技术特征,其中,所述数据补全模型的训练包括以下步骤:步骤s1-1,获取训练数据,并将所述训练数据中的样本点输入所述数据补全模型;步骤s1-2,所述推理网络将所述样本点对应的特征变量转换为隐变量,并生成该隐变量的初始变分概率分布;步骤s1-3,所述生成网络对所述隐变量进行多次重要性采样,得到多个采样值;步骤s1-4,所述生成网络基于所述初始变分概率分布生成由所述隐变量到所述特征变量的似然概率分布;步骤s1-5,所述生成网络基于所述初始变分概率分布、所述似然概率分布以及所述隐变量的先验分布确定所述似然概率分布的下界;步骤s1-6,以极大化所述下界为目标,利用所述训练数据对所述数据补全模型进行训练,更新所述推理网络和所述生成网络中的参数;步骤s1-7,重复步骤s1-6,直到达到预定的迭代停止条件,停止迭代,得到训练好的所述数据补全模型。
6、本专利技术提供的数据补全方法,还可以具有这样的技术特征,其中,步骤s1-5中,确定的所述下界的表达式为:
7、
8、式中,θ为生成网络的参数,γ为推理网络的参数,k为重要性采样的次数,x为特征变量,zk为第k个隐变量。
9、本专利技术提供的数据补全方法,还可以具有这样的技术特征,其中,所述数据补全模型包括第一数据补全模型和第二数据补全模型,所述第一数据补全模型包括第一推理网络和第一生成网络,所述第二数据补全模型包括第二推理网络和第二生成网络,步骤s1中,获取所述待补全数据后,将所述待补全数据对应的所述特征变量划分为连续型数值特征变量和离散型非数值特征变量,并将两种所述特征变量对应的所述待补全数据的部分分别输入所述第一数据补全模型和所述第二数据补全模型,步骤s2包括:步骤s2-1,所述第一推理网络对所述连续型数值特征变量进行标准化处理,并将标准化后的所述连续型数值特征变量转换为第一隐变量,生成所述第一隐变量的变分概率分布;步骤s2-2,所述第二推理网络利用独热编码方法对所述离散型非数值特征变量的离散类别进行类别编码,并将编码后的所述离散型非数值特征变量转换为第二隐变量,生成所述第二隐变量的变分概率分布,步骤s3包括:步骤s3-1,所述第一生成网络对所述第一隐变量进行多次重要性采样,得到多个第一采样值;步骤s3-2,所述第二生成网络对所述第二隐变量进行多次重要性采样,得到多个第二采样值,步骤s4包括:步骤s4-1,所述第一生成网络基于所述第一隐变量的变分概率分布,利用一元高斯分布构建得到由所述第一隐变量到所述连续型数值特征变量的似然概率分布;步骤s4-2,所述第二生成网络基于所述第二隐变量的变分概率分布以及编码后的类别,对各类别分别进行建模,从而得到由所述第二隐变量到所述离散型非数值特征变量的似然概率分布,步骤s5包括:步骤s5-1,所述第一生成网络基于对应的变分概率分布、似然概率分布以及所述第一隐变量的先验分布获得第一原始权重;步骤s5-2,所述第二生成网络基于对应的变分概率分布、似然概率分布以及所述第二隐变量的先验本文档来自技高网...
【技术保护点】
1.一种数据补全方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的数据补全方法,其特征在于:
3.根据权利要求2所述的数据补全方法,其特征在于:
4.根据权利要求1所述的数据补全方法,其特征在于:
5.根据权利要求4所述的数据补全方法,其特征在于:
6.根据权利要求1所述的数据补全方法,其特征在于:
7.根据权利要求6所述的数据补全方法,其特征在于:
8.根据权利要求6所述的数据补全方法,其特征在于:
9.一种数据补全装置,用于对存在缺失数据的不完备数据进行补全,其特征在于,包括:
【技术特征摘要】
1.一种数据补全方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的数据补全方法,其特征在于:
3.根据权利要求2所述的数据补全方法,其特征在于:
4.根据权利要求1所述的数据补全方法,其特征在于:
5.根据权利要求4所述的数据补全方法,其特...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。