System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于控制科学与计算机应用领域,涉及到一种基于生成对抗网络的时间序列连续缺失值插补方法,针对多元时间序列采样中常见的连续数据缺失问题,提出一种有效的方法。
技术介绍
1、多元时间序列是间隔采样而得到的多组数据,对多元时间序列分析及建模可用于分析系统内在变化规律,在气象、经济等诸多领域有广阔的应用前景。多元时间序列在采样过程中,受到传感器故障、人工误操作、设备维护、通信中断等影响,数据经常出现连续缺失的情况。在此情况下,数据所有的变量都可能有规律或无规律出现缺失,缺失的长度也不确定。数据的连续缺失模式在研究和工业生产中非常常见。为保证信息完整性及后续分析,需解决数据连续缺失的问题。
2、现有的处理方法大体可分为:基于统计学原理的插补法、基于神经网络的机器方法。其中基于统计学原理的插补方法依赖于已有的数据分布或先验知识,通过统计学特征来估算缺失值,以链式方程多重插补(mice)为代表;神经网络相关的方法以数据驱动为基础,包括利用自编码器表达数据深层特征(如vae),利用生成对抗网络产生更理想的数据(如gain),或利用自回归模型学习采样点之间的联系(如rnn与gru相关的方法)。
3、以vae和gain为主流的生成式模型,由于具有良好的无监督特性,广泛应用于时间序列数据插补。然而,这些方法通常没有针对现存的连续缺失问题进行优化,仅在理想的完全随机缺失情况下进行实验,缺乏现实意义。
4、为了获得满足需求的创新型数据插补方案,数据补全方法需保持原有数据的纯净,并尽可能捕获数据间的关联性,同时降
技术实现思路
1、为了解决gain模型在处理连续缺失的多元时间序列存在的局限性问题和结构缺陷问题,本专利技术提出了一种基于生成对抗网络的时间序列连续缺失值插补方法。针对gain模型在插补缺失数据过程中可能会出现损失函数值无法达到最小值和模型训练不稳定的问题,本专利技术提出一种新型无监督提示wasserstein生成对抗插补网络,并加入梯度惩罚方法(gp),定义为提示wasserstein生成对抗插补网络(cwgain-gp)。本专利技术通过向生成器加入提示信息矩阵的形式,约束生成器生成的插补数据范围,提高生成器生成精度;使用w距离来衡量生成数据与真实数据之间距离,可有效避免梯度消失问题;同时在鉴别器中增加梯度惩罚项,将损失函数限制在一定范围,防止鉴别器参数走向损失函数越来越大的错误极端,增强模型的建模能力。在真实世界气象数据集上的实验结果表明(具体详见实施例),本专利技术具有优秀的泛化能力,可以大幅度提升插补连续缺失时间序列的准确率。
2、为了实现上述目的,本专利技术采用以下技术方案:
3、一种基于生成对抗网络的时间序列连续缺失值插补方法,所述的时间序列连续缺失值插补方法首先将上下文提示信息矩阵引入生成对抗网络的生成器中,挖掘和捕获隐藏在缺失位置之外的潜在数据演化特征,约束生成器的生成结果向真实数据概率分布靠拢,然后优化生成器与鉴别器神经网络结构和损失函数计算策略,并构建生成对抗网络训练时所需的训练样本、构建生成对抗网络的生成器模型及鉴别器模型:将训练样本输入到生成器模型及鉴别器模型中,进行迭代训练,完成数据的插补工作。包括以下步骤:
4、步骤1:首先,获取需要插补的多元时间序列,一般是实际采样得到的数据,如温度、污染物的含量随时间的变化数据。然后,将多元时间序列转化为二维矩阵,采用数据矩阵x表示,其行数d和列数s分别代表采样时间个数和采样变量,x中每行数据是一维时间序列。
5、步骤2:对步骤1的数据矩阵x进行处理生成训练数据。具体为:
6、在构建模型之前,需对数据矩阵x进行预处理并准备训练数据。为了区分数据矩阵x的缺失部分和非缺失部分,首先,根据数据矩阵x生成对应的掩码矩阵m。掩码矩阵m的维度与数据矩阵x相同,当x中的元素为零或者不存在时,对应该位置的m矩阵元素为“0”,其他位置元素都是“1”。然后,生成一个维度与数据矩阵x相同的随机噪声矩阵n,随机噪声矩阵中的元素nij取值范围是[-0.01,+0.01]。最后,根据数据矩阵x生成一个维度相同的生成器的上下文提示信息矩阵t,t矩阵如公式(1)所示:
7、
8、其中,tij表示上下文提示信息矩阵t第i行第j列元素;xij表示数据矩阵x第i行第j列元素;xi±l,j表示数据矩阵x第i±l行第j列元素;mij表示掩码矩阵m第i行第j列元素;l表示连续缺失长度。
9、为了避免数据尺度不同对插补效果的影响,还需对数据矩阵x的每一行,即相同采样地点的所有数据,进行归一化操作,如式(2)所示:
10、
11、记录数据矩阵x每一行的最大值与最小值,用于插补结果的逆归一化。执行完归一化的数据矩阵使用x′来表示,归一化处理后的数据矩阵x′作为训练数据。
12、步骤3:采用训练数据训练生成对抗插补网络cwgain-gp模型,具体为:
13、为了保证生成对抗插补网络cwgain-gp模型的正常训练,需要进行训练数据的提取并输入到生成器中。在x′、m、t和n中提取每次处理的样本x′、m、t和n。根据公式(3)进行矩阵的运算生成然后根据公式(4)将和m输入到生成器中生成结果。
14、
15、其中,⊙代表矩阵对应位置元素的乘法。加上随机噪声矩阵n的目的是防止由于矩阵中仍存在值为0的元素而导致后续生成器生成数据误差过大。g(·)为生成过程。生成器的损失函数如公式(5)所示:
16、lossg =lg+αlmse=▽g[-(1-m)⊙d(y)+αm⊙(x′-y)2] (5)
17、其中,d(·)为鉴别过程;α是生成器超参数;lg是生成器的对抗性损失;lmse是估算值y与真实值x′之间的均方误差损失;▽g[·]是与生成器参数相关的损失梯度。
18、步骤4:在鉴别器d中引入一个额外的正则化项,即梯度惩罚,并对步骤3的生成结果y进行判别,具体为:
19、4.1)将步骤3的生成结果y输入鉴别器d进行判别。cwgain-gp模型的鉴别器不单单识别归一化数据矩阵x′的真假,而是对x′的每个元素都进行概率估算,判别该元素是真实的或者生成的,最后生成一个概率矩阵。概率矩阵中的每个元素都和归一化数据矩阵x′相同位置的元素对应。判别过程如公式(6)所示:
20、
21、其中,d*(y,m)i为鉴本文档来自技高网...
【技术保护点】
1.一种基于生成对抗网络的时间序列连续缺失值插补方法,其特征在于,所述的时间序列连续缺失值插补方法首先,将上下文提示信息矩阵引入生成对抗网络的生成器中,挖掘和捕获隐藏在缺失位置之外的潜在数据演化特征,约束生成器的生成结果向真实数据概率分布靠拢;然后,优化生成器与鉴别器神经网络结构和损失函数计算策略,并构建生成对抗网络训练时所需的训练样本、构建生成对抗网络的生成器模型及鉴别器模型:最后,将训练样本输入到生成器模型及鉴别器模型中,进行迭代训练,完成数据的插补工作。
2.根据权利要求1所述的一种基于生成对抗网络的时间序列连续缺失值插补方法,其特征在于,所述的时间序列连续缺失值插补方法包括以下步骤:
3.根据权利要求2所述的一种基于生成对抗网络的时间序列连续缺失值插补方法,其特征在于,所述的步骤2中,对数据矩阵X的每一行,即相同采样地点的所有数据,进行归一化操作,如式(2)所示:
4.根据权利要求2所述的一种基于生成对抗网络的时间序列连续缺失值插补方法,其特征在于,所述的步骤3中,生成器的损失函数如公式(5)所示:
5.根据权利要求2所述的
...【技术特征摘要】
1.一种基于生成对抗网络的时间序列连续缺失值插补方法,其特征在于,所述的时间序列连续缺失值插补方法首先,将上下文提示信息矩阵引入生成对抗网络的生成器中,挖掘和捕获隐藏在缺失位置之外的潜在数据演化特征,约束生成器的生成结果向真实数据概率分布靠拢;然后,优化生成器与鉴别器神经网络结构和损失函数计算策略,并构建生成对抗网络训练时所需的训练样本、构建生成对抗网络的生成器模型及鉴别器模型:最后,将训练样本输入到生成器模型及鉴别器模型中,进行迭代训练,完成数据的插补工作。
2.根据权利要求1所述的一种基于生成对抗网络的时间序列连续缺失值插补方...
【专利技术属性】
技术研发人员:许星晗,胡磊,肖鹏,王云升,刘建卫,
申请(专利权)人:大连理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。