基于WGAN的一维时序数据增广方法技术

技术编号:30764377 阅读:17 留言:0更新日期:2021-11-10 12:20
本发明专利技术公开了一种一维时序数据增广方法,具体涉及一种基于Wasserstein生成对抗网络(WGAN)的数据增广方法。步骤如下:1.准备训练数据集,确保训练数据集的采样频率满足要求。2.构建生成对抗网络WGAN,构建由生成器和鉴别器组成的生成对抗网络,其损失函数由Wasserstein距离进行量化。3.训练构建的网络模型,循环训练鉴别器和生成器直到达到纳什均衡状态。4.遍历完整的时序数据,通过WGAN学习并分析时序数据的数字特征并对数字特征相同的数据进行聚类。5.对聚类完成的时序数据,利用每个子类对应的训练完成的WGAN生成器网络生成数字特征与原始数据一致的人工数据,实现数据集的增广。数据集的增广。数据集的增广。

【技术实现步骤摘要】
基于WGAN的一维时序数据增广方法
所属

[0001]本专利技术提供一维时序数据增广方法,具体涉及一种基于Wasserstein生成对抗网络 (WGAN)的数据增广方法。

技术介绍

[0002]随着仿真技术和传感器技术的发展,仿真速率和采样频率逐渐提高,工业产品在设计、 制造、使用维护期间能够收集到大量时序数据,如瞬态仿真数据、状态监测数据、性能退化 数据等。对时序数据的分析能够帮助设计人员更好地理解产品状态的时变特征;能够帮助制 造部门更好地控制产品质量;能够帮助使用维护人员更好地预测产品故障,设计维护方案。 可以说,对时序数据的分析与理解对工业产品的质量与可靠性具有重要的意义。由于计算误 差、材料特性不均匀、制造精度有限等原因,时序数据的数字(统计)特征普遍具有非平稳、 时变、非线性的特点,表现为分布不确定的随机过程。若使用确定分布(如高斯分布)的随 机过程对时序数据进行量化会引入较大的不确定性,难以准确表征其数字特征,分析难度较 大。在工业生产实际中常通过批次产品或相似产品的概率统计信息对时序数据的数字特征进 行近似估计,这种做法需要大量的统计样本才能获得较为满意的估计精度。然而,随着现代 社会的发展,高价值的小批量产品甚至是非批次、个性化、定制化产品越来越受到人们的关 注。在此类产品的设计、制造和使用维护的过程中,无法使用传统的批次数据或相似产品信 息对其时变特性进行准确的估计。因此,对小样本甚至是单样本的时序数据进行合理的增广, 从而分析与理解其规律,是提升小批量定制化产品质量与可靠性的关键。
[0003]在机器学习领域,随着生成对抗网络(GAN)的提出,使得对小样本甚至单样本数据集 进行增广成为了可能。GAN由生成器和鉴别器两个神经网络组成,生成器生成与原始数据尽 可能相似的数据,而鉴别器尽可能辨别生成数据与原始数据,通过两个神经网络的“对抗博 弈”实现生成与原始数据具有相同特征的新样本。自从GAN出现至今已经产生了许多对其进 行改良的变体,其中Wasserstein GAN(WGAN)通过改良GAN中生成器和鉴别器的损失函数 提高了训练过程的稳定性,使得训练结果更加鲁棒。

技术实现思路

[0004]本专利技术提出一种基于WGAN的一维时序数据增广方法,针对一维时序数据,通过生成对 抗网络学习其数字特征,将其聚类为若干具有相同数字特征的数据子集;通过WGAN的生成 器神经网络,生成与原始样本具有相同数字特征的人工样本,从而实现数据增广,主要包含 以下步骤。
[0005]步骤一:准备训练数据集:
[0006]原始数据为一维时序数据。无需对数据添加标签,但需要保证数据有较高的采样频率。 对于一般的时序数据,建议采样频率不小于10Hz,即单位时间的采样次数不少于10次。对变 化较为剧烈的时序数据应酌情增大其采样频率,而对变化较为平缓的时序数据可
酌情降低其 采样频率。确定的采样频率需至少大于采样定理(奈奎斯特

香农采样定理)所规定的频率下 限,即原始信号频率的2倍。将采样频率满足要求的时序数据进行异常处理,删除异常值和空 值,作为训练数据。
[0007]步骤二:构建生成对抗网络WGAN
[0008]WGAN由两个神经网络,即生成器(Generator)和鉴别器(Discriminator)组成。生成器 和鉴别器的输入层与原始数据维度一致。生成器的损失函数为:
[0009][0010]其中,为生成器的生成数据z~p(z),为生成数据的概率分布;为鉴 别器对生成数据的鉴别结果,为f(x)的数学期望。鉴别器的损失函数为:
[0011][0012]其中,x为原始数据,为原始数据的概率分布;D(x)为鉴别器对原始数据的鉴别结果, L
gp
为梯度惩罚项:
[0013][0014]其中为从原始数据和生成数据的分布中重新采样得到的样本数据,为其概率分布; 为鉴别器对鉴别结果的梯度;||f(x)||2为求f(x)的2范数(向量范数);λ为惩罚系数, 一般可取λ=0.1,较小的λ能够提高网络训练的稳定性但会降低训练速度。
[0015]在最小化损失函数(2)对鉴别器进行训练的过程中,鉴别器分辨原始数据和生成数据的 能力在提高,即Wasserstein距离
[0016][0017]在增大。相反,在最小化损失函数(1)对生成器进行训练的过程中,生成器产生的生成数据 与原始数据的差距在缩小,即通过增大使得减小。生成器与鉴别器相反的优 化方向构成的“对抗”机制,最终会使得收敛至0+附近,此时生成数据与原始数据的 特征已基本趋于一致。
[0018]步骤三:训练构建的网络模型:
[0019]训练鉴别器:将噪声数据输入至生成器G
i
,生成新样本将原始数据x
i
和分别输入 鉴别器D
i
,计算鉴别器的鉴别损失和D(x
i
),并利用公式(2)计算鉴别器的损失函数, 使用Adam(α,β1,β2)随机梯度下降优化方法对鉴别器的损失函数进行优化,其中α为学习率一 般可取1e

4,β1和β2为指数衰减率,一般可取0.1和0.9。
[0020]训练生成器:将新样本输入鉴别器D
i
计算鉴别器的鉴别损失并利用公式(1) 计算生成器的损失函数,同样通过Adam(α,β1,β2)梯度下降方法对生成器进行训练。
[0021]计算Wasserstein距离:循环进行上述训练过程,直至由公式(4)计算的Wasserstein距 离小于设定的阈值ρ(一般可取ρ≤0.2),即完成对网络G
i
和D
i
的训练。
[0022]步骤四:遍历完整的时序数据,分析数据的数字特征并聚类
[0023]划分时间片:首先根据采样频率确定最小窗宽S
σ
,最小窗宽应不大于采样频率的50倍。 利用S
σ
将时序数据在时间维离散为若干时间片(Slices);
[0024]训练时间片Slice0:将Slice0内的原始数据x0作为训练集,对生成器G0和鉴别器D0进行训练, 当Wasserstein距离后完成对Slice0数据的训练,保存训练好的生成器G0和鉴别器 D0,并将x0预聚类为第一类,即S0=x0;
[0025]预训练Slice
i
鉴别器:对时间片Slice
i
(i>0),使用其原始数据x
i
对鉴别器D
i
进行预训练,鉴 别器预训练的损失函数为:
[0026][0027]其中D(x
i
)为鉴别器对x
i
的鉴别结果,当std[preLoss(D
i
)]<ρ
pre
时判定鉴别器预训练完成, std[f(x)]为f(x)的标准差,ρ
pre
为阈值(常数)。
[0028]时间片迭代:对时间片Sl本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于WGAN的一维时序数据增广方法,其特征在于:它包含以下步骤:第一步:准备训练数据集:原始一维时序数据的采样频率应满足要求,不小于10Hz即单位时间的采样次数不少于10次,并删除异常数据。第二步:构建生成对抗网络WGAN:构建由生成器和鉴别器两个神经网络组成的生成对抗网络,并使用Wasserstein距离计算其损失函数。第三步:训练构建的网络模型:循环训练鉴别器网络和生成器网络,使用Adam随机梯度下降法对网络参数进行优化,对鉴别器的优化方向是使得生成数据与原始数据x的Wasserstein距离增大而对生成器的优化方向则是使得Wasserstein距离减小,通过博弈最终使得鉴别器和生成器达到纳什均衡状态。第四步:遍历完成的时序数据,分析数据的数字特征并聚类:首先确定最小窗宽将原始时序数据划分为若干时间片(Slices),对第一个时间片(Slice0)执行生成器和鉴别器的训练,在此基础上遍历全部时间片,使用WGAN学习时序数据的特征并聚类特征相同的时间片。第五步:时序数据增广:使用完成聚类的时序数据每个子类对应的WGAN生成器生成与该子类原始数据特征相同的人工样本。2.根据权利要求1所述的一种基于WGAN的一维时序数据增广方法,其特征在于:在第一步中所述的“准备训练数据集”中,要求原始数据的采样频率能够满足要求,具体为:一般情况下采样频率应不小于10Hz,即单位时间的采样次数不少于10次。对变化较为剧烈的时序数据应酌情增大其采样频率,而对变化较为平缓的时序数据可酌情降低其采样频率。3.根据权利要求1所述的一种基于WGAN的一维时序数据增广方法,其特征在于:在第二步中所述的“构建生成对抗网络WGAN”中,使用Wasserstein距离构造生成器和鉴别器的损失函数,具体为:生成器和鉴别器的损失函数分别为其中,为生成器的生成数据z~p(z)为随机噪声,为生成数据的概率分布;x为原始数据,为原始数据的概率分布;和D(x)分别为鉴别器对生成数据和原始数据的鉴别结果,为从原始数据和生成数据的分布中重新采样得到的样本数据,为其概率分布;为...

【专利技术属性】
技术研发人员:孙博吴泽豫王自力冯强任羿杨德真钱诚
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1