一种针对创面微环境数据的多元时间序列数据增强方法技术

技术编号:33536958 阅读:43 留言:0更新日期:2022-05-19 02:20
本发明专利技术涉及一种针对创面微环境数据的多元时间序列数据增强方法,属于医疗领域和机器学习技术领域。基于动态时间规整算法进行样本间的相似性度量,通过随机选择一个样本作为基准样本,搜索与基准样本最近邻的K个同类别样本,对所有选择的样本相对于基准样本进行动态时间规整,并对规整后的样本集进行加权平均,将均值序列数据作为一个新的合成样本。通过随机权重和添加噪声的方式提高数据多样性,以弥补数据量不足时所带来的模型过拟合和泛化能力差的问题,有效提高各种分类器在创面微环境数据集上的预测效果。数据集上的预测效果。数据集上的预测效果。

【技术实现步骤摘要】
一种针对创面微环境数据的多元时间序列数据增强方法


[0001]本专利技术涉及医疗领域和机器学习
,具体涉及采用机器学习方法分析创面微环境数据时的一种多元时间序列数据增强方法。

技术介绍

[0002]近些年来,数据挖掘、人工智能等技术飞速发展,已经在应用科学和工程的各个领域取得了突破性的进展,其准确性、高效性也得到了各个领域专家的青睐。现有的主流数据分析方法,尤其是基于深度神经网络的有监督学习模型,是以数据量趋近无穷大时的渐进理论为研究基础的。因此,大量的数据样本是保证得到一个高预测准确率模型的基本前提。但在医疗领域,由于临床数据的保密性、不完整性,以及部分病例的罕见性、对患者隐私的保护等原因,通常很难获得大量的、可用于分析的临床诊断数据样本。创伤是临床高发病症,创面微环境参数变化趋势对创面的愈合至关重要,如何根据创面微环境数据对创面状态进行快速判断以指导医生的诊断治疗具有重要的现实意义。但由于采集的困难,大量的、标准的创面微环境数据并不容易获得。如何根据少量创面微环境数据来进行智能诊断,是相关领域专家研究的热点。如今解决数据匮乏问题的一种主流方法是利用已有的数据集进行数据增强,从而在原数据集的基础上获得更丰富的数据。这样不仅可以充分训练模型,同时,由于数据增强技术通常会提高数据的多样性,可以进一步提高模型的泛化能力。
[0003]多元时间序列(MTS)数据是一种常见的数据形式,普遍存在于日常生活的各个领域,比如经济领域的股票价格走势、医疗领域的肿瘤增长历史记录等。创面微环境数据也是MTS数据形式,在每一时间节点可以采集渗出液PH值、创面温度、湿度、氧分压等多种数据。从创面微环境的多元时间序列数据中发现潜在规律,挖掘数据中存在的价值,能够有效指导医生的临床决策,降低误诊率。数据增强方法对于机器学习模型和深度学习模型的拟合和泛化能力有很好的加强和补充作用,因此对于数据量匮乏的创面微环境数据,提供一种有效的多元时间序列数据增强方法是非常有价值的。目前对多元时间序列数据的研究大多集中于数据特征的提取和样本间距离的度量等方向,数据增强相关方法的研究相对较少,已有的典型方案主要包括:
[0004](1)基于时域、频域变换的数据增强方法
[0005]时域内的数据变换是最常见的时间序列数据增强方法,通常通过注入噪声、从原始序列中提取连续切片等方法进行增强。同时也有少数研究利用频域频谱和振幅的扰动来实现。
[0006](2)基于统计生成模型的数据增强方法
[0007]该类方法主要通过自回归滑动平均模型(ARMA)、混合自回归模型(MAR)等统计学模型对原始时间序列数据进行建模,这些模型通过拟合时间t的值与之前时间步的值的依赖来描述时间序列的条件分布,进而通过扰动初始值来生成一个新的时间序列样本。
[0008](3)基于学习的数据增强方法
[0009]该类方法目前主要是通过学习嵌入空间或者生成对抗网络来生成新样本。学习嵌
入空间是指将数据映射到新的表征空间内,对表征空间内的特征向量再进行增强。生成对抗学习框架则通常包括一个生成网络和一个判别网络,通过联合训练来优化模型参数,进而得到一个高效的分类器。
[0010]但是上述几种数据增强方法并不完全适用于创面微环境指标数据,主要原因在于以下两点:
[0011](1)创面微环境指标数据是离散型时序数据,且由于创面持续时间短以及难以采集的原因,通常获得的该类数据的时间步长都较短,从中提取更短的数据切片来进行数据增强很大程度上会丢失一部分数据特征;
[0012](2)向原始数据中注入噪声、扰动频域频谱和振幅以及基于统计模型的生成方法,都是在一个特征维度内对该维度的时间序列数据进行增强,而创面微环境指标数据是多变量离散型时间序列数据,其特征维度间的相关作用关系是至关重要的,因此该类方法并不适用于创面微环境指标数据集;
[0013]基于学习的数据增强方法根据其采用的网络模型不同,可以同时考虑到数据的多维度间的依赖关系以及各个维度内的时间依赖关系,但由于网络结构参数众多,需要大量的原始数据进行训练。对于创面微环境指标数据而言,采集大量可用样本是十分困难的,因此,本专利技术提出一种不同于上述方法的适用于创面微环境指标数据集的多元时间序列数据增强方法。

技术实现思路

[0014]要解决的技术问题
[0015]为了改善有监督分类任务场景下机器学习模型及深度神经网络模型在数据量匮乏的创面微环境数据上的预测效果,本专利技术提出了一种基于动态时间规整(Dynamic Time Warping,DTW)的多元时间序列数据增强方法。该方法基于输入的多元时间序列数据集合成新的数据样本,同时通过随机权重和添加噪声的方式提高数据多样性,以弥补数据量不足时所带来的模型过拟合和泛化能力差的问题,有效提高各种分类器在创面微环境数据集上的预测效果。
[0016]技术方案
[0017]一种针对创面微环境数据的多元时间序列数据增强方法,主要包括基于DTW度量多元时间序列数据样本间的距离、基于DTW对齐两个多元时间序列数据样本、计算多个数据样本的平均序列、引入随机权重和高斯噪声等部分。生成一条新样本的总体步骤如下:
[0018]步骤1:输入待增强的创面微环境数据集X,该数据集对应的标签集Y,以及可配置的参数:寻找的近邻数量K、基准样本权重参数ω;
[0019]步骤2:从数据集X中随机选取一个样本作为基准样本,记为X0,其对应的类别标签为Y0;
[0020]步骤3:计算数据集X中所有类别为Y0的数据样本与X0之间的基于DTW规整后的距离,寻找最近的K个样本,计算这K个所选样本分别相对于X0的DTW规整序列,与X0组成待平均数据集AvgTS,其大小为K+1;
[0021]步骤4:生成随机权重集W。权重集W={ω,ω1,


K
},ω是基准样本权重值,是一个可配置的输入参数,{ω1,


K
}是K个近邻样本的权重,通过伪随机数生成的方式生成,
并将其规整为和为1

ω的K个权重值;
[0022]步骤5:计算数据集AvgTS每一时间步的数据按照W中的权重进行的加权平均值,构成均值时间序列X
new

[0023]步骤6:添加噪声。对求得的均值序列X
new
添加高斯噪声,作为一条新的数据样本,且其标签与基准样本X0一致。
[0024]所述步骤1中的创面微环境数据集X={X1,X2,

,X
N
},其中X
i
={X
i,1
,X
i,2
,

,X
i,T
}为一个多元时间序列,其中X
i,j
={x1,x2,

,x
n
},N为样本集数量,T为每个样本的时间步长,n为每一时间步内的特征数。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种针对创面微环境数据的多元时间序列数据增强方法,其特征在于步骤如下:步骤1:输入待增强的创面微环境数据集X,该数据集对应的标签集Y,以及可配置的参数:寻找的近邻数量K、基准样本权重参数ω;步骤2:从数据集X中随机选取一个样本作为基准样本,记为X0,其对应的类别标签为Y0;步骤3:计算数据集X中所有类别为Y0的数据样本与X0之间的基于DTW规整后的距离,寻找最近的K个样本,计算这K个所选样本分别相对于X0的DTW规整序列,与x0组成待平均数据集AvgTS,其大小为K+1;步骤4:生成随机权重集W;权重集W={ω,ω1,


K
},ω是基准样本权重值,是一个可配置的输入参数,{ω1,


K
}是K个近邻样本的权重,通过伪随机数生成的方式生成,并将其规整为和为1

ω的K个权重值;步骤5:计算数据集AvgTS每一时间步的数据按照W中的权重进行的加权平均值,构成均值时间序列X
new
;步骤6:添加噪声:对求得的均值序列X
new
添加高斯噪声,作为一条新的数据样本,且其标签与基准样本X0一致。2.根据权利要求1所述的一种针对创面微环境数据的多元时间序列数据增强方法,其特征在于:所述步骤1中的创面微环境数据集X={X1,X2,

,X
N
},其中X
i
={X
i,1
,X
i,2
,

,X
i,T
}为一个多元时间序列,其中X
i,j
={x1,x2,

,x
n
},N为样本集数量,T为每个样本的时间步长,n为每一时间步内的特征数;样本集...

【专利技术属性】
技术研发人员:谷建华张倩如赵天海
申请(专利权)人:西北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1