System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于双维度多变量时序特征融合的聚类方法与装置制造方法及图纸_技高网
当前位置: 首页 > 专利查询>南京大学专利>正文

基于双维度多变量时序特征融合的聚类方法与装置制造方法及图纸

技术编号:41358806 阅读:3 留言:0更新日期:2024-05-20 10:09
本发明专利技术公开了一种基于双维度多变量时序特征融合的聚类方法与装置,所述方法通过数据增强模块对原有时间序列数据进行增强,构造用于对比学习的样例对;通过编码模块来对数据进行编码,获得特征表示,该模块包括时序维度特征提取和变量维度特征提取两个子模块,分别用于从时序维度挖掘时序之间的依赖关系以及从变量维度挖掘变量之间的依赖关系;深度聚类模块则用来对编码后的向量进行聚类,评估模型效果。整个模型训练过程中,采用多任务训练的方法,将对比学习及聚类任务统一到同一个训练过程中。本发明专利技术通过从两个维度对时间序列数据进行特征提取,与常规的方法相比,有效提高了模型的编码聚类能力以及在面对含有缺失值数据时的鲁棒性。

【技术实现步骤摘要】

本专利技术涉及大数据处理领域,具体涉及一种时间序列数据挖掘任务中的时序数据聚类方法及装置。


技术介绍

1、在日常生产生活中,时间序列数据十分常见,如在工业、环境、金融、医疗、航天、网络等人类活动领域中,时间序列数据正时时刻刻产生,通常以二维数组形式给出,其中一维为时间戳数据,另一维则是各种具体的指标值,具体而言:在工业领域中,时间序列数据可以设计生产过程中的各种指标,例如温度、湿度、生产线输出、质量控制数据等,通常是从生产设备、传感器、和监控系统中产生的;在环境领域中,时间序列数据涉及环境监测数据,比如气象数据、空气质量数据、土壤检测数据等,这些数据通过气象站、气象卫星等设备收集而来;在金融领域中,时间序列数据包括股票价格、汇率、债券收益率、交易量等金融市场数据,这些数据来自交易所、金融机构等;在医疗领域,时间序列数据包括病人监测数据、药物剂量随时间变化数据、患者生理参数数据等,通常由医院中各种医疗监测设备产生;在航天领域,时间序列数据包括航天器状态、飞行轨迹、燃料使用量等数据,通常由航天器中各种设备和传感器产生;在网络领域,时间序列数据包括网络流量、网络性能指标、故障日志、用户活动等数据,这些数据通常由网络设备、服务器、网络监控系统等产生。

2、目前随着深度学习技术的不断发展进步,多变量时间序列聚类十分火热,各种各样的方法被提出。多变量时间序列数据是指在一个时间点,采集到多个数据指标,例如人体健康数据中,在某一时刻,采集到的指标有心跳、血压、血糖、体温、血氧饱和度等,这多个指标即所指的多变量。在具体实践中,时间序列数据量十分庞大,同时海量的数据往往缺少可直接识别模式,通过对这些时间序列数据进行聚类,可以发现数据中的隐藏模式,使数据更容易理解,同时也能通过聚类来识别不同集群,从而进行更有针对性的分析。然而现实场景下,在采集一些时序数据时,很容易在不同时间步以及不同维度上丢失掉数据,已有的聚类方法的效果和鲁棒性仍然面临着一定的挑战。


技术实现思路

1、专利技术目的:为了克服现有的一些时间序列数据聚类方法聚类效果差且在面临含有缺失值的时间序列数据时的缺陷,本专利技术提供了一种基于双维度多变量时序特征融合的聚类方法与装置,提高对时间序列的聚类能力以及在面对含有缺失值数据时的鲁棒性。

2、技术方案:一种基于双维度多变量时序特征融合的聚类方法,包括以下步骤:

3、对输入的时间序列实例进行数据增强,在原始数据上构造出增强后的时序数据实例;

4、利用编码器对增强后的时序数据实例进行特征提取,包括:利用时序卷积网络提取时序维度特征zt,利用图卷积网络、随机掩码和膨胀卷积来提取变量维度特征zv;

5、对于时序维度,将增强后的两个时序视图上的相同时间步的表征作为正样例对,不同时间步上的表征作为负样例对,构造时序维度对比损失对于变量维度,将经增强后的两个变量视图上的同一变量表征作为正样例对,不同变量为负样例对,构造变量维度对比损失同时将同一batch内的不同实例视作负样例对,计算不同实例之间的跨维度对比损失则总的对比损失由上述三部分对比损失构成;

6、根据时序维度特征zt和变量维度特征zv,利用k-means聚类算法进行聚类得到初始化簇心uj,先计算将第i个样本划分到第j个簇的概率分布qij,然后定义辅助目标分布通过最小化q分布和p分布之间的kl散度以及总的对比损失,来更新编码器模型参数和簇心,迭代结束后得到最终聚类表征。

7、一种基于双维度多变量时序特征融合的聚类装置,包括:

8、数据增强模块,对输入的时间序列实例进行数据增强,在原始数据上构造出增强后的时序数据实例;

9、特征提取模块,利用编码器对增强后的时序数据实例进行特征提取,包括:利用时序卷积网络提取时序维度特征zt,利用图卷积网络、随机掩码和膨胀卷积来提取变量维度特征zv;

10、对比学习设置模块,对于时序维度,将增强后的两个时序视图上的相同步的表征作为正样例对,不同步上的表征作为负样例对,构造时序维度对比损失对于变量维度,将经增强后的两个变量视图上的同一变量表征作为正样例对,不同变量为负样例对,构造变量维度对比损失同时将同一batch内的不同实例视作负样例对,计算不同实例之间的跨维度对比损失则总的对比损失由上述三部分对比损失构成;

11、深度聚类模块,根据时序维度特征zt和变量维度特征zv,利用k-means聚类算法进行聚类得到初始化簇心uj,先计算将第i个样本划分到第j个簇的概率分布qij,然后定义辅助目标分布通过最小化q分布和p分布之间的kl散度以及总的对比损失,来更新编码器模型参数和簇心,迭代结束后得到最终聚类表征。

12、本专利技术还提供一种计算机设备,包括:一个或多个处理器;存储器;以及一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置为由所述一个或多个处理器执行,所述程序被处理器执行时实现如上所述的基于双维度多变量时序特征融合的聚类方法的步骤。

13、本专利技术还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的基于双维度多变量时序特征融合的聚类方法的步骤。

14、有益效果:(1)针对含有缺失数据的多变量时序聚类场景,同时关注时间和变量两个维度,从时序维度和变量维度两个角度对原始时间序列数据进行特征提取,既考虑一个多变量时间序列实例的时间依赖关系,又考虑多个变量之间的依赖关系。(2)通过同时关注这两个维度,增强模型对于时序实例特征的提取能力,并且提升了模型在处理含有缺失值实例的鲁棒性。(3)从变量和时序两个维度分别进行对比学习,同时联合两个维度进行统一的对比学习,结合三部分对比损失进行联合训练,提高模型的鲁棒性,更好地捕捉数据特征,提高每个维度的编码表示能力。(4)提高了在含有缺失数据场景下的多变量时间序列的聚类效果,并采用深度聚类的方式进行训练,克服无监督聚类算法无法反向训练编码器从而使得所学特征更具有内聚性的弊端。

本文档来自技高网...

【技术保护点】

1.一种基于双维度多变量时序特征融合的聚类方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的方法,其特征在于,所述对输入的时间序列实例进行数据增强:采用重叠窗口随机裁剪方式对原始数据进行裁剪,对于长度为T的时间序列实例,随机采取不同时间的两个样本[a1,b1],[a2,b2],其中0<a1≤a2≤b1≤b2≤T,两个样本在时间轴上有部分时间重叠;对于包含N个变量的时间序列实例,随机采取两个变量取值不同的样本[c1,d1]、[c2,d2],其中0<c1≤c2≤d1≤d2≤N,c1,c2,d1,d2代表不同的变量索引,两个样本在变量维度上有部分重叠。

3.根据权利要求1所述的方法,其特征在于,提取变量维度特征包括:对于一个时序数据实例X={x1,x2,…,xT},xi∈Rm,该数据集中的每个实例均有m个变量维度,初始化时,通过这m个变量维度来构造图结构,将每一个变量维度看作图结构中的一个节点,每两个节点之间构造一个边,并通过计算每两个变量之间的皮尔逊相关系数的绝对值来赋予边的权重λ∈{0,1},即:

4.根据权利要求2所述的方法,其特征在于,时序维度对比损失计算方法如下:

5.根据权利要求1所述的方法,其特征在于,变量维度对比损失计算方法如下:

6.根据权利要求1所述的方法,其特征在于,跨维度的对比损失计算方法如下:

7.根据权利要求1所述的方法,其特征在于,概率分布qij使用学生t-分布,作为核来度量嵌入点foi和簇心uj之间的相似性:

8.一种基于双维度多变量时序特征融合的聚类装置,其特征在于,包括:

9.一种计算机设备,其特征在于,包括:一个或多个处理器;存储器;以及一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置为由所述一个或多个处理器执行,所述程序被处理器执行时实现如权利要求1-7中任一项所述的基于双维度多变量时序特征融合的聚类方法的步骤。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的基于双维度多变量时序特征融合的聚类方法的步骤。

...

【技术特征摘要】

1.一种基于双维度多变量时序特征融合的聚类方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的方法,其特征在于,所述对输入的时间序列实例进行数据增强:采用重叠窗口随机裁剪方式对原始数据进行裁剪,对于长度为t的时间序列实例,随机采取不同时间的两个样本[a1,b1],[a2,b2],其中0<a1≤a2≤b1≤b2≤t,两个样本在时间轴上有部分时间重叠;对于包含n个变量的时间序列实例,随机采取两个变量取值不同的样本[c1,d1]、[c2,d2],其中0<c1≤c2≤d1≤d2≤n,c1,c2,d1,d2代表不同的变量索引,两个样本在变量维度上有部分重叠。

3.根据权利要求1所述的方法,其特征在于,提取变量维度特征包括:对于一个时序数据实例x={x1,x2,…,xt},xi∈rm,该数据集中的每个实例均有m个变量维度,初始化时,通过这m个变量维度来构造图结构,将每一个变量维度看作图结构中的一个节点,每两个节点之间构造一个边,并通过计算每两个变量之间的皮尔逊相关系数的绝对值来赋予边的权重λ∈{0,1},...

【专利技术属性】
技术研发人员:李文中祝传泽陆桑璐
申请(专利权)人:南京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1