一种基于K-means聚类的灵活数据压缩方法技术

技术编号:34940823 阅读:18 留言:0更新日期:2022-09-17 12:14
本发明专利技术公开属于工业大数据分析技术领域的一种基于K

【技术实现步骤摘要】
一种基于K

means聚类的灵活数据压缩方法


[0001]本专利技术属于工业大数据分析
,特别涉及一种基于K

means聚类的灵活数据压缩方法。

技术介绍

[0002]随着计算机及传感器技术的发展,以及人们对生产过程安全高效运行的要求越来越高,导致了过程测量数据爆炸。所述过程数据是一种丰富的信息资源,它可应用于各种过程运行和控制任务,如反馈控制、系统辨识、过程建模、过程监视、故障检测与诊断、监督和质量控制、生产计划及管理决策等,因此大量的过程数据需要存储和传输。随着计算机网络大量应用于生产过程,特别是在DCS系统中,过程数据常常需要通过网络传送给其他操作站或工程师站。因此,有必要研究DCS系统中的过程数据压缩。
[0003]数据压缩技术有多种,但它们大多是针对图像、语音数据的压缩,而这些技术不能直接用于过程数据压缩,主要原因有三个方面:

测量数据应使用一致和统一的表示形式,以便能与各种过程任务集成,存储数据的表示也应与其t它过程任务一致,并且应有利于集成过程运行;

过程控制数据的压缩和恢复要求是实时的,来自动态过程的数据是连续采集的,压缩和存储应能跟上数据采集速率;

过程数据压缩质量的度量准则与其他应用中不同,一般使用基于逼近误差和显著特征的保真度准则。过程数据压缩方法可以分成三种,即分段线性方法、矢量量化方法及信号变换法。分段线性方法包括矩形波串法、后向斜率法、SDT及PLOT法,其中矩形波串法在过程工业中用得最多,尽管压缩比不如信号变换方法高,但它的突出优点是算法简单,执行速度快。矢量量化方法由于要花很多时间计算码书,而且一个数据集的码书不能用于不同的数据集,因此矢量量化方法对过程工业数据压缩是不现实的。信号变换方法很多,如离散余弦变换、小波变换等,小波变换应该是最有前途的过程数据压缩方法,目前还有许多实际技术问题需要解决。过程数据压缩的主要目的是为了节省过程数据的存储空间,便于过程数据的处理,减少过程数据传输的通信流量,减少通信流量意味着可以在同一网段上接入更多的节点,从而可减少网络分段,节省设备投资,减小系统维护难度,这对DCS系统非常重要。

技术实现思路

[0004]本专利技术的目的是提供一种基于K

means聚类的灵活数据压缩方法,其特征在于,所述数据压缩包括:采用K

means聚类的方法进行工业数据处理分析;采用序列比对对聚类结果进行类别判断,划分出三类数据复杂度;根据不同复杂度选择不同压缩算法;其中,采用K

means聚类的工业大数据聚类及复杂度判断方法是利用K

means方法建立工业数据聚类族,其次在聚类族中对子序列之间进行序列比对得到数据复杂度,针对不同数据的复杂度采用不同压缩算法对数据进行压缩,实现数据高效压缩。
[0005]所述基于K

means的工业大数据聚类方法,将原始工业数据划分为m个子序列,则在K

means中第i个子序列Seq
i
的长度len
i
∈[L

n,L+n],其中L为子序列的基本长度、n为阈
值;该阈值在工业数据中有近似匹配,其编辑操作有插入、删除和替换,故参与处理的子序列长度不是定长,因此阈值的设定应该为浮动范围;将
m
个子序列按相似性分成k个聚类族,也就是分成k组。
[0006]所述将原始工业数据划分为m个子序列,采用K

means的方法步骤如下:
[0007]步骤1:随机选择k个子序列作为中心点,第i个中心点记为C
i i=1、2、

k;
[0008]步骤2:对于每个子序列,按公式(1)分别计算与C1,C2,

,C
k
的编辑距离D
j
,其中j∈[1,k],假设j=x时的D
j
最小,则标记子序列Seq
i
属于第x类,记为S
x

[0009]ed(i,j)=min{ed(i,j

1)+1,ed(i

1,j)+1,
[0010]ed(i

1,j

1)+δ(i,j)}
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0011]其中,当Seq1(i)=Seq2(i)时,δ(i,j)=0;否则,δ(i,j)=1;
[0012]步骤3:重新计算各类S
x
的中心点,如公式(2),记为C
x
,且C
x
满足的条件为:与S
x
中其它各点编辑距离的均值,最接近于S
x
中所有不同两点距离平均值的点,如公式(3);
[0013]S
(i)
:=argmined(i,j)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0014][0015]步骤4:重复步骤2和步骤3,直到所有C
x
值的变化小于给定阈值t。
[0016]所述在聚类族中对子序列之间进行序列比对得到数据复杂度,针对不同数据的复杂度采用不同压缩算法对数据进行压缩,实现数据高效压缩;
[0017]所述序列比对方法的数据复杂度分类,序列的对比是将两个或多个序列排列在一起,标明其相似之处,序列中可以插入间隔;对应的相同或相似的符号排列在同一列上,对K

means后的聚类族中的子序列与3种不同复杂的典型数据进行比对,将K

means后的聚类族分为3类:复杂度简单、复杂度一般、复杂度复杂;
[0018]所述针对不同数据的复杂度采用不同压缩算法对数据进行压缩,实现数据高效压缩;采用数据复杂度的灵活数据压缩技术,判断数据复杂度之后,根据复杂度类别,采用三种不同的数据压缩方法进行数据压缩,其对应关系为:复杂度简单的数据采用矩形波串法

Plot算法进行压缩;复杂度一般的数据采用死区压缩

旋转门算法进行压缩;复杂度复杂的数据采用小波压缩算法进行压缩。
[0019]本专利技术的有益效果是本专利技术的过程数据压缩方法节省过程数据的存储空间,便于过程数据的处理,减少过程数据传输的通信流量,减少通信流量意味着可以在同一网段上接入更多的节点,从而可减少网络分段,节省设备投资,减小系统维护难度,这对DCS系统非常重要。
附图说明
[0020]图1为基于K

means聚类的灵活数据压缩流程图;
具体实施方式
[0021]本专利技术提供了一种基于K

means聚类的灵活数据压缩方法,下面结合附图对本专利技术予以进一步说明。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于K

means聚类的灵活数据压缩方法,其特征在于,所述数据压缩包括:采用K

means聚类的方法进行工业数据处理分析;采用序列比对对聚类结果进行类别判断,划分出三类数据复杂度;根据不同复杂度选择不同压缩算法;其中,采用K

means聚类的工业大数据聚类及复杂度判断方法是利用K

means方法建立工业数据聚类族,其次在聚类族中对子序列之间进行序列比对得到数据复杂度,针对不同数据的复杂度采用不同压缩算法对数据进行压缩,实现数据高效压缩。2.根据权利要求1所述基于K

means聚类的灵活数据压缩方法,其特征在于,所述基于K

means的工业大数据聚类方法,将原始工业数据划分为m个子序列,则在K

means中第i个子序列Seq
i
的长度len
i
∈[L

n,L+n],其中L为子序列的基本长度、n为阈值;该阈值在工业数据中有近似匹配,其编辑操作有插入、删除和替换,故参与处理的子序列长度不是定长,因此阈值的设定应该为浮动范围;将m个子序列按相似性分成k个聚类族,也就是分成k组。3.根据权利要求2所述基于K

means聚类的灵活数据压缩方法,其特征在于,所述将原始工业数据划分为m个子序列,采用K

means的方法步骤如下:步骤1:随机选择k个子序列作为中心点,第i个中心点记为C
i
i=1、2、

k;步骤2:对于每个子序列,按公式(1)分别计算与C1,C2,

,C
k
的编辑距离D
j
,其中j∈[1,k],假设j=x时的D
j
最小,则标记子序列Seq
i
属于第x类,记为S
x
;ed(i,j)=min{ed(i,j

...

【专利技术属性】
技术研发人员:贺延枫杨如意谢国峰王献文张越刘琳鸽赵璐艾思维崔磊高海军
申请(专利权)人:中国电信股份有限公司鄂尔多斯分公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1