【技术实现步骤摘要】
一种基于K
‑
means聚类的灵活数据压缩方法
[0001]本专利技术属于工业大数据分析
,特别涉及一种基于K
‑
means聚类的灵活数据压缩方法。
技术介绍
[0002]随着计算机及传感器技术的发展,以及人们对生产过程安全高效运行的要求越来越高,导致了过程测量数据爆炸。所述过程数据是一种丰富的信息资源,它可应用于各种过程运行和控制任务,如反馈控制、系统辨识、过程建模、过程监视、故障检测与诊断、监督和质量控制、生产计划及管理决策等,因此大量的过程数据需要存储和传输。随着计算机网络大量应用于生产过程,特别是在DCS系统中,过程数据常常需要通过网络传送给其他操作站或工程师站。因此,有必要研究DCS系统中的过程数据压缩。
[0003]数据压缩技术有多种,但它们大多是针对图像、语音数据的压缩,而这些技术不能直接用于过程数据压缩,主要原因有三个方面:
①
测量数据应使用一致和统一的表示形式,以便能与各种过程任务集成,存储数据的表示也应与其t它过程任务一致,并且应有利于集成过程运行;
②
过程控制数据的压缩和恢复要求是实时的,来自动态过程的数据是连续采集的,压缩和存储应能跟上数据采集速率;
③
过程数据压缩质量的度量准则与其他应用中不同,一般使用基于逼近误差和显著特征的保真度准则。过程数据压缩方法可以分成三种,即分段线性方法、矢量量化方法及信号变换法。分段线性方法包括矩形波串法、后向斜率法、SDT及PLOT法,其中矩形波串法在过程工 ...
【技术保护点】
【技术特征摘要】
1.一种基于K
‑
means聚类的灵活数据压缩方法,其特征在于,所述数据压缩包括:采用K
‑
means聚类的方法进行工业数据处理分析;采用序列比对对聚类结果进行类别判断,划分出三类数据复杂度;根据不同复杂度选择不同压缩算法;其中,采用K
‑
means聚类的工业大数据聚类及复杂度判断方法是利用K
‑
means方法建立工业数据聚类族,其次在聚类族中对子序列之间进行序列比对得到数据复杂度,针对不同数据的复杂度采用不同压缩算法对数据进行压缩,实现数据高效压缩。2.根据权利要求1所述基于K
‑
means聚类的灵活数据压缩方法,其特征在于,所述基于K
‑
means的工业大数据聚类方法,将原始工业数据划分为m个子序列,则在K
‑
means中第i个子序列Seq
i
的长度len
i
∈[L
‑
n,L+n],其中L为子序列的基本长度、n为阈值;该阈值在工业数据中有近似匹配,其编辑操作有插入、删除和替换,故参与处理的子序列长度不是定长,因此阈值的设定应该为浮动范围;将m个子序列按相似性分成k个聚类族,也就是分成k组。3.根据权利要求2所述基于K
‑
means聚类的灵活数据压缩方法,其特征在于,所述将原始工业数据划分为m个子序列,采用K
‑
means的方法步骤如下:步骤1:随机选择k个子序列作为中心点,第i个中心点记为C
i
i=1、2、
…
k;步骤2:对于每个子序列,按公式(1)分别计算与C1,C2,
…
,C
k
的编辑距离D
j
,其中j∈[1,k],假设j=x时的D
j
最小,则标记子序列Seq
i
属于第x类,记为S
x
;ed(i,j)=min{ed(i,j
‑
...
【专利技术属性】
技术研发人员:贺延枫,杨如意,谢国峰,王献文,张越,刘琳鸽,赵璐,艾思维,崔磊,高海军,
申请(专利权)人:中国电信股份有限公司鄂尔多斯分公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。