一种基于快速密度峰聚类的客观天气分型方法技术

技术编号:29403138 阅读:29 留言:0更新日期:2021-07-23 22:41
本发明专利技术提出一种基于快速密度峰聚类的客观天气分型方法,将一种新的DPC改进算法应用到天气分型中,在DPC算法仅考虑数据点密度属性和距离属性的基础上增加了数据点(天气现象)的路径属性和分布属性,并在线性增加时间复杂度的基础上获得了比DPC算法更优的效果,使本发明专利技术对于天气分型具有更高的普适性,并能够单一截断距离参数控制,自动选择特征天气类型代表性天气和分离过渡天气。

【技术实现步骤摘要】
一种基于快速密度峰聚类的客观天气分型方法
本专利技术属于天气分型领域,尤其涉及一种基于快速密度峰聚类的客观天气分型方法。
技术介绍
天气分型是一种通过分析若干特定气象变量来识别出特征天气类型,并将气象场分类为这些天气类型的方法。通过这种方式,天气场被分类为具有不同个体特征的不同组,而特征天气类型则代表了该组所有成员中气象要素的核心分布。由于天气类型通常与大气的动态变化过程密切相关,因此,天气分型可用于识别各种天气过程、空气污染特征等,并有助于改善气象和空气质量预报技能。传统的天气分型方法是基于人为主观判断的主观天气分型方法,该方法通过人工判断识别天气图,根据天气图中目标参数的变化特征进行分类,存在着分型结果普适性弱、主观性强、工作量大等缺点,且不同的人员分型的结果差异较大。空间天气分类法(SpatialSynopticClassification,SSC)是一种基于地面观测的天气类型分类法,最初于20世纪90年代出现,现在已经成为实施多种气候和健康研究调查的分析工具,SSC系统运用一种名为“滑动种子日(slidingseeddays)”的方法,量化研究对象城市的每种天气类型的典型气象特征,所使用的气象要素包括温度、露点温度、气压、风速和云量等,然后将每日与种子日进行比较,并将每天分类为最接近的天气类型,该方法虽然形象直观但是需要针对各气象要素预定义“种子日判定标准(seed-dayselectioncriteria)”因此参数量很大。聚类分析是进行天气分型的一种常用方法,即通过对无类别标签数据的属性(如距离、密度、分布等)进行无监督学习,从而将数据划分成多个簇,并使得簇内的数据在属性上具有高相似性,而簇间的数据则在属性上相似性低。当前聚类算法多种多样,其中最为经典的算法之一便是于2014年6月在Science上发表的DPC算法(clusteringbyfastsearchandfindofdensitypeaks),该算法能快速(时间复杂度n2,n表示数据量)发现任意形状数据集的密度峰值点(即类簇中心),并高效进行剩余数据点分配,适用于大规模数据的聚类分析,该算法的原理基于两大原则(1)簇中心由一些局部密度比较低的点围绕(2)簇中心距离其它比自身局部密度高的点的距离都比较大。后期围绕着解决DPC算法的不足,出现了Fuzzy-DPC(Fuzzyclusteringbyfastsearchandfindofdensitypeaks)、KNN-DPC(K近邻优化的密度峰值快速搜索聚类算法)、FKNN-DPC(RobustclusteringbydetectingdensitypeaksandassigningpointsbasedonfuzzyweightedK-nearestneighbors)等一系列的DPC改进算法,但是这些算法仅仅着眼于解决DPC算法的前期(参数形式和取值)和后期(簇中心选择,噪点分离)问题而并未对DPC算法的根本原理,即刻画簇心的决策图进行改进,因此在面对数据集中的某些极端情况,如大小簇差异显著、噪点较多,就无法获得令人满意的结果了。因此,鉴于以上所述现有技术的不足,需要将一种新的DPC改进算法应用到天气分型中,解决现有技术参数过多,以及对于大小簇差异显著且噪点较多的数据集聚类效果不佳的问题。
技术实现思路
本专利技术将一种新的DPC改进算法应用到天气分型中,在DPC算法仅考虑数据点密度属性和距离属性的基础上增加了数据点(天气现象)的路径属性和分布属性,并在线性增加时间复杂度的基础上获得了比DPC算法更优的效果,使本专利技术对于天气分型具有更高的普适性,并能够单一截断距离参数控制,自动选择特征天气类型代表性天气和分离过渡天气。技术方案:本专利技术提出一种基于快速密度峰聚类的客观天气分型方法,该方法包括如下步骤:步骤1)建立气象数据集的最小距离连通路径特征数组;步骤2)基于路径特征数组计算各天气现象的路径属性和分布属性并生成三维决策图;步骤3)使用回归分析自动判定出三维决策图的离群天气现象作为特征天气类型的代表性天气,并初步分型客观天气;步骤4)用模糊加权法判定尚未划入任何簇的天气现象所要划入的代表天,并分离出过渡天气,最终完成客观天气分型。进一步的,步骤1)的具体方法如下:步骤1.1)以日期为唯一标识,建立标准化后的气压、温度、相对湿度、风速,总云量以及日照时间共6个地面气象观测要素的数据集其中,x表示气象要素值,{1…n}表示天气现象序号,n表示天气现象数量,6表示气象要素数量,id表示天气现象唯一标识,即日期标识,令ID={id1,id2…idn},计算DATA各天气现象的距离矩阵dij=dji,i、j∈{1...n},DS为对称矩阵,其主对角线元素为NaN,dij和dji都表示第i、j个天气现象间的欧氏距离,查找DS中最小值dmimj,及其所在行序号mi和列序号mj,并新建n×n×4三维数组RFS,全部元素初始化为NaN,RFS称为最小距离连通路径特征数组,简称路径特征数组,RFS在指定了第一个维度的行序号和第二个维度的列序号后得到的第三个维度数据,即长度为4的向量,称为RFS的路径特征向量,令RFS的路径特征向量RFSmimj=RFSmjmi=[1,dmimj,d2mimj,dmimj],并新建序号集合di={mi,mj},以及序号集合do表示di相对于集合{1…n}的补集;步骤1.2)查找DS子集DS(di,do)中最小值dmdimdj,及其在DS中的行序号mdi和列序号mdj,然后更新RFS的路径特征向量RFSmdimdj=RFSmdjmdi=[1,dmdimdj,dmdimdj2,dmdimdj],再遍历集合di减去mdi后的子集odi中任一元素odi(i),i∈{1...length(odi)},更新RFS的路径特征向量RFSodi(i)mdj=RFSmdjodi(i)=[RFSmdiodi(i)1+1,RFSmdiodi(i)2+dmdimdj,RFSmdiodi(i)3+dmdimdj2,max(RFSmdiodi(i)4,dmdimdj)],RFS下标中1至4表示RFS第三个维度的序号,最后将mdj从集合do中删除并追加到集合di尾部;步骤1.3),如do不为空,则进入步骤1.2)继续执行,否则结束步骤1),完成路径特征数组RFS的生成。进一步的,步骤2)的具体方法如下:步骤2.1)以dc为截断距离,按照DPC算法公式(1)和(2)计算每个天气现象的密度属性ρi,i∈{1...n}和距离属性δi,i∈{1...n},然后得出公式(1)为高斯核函数公式,dij表示距离矩阵DS第i行j列元素,dc为截断距离,公式(2)中,ρj>ρi表示dij取最小值的先决条件,j表示dij取最小值后天气现象i通过dij所连通的另一个相邻天气现象j=nei(i);步骤2.2)计算每个天气现象的路径属性ηi,i∈{1...n}为:式(3)中,i为RFS的第一个维度序号,本文档来自技高网
...

【技术保护点】
1.一种基于快速密度峰聚类的客观天气分型方法,其特征在于,该方法包括如下步骤:/n步骤1)建立气象数据集的最小距离连通路径特征数组;/n步骤2)基于路径特征数组计算各天气现象的路径属性和分布属性并生成三维决策图;/n步骤3)使用回归分析自动判定出三维决策图的离群天气现象作为特征天气类型的代表性天气,并初步分型客观天气;/n步骤4)用模糊加权法判定尚未划入任何簇的天气现象所要划入的代表天,并分离出过渡天气,最终完成客观天气分型。/n

【技术特征摘要】
1.一种基于快速密度峰聚类的客观天气分型方法,其特征在于,该方法包括如下步骤:
步骤1)建立气象数据集的最小距离连通路径特征数组;
步骤2)基于路径特征数组计算各天气现象的路径属性和分布属性并生成三维决策图;
步骤3)使用回归分析自动判定出三维决策图的离群天气现象作为特征天气类型的代表性天气,并初步分型客观天气;
步骤4)用模糊加权法判定尚未划入任何簇的天气现象所要划入的代表天,并分离出过渡天气,最终完成客观天气分型。


2.根据权利要求1所述的一种基于快速密度峰聚类的客观天气分型方法,其特征在于,步骤1)的具体方法如下:
步骤1.1)以日期为唯一标识,建立标准化后的气压、温度、相对湿度、风速,总云量以及日照时间共6个地面气象观测要素的数据集其中,x表示气象要素值,{1…n}表示天气现象序号,n表示天气现象数量,6表示气象要素数量,id表示天气现象唯一标识,即日期标识,令ID={id1,id2…idn},计算DATA各天气现象的距离矩阵dij=dji,i、j∈{1...n},DS为对称矩阵,其主对角线元素为NaN,dij和dji都表示第i、j个天气现象间的欧氏距离,查找DS中最小值dmimj,及其所在行序号mi和列序号mj,并新建n×n×4三维数组RFS,全部元素初始化为NaN,RFS称为最小距离连通路径特征数组,简称路径特征数组,RFS在指定了第一个维度的行序号和第二个维度的列序号后得到的第三个维度数据,即长度为4的向量,称为RFS的路径特征向量,令RFS的路径特征向量RFSmimj=RFSmjmi=[1,dmimj,d2mimj,dmimj],并新建序号集合di={mi,mj},以及序号集合do表示di相对于集合{1…n}的补集;
步骤1.2)查找DS子集DS(di,do)中最小值dmdimdj,及其在DS中的行序号mdi和列序号mdj,然后更新RFS的路径特征向量RFSmdimdj=RFSmdjmdi=[1,dmdimdj,dmdimdj2,dmdimdj],再遍历集合di减去mdi后的子集odi中任一元素odi(i),i∈{1...length(odi)},更新RFS的路径特征向量RFSodi(i)mdj=RFSmdjodi(i)=[RFSmdiodi(i)1+1,RFSmdiodi(i)2+dmdimdj,RFSmdiodi(i)3+dmdimdj2,max(RFSmdiodi(i)4,dmdimdj)],RFS下标中1至4表示RFS第三个维度的序号,最后将mdj从集合do中删除并追加到集合di尾部;
步骤1.3),如do不为空,则进入步骤1.2)继续执行,否则结束步骤1),完成路径特征数组RFS的生成。


3.根据权利要求2所述的一种基于快速密度峰聚类的客观天气分型方法,其特征在于,步骤2)的具体方法如下:
步骤2.1)以dc为截断距离,按照DPC算法公式(1)和(2)计算每个天气现象的密度属性ρi,i∈{1...n}和距离属性δi,i∈{1...n},然后得出






公式(1)为高斯核函数公式,dij表示距离矩阵DS第i行j列元素,dc为截断距离,公式(2)中,ρj>ρi表示dij取最小值的先决条件,j表示dij取最小值后天气现象i通过dij所连通的另一个相邻天气现象j=nei(i);
步骤2.2)计算每个天气现象的路径属性ηi,i∈{1...n}为:



式(3)中,i为RFS的第一个维度序号,即第i行,nei(i)为RFS的第二个维度序号,即第nei(i)列,nei(i)含义如式(2),1至4表示RFS第...

【专利技术属性】
技术研发人员:樊仲欣
申请(专利权)人:南京信息工程大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1