基于AGA-XGBoost和GWO-SVM的气象数据分类方法技术

技术编号:34149099 阅读:15 留言:0更新日期:2022-07-14 19:41
本发明专利技术公开了一种基于AGA

【技术实现步骤摘要】
基于AGA

XGBoost和GWO

SVM的气象数据分类方法


[0001]本专利技术属于气象数据分类
,具体涉及一种基于AGA

XGBoost和GWO

SVM的气象数据分类方法。

技术介绍

[0002]随着气象观测技术的不断发展,每天产生的气象数据成倍的增长,对查询和处理气象数据产生了极大的挑战,因此寻找一种分类准确性高,且稳定的方法,具有十分重要的意义。
[0003]气象数据中包含数量众多的气象要素信息,某些极端天气发生的频次很低,导致不同类别的样本数据量差距过大,传统的分类方法旨在最大化整体分类的准确性,分类结果会偏向多数类,且现有技术对气象数据的分类大多是针对单一类别做二元分类,能够同时对多个气象类别进行多分类的研究尚少。
[0004]因此,如何合理的建立气象数据多分类模型,在保证气象数据中大样本数据的分类正确性前提下,同时提高小样本的分类准确性是一个技术难点。

技术实现思路

[0005]解决的技术问题:针对上述技术问题,本专利技术提供了一种基于AGA

XGBoost和GWO

SVM的气象数据分类方法,解决了现有分类方法下海量高维气象数据分类效果差,模型自适应能力差,数据不平衡的问题。
[0006]技术方案:基于AGA

XGBoost和GWO

SVM的气象数据分类方法,包括步骤如下:S1.气象数据预处理:S1

1.替换气象数据中的异常值,填充气象数据中的缺省值;S1

2.对气象数据进行one

hot编码;S1

3.对不同类的气象数据进行min

max归一化处理,得到[0

1]之间的映射数据;S1

4.根据气象数据处理结果判断是否采用Borderline

SMOTE 方法进行过采样;S2.构建堆叠降噪自编码器,对预处理后的训练集数据进行特征提取;S3.构建AGA

XGBoost和GWO

SVM两种分类器模型,并根据训练集中样本所属不同类别属性在所选气象数据集中的占比,选择不同分类器模型;S4.将预处理后的待分类样本通过构建好的分类器模型,得到气象数据分类结果。
[0007]优选的,所述步骤S1

1中采用线性内插法或均值平滑法填充缺省值。
[0008]优选的,所述步骤S1

2中气象数据分类的类别包括晴天、雨天、阴天、雪天、雾天和冰雹。
[0009]优选的,所述步骤S1

3中min

max归一化的处理公式为:
其中, 为单类气象数据归一化后的值,为单类气象数据的最小值,为单类气象数据的最大值。
[0010]优选的,所述步骤S1

4中判断标准如下:当少数类样本数量与多数类样本数量的比值小于设定的不平衡容忍度时,执行Borderline

SMOTE进行过采样;反之则不执行。
[0011]优选的,所述步骤S2包括步骤如下:S2

1.将训练集数据作为堆叠降噪自编码器的第一个DA单元的输入;S2

2.采用最小方差为代价函数,并利用梯度下降法进行权重和偏置的更新;S2

3.去掉输出层及其相应的权重和偏置,只保留输入层和隐藏层的权重和偏置,然后将第一个DA单元的隐藏层作为第二个DA单元的输入,以此类推层层训练。
[0012]优选的,所述AGA

XGBoost分类器模型的构建方法如下:创建初始化种群,计算每一个个体的适应度值,判断是否满足停止条件,如未达到最大迭代次数或未满足目标进度,则依次进行选择,交叉,变异操作,直到满足停止条件,输出XGBoost的最优参数组,得到优化后的AGA

XGBoost分类器模型。
[0013]优选的,所述选择操作为:使用轮盘赌方法,计算每个个体的适应度值构成轮盘比例进行随机选择。
[0014]优选的,所述交叉操作为:设立阈值k,在基因的第k个位置进行交叉。
[0015]优选的,所述变异操作为:根据突变概率选择基因突变位置,进行0

1转换,防止局部寻优,并根据下述公式以更新交叉概率a与突变概率b的值,加快迭代速度:其中和分别是交叉概率的最大值和最小值,分别是变异概率的最大值和最小值,是i代种群中的个体适应度值,是i代种群中适应度的平均值。
[0016]优选的,所述GWO

SVM分类器模型的构建方法如下:设定SVM的核函数和惩罚因子,初始化灰狼算法的参数,判断是否达到终止条件,如未达到则计算种群适应度,保留适应度前三的个体,依次更新剩余灰狼的位置,更新灰狼算法的参数,直到达到终止条件,得到优化后的GWO

SVM分类器模型。
[0017]有益效果:本专利技术利用堆叠降噪自编码器提取了气象数据的深层次特征,同时利用过采样算法,减少了不平衡气象数据集对分类效果的影响,并能够根据不同样本自适应耦合的训练分类器,弥补了传统分类器的不足。
附图说明
[0018]图1是本专利技术的流程示意图;图2是Borderline

SMOTE过采样的流程图;图3是分类器模型的构建流程图。
具体实施方式
[0019] 下面结合附图和具体实施例对本专利技术作进一步描述。
[0020]实施例1如图1~3所示,一种基于AGA

XGBoost和GWO

SVM的气象数据分类方法,包括步骤如下:S1.气象数据预处理:S1

1.替换气象数据中的异常值,填充气象数据中的缺省值:对气象数据中的异常值和缺省值进行处理,例如当气压数据出现缺失值,选择临近时间的气压进行替换,相对湿度选择均值平滑法进行替代;S1

2.对气象数据进行one

hot编码:对气象数据集中的天气类型进行一位独热编码,如晴天,雨天、阴天、雾天、下雪、雷暴、冰雹等。本实施例中将气象数据分为6个大类,打上标签,晴天映射为000001,雨天为000010,阴天为000100,雪天为001000,冰雹为010000,雾天为100000;S1

3.对不同类的气象数据进行min

max归一化处理,得到[0

1]之间的映射数据:由于众多的气象数据之间的量纲单位和量级存在差异,需要对原始数据进行线性变换,变换后的数据全部映射到[0

1]之间,变换公式如下:其中, 为单类气象数据归一化后的值,为单类气象数据的最小值,为单类气象数据的最大值;S1...

【技术保护点】

【技术特征摘要】
1.基于AGA

XGBoost和GWO

SVM的气象数据分类方法,其特征在于,包括步骤如下:S1.气象数据预处理:S1

1.替换气象数据中的异常值,填充气象数据中的缺省值;S1

2.对气象数据进行one

hot编码;S1

3.对不同类的气象数据进行min

max归一化处理,得到[0

1]之间的映射数据;S1

4.根据气象数据处理结果判断是否采用Borderline

SMOTE 方法进行过采样;S2.构建堆叠降噪自编码器,对预处理后的训练集数据进行特征提取;S3.构建AGA

XGBoost和GWO

SVM两种分类器模型,并根据训练集中样本所属不同类别属性在所选气象数据集中的占比选择分类器模型;S4.将预处理后的待分类样本通过构建好的分类器模型,得到气象数据分类结果。2.根据权利要求1所述的基于AGA

XGBoost和GWO

SVM的气象数据分类方法,其特征在于,所述步骤S1

1中采用线性内插法或均值平滑法填充缺省值。3.根据权利要求1所述的基于AGA

XGBoost和GWO

SVM的气象数据分类方法,其特征在于,所述步骤S1

2中气象数据分类的类别包括晴天、雨天、阴天、雪天、雾天和冰雹。4.根据权利要求1所述的基于AGA

XGBoost和GWO

SVM的气象数据分类方法,其特征在于,所述步骤S1

3中min

max归一化的处理公式为:其中, 为单类别气象数据归一化后的值,为单类别气象数据的最小值,为单类别气象数据的最大值。5.根据权利要求1所述的基于AGA

XGBoost和GWO

SVM的气象数据分类方法,其特征在于,所述步骤S1

4中判断标准如下:当少数类样本数量与多数类样本数量的比值小于设定的不平衡容忍度时,执行Borderline

SMOTE进行过采样;反之则不执行。6.根据权利要求1所述的基于A...

【专利技术属性】
技术研发人员:秦华旺尹传豪戴跃伟
申请(专利权)人:南京信息工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1