一种基于支持向量机的太阳耀斑二分类预测方法技术

技术编号:31792071 阅读:18 留言:0更新日期:2022-01-08 10:50
本发明专利技术公开了一种基于支持向量机的太阳耀斑二分类预测方法,对实验模型进行数据预处理,构建数据集;斯皮尔曼等级相关系数的确定,并求得等级之间的差值公式;对机器学习的训练特征进行分析和测试,再对实验模型样本进行特征选择,并通过斯皮尔曼等级相关系数对特征之间的联系进行验证;采用SVM寻找决策边界,并对SVM核函数进行选择;对SVM计算原理进行推导;采用SVM对数据进行预测处理,并产生预测结果;对预测结果进行判定;本发明专利技术通过以机器学习算法作为核心构建太阳耀斑活动行为预测模型,并通过对太阳耀斑观测数据的特征提取以及预处理,对预处理数据进行建模以及优化,并最终实现对与太阳耀斑行为较高准确率的预测。现对与太阳耀斑行为较高准确率的预测。现对与太阳耀斑行为较高准确率的预测。

【技术实现步骤摘要】
一种基于支持向量机的太阳耀斑二分类预测方法


[0001]本专利技术涉及太阳耀斑预报
,具体涉及一种基于支持向量机的太阳耀斑二分类预测方法。

技术介绍

[0002]太阳并不是一个完全静止的球体,太阳具有活动周与静止周之分,太阳活动方式中的一个很明显的形式就是太阳耀斑,太阳耀斑带来的巨大动能、热能影响能够对地球的空间环境产生巨大影响。
[0003]太阳耀斑爆发时会释放很多辐射以及高能粒子,这些伴生物会对地球空间环境产生剧烈冲击,太阳耀斑是影响空间天气预报模型的重要内容;当地球附近出现耀斑的辐射以及高能粒子之后,大气份子会因此受到巨大影响,大气中的电离层会被辐射破坏,从而丧失反射无线电波的能力,严重影响人们日常生活中的通讯活动;伴随耀斑发射的高能粒子流到达高层大气时会与高层大气的气体粒子碰撞,地球磁场因此会受到干扰,同样会严重影响地球的空间环境,影响研究人员的研究工作;研究并提高太阳耀斑预报的功能,不仅是正确预测空间天气,保障人类空间活动研究的重要途径,同时也是揭发太阳的内在规律,提高人类对太阳认识程度的重要内容;因此,需要设计一种基于支持向量机的太阳耀斑二分类预测方法。

技术实现思路

[0004]本专利技术的目的是克服现有技术的不足,为了准确的预测太阳耀斑的行为,提供了一种基于支持向量机的太阳耀斑二分类预测方法,提出了基于机器学习的太阳耀斑空间预报模型,该模型以大量的太阳耀斑观测数据为样本,通过训练集的建模和测试集的效果检验,较好的实现了对太阳耀斑运动的预测。
[0005]为了达到上述目的,本专利技术所采用的技术方案是:
[0006]一种基于支持向量机的太阳耀斑二分类预测方法,包括以下步骤,
[0007]步骤(A),对实验模型进行数据预处理,构建数据集;
[0008]步骤(B),斯皮尔曼等级相关系数的确定,并求得等级之间的差值公式;
[0009]步骤(C),对机器学习的训练特征进行分析和测试,再对实验模型样本进行特征选择,并通过斯皮尔曼等级相关系数对特征之间的联系进行验证;
[0010]步骤(D),采用SVM寻找决策边界,并对SVM核函数进行选择;
[0011]步骤(E),对SVM计算原理进行推导;
[0012]步骤(F),采用SVM对数据进行预测处理,并产生预测结果;
[0013]步骤(G),对预测结果进行判定,并通过计算技能得分来确定它与给定基准的比较方式。
[0014]前述的一种基于支持向量机的太阳耀斑二分类预测方法,步骤(A),对实验模型进行数据预处理,构建数据集,其中预处理采用的方法是对总体数据按照活动区编号进行分
组,且数据源为SDO/HMI公布的SHARPS数据序列以及GOES卫星观测的X射线耀斑事件数据,而构建数据集的具体步骤如下,
[0015]步骤(A1),对数据进行先一步的剔除,由于特殊的观测数据观测的处于地区边界,覆盖了若干个地区,因此要将此类数据剔除;
[0016]步骤(A2),将原始数据每张图片的地区编号属性提取出来作为一个数组,采用2/8分割的方式—8份的数据作为训练集,2份的数据作为最终测试模型性能的测试集,将地区编号数组使用shuffle方法无序打乱,再使用比例相乘的方法,将其中的8赋值给训练集,2赋值给训练集,并重复此过程10次,得到了10组同时具有训练集和测试集的机器学习实验数据集。
[0017]前述的一种基于支持向量机的太阳耀斑二分类预测方法,步骤(B),斯皮尔曼等级相关系数的确定,并求得等级之间的差值公式,其具体步骤如下,
[0018]步骤(B1),斯皮尔曼等级相关系数的确定,斯皮尔曼等级相关系数即spearman相关系数在统计学中是一个重要的指标,用字母ρ表示此系数,斯皮尔曼相关系数别名为级别相关,是一种积差相关的特殊形式,它是根据等级资料研究两个变量间相关关系的方法,可以按照两列成对等级的各对等级数之差来进行计算,对于样本来说,样本的m个原始数据转换成等级数据,相关系数ρ如公式(1)所示,
[0019][0020]其中,存在两个变量分别为X、Y,元素个数均为N,两个变量的第i个元素并分别用X
i
、Y
i
表示;X、Y的排序集合x、y,元素x
i
、y
i
分别为X
i
在X中的排名以及Y
i
在Y中的排名;x
i
与y
i
对应相减得到一个排序差分集合d;即变量X、Y之间的斯皮尔曼等级相关系数由x、y计算得到,由排序差分集合d计算而得;
[0021]步骤(B2),求得等级之间的差值公式,总体数据上,原始数据会考察其在总体中的相对位置,获取相应的等级,而实际研究应用中,不看重变量间的连接,通过简化计算步骤计算ρ,并得到等级之间的差值如公式(2)所示,
[0022][0023]前述的一种基于支持向量机的太阳耀斑二分类预测方法,步骤(C),对机器学习的训练特征进行分析和测试,再对实验模型样本进行特征选择,并通过斯皮尔曼等级相关系数对特征之间的联系进行验证,其具体步骤如下,
[0024]步骤(C1),对机器学习的训练特征进行分析和测试,了解特征之间的相关性,探究其对模型的影响,这就需要有相关的数学方法完成这项任务,其数学方法具体步骤如下,
[0025]步骤(C11),耀斑的X射线具有从低到高的A、B、C、M、X的5级分类,其中C类是小型耀斑,M、X为大型耀斑,A、B为无耀斑,接着将A、B统称为N级耀斑,且表示无耀斑发生的样本;
[0026]步骤(C12),为了方便最终数据的训练,先进行标签转换,并将C、M、X标记为1,将N标记为0,这样代表着是否发生耀斑;
[0027]步骤(C13),提取数据中的关于耀斑检测的10项数据特征,并将数据进行归一化操作,把各个特征映射为0

1范围内的小数;
[0028]步骤(C14),使用单变量特征选择对10项特征进行处理;
[0029]步骤(C2),对实验模型样本进行特征选择,在机器学习中尤其重视数据的处理,因此数据特征的处理分析是重中之重,特征选择也叫做特征子集选择,是一个对数据降维的过程,且具体特征选择方法使用是SelectBest中分类任务f_classif方法,使用10组数据集中第1个数据集,并通过对特征重要性进行打分实现对特征的排序,以及保留指定的K个评分最高的特征,为了防止出现误差且更好的实验特征,同时使用随机森林的特征打分函数与SelectBest方法进行比较验证;
[0030]步骤(C3),通过斯皮尔曼等级相关系数对特征之间的联系进行验证,使用斯皮尔曼系数检测目标特征与结果之间的关联性,从而揭露每个特征之间的线性关联程度,是后期实验中进行有效降维并深入剖析特征与结果内部关联的重要手段,在数据预处理步骤中,需要应用斯皮尔曼系数对特征之间的联系进行分析,且获得10项特征之间以及与结果之间的关系,并通过10项特征之本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于支持向量机的太阳耀斑二分类预测方法,其特征在于:包括以下步骤,步骤(A),对实验模型进行数据预处理,构建数据集;步骤(B),斯皮尔曼等级相关系数的确定,并求得等级之间的差值公式;步骤(C),对机器学习的训练特征进行分析和测试,再对实验模型样本进行特征选择,并通过斯皮尔曼等级相关系数对特征之间的联系进行验证;步骤(D),采用SVM寻找决策边界,并对SVM核函数进行选择;步骤(E),对SVM计算原理进行推导;步骤(F),采用SVM对数据进行预测处理,并产生预测结果;步骤(G),对预测结果进行判定,并通过计算技能得分来确定它与给定基准的比较方式。2.根据权利要求1所述的一种基于支持向量机的太阳耀斑二分类预测方法,其特征在于:步骤(A),对实验模型进行数据预处理,构建数据集,其中预处理采用的方法是对总体数据按照活动区编号进行分组,且数据源为SDO/HMI公布的SHARPS数据序列以及GOES卫星观测的X射线耀斑事件数据,而构建数据集的具体步骤如下,步骤(A1),对数据进行先一步的剔除,由于特殊的观测数据观测的处于地区边界,因此要将此类数据剔除;步骤(A2),将原始数据每张图片的地区编号属性提取出来作为一个数组,采用2/8分割的方式—8份的数据作为训练集,2份的数据作为最终测试模型性能的测试集,将地区编号数组使用shuffle方法无序打乱,再使用比例相乘的方法,将其中的8赋值给训练集,2赋值给训练集,并重复此过程10次,得到了10组同时具有训练集和测试集的机器学习实验数据集。3.根据权利要求1所述的一种基于支持向量机的太阳耀斑二分类预测方法,其特征在于:步骤(B),斯皮尔曼等级相关系数的确定,并求得等级之间的差值公式,其具体步骤如下,步骤(B1),斯皮尔曼等级相关系数的确定,斯皮尔曼等级相关系数即spearman相关系数,用字母ρ表示此系数,对于样本来说,样本的m个原始数据转换成等级数据,相关系数ρ如公式(1)所示,其中,存在两个变量分别为X、Y,元素个数均为N,两个变量的第i个元素并分别用X
i
、Y
i
表示;X、Y的排序集合x、y,元素x
i
、y
i
分别为X
i
在X中的排名以及Y
i
在Y中的排名;x
i
与y
i
对应相减得到一个排序差分集合d;即变量X、Y之间的斯皮尔曼等级相关系数由x、y计算得到,由排序差分集合d计算而得;步骤(B2),求得等级之间的差值公式,总体数据上,原始数据会考察其在总体中的相对位置,获取相应的等级,而实际研究应用中,不看重变量间的连接,通过简化计算步骤计算ρ,并得到等级之间的差值如公式(2)所示,4.根据权利要求3所述的一种基于支持向量机的太阳耀斑二分类预测方法,其特征在
于:步骤(C),对机器学习的训练特征进行分析和测试,再对实验模型样本进行特征选择,并通过斯皮尔曼等级相关系数对特征之间的联系进行验证,其具体步骤如下,步骤(C1),对机器学习的训练特征进行分析和测试,了解特征之间的相关性,探究其对模型的影响,这就需要有相关的数学方法完成这项任务,其数学方法具体步骤如下,步骤(C11),耀斑的X射线具有从低到高的A、B、C、M、X的5级分类,其中C类是小型耀斑,M、X为大型耀斑,A、B为无耀斑,接着将A、B统称为N级耀斑,且表示无耀斑发生的样本;步骤(C12),为了方便最终数据的训练,先进行标签转换,并将C、M、X标记为1,将N标记为0,这样代表着是否发生耀斑;步骤(C13),提取数据中的关于耀斑检测的10项数据特征,并将数据进行归一化操作,把各个特征映射为0

1范围内的小数;步骤(C14),使用单变量特征选择对10项特征进行处理;步骤(C2),对实验模型样本进行特征选择,特征选择也叫做特征子集选择,是一个对数据降维的过程,且具体特征选择方法使用是SelectBest中分类任务f_classif方法,使用10组数据集中第1个数据集,并通过对特征重要性进行打分实现对特征的排序,以及保留指定的K个评分最高的特征,同时使用随机森林的特征打分函数与SelectBest方法进行比较验证;步骤(C3),通过斯皮尔曼等级相关系数对特征之间的联系进行验证,使用斯皮尔曼系数检测目标特征与结果之间的关联性,从而揭露每个特征之间的线性关联程度,在数据预处理步骤中,需要应用斯皮尔曼系数对特征之间的联系进行分析,且获得10项特征之间以及与结果之间的关系,并通过10项特征之间的关联性应征最后结果中特征对预测结果的影响。5.根据权利要求1所述的一种基于支持向量机的太阳耀斑二分类预测方法,其特征在于:步骤(D),采用SVM寻找决策边界,并对SVM核函数进行选择,其中SVM表示支持向量机,它的算法思想是将数据映射到高一维的空间,在高维空间找到一个超平面将数据划分两类,其超平面造成的分割需要间隔最大化,而采用SVM寻找决策边界,并对SVM核函数进行选择的具体步骤如下,步骤(D1),采用SVM寻找决策边界,SVM的目标是在一组数据中根据特征的不同找出中间点,并依据这个中间点进行判断和分类,即在中间点的一边是一类,另一边是另一类,这个中间点称为决策边界,决策边界是一条线或一个平面,而采用SVM寻找决策边界的具体步骤如下,步骤(D11),超平面的建立,将数据分组就需要一个高纬度的分割边界,且数据是同一平面的点,这时需要一条线就能将数据分为两个部分,这条线相对点就是一个高纬度的边界,也就是超平面;步骤(D12),间隔最大化,对超平面进行分割;步骤(D2),对SVM核函数进行选择,在高维空间寻找超平面,需要使用核函数,核函数是利用数学方法将本来维度空间的任意两点映射为目标高维空间的距离,而在SVM中,核函数是已经设定好了的,仅需要考虑如何处理和表达数据并设计成SVM计算原理。6.根据权利要求5所述的一种基于支持向量机的太阳耀斑二分类预测方法,其特征在于:步骤(E),对SVM计算原理进行推导,而SVM计算原理分为软间隔最大化、拉格朗日对偶、
最优化问题求解、核函数以及序列最小优化,其具体步骤如下,步骤(E1),软间隔最大化,软间隔最大化是加入松弛变量的目标函数,使支持向量到分类超平面间隔最大化,其具体步骤如下,步骤(E11),需要样本点x到超平面(w,b)的距离公式,设d为样本点到超平面(w,b)的距离,则距离d如公式(3)所示,而超平面的公式如公式(4)所示,w
·
x+b=0
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)这样样本点x到超平面(w,b)的间隔如公式(5)所示,其中,γ
i
表示样本点x到超平面(w,b)的间隔;x
i
表示第i条数据,y
i
表示第i条数据对应的因变量取值,且因变量取值为
±
1;当x
i
被正确分类时,y
i
的值与w*x+b取值的符号相同,且几何间隔为正;当x
i
被错误分类时,y
i
的值与w*x+b取值的符号相异,几何间隔为负;步骤(E12),定义几何间隔中最小的如公式(6)所示,γ=minγ
i
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ

【专利技术属性】
技术研发人员:李雪宝郑艳芳秦伟舒田会峰刘乾周瑜陈威
申请(专利权)人:江苏科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1