本发明专利技术提供了一种基于混合特征选择的辛烷值损失预测方法,属于石油化工技术领域。解决了现有的辛烷值损失测定方法成本高、耗时大的问题。其技术方案为:该预测方法包括如下步骤:S1:获取从催化裂化汽油精制装置采集的样本原始数据;S2:将数据样本进行预处理;S3:使用k
【技术实现步骤摘要】
一种基于混合特征选择的辛烷值损失预测方法
[0001]本专利技术涉及石油化工
,尤其涉及一种基于混合特征选择的辛烷值损失预测方法。
技术介绍
[0002]小型车辆的燃料以汽油居多,汽油的燃烧产生的尾气对大气环境有重要的影响,因此汽油需要清洁化来降低其中硫和烯烃的含量。成品汽油中95%以上的硫和烯烃来自催化裂化汽油,故需要对催化裂化汽油进行精制处理。但是现有技术在对催化裂化汽油进行脱硫和降烯烃的过程中,普遍降低了汽油辛烷值。
[0003]辛烷值是反映汽油燃烧性能的最重要指标,在工艺过程中需要保证较低的辛烷值损失。传统的辛烷值损失测定方法成本高、耗时大。化工过程的建模方法在一些领域取得了一定的成果。但是由于炼油工艺的操作变量不仅数量多而且它们之间具有高度非线性和相互强耦联的关系,传统的化工建模方法效果并不理想,因此需要一种有效的特征提取方法从操作变量中筛选出建模主要变量。
技术实现思路
[0004]本专利技术的目的在于提供一种基于混合特征选择的辛烷值损失预测方法,该预测方法可以使建模的主要变量具有代表性和独立性。
[0005]本专利技术是通过如下措施实现的:一种基于混合特征选择的辛烷值损失预测方法,其中,包括如下步骤:
[0006]S1:获取从催化裂化汽油精制装置采集的样本原始数据;
[0007]S2:将数据样本进行预处理;
[0008]S3:使用k
‑
means聚类算法初步筛选变量:
[0009]S4:使用皮尔逊相关系数检验变量的线性关系,并用距离相关系数检验变量的非线性关系,将与其它变量相关性较高的变量剔除:
[0010]S5:根据决策树计算的各变量重要性,得到建模的最终变量;
[0011]S6:根据辛烷值损失和筛选的变量,建立多元线性回归模型并进行训练。
[0012]作为本专利技术提供的一种基于混合特征选择的辛烷值损失预测方法进一步优化方案,所述步骤S2具体包括以下步骤:
[0013]S201:将数据缺失过多的操作变量进行删除;
[0014]S202:根据拉依达准则去除数据中的异常值;
[0015]S203:对部分时间点的数据为空值的位点,空值处用其前后两个小时数据的平均值代替;
[0016]S204:以辛烷值数据测定的时间点为基准时间,取其前2个小时的操作变量数据的平均值作为对应辛烷值的操作变量数据。
[0017]作为本专利技术提供的一种基于混合特征选择的辛烷值损失预测方法进一步优化方
案,所述步骤S3具体包括以下步骤:
[0018]S301:将归一化后的变量数据作为k
‑
means算法的训练集,初始化k个聚类中心;
[0019]S302:计算变量到各个簇质心的欧式距离,将其分配到距离最近的簇,重新计算簇的质心;
[0020]S303:重复所述步骤S301、步骤S302直至每个簇的质心不再变化;
[0021]S304:画出误差平方和SSE与k值的曲线图,采用肘部法则确定簇的最佳个数,选择每个簇的质心作为初步筛选的变量。
[0022]作为本专利技术提供的一种基于混合特征选择的辛烷值损失预测方法进一步优化方案,所述步骤S4具体包括以下步骤:
[0023]S401:计算每个变量与其他变量的皮尔森相关系数以检验线性相关性,计算公式如下:
[0024][0025]S402:计算每个变量与其他变量的距离相关系数以检验非线性相关性,计算公式如下:
[0026][0027]其中,距离协方差其中,距离协方差和分别为:
[0028][0029][0030][0031]同理计算距离协方差和其中X和Y是进行相关分析的两个变量,n表示样本个数。
[0032]S403:得到变量的皮尔森和距离相关性矩阵,计算各变量与其他变量相关系数的均值,剔除掉均值大于阈值的变量。
[0033]作为本专利技术提供的一种基于混合特征选择的辛烷值损失预测方法进一步优化方案,所述步骤S5具体为:采用决策树计算每个变量的重要性,计算分支节点的Gini指数下降程度之和(Gini importance,GI),计算公式如下:
[0034][0035]其中,N是样本的总数,N
t
是当前节点的样本数量,是结点右孩子的样本数目,是结点左孩子的样本数目,G为Gini指数,G
l
和G
r
为别表示左右分支的Gini指数。
[0036]计算出每个变量的重要性后,进行排序,筛选出重要性高于阈值的变量。
[0037]作为本专利技术提供的一种基于混合特征选择的辛烷值损失预测方法进一步优化方案,所述步骤S6中建立多元线性回归模型包括:以均方根误差作为损失函数,并采用自适应梯度下降的AdaGrad算法优化。
[0038]与现有技术相比,本专利技术的有益效果为:
[0039](1)、本专利技术采用建模方法预测辛烷值损失,相比传统方法成本低、操作简单,使用多种数据预处理方法处理原始数据样本,避免了异常值和数据缺失对模型预测的影响,通过k
‑
means聚类算法选择簇的质心代表一类变量,以及使用决策树算法根据Gini指数下降程度之和筛选变量,可以使用于建模的变量具有代表性和高度重要性,有利于忽略次要因素,发现并分析影响辛烷值损失的主要变量与因素。
[0040](2)、本专利技术提出的变量线性和非线性相关性检验方法,使选择的变量独立性,避免了因变量之间具有高度非线性和相互强耦联而造成的建模效果不理想,在建立多元线性回归模型时,采用自适应梯度下降的AdaGrad算法优化,可以提高模型训练时的收敛速度。
附图说明
[0041]附图用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与本专利技术的实施例一起用于解释本专利技术,并不构成对本专利技术的限制。
[0042]图1为本专利技术基于混合特征选择的辛烷值损失预测方法的流程图。
[0043]图2为本专利技术实施例提供的K
‑
SSE曲线图。
[0044]图3为本专利技术实施例提供的皮尔森相关性矩阵图。
[0045]图4为本专利技术实施例提供的距离相关性矩阵图。
[0046]图5为本专利技术实施例提供的多元线性回归预测结果图。
具体实施方式
[0047]为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。当然,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。
[0048]实施例
[0049]参见图1,本专利技术提供其技术方案为,一种基于混合特征选择的辛烷值损失预测方法,包括以下步骤:
[0050]S1:获取从催化裂化汽油精制装置采集的样本原始数据;
[0051]S2:将数据样本进行预处理;
[0052]S3:使用k
‑
means聚类算法初步筛选变量:
[0053]S4:使用皮尔逊相本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于混合特征选择的辛烷值损失预测方法,其特征在于,包括如下步骤:S1:获取从催化裂化汽油精制装置采集的样本原始数据;S2:将数据样本进行预处理;S3:使用k
‑
means聚类算法初步筛选变量:S4:使用皮尔逊相关系数检验变量的线性关系,并用距离相关系数检验变量的非线性关系,将与其它变量相关性较高的变量剔除:S5:根据决策树计算的各变量重要性,得到建模的最终变量;S6:根据辛烷值损失和筛选的变量,建立多元线性回归模型并进行训练。2.根据权利要求1所述的基于混合特征选择的辛烷值损失预测方法,其特征在于,所述步骤S2具体包括以下步骤:S201:将数据缺失过多的操作变量进行删除;S202:根据拉依达准则去除数据中的异常值;S203:对部分时间点的数据为空值的位点,空值处用其前后两个小时数据的平均值代替;S204:以辛烷值数据测定的时间点为基准时间,取其前2个小时的操作变量数据的平均值作为对应辛烷值的操作变量数据。3.根据权利要求1所述的基于混合特征选择的辛烷值损失预测方法,其特征在于,所述步骤S3具体包括以下步骤:S301:将归一化后的变量数据作为k
‑
means算法的训练集,初始化k个聚类中心;S302:计算变量到各个簇质心的欧式距离,将其分配到距离最近的簇,重新计算簇的质心;S303:重复所述步骤S301、步骤S302直至每个簇的质心不再变化;S304:画出误差平方和SSE与k值的曲线图,采用肘...
【专利技术属性】
技术研发人员:周城,徐慧,余伟超,尹必才,赵晨薇,
申请(专利权)人:南通大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。