一种光纤折射率大数据预测方法技术

技术编号:21034904 阅读:29 留言:0更新日期:2019-05-04 05:38
本发明专利技术请求保护一种光纤折射率大数据预测方法,包括:101对光纤拉制时的生产数据进行预处理;102根据光纤拉制设备的不同,划分训练集和验证集;103建立三个基础机器学习模型;104利用线性加权方法对基础模型进行融合;105根据最终建立的模型,对即将拉制的光纤的折射率进行回归预测。本发明专利技术主要是通过对光纤拉制时的生产数据进行预处理和分析,建立三个机器学习模型并进行模型融合,从而对即将被拉制的光纤的折射率进行回归预测分析,判断生产的光纤是否满足要求,同时也可以通过预测结果对现已有的参数进行调整,进而提高光纤生产的效率与合格率。

A Prediction Method for Large Data of Optical Fiber Refractive Index

【技术实现步骤摘要】
一种光纤折射率大数据预测方法
本专利技术属于机器学习、大数据处理技术、智能制造领域,尤其基于多模型融合的制造业参数回归。
技术介绍
21世纪,是在错失前三次工业革命后,中国第一次与发达国家共同迎接第四次工业革命的全新时代。其代表技术——人工智能,以当今大数据时代为背景,已悄然在我国传统制造业中掀起了浪潮,点亮了“中国智造”。智能制造是一种由智能机器和人类专家共同组成的人机一体化智能系统,它在制造过程中能进行智能活动,诸如分析、推理、判断、构思和决策等。通过人与智能机器的合作共事,去扩大、延伸和部分地取代人类专家在制造过程中的脑力劳动。它把制造自动化的概念更新,扩展到柔性化、智能化和高度集成化。我国在传统光纤制备方面已经信息化,但是距离智能化还有很长一段路,比如难以固化专家经验、在光棒、光纤生产出现故障时,无法准确判断故障的原因、难以准确发现工艺参数的影响因素及内在关联关系、难以准确预测工艺参数的变化对产品质量的影响、需要对重要的工艺参数的设置范围进一步的优化和精准化等。
技术实现思路
本专利技术旨在解决以上现有技术的问题。提出了一种对即将被拉制的光纤的折射率进行回归预测分析,判断生产的光纤是否满足要求,提高光纤生产的效率与合格率的光纤折射率大数据预测方法。本专利技术的技术方案如下:一种光纤折射率大数据预测方法,其包括以下步骤:101、对光纤拉制时的生产数据按照先后顺序,进行异常值处理、缺失值处理、离散值编码的预处理步骤;102、根据光纤拉制设备的不同,划分训练集和验证集;103、根据训练集建立三个基础机器学习模型,分别为弹性网络回归模型、CatBoost模型及全连接网络模型;104利用线性加权方法对步骤103的基础机器学习模型进行融合,得到最终融合预测模型;105根据最终融合预测模型,对即将拉制的光纤的折射率进行回归预测。进一步的,所述步骤101对原始光纤生产数据异常值处理具体步骤为:101-1.异常值处理:对于异常值的判断,使用K-means方法对每一个连续值属性进行单独聚类操作,K值取2,如果在聚类后,被分为任意一标签的数据量只占总数据量的0.2%及以下,那判定该批数据存在异常,并且对异常值的后续处理采取两种方案:一是异常值所在的某条数据,存在“严重异常”即单条异常属性达到总属性数量20%及以上的情况,对这种数据进行丢弃操作;二是用如下公式进行填充,其中Q2是单列属性的第二四分位数,min是最小值,max是最大值,ErrorData是进行填充的数据:进一步的,所述缺失值处理具体包括步骤:101-2.缺失值处理:采取两种方式处理数据采集过程中产生的缺失值:一是对于“严重缺失”即单条缺失属性达到总属性数量20%及以上的光纤数据进行丢弃操作,二是对于其他缺失数据进行补充操作:对离散型数据用众数进行填充,对连续型数据用如下公式进行填充,其中Q1是单列属性的第一四分位数,Q3是第三四分位数,min是最小值,max是最大值,mean是均值,MissData是进行填充的数据:进一步的,所述离散值编码具体包括步骤:101-3.离散值编码:对离散值i编码时,随机抽取该值所对应数据的80%,然后采用如下公式进行计算,其中labeli是指离散值i所对应的标签值,n是计算离散值i所对应数据量的大小即随机抽取80%后的大小,Codei是对离散值i的编码结果:进一步的,所述步骤102根据光纤拉制设备的不同,划分训练集和验证集操作具体步骤为:光纤拉制设备有N台,根据设备号将原始数据划分为N份,再分别把每份数据按3:1的比例划分,最后将N份比例为3的数据合并得到最终的训练集,将七份比例为1的数据合并得到验证集。进一步的,所述步骤103建立三个基础机器学习模型操作具体步骤为:103-1.弹性网络回归模型:建立弹性网络回归模型,先按照如下公式自定义损失,其中labeli是指预测的标签值,labeli_是真实的标签值,n是被预测的数据量大小,i表示第i个被预测的数据,Loss是损失值大小:再根据如下公式定义弹性网络回归的损失函数,r表示L1、L2正则化比重、α表示正则化参数化,θi表示惩罚系数,其中r设定为0.2,α设定为0.01:103-2.CatBoost模型:采用CatBoost(自动处理分类数据的提升树)建立集成树模型,同时舍弃101-3离散值编码,对原始离散数据不做处理,直接输入模型,训练参数相关:depth设定为6,ignored_features设定为True,subsample设定为0.7,learning_rate设定为0.015,iterations设定为1000;103-3.全连接网络模型:采用全连接网络,网络的结构从输入层到输出层如下:输入层,即光纤属性向量输入,该层不采取额外处理;第一层隐藏层,设定神经元50个,权重w1的droupout设定为0.7,即网络计算过程中该层权重向量会有70%的被输出参与计算,30%被舍弃,偏置项b1的droupout设定为0.7,激活函数设定为tahn;第二层隐藏层,设定神经元10个,权重w2的droupout设定为0.8,偏置项b2的droupout设定为1,激活函数设定为relu;第三层隐藏层,设定为输出层,设定神经元1个,即为最后的预测值输出,权重w3的droupout设定为0.8,偏置项b2的droupout设定为1,激活函数设定为relu。该神经网络采用Adam优化器,损失函数设定为均方误差,学习率设定为恒定0.003,迭代次数50000次,添加L2正则化0.001。进一步的,所述步骤104利用线性加权方法对基础模型进行融合操作具体步骤为:首先按照公式(4)计算三个已建立模型的损失,然后根据如下公式对每个模型的损失值大小进行以自然数e为底的对数变换,其中Lossi是模型的损失值大小,Li为变换的结果:Li=ln(Lossi+1)公式(6)得到变换的值后,继续将三个变换后的损失值转换成三个和为1的概率值,该概率值也就是我们线性融合的权重值,如下方公式所示,表示变换后的损失值向量,Li表示第i个损失值,Lj表示计算第i个权重时的第j个损失值,Wi表示第i个权重值大小:最后按照线性加权融合的方式,得到最终融合的结果,如下方公式所示,其中是第i个模型的预测标签向量,Wi是第i个模型的权重,是最终的预测标签向量:进一步的,所述步骤105根据最终建立的模型,对即将生产的光纤的折射率进行回归预测操作具体步骤为:根据建立三个基础机器学习模型操作,完全随机区分训练集与验证集5次,再分别得到5组模型的权重值,对5组权重取均值,得到最后的权重,最后将所有不再区分训练集验证集的数据分别训练出弹性网络回归模型、CatBoost模型、全连接网络模型,根据求得的权重融合,得到预测光纤折射率。本专利技术的优点及有益效果如下:1.本专利技术在所述步骤101-1对“严重异常”数据通过公式(1)填充以及步骤101-2对“严重缺失”数据通过公式(2)填充时,考虑到偏离点的影响和数据分布的不同,故引入了分位数(表示数据分割点的数据)参与计算,使填充值的有效性有极大提升,同时也间接提高了后续模型的鲁棒性。2.本专利技术在所述步骤101-3对离散数据数据通过公式(3)编码时,只抽取了80%的数据参与计算,是由于考虑到全部参与计本文档来自技高网...

【技术保护点】
1.一种光纤折射率大数据预测方法,其特征在于,包括以下步骤:101、对光纤拉制时的生产数据按照先后顺序,进行异常值处理、缺失值处理、离散值编码的预处理步骤;102、根据光纤拉制设备的不同,划分训练集和验证集;103、根据训练集建立三个基础机器学习模型,分别为弹性网络回归模型、CatBoost模型及全连接网络模型;104利用线性加权方法对步骤103的基础机器学习模型进行融合,得到最终融合预测模型;105根据最终融合预测模型,对即将拉制的光纤的折射率进行回归预测。

【技术特征摘要】
1.一种光纤折射率大数据预测方法,其特征在于,包括以下步骤:101、对光纤拉制时的生产数据按照先后顺序,进行异常值处理、缺失值处理、离散值编码的预处理步骤;102、根据光纤拉制设备的不同,划分训练集和验证集;103、根据训练集建立三个基础机器学习模型,分别为弹性网络回归模型、CatBoost模型及全连接网络模型;104利用线性加权方法对步骤103的基础机器学习模型进行融合,得到最终融合预测模型;105根据最终融合预测模型,对即将拉制的光纤的折射率进行回归预测。2.根据权利要求1所述的一种光纤折射率大数据预测方法,其特征在于,所述步骤101对原始光纤生产数据异常值处理具体步骤为:101-1.异常值处理:对于异常值的判断,使用K-means方法对每一个连续值属性进行单独聚类操作,K值取2,如果在聚类后,被分为任意一标签的数据量只占总数据量的0.2%及以下,那判定该批数据存在异常,并且对异常值的后续处理采取两种方案:一是异常值所在的某条数据,存在“严重异常”即单条异常属性达到总属性数量20%及以上的情况,对这种数据进行丢弃操作;二是用如下公式进行填充,其中Q2是单列属性的第二四分位数,min是最小值,max是最大值,ErrorData是进行填充的数据:3.根据权利要求2所述的一种光纤折射率大数据预测方法,其特征在于,所述缺失值处理具体包括步骤:101-2.缺失值处理:采取两种方式处理数据采集过程中产生的缺失值:一是对于“严重缺失”即单条缺失属性达到总属性数量20%及以上的光纤数据进行丢弃操作,二是对于其他缺失数据进行补充操作:对离散型数据用众数进行填充,对连续型数据用如下公式进行填充,其中Q1是单列属性的第一四分位数,Q3是第三四分位数,min是最小值,max是最大值,mean是均值,MissData是进行填充的数据:4.根据权利要求3所述的一种光纤折射率大数据预测方法,其特征在于,所述离散值编码具体包括步骤:101-3.离散值编码:对离散值i编码时,随机抽取该值所对应数据的80%,然后采用如下公式进行计算,其中labeli是指离散值i所对应的标签值,n是计算离散值i所对应数据量的大小即随机抽取80%后的大小,Codei是对离散值i的编码结果:5.根据权利要求3所述的一种光纤折射率大数据预测方法,其特征在于,所述步骤102根据光纤拉制设备的不同,划分训练集和验证集操作具体步骤为:光纤拉制设备有N台,根据设备号将原始数据划分为N份,再分别把每份数据按3:1的比例划分,最后将N份比例为3的数据合并得到最终的训练集,将七份比例为1的数据合并得到验证集。6.根据权利要求5所述的一种光纤折射率大数据预测方法,其特征在于,所述步骤103建立三个基础机器学习模型操作具体步骤为:103-1.弹性网络回归模型:建立弹性网络回归模型,先按照如下公式自定义损失,其中labeli是指预测的标签值,labeli_是真实的标签值,n是被预测的...

【专利技术属性】
技术研发人员:王进许景益杨俏李林洁魏凯陈秩刘婧雨高艺丹文议庆
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1