基于R-SVM的TFT-LCD工业智能预测方法技术

技术编号:21344509 阅读:16 留言:0更新日期:2019-06-13 22:51
本发明专利技术公开了基于R‑SVM的TFT‑LCD工业智能预测方法,本发明专利技术将传统svm与随机森林的思想进行了结合,使最终预测结果,更加具有鲁棒性,更可靠。同时,svm本身就适用于高维数据,大型特征空间的训练,在小样本数据上表现较好。实现该方法的核心过程在于样本与特征集合的构建并与最终svm的结合上。传统的svm模型对于特征与样本集合不做太多的筛选与判断,对于整个样本集合都选择直接放入模型中进行训练。基于随机森林的思想,本发明专利技术考虑在模型训练的过程中,组成多个不同的样本集与特征集并且结合传统的svm模型进行训练。将训练得到的多个svm模型再对最后的验证集分别进行预测,取所有预测的均值作为最终的预测结果。

TFT-LCD Industrial Intelligent Forecasting Method Based on R-SVM

The invention discloses TFT LCD industrial intelligent prediction method based on R SVM. The invention combines the traditional SVM with the idea of random forest to make the final prediction result more robust and reliable. At the same time, SVM itself is suitable for training high-dimensional data and large feature space, and performs well on small sample data. The core process of realizing this method lies in the construction of samples and feature sets and the combination with the final svm. The traditional SVM model does not do too much screening and judgment for feature and sample set, and the whole sample set is selected to be directly put into the model for training. Based on the idea of random forest, the present invention considers that in the process of model training, a plurality of different sample sets and feature sets are formed and trained in combination with the traditional SVM model. The training SVM models are used to predict the final validation set, and the mean values of all the predictions are taken as the final prediction results.

【技术实现步骤摘要】
基于R-SVM的TFT-LCD工业智能预测方法
本专利技术是一种基于R-SVM的TFT-LCD薄膜晶体管液晶显示器)工业智能预测方法。
技术介绍
半导体产业是一个信息化程度高的产业。高度的信息化给数据分析创造了可能性。基于数据的分析可以帮助半导体产业更好的利用生产信息,提高产品质量。现有的解决方案是,生产机器生产完成后,对产品质量做非全面的抽测,进行产品质量检核。这往往会出现以下状况,一是不能即时的知道质量的好坏,当发现质量不佳的产品时,要修正通常都为时以晚,二是在没有办法全面抽测的状况下,存在很大漏检的风险。在机器学习,人工智能快速发展的今天,希望由机器生产参数去预测产品的质量,来达到生产结果即时性以及全面性。更进一步的,可基于预先知道的结果,去做对应的决策及应变,对客户负责,也对制造生产更加敏感。传统的机器学习方法都对数据型预测做出了很大的贡献。单一性的方法有线性回归,实现简单,计算简单并且可解释性强,适用于连续型数据的预测;Svm可解决高维问题,大型特征空间,提高泛化能力;决策树计算简单,易于理解,适用于有缺失属性的样本,高效应对大数据集;knn理论成熟,思想简单等。集成算法包括bagging与boosting类的多种算法。其中运行效果较好的是随机森林方法,解决了决策树的过拟合问题,并且提高了模型的鲁棒性,发挥了较好的作用。集成算法在单一算法的基础上有了一些进步,但是也存在自身的弊端。例如随机森林在解决回归问题时,并不像分类问题的效果那么理想。尤其是在处理小样本数据的时候,效果也是不甚满意。
技术实现思路
考虑到上述问题,本专利技术提出了一种基于随机svm的工业智能预测方法。由于上述方法改变了传统的svm训练方式,将传统svm与随机森林的思想进行了结合,使最终预测结果,更加具有鲁棒性,更可靠。同时,svm本身就适用于高维数据,大型特征空间的训练,在小样本数据上表现较好。本专利技术采用的技术方案为基于R-SVM的TFT-LCD工业智能预测方法,本方法数据来源于阿里天池工业智能制造质量预测公开数据集,数据列包括生产TFT-LCD的工业制作过程。共有8029列,600个样本。该方法的实现过程包括如下步骤:步骤1,数据预处理;步骤2,pca降维;步骤3,模型搭建;步骤4,多模型判断优异;步骤5,模型预测;步骤6,mse判定。步骤1,数据预处理。在数据预处理部分,首先对8029列数据中的离散型数据进行了处理。根据离散型数据列与最终Y值的影响做了一元方差分析。根据离散型列值分析对数据进行了encoder型编码。对数据样本进行去空,重复列去重,对单个空缺值进行填补(使用前一值进行补充)。步骤2,PCA降维。在降维阶段,使用pca降维技术,因为数据中没有关于各个列值的具体说明,所以直接采用pca降维的方法。在降维过程中,前300列包含有数据98%以上的信息,在降维阶段保留前300列的数据信息。步骤3,模型搭建。模型搭建的过程中采用了多种方式对模型进行构造与比对。首先使用k折交叉验证对数据进行训练集与测试集的划分,对划分后的数据进行归一化,为后期模型训练准备数据。步骤4,模型选定。采用机器学习方法对整个数据样本进行了预测。MSE是真实值与预测值的均方误差,n是样本个数,是预测值,Yi是真实值。在降维之后的特征中随机选择出250列特征值,并从500个训练集中抽出300条做为每一个svm模型的训练集,训练出了15个svm模型。组合形成R-SVM模型。步骤5,mse判定。将训练好的15个svm模型对测试集进行预测,将结果取均值。根据mse判定方法,计算出R-SVM模型的均方误差。实现该方法的核心过程在于样本与特征集合的构建并与最终svm的结合上。传统的svm模型对于特征与样本集合不做太多的筛选与判断,对于整个样本集合都选择直接放入模型中进行训练。基于随机森林的思想,本专利技术考虑在模型训练的过程中,组成多个不同的样本集与特征集并且结合传统的svm模型进行训练。将训练得到的多个svm模型再对最后的验证集分别进行预测,取所有预测的均值作为最终的预测结果。附图说明图1是本专利技术的总体流程示意图。图2是本专利技术中object数据的单元素分析结果图。图3是本专利技术中PCA降维数据列信息含量图。图4是本专利技术svm的集合模型结构图。具体实施方式以下结合附图和实施例对本专利技术进行详细说明。数据描述:本专利技术数据来源于阿里天池工业智能制造质量预测公开数据集,数据列包括生产TFT-LCD的工业制作过程。共有8029列,600个样本。以下将结合附图所示的具体实施方式对本专利技术进行详细描述。图1是本专利技术基于R-SVM的TFT-LCD工业智能预测方法的流程示意图,如图1所示,整个操作过程包括:步骤1,数据预处理,;步骤2,pca降维;步骤3,模型搭建,;步骤4,多模型判断优异;步骤5,模型预测;步骤6,mse判定。以下对每个步骤进行详细说明:步骤1,数据预处理。在数据预处理部分,本实例首先对8029列数据中的离散型数据进行了处理。根据离散型数据列与最终Y值的影响做了一元方差分析。方差分析结果如图2所示。根据离散型列值分析对数据进行了encoder型编码。对数据样本进行去空,重复列去重,对单个空缺值进行填补(使用前一值进行补充)。步骤2,PCA降维。在降维阶段,本实例使用的是pca降维技术,因为数据中没有关于各个列值的具体说明,所以直接采用了pca降维的方法,对列值不需要过多的解释。在降维过程中,发现前300列包含有数据98%以上的信息,如图3所示。所以在降维阶段保留前300列的数据信息。步骤3,模型搭建。模型搭建的过程中本实例采用了多种方式对模型进行构造与比对。首先使用k折交叉验证对数据进行训练集与测试集的划分,对划分后的数据进行归一化,为后期模型训练准备数据。步骤4,模型选定。本实例首先采用了传统的机器学习方法对整个数据样本进行了预测,预测结果如表1所示。MSE是真实值与预测值的均方误差,n是样本个数,是预测值,Yi是真实值。根据表1可知,传统算法中svm与随机森林得到的结果最好。所以本专利技术将随机森林的思想运用于svm中。在降维之后的特征中随机选择出250列特征值,并从500个训练集中抽出300条做为每一个svm模型的训练集,训练出了15个svm模型。组合形成R-SVM模型。步骤5,mse判定。将训练好的15个svm模型对测试集进行预测,将结果取均值。根据mse判定方法,计算出R-SVM模型的均方误差。根据数据结果发现本专利技术中的RSVM模型较其他模型相比,mse下降了2个百分点,优化效果明显。表1本文档来自技高网...

【技术保护点】
1.基于R‑SVM的TFT‑LCD工业智能预测方法,其特征在于:本方法数据来源于阿里天池工业智能制造质量预测公开数据集,数据列包括生产TFT‑LCD的工业制作过程。共有8029列,600个样本;该方法的实现过程包括如下步骤,步骤1,数据预处理;步骤2,pca降维;步骤3,模型搭建;步骤4,多模型判断优异;步骤5,模型预测;步骤6,mse判定。

【技术特征摘要】
1.基于R-SVM的TFT-LCD工业智能预测方法,其特征在于:本方法数据来源于阿里天池工业智能制造质量预测公开数据集,数据列包括生产TFT-LCD的工业制作过程。共有8029列,600个样本;该方法的实现过程包括如下步骤,步骤1,数据预处理;步骤2,pca降维;步骤3,模型搭建;步骤4,多模型判断优异;步骤5,模型预测;步骤6,mse判定。2.根据权利要求1所述的基于R-SVM的TFT-LCD工业智能预测方法,其特征在于:步骤1,数据预处理;在数据预处理部分,首先对8029列数据中的离散型数据进行了处理;根据离散型数据列与最终Y值的影响做了一元方差分析;根据离散型列值分析对数据进行了encoder型编码;对数据样本进行去空,重复列去重,对单个空缺值进行填补;步骤2,PCA降维;在降维阶段,使用pca降维技术,因为数据中没...

【专利技术属性】
技术研发人员:张涛冯宇婷郝兵
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1