基于机械学习的关键因子自动寻找方法技术

技术编号:32971594 阅读:16 留言:0更新日期:2022-04-09 11:39
本公开提出一种基于机械学习的自动关键因子寻找方法。首先,收集训练数据集。所述训练数据集包括多个数据集以及与各数据集相对应的结果数值。接着,基于所述训练数据集建立机器学习模型。在此,将各数据集作为机器学习模型的输入变量,并将与各数据集相对应的结果数值作为机器学习模型的输出变量,借此来训练机器学习模型。在建立该机器学习模型之后,对机器学习模型执行模型解析法,以在所述数据集中取出影响结果数值的至少一关键因子。取出影响结果数值的至少一关键因子。取出影响结果数值的至少一关键因子。

【技术实现步骤摘要】
基于机械学习的关键因子自动寻找方法


[0001]本专利技术是有关于一种数据探勘方法,且特别是有关于一种基于机械学习的关键因子自动寻找方法。

技术介绍

[0002]随着科学技术的日新月异,各种行业的信息化程度大幅全面提升,整个社会的数据正在以前所未有的速度快速增长。而数据探勘便是在巨量数据快速增长下的产物。数据探勘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构。
[0003]一般用于厂房良率分析的情况下,当生产品质或效能出现异常时,厂房人员会利用线性分析方式来逐一判断每一个参数与良率之间的关联性。倘若参数过多,逐一确认的方式则显得过于消耗人力资源。此外,对于一个以上的因子或是非线性关系造成良率异常,传统分析方式亦不易判断。

技术实现思路

[0004]本专利技术提供一种关键因子分析流程,可有效找出数据中的关键因子。
[0005]本专利技术的基于机械学习的关键因子自动寻找方法,包括:收集训练数据集,其中训练数据集包括多个数据集以及与各数据集相对应的结果数值;基于训练数据集建立机器学习模型,其中将各数据集作为机器学习模型的输入变量,并将与各数据集相对应的结果数值作为机器学习模型的输出变量,借此来训练机器学习模型;以及在建立机器学习模型之后,对机器学习模型执行模型解析法,以在所述数据集中取出影响结果数值的至少一关键因子。
[0006]在本专利技术的一实施例中,在收集训练数据集之后,还包括:对所述数据集进行前处理,其中前处理包括遗缺值补值(missing value imputation)处理、离散特征数字化处理以及特征预处理。离散特征数字化处理例如为单热编码(One Hot Encoder)、标签编码(LabelEncoder)等。特征预处理例如为归一化(normalization)处理、正则化(regularization)处理、标准化(standardization)处理等。
[0007]在本专利技术的一实施例中,在对机器学习模型执行模型解析法之前,还包括:对机器学习模型执行自动超参(hyper parameter)调整处理(如贝叶式优化法、退火法),以优化机器学习模型。
[0008]在本专利技术的一实施例中,各数据集包括生产产品时所使用的一或多个机台的多个特征参数,结果数值为良率值,而对机器学习模型执行模型解析法包括:通过模型解析法来计算每一个特征参数对应的重要值;以及基于所述重要值来决定至少一关键因子。
[0009]在本专利技术的一实施例中,所述特征参数至少包括电流、温度、运转速度、流量、扭力、环境微粒子(particle)量以及排气(exhaust)值中的任意两个。
[0010]在本专利技术的一实施例中,对机器学习模型执行模型解析法,以在所述数据集中取出影响结果数值的至少一关键因子之后,还包括:将至少一关键因子以视觉化方式呈现。
[0011]在本专利技术的一实施例中,所述机器学习模型为极限梯度提升(eXtreme Gradient Boosting,XGBoost)模型、分类提升(Category and Boosting,CatBoost)模型、随机森林(random forest)以及轻度梯度提升机(light gradient boosting machine,LightGBM)其中一个。
[0012]在本专利技术的一实施例中,所述模型解析法为薛普利加法解释(SHapley Additive exPlanations,SHAP)或是局部可解释模型解释法(Local Interpretable Model

agnostic Explanations,LIME)。
[0013]基于上述,本公开是先利用机器学习模型来建立数据集与其对应的结果数据之间的关系,之后从模型解析法来解析机器学习模型,借此来获得影响结果数据的关键因子。据此,避免了传统数据分析中,复杂繁琐耗费人工的分析过程,可快速找出数据中的关键因子。
附图说明
[0014]图1是依照本专利技术一实施例的电子装置的方框图。
[0015]图2是依照本专利技术一实施例的基于机械学习的关键因子自动寻找方法的流程图。
[0016]图3是依照本专利技术一实施例的机器学习模型的示意图。
[0017]图4是依照本专利技术一实施例的视觉化呈现关键因子的示意图。
[0018]图5是依照本专利技术一实施例的视觉化呈现关键因子的示意图。
[0019]其中,附图标记说明如下:
[0020]100:电子装置
[0021]110:处理器
[0022]120:储存器
[0023]121:建模模块
[0024]123:解析模块
[0025]310:输入层
[0026]320:隐藏层
[0027]330:输出层
[0028]S205~S220:基于机械学习的关键因子自动寻找方法的步骤
具体实施方式
[0029]图1是依照本专利技术一实施例的电子装置的方框图。请参照图1,电子装置100包括处理器110以及储存器120。处理器110耦接至储存器120。处理器110例如为中央处理单元(Central Processing Unit,CPU)、物理处理单元(Physics Processing Unit,PPU)、可编程微处理器(Microprocessor)、嵌入式控制芯片、数字信号处理器(Digital Signal Processor,DSP)、特殊应用集成电路(Application Specific Integrated Circuits,ASIC)或其他类似装置。
[0030]储存器120例如是任意型式的固定式或可移动式随机存取存储器(Random Access Memory,RAM)、只读存储器(Read

Only Memory,ROM)、快闪存储器(Flash memory)、硬盘或其他类似装置或这些装置的组合。储存器120包括建模模块121以及解析模块123。建模模块
121以及解析模块123是由一或多个程序码片段所组成,上述程序码片段在被安装后,会由处理器110来执行下述基于机械学习的关键因子自动寻找方法。
[0031]图2是依照本专利技术一实施例的基于机械学习的关键因子自动寻找方法的流程图。请同时参照图1及图2,在步骤S205中,电子装置100收集训练数据集。所述训练数据集包括多个数据集以及与各数据集相对应的结果数值。
[0032]每一个数据集具有对应的一个结果数据。各数据集包括生产产品时所使用的一或多个机台的多个特征参数。所述特征参数至少包括电流、温度、运转速度、流量、扭力、环境微粒子(particle)量以及排气(exhaust)值中的任意两个。结果数值为良率值。不同的特征参数会影响良率值。
[0033]在收集训练数据集之后,处理器110进一步会对所述数据集进行前处理。例如,储存器120中还包括有一前处理模块(未绘示),通过前处理模块来执行遗缺本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于机械学习的关键因子自动寻找方法,包括:收集一训练数据集,其中该训练数据集包括多个数据集以及与每一所述数据集相对应的一结果数值;基于该训练数据集建立一机器学习模型,其中将每一所述数据集作为该机器学习模型的输入变量,并将与每一所述数据集相对应的该结果数值作为该机器学习模型的输出变量,借此来训练该机器学习模型;以及在建立该机器学习模型之后,对该机器学习模型执行一模型解析法,以在所述数据集中取出影响该结果数值的至少一关键因子。2.如权利要求1所述的基于机械学习的关键因子自动寻找方法,其中在收集该训练数据集之后,还包括:对所述数据集进行一前处理,其中该前处理包括一遗缺值补值处理、一离散特征数字化处理以及一特征预处理处理。3.如权利要求1所述的基于机械学习的关键因子自动寻找方法,其中在对该机器学习模型执行该模型解析法之前,还包括:对该机器学习模型执行一自动超参调整处理,以优化该机器学习模型。4.如权利要求1所述的基于机械学习的关键因子自动寻找方...

【专利技术属性】
技术研发人员:顾永庭程友信詹朝岩杨其勋郭智渊
申请(专利权)人:友达光电股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1