The invention discloses a data mining method with a model early warning and updating mechanism, which relates to the field of cross-industry data mining standard process. The method comprises the following steps: obtaining a preliminary scheme of business objectives by business understanding and defining a failure criterion of the model according to the business objectives; and 2: sequentially carrying out data understanding and data preparation based on the preliminary scheme; Data sets suitable for modeling and analysis; 3: training multiple models to complete modeling and Optimization Based on data sets and failure criteria; 4: evaluating the established models and judging whether they meet the early warning rules after preliminary deployment; if satisfied, recalculating the model to complete the update and jump to the next step Step 5: If it is not necessary, jump directly to step 5; 5: Deploy the model to complete data mining; The invention solves the problems of low precision and high cost caused by the repeated execution of the existing data mining process due to the small number of models, and achieves the effect of improving the precision of the model and reducing the cost.
【技术实现步骤摘要】
一种具备模型预警更新机制的数据挖掘方法
本专利技术涉及跨行业数据挖掘标准流程领域,尤其是一种具备模型预警更新机制的数据挖掘方法。
技术介绍
CRISP-DM(cross-industrystandardprocessfordatamining)“跨行业数据挖掘标准流程”是NCR、OHRA、SPSS、Daimler-Benz等全球企业一起开发出来的数据挖掘方法论,相对于现存的其他数据挖掘方法论,CRISP-DM方法论更具有优越性,因而被广泛地采用。CRISP-DM方法论把数据挖掘实践定义为六个标准阶段,分别是商业理解、数据理解、数据准备、建立模型、模型评估和模型部署,以下分别加以简介:一、商业理解:商业理解是明确要达到的业务目标,并将其转化为数据挖掘主题;要从商业角度对业务部门的需求进行理解,并把业务需求的理解转化为数据挖掘的定义,拟定达成业务目标的初步方案;具体包括商业背景分析、商业成功标准的确定、形势评估、获得企业资源清单、获得企业的要求和设想、评估成本和收益、评估风险和意外、初步理解行业术语,并确定数据挖掘的目标和制定数据挖掘计划。二、数据理解:数据理解是找出可能的影响主题的因素,确定这些影响因素的数据载体、数据体现形式和数据存储位置。数据理解从数据收集开始,然后熟悉数据,具体包括以下工作内容:检测数据质量,对数据进行初步理解,简单描述数据,探测数据意义,并对数据中潜藏的信息和知识提出拟用数据加以验证的假设。三、数据准备:数据准备是将前面找到的数据进行变换、组合,建立数据挖掘工具软件要求格式和内容的宽表。数据准备阶段要从原始数据中形成作为建模分析对象的 ...
【技术保护点】
1.一种具备模型预警更新机制的数据挖掘方法,其特征在于:包括如下步骤:步骤1:商业理解获得业务目标初步方案并根据业务目标定义模型失效判定原则;步骤2:基于初步方案依次进行数据理解和数据准备获得适于建模分析的数据集;步骤3:基于数据集和失效判定原则,根据实际业务场景训练多个模型完成模型的建立和优化;步骤4:对建立好的多个模型进行模型评估和初步部署后判断其是否满足预警规则需要更新,若满足,则重新计算模型完成更新后跳至步骤5;若不需要,则直接跳至步骤5;步骤5:进行模型最终部署完成数据挖掘。
【技术特征摘要】
1.一种具备模型预警更新机制的数据挖掘方法,其特征在于:包括如下步骤:步骤1:商业理解获得业务目标初步方案并根据业务目标定义模型失效判定原则;步骤2:基于初步方案依次进行数据理解和数据准备获得适于建模分析的数据集;步骤3:基于数据集和失效判定原则,根据实际业务场景训练多个模型完成模型的建立和优化;步骤4:对建立好的多个模型进行模型评估和初步部署后判断其是否满足预警规则需要更新,若满足,则重新计算模型完成更新后跳至步骤5;若不需要,则直接跳至步骤5;步骤5:进行模型最终部署完成数据挖掘。2.根据权利要求1所述的一种具备模型预警更新机制的数据挖掘方法,其特征在于:所述步骤4包括如下步骤:步骤4.1:对建立好的多个模型进行模型评估和初步部署;步骤4.2:将测试数据输入完成评估的模型中获得模型性能的评估指标;步骤4.3:判断模型性能的评估指标是否满足预设的失效判定原则,若满足,则重新计算模型选择多个模型中的备用模型完成更新跳至步骤5;若不满足,则直接跳至步骤5。3.根...
【专利技术属性】
技术研发人员:勇萌哲,普雪飞,
申请(专利权)人:成都优易数据有限公司,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。