一种具备模型预警更新机制的数据挖掘方法技术

技术编号:18894934 阅读:40 留言:0更新日期:2018-09-08 11:10
本发明专利技术公开了一种具备模型预警更新机制的数据挖掘方法,涉及跨行业数据挖掘标准流程领域;其包括1:商业理解获得业务目标初步方案并根据业务目标定义模型失效判定原则;2:基于初步方案依次进行数据理解和数据准备获得适于建模分析的数据集;3:基于数据集和失效判定原则训练多个模型完成模型的建立和优化;4:对建立好的多个模型进行模型评估和初步部署后判断其是否满足预警规则需要更新,若满足,则重新计算模型完成更新后跳至步骤5;若不需要,则直接跳至步骤5;5:进行模型最终部署完成数据挖掘;本发明专利技术解决了现有数据挖掘流程因模型数量少导致重复执行流程带来的精度低、成本高的问题,达到了提高模型精度、降低成本的效果。

A data mining method with model warning and updating mechanism

The invention discloses a data mining method with a model early warning and updating mechanism, which relates to the field of cross-industry data mining standard process. The method comprises the following steps: obtaining a preliminary scheme of business objectives by business understanding and defining a failure criterion of the model according to the business objectives; and 2: sequentially carrying out data understanding and data preparation based on the preliminary scheme; Data sets suitable for modeling and analysis; 3: training multiple models to complete modeling and Optimization Based on data sets and failure criteria; 4: evaluating the established models and judging whether they meet the early warning rules after preliminary deployment; if satisfied, recalculating the model to complete the update and jump to the next step Step 5: If it is not necessary, jump directly to step 5; 5: Deploy the model to complete data mining; The invention solves the problems of low precision and high cost caused by the repeated execution of the existing data mining process due to the small number of models, and achieves the effect of improving the precision of the model and reducing the cost.

【技术实现步骤摘要】
一种具备模型预警更新机制的数据挖掘方法
本专利技术涉及跨行业数据挖掘标准流程领域,尤其是一种具备模型预警更新机制的数据挖掘方法。
技术介绍
CRISP-DM(cross-industrystandardprocessfordatamining)“跨行业数据挖掘标准流程”是NCR、OHRA、SPSS、Daimler-Benz等全球企业一起开发出来的数据挖掘方法论,相对于现存的其他数据挖掘方法论,CRISP-DM方法论更具有优越性,因而被广泛地采用。CRISP-DM方法论把数据挖掘实践定义为六个标准阶段,分别是商业理解、数据理解、数据准备、建立模型、模型评估和模型部署,以下分别加以简介:一、商业理解:商业理解是明确要达到的业务目标,并将其转化为数据挖掘主题;要从商业角度对业务部门的需求进行理解,并把业务需求的理解转化为数据挖掘的定义,拟定达成业务目标的初步方案;具体包括商业背景分析、商业成功标准的确定、形势评估、获得企业资源清单、获得企业的要求和设想、评估成本和收益、评估风险和意外、初步理解行业术语,并确定数据挖掘的目标和制定数据挖掘计划。二、数据理解:数据理解是找出可能的影响主题的因素,确定这些影响因素的数据载体、数据体现形式和数据存储位置。数据理解从数据收集开始,然后熟悉数据,具体包括以下工作内容:检测数据质量,对数据进行初步理解,简单描述数据,探测数据意义,并对数据中潜藏的信息和知识提出拟用数据加以验证的假设。三、数据准备:数据准备是将前面找到的数据进行变换、组合,建立数据挖掘工具软件要求格式和内容的宽表。数据准备阶段要从原始数据中形成作为建模分析对象的最终数据集;数据准备阶段的具体工作主要包括数据制表、记录处理、变量选择、数据转换、数据格式化和数据清理等,各项工作并不需要预先规定好执行顺序,而且数据准备工作还有可能多次执行。四、建立模型:建立模型是应用软件工具选择合适的建模方法,处理准备好的数据宽表,找出数据中隐藏的规律;在建立模型阶段,将选择和使用各种建模方法,并将模型参数进行优化,对同样的业务问题和数据准备,可能有多种数据挖掘技术方法可供选用,此时可优选提升度高、置信度高、简单而易于总结业务政策和建议的数据挖掘技术方法。在建模过程中,还可能会发现一些潜在的数据问题,要求回到数据准备阶段。建立模型阶段的具体工作包括:选择合适的建模技术、进行检验设计、建造模型。五、模型评估:模型评估是要从业务角度和统计角度进行模型结论的评估;要求检查建模的整个过程,以确保模型没有重大错误,并检查是否遗漏重要的业务问题。当模型评估阶段结束时,应对数据挖掘结果的部署计划达成一致。六、模型部署:模型部署又称为模型部署,建立模型本身并不是数据挖掘的目标,虽然模型使数据背后隐藏的信息和知识显现出来,但数据挖掘的根本目标是将信息和知识以某种方式组织和呈现出来,并用来改善运营和提高效率。当然,在实际的数据挖掘工作中,根据不同的企业业务需求,模型部署的具体工作可能简单到提交数据挖掘报告,也可能复杂到将模型集成到企业的核心运营系统中去。虽然在CRISP-DM流程的模型评估阶段,算法工程师通过模型训练建立并评估了一个模型,但这些工作都是在进行最终的模型部署之前,训练模型的数据都是基于历史数据,部署模型并没有经过最新数据的检验,现实的实际业务场景可能出现历史数据与最新数据存在较大差异的情况,这样就会导致基于历史数据构建出来的模型失效,导致模型精度较低;另一方面实施一个数据挖掘类项目往往需要执行几轮CRISP-DM流程,每轮流程从始至终都需要包括标准步骤,实施方执行第一轮流程不满足实际的业务需求,例如:由于模型精度较低,造成预测结果偏离实际情况较大,实施方进而定义问题,开始执行下一轮CRISP-DM流程;或者模型选择不符合需要从头执行下一轮CRISP-DM流程;随着CRISP-DM流程的执行次数的增加,实施成本也随之增高,大大增加了项目实施失败的概率。因此需要一种数据挖掘流程可以实现提高精度且降低成本。
技术实现思路
本专利技术的目的在于:本专利技术提供了一种具备模型预警更新机制的数据挖掘方法,解决了现有数据挖掘流程因模型数量少和缺乏实际数据检验导致重复执行流程带来的精度低、成本高的问题。本专利技术采用的技术方案如下:一种具备模型预警更新机制的数据挖掘方法,包括如下步骤:步骤1:商业理解获得业务目标初步方案并根据业务目标定义模型失效判定原则;步骤2:基于初步方案依次进行数据理解和数据准备获得适于建模分析的数据集;步骤3:基于数据集和失效判定原则,根据实际业务场景训练多个模型完成模型的建立和优化;步骤4:对建立好的多个模型进行模型评估和初步部署后判断其是否满足预警规则需要更新,若满足,则重新计算模型完成更新后跳至步骤5;若不需要,则直接跳至步骤5;步骤5:进行模型最终部署完成数据挖掘。优选地,所述步骤4包括如下步骤:步骤4.1:对建立好的多个模型进行模型评估和初步部署;步骤4.2:将测试数据输入完成评估的模型中获得模型性能的评估指标;步骤4.3:判断模型性能的评估指标是否满足预设的失效判定原则,若满足,则重新计算模型选择多个模型中的备用模型完成更新跳至步骤5;若不满足,则直接跳至步骤5。优选地,所述步骤4.2包括如下步骤:步骤4.2.1:选择测试数据中对应的输入数据作为标签字段进行测试后根据公式1计算正确分类率accuracy,公式1如下:其中,ncorrect被正确分类的样本数,ntotal总样本数;步骤4.2.2:根据公式2计算针对标签字段特定取值的准确率和召回率,则正例的正确率Precision计算如公式2所示:召回率Recall计算如公式3所示:其中,TP为真正例即实际为正例,预测为正例,FP是假正例即实际为负例,预测为正例;FN表示实际为正例,被模型预测为负例的样本;步骤4.2.3:基于步骤4.2.2计算真正例率TPR如公式4所示、假正例率FPR如公式5所示和真负例率TNR如公式6所示后画ROC曲线图求得AUC值,计算公式如下:其中,FN表示实际为正例,被模型预测为负例的样本;TN表示实际为负例,被模型预测为负例的样本,AUC值为ROC曲线面积,ROC曲线是受试者特征曲线。综上所述,由于采用了上述技术方案,本专利技术的有益效果是:1.本专利技术通过部署多个模型的同时增加模型失效判定原则实现模型预警更新,实践过程中模型选择多,避免了现有直接重新训练带来重复执行标准流程导致成本高的缺点,根据实际情况及时判断模型并更新,增强模型在不同数据集上的鲁棒性,提高泛化性能,从而提高模型精度;解决了现有数据挖掘流程因模型数量少和缺乏实际数据检验导致重复执行流程带来的精度低、成本高的问题,达到了提高模型精度、降低成本的效果;2.本专利技术在建立模型和评估模型阶段,针对每个实际业务场景训练两个以上的模型,一个模型为实际上线的模型,其它模型为备用模型,上线模型如果没有达到预计效果,则根据用户事先定义的模型失效的判定规则,软件系统对模型失效的情况进行邮件通知,并自动重新计算模型,并按用户定制的策略从备选模型中选择模型进行更新,通过部署不同的模型,可以增强模型在不同数据集上的鲁棒性,提高泛化性能,从而提高模型精度;3.由于增设备用模型和模型更新,提升精度的同时可以避免重复本文档来自技高网
...

【技术保护点】
1.一种具备模型预警更新机制的数据挖掘方法,其特征在于:包括如下步骤:步骤1:商业理解获得业务目标初步方案并根据业务目标定义模型失效判定原则;步骤2:基于初步方案依次进行数据理解和数据准备获得适于建模分析的数据集;步骤3:基于数据集和失效判定原则,根据实际业务场景训练多个模型完成模型的建立和优化;步骤4:对建立好的多个模型进行模型评估和初步部署后判断其是否满足预警规则需要更新,若满足,则重新计算模型完成更新后跳至步骤5;若不需要,则直接跳至步骤5;步骤5:进行模型最终部署完成数据挖掘。

【技术特征摘要】
1.一种具备模型预警更新机制的数据挖掘方法,其特征在于:包括如下步骤:步骤1:商业理解获得业务目标初步方案并根据业务目标定义模型失效判定原则;步骤2:基于初步方案依次进行数据理解和数据准备获得适于建模分析的数据集;步骤3:基于数据集和失效判定原则,根据实际业务场景训练多个模型完成模型的建立和优化;步骤4:对建立好的多个模型进行模型评估和初步部署后判断其是否满足预警规则需要更新,若满足,则重新计算模型完成更新后跳至步骤5;若不需要,则直接跳至步骤5;步骤5:进行模型最终部署完成数据挖掘。2.根据权利要求1所述的一种具备模型预警更新机制的数据挖掘方法,其特征在于:所述步骤4包括如下步骤:步骤4.1:对建立好的多个模型进行模型评估和初步部署;步骤4.2:将测试数据输入完成评估的模型中获得模型性能的评估指标;步骤4.3:判断模型性能的评估指标是否满足预设的失效判定原则,若满足,则重新计算模型选择多个模型中的备用模型完成更新跳至步骤5;若不满足,则直接跳至步骤5。3.根...

【专利技术属性】
技术研发人员:勇萌哲普雪飞
申请(专利权)人:成都优易数据有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1