基于主成分分析和随机森林的高危污染源的分类预测方法技术

技术编号：16819777 阅读：85 留言：0更新日期：2017-12-16 13:27

本发明专利技术公开了一种基于主成分分析和随机森林的高危污染源的分类预测方法，包括：采集企业的污染源环境行为数据并整合形成初选指标，筛选出影响污染源违法的污染源行为指标作为高危污染源指标体系；对污染源环境行为数据进行数据清洗和数据归一化处理；找出高危污染源指标体系与污染源是否违法之间的函数关系，建立随机森林模型；进行模型训练，并在训练结束后评估随机森林模型的精度；对污染源行为指标的重要性程度进行排序；进行主成分分析获得主成分，利用主成分进行加权，计算出综合得分；根据综合得分判断各个企业发生违法行为的风险得分系数，将风险得分系数自动排名，生成TOP企业名单。本发明专利技术能降低操作复杂度、提高预测精度和结果质量。

Classification prediction method based on principal component analysis and high risk pollution sources of random forest

The invention discloses a classification prediction method, principal component analysis and risk sources based on random forests include: environmental pollution source data collection and integration of enterprise form the primary index, screening out the pollution source pollution sources. The illegal behavior index as the risk index system of pollution source; pollution source environmental behavior data cleaning and data normalization; find the function relationship between whether high-risk pollution sources and pollution source index system of law, establish a random forest model; model of training and evaluation of random forest model after training accuracy; importance of pollution source behavior index sorting; principal component analysis for principal component weighted using principal components, calculate the comprehensive score of each enterprise; to determine the risk of the occurrence of violations according to the comprehensive score The score coefficient, the risk score coefficient automatically ranking, generated TOP list of enterprises. The invention can reduce the operation complexity, improve the prediction precision and the quality of the result.

全部详细技术资料下载

【技术实现步骤摘要】
基于主成分分析和随机森林的高危污染源的分类预测方法
本专利技术涉及高危污染源预测领域，特别涉及一种基于主成分分析和随机森林的高危污染源的分类预测方法。
技术介绍
经过近年来环境信息化的发展，各级环保部门建立了大量的环境业务应用系统，但是环境信息化建设却存在严重的部门化、局部化问题、环境大数据分布散乱等现状，迫切需要一套高效、科学、清晰的管理机制。污染源数据是环境管理的核心基础，提前预测可能引起环境污染风险和产生违法行为的高危污染源，对更加有针对性地进行污染治理具有重要意义。高危污染源预测本质上是一个预测分类问题，应用于预测分类问题的模型方法非常多，包括逻辑回归模型，判别分析模型等传统统计学方法，也包括如神经网络、支持向量机、遗传算法等数据挖掘的新方法，并获得了较理想的结果。但分类问题从理论上讲是一个复杂的函数延拓问题，因此不存在一种分类模型方法适用于所有不同的情况，尽管至今仍有许多分类方法陆续出现，但主要存在的问题如下：目前在数据分析领域，可用的分类预测方法虽多，但是很少有将其应用到企业高危污染源预测领域的。随着人工智能大量分类算法的问世，其高度的非线性映射能力克服了许多传统统计分类算法存在的缺点，但是在实际应用中，很多忽视了输入变量之间存在相关性，且在实际建模时，输入变量过多，也会导致建模效率下降。通常情况下，建模者对同一分类问题在不同假设条件下，采用不同的单项分类方法建立多种分类模型，然后按照分类精度大小从多个分类方法中选择结果最好的一个，而排除其他单项分类方法，但这并不能有效提高分类精度。
技术实现思路
本专利技术要解决的技术问题在于，针对现有技术的上述...
基于主成分分析和随机森林的高危污染源的分类预测方法

【技术保护点】
一种基于主成分分析和随机森林的高危污染源的分类预测方法，其特征在于，包括如下步骤：A)从污染源各业务数据库中采集收录的企业的各种污染源环境行为数据，对所述污染源环境行为数据进行整合形成初选指标，从所述初选指标中筛选出影响污染源违法的污染源行为指标作为高危污染源指标体系，所述高危污染源指标体系构成指标数据集；B)对所述高危污染源指标体系中的污染源环境行为数据进行数据清洗和数据归一化处理；C)找出所述高危污染源指标体系与污染源是否违法之间的函数关系，建立随机森林模型；D)对所述随机森林模型进行训练，并在训练结束后通过所述随机森林模型在所述指标数据集上的分类准确率，对所述随机森林模型的精度进行评估；E)使用所述随机森林模型预测未来会发生违法行为的企业名单，并对所述污染源行为指标的重要性程度进行排序；F)对所述污染源行为指标进行主成分分析获得主成分，利用所述主成分进行加权，计算出综合得分；G)根据所述综合得分判断未来各个企业会发生违法行为的风险得分系数，并将每个所述风险得分系数按照危险系数从高到低的顺序进行自动排名，生成TOP企业名单。

【技术特征摘要】
1.一种基于主成分分析和随机森林的高危污染源的分类预测方法，其特征在于，包括如下步骤：A)从污染源各业务数据库中采集收录的企业的各种污染源环境行为数据，对所述污染源环境行为数据进行整合形成初选指标，从所述初选指标中筛选出影响污染源违法的污染源行为指标作为高危污染源指标体系，所述高危污染源指标体系构成指标数据集；B)对所述高危污染源指标体系中的污染源环境行为数据进行数据清洗和数据归一化处理；C)找出所述高危污染源指标体系与污染源是否违法之间的函数关系，建立随机森林模型；D)对所述随机森林模型进行训练，并在训练结束后通过所述随机森林模型在所述指标数据集上的分类准确率，对所述随机森林模型的精度进行评估；E)使用所述随机森林模型预测未来会发生违法行为的企业名单，并对所述污染源行为指标的重要性程度进行排序；F)对所述污染源行为指标进行主成分分析获得主成分，利用所述主成分进行加权，计算出综合得分；G)根据所述综合得分判断未来各个企业会发生违法行为的风险得分系数，并将每个所述风险得分系数按照危险系数从高到低的顺序进行自动排名，生成TOP企业名单。2.根据权利要求1所述的基于主成分分析和随机森林的高危污染源的分类预测方法，其特征在于，所述污染源行为指标包括排污废水超量倍数、排污污染物超标数、缴费超时时长、在线报警次数、行政处罚次数、现场执法次数和处罚金额。3.根据权利要求2所述的基于主成分分析和随机森林的高危污染源的分类预测方法，其特征在于，所述数据清洗为检查所述高危污染源指标体系的字段是否规范，以及是否存在脏数据、不完整数据或重复数据。4.根据权利要求3所述的基于主成分分析和随机森林的高危污染源的分类预测方法，其特征在于，所述数据归一化处理使用min-max标准化的方法，转换公式为：其中，xi为所述高危污染源指标体系中待归一化的数据，xmin和xmax分别为所述高危污染源指标体系中待归一化...

【专利技术属性】
技术研发人员：康庆，罗艳，唐文超，庞东博，王登优，
申请(专利权)人：深圳市博安达信息技术股份有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人