The invention relates to an analysis method based on random forest algorithm for influencing factors of salary level, belonging to the field of data mining classification technology. The invention first establishes a database of resident information; secondly preprocesses the acquired resident information data; secondly, introduces random forest algorithm to construct a decision tree for random sampling of the preprocessed data set, grows multiple decision trees, and then forms a forest; calculates Gini index of the importance score of variables in random forest, and compares the average change of Gini index. Size, rank the importance of factors affecting salary level, quickly and accurately analyze the main factors affecting salary level. Compared with the prior art, the invention mainly provides a method for judging the influencing factors of salary level based on Stochastic Forest algorithm. The method is scientific and practical, and can quickly and accurately analyze the influencing factors of salary level.
【技术实现步骤摘要】
一种基于随机森林算法的薪资水平影响因素的分析方法
本专利技术涉及一种基于随机森林算法的薪资水平影响因素的分析方法,属于数据挖掘分类
技术介绍
随着社会的不断发展,社会结构越来越复杂,工作类型越来越多,如何能快速准确地对影响居民薪资水平的主要因素进行分析成为了一个需要考虑的问题。随机森林算法是以决策树作为基分类器的组合分类器,利用Bootstrap方法产生具有差异性的经过训练的样本集,同时在构建决策树时,随机的选择属性,进而对节点进行分裂。CART算法和Bagging方法的有效结合,使得通过随机特征的选择进行属性分裂,让该模型有较好的减少数据噪声和杂信号的作用,从而有较好的分类效果。
技术实现思路
本专利技术要解决的技术问题是提供一种基于随机森林算法的影响城市居民薪资水平主要因素的判断方法,用以解决上述问题。本专利技术的技术方案是:一种基于随机森林算法的薪资水平影响因素的分析方法,包括如下步骤:Step1、建立完备的居民信息数据库;Step2、对居民信息数据进行清洗、消减和转换的预先处理;Step3、引入随机森林算法,对数据集随机抽样进行决策树的构建,每个决策树最大生长而不被剪枝,长出多棵决策树,进而形成森林;Step4、求出随机森林中变量重要性评分的Gini指数;Step5、对影响薪资水平的因素重要性进行排序,快速准确地对影响薪资水平的因素进行分析;具体地,所述步骤Step1中居民信息数据库是居民信息的集合,字段包括姓名、性别、教育层次、工作年限、工作领域等居民的基本信息。具体地,所述步骤Step2是对Step1中的信息数据进行预先处理,其预先处理包 ...
【技术保护点】
1.一种基于随机森林算法的薪资水平影响因素的分析方法,其特征在于:Step1、建立完备的居民信息数据库;Step2、对居民信息数据进行清洗、消减和转换的预先处理;Step3、引入随机森林算法,对数据集随机抽样进行决策树的构建,每个决策树最大生长而不被剪枝,长出多棵决策树,进而形成森林;Step4、求出随机森林中变量重要性评分的Gini指数;Step5、对影响薪资水平的因素重要性进行排序,快速准确地对影响薪资水平的因素进行分析。
【技术特征摘要】
1.一种基于随机森林算法的薪资水平影响因素的分析方法,其特征在于:Step1、建立完备的居民信息数据库;Step2、对居民信息数据进行清洗、消减和转换的预先处理;Step3、引入随机森林算法,对数据集随机抽样进行决策树的构建,每个决策树最大生长而不被剪枝,长出多棵决策树,进而形成森林;Step4、求出随机森林中变量重要性评分的Gini指数;Step5、对影响薪资水平的因素重要性进行排序,快速准确地对影响薪资水平的因素进行分析。2.根据权利要求1所述的基于随机森林算法的薪资水平影响因素的分析方法,其特征在于:所述步骤Step1中居民信息数据库是居民信息的集合,字段包括姓名、性别、教育层次、工作年限、工作领域。3.根据权利要求1所述的基于随机森林算法的薪资水平影响因素的分析方法,其特征在于:所述步骤Step2是对Step1中的信息数据进行预先处理,其预先处理包括对居民信息数据的清洗、消减和转换。4.根据权利要求1所述的基于随机森林算法的薪资水平影响因素的分析方法,其特征在于:所述步骤Step3具体步骤为:首先,采用Bootstrap抽样方法从原始数据集中抽取N个训练子集,每个训练子集的大小约为原始数据集的三分之二;然后,为每个训练子集分别建立决策树,产生由N棵决策树组成的森林,在每棵树生长的过程中,从所有M个特征变量中随机抽取m个属性(m≤M),在m个属性中根据Gini指数最小原则选出最优属性进行内部节点分...
【专利技术属性】
技术研发人员:宋耀莲,田榆杰,武双新,王慧东,徐文林,
申请(专利权)人:昆明理工大学,
类型:发明
国别省市:云南,53
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。