Based on the scoring mechanism forest optimization algorithm of feature selection methods is a new evolutionary algorithm, selection strategy, individual characteristics of the point scoring strategy feature set starting from the candidate set, enough has higher fitness value of the solution has a higher probability of being chosen. So that each choice is not completely random, but with a certain tendency. Thus, the probability of falling into the local optimal solution can be reduced, and the approximate optimal feature subset can be searched quickly and efficiently. It can be used in social network classification, Web text, data mining, image processing and other high-dimensional data fields, and can play a very good role in reducing dimensionality.
【技术实现步骤摘要】
基于评分机制的森林优化算法的特征选择方法
本专利技术属于数据挖掘领域,具体涉及的是一种利用评分机制的森林优化算法对高维数据集进行有效的特征选择。
技术介绍
随着互联网的迅速发展,把人类迅速的带入了信息化时代,尤其是网络应用的发展,社交网络把人类紧密的联系在一起,近年来社交网络(如:Facebook、腾讯、微博)的迅猛发展,对社交网络数据进行挖掘分析的学者也越来越多,社交网络是个聚宝盆,富含着大量有用的信息。比如我们可以通过提取节点的兴趣,爱好,关系或其他可能的特征,可以得出对用户的价值观、兴趣、活动范围等重要信息。我们也可以从这些属性中去判断,该社交网络属于那种类型。推荐给用户。然而社交网络有着大量数据和信息产生并日复一日的积累下来,而且很多的信息存在着冗余,需要处理的数据的维度越来越大,所以我们要提取出最有价值的信息,但是又不会影响其社交网络本身的特性,社交网络存在着大量的属性信息。这也被称为维度灾难,即解空间大小随数据维度的增长呈指数级增长的问题。数据的维度主要包含两个方面,数据的实例个数及数据的特征个数。为了解决特征维度过高的问题,特征选择技术被提出来。所以特征选择对社交网络分类的研究具有重大意义。Feizi-Derakhshi等在2014年提出了森林优化算法。该算法和遗传算法、量子群、布谷鸟算法都属于空间搜索算法,都是寻找近似最优解问题。它是模拟大自然中森林的形成过程,在大自然中,森林是由鸟儿,蜜蜂和风携带着种子,播种而产生的。经过大量的实验发现:森林优化算法选择的子集存在过多的随机性,会引起收敛速度慢并使得结果陷入局部最优。该算法并没有从特征选择 ...
【技术保护点】
基于评分机制的森林优化算法的特征选择方法,其特征在于,包括以下步骤:步骤1)初始化树、森林,森林是由许多树构成的;步骤2)局部播种,在步骤1)得到的初始化的森林,在给森林中的每棵树添加邻居树;步骤3)种群限制,在步骤2),得到新增树后的森林,根据适应度值排序;并且对一部分树进行淘汰处理;把排序靠后的树提取出来,采用候选集择优策略选择出潜在最优特征子集的树,结果放入候选集中;步骤4)全局播种,在步骤3),得到一批潜在最优子集的树,在给他们树添加邻居树,加入森林中去;步骤5)更新最优树,在这个阶段,把森林中适应度值最高的树选为是最好树并记录下,再执行步骤2),直到满足停止条件。
【技术特征摘要】
1.基于评分机制的森林优化算法的特征选择方法,其特征在于,包括以下步骤:步骤1)初始化树、森林,森林是由许多树构成的;步骤2)局部播种,在步骤1)得到的初始化的森林,在给森林中的每棵树添加邻居树;步骤3)种群限制,在步骤2),得到新增树后的森林,根据适应度值排序;并且对一部分树进行淘汰处理;把排序靠后的树提取出来,采用候选集择优策略选择出潜在最优特征子集的树,结果放入候选集中;步骤4)全局播种,在步骤3),得到一批潜在最优子集的树,在给他们树添加邻居树,加入森林中去;步骤5)更新最优树,在这个阶段,把森林中适应度值最高的树选为是最好树并记录下,再执行步骤2),直到满足停止条件。2.如权利要求1所述的方法,其特征在于,在步骤1)中,树的结构类似于数组的结构,如果一个数据集有n个特征,那么每棵树表示为n个特征再加上一个变量“age”,每棵树的大小是1*(n+1),其中“age”特征描述了树的年龄,随机生成20棵树规模的森林,每棵树的每个特征随机初始化为“0”或“1”,树中的每一个树“1”表示该特征被选择,“0”表示特征被淘汰、排除,每棵树的“年龄”被赋值“0”。3.如权利要求1所述的方法,其特征在于,在步骤2)中,这个阶段为每棵树增加一些邻居“age”为0的树;森林中的每棵树“age”为0,随机选择一些变量,“LSC”参数确定所选变量的数量,根据特征评分模型去判断,每次随机选择的特征对整个特征集合的分类的影响程度的评分;评分低的直接放弃这次选择,再次重新随机选择;然后把所选变量的值从0到1或者相反;这个过程模拟局部搜索在空间;在执行局部搜索阶段之后,所有树的“age”除了新添加的树外,age属性加1;其中评分模型定义为:Score(f,s)=Relevance(f,c)-Redundancy(f,s)(1)Relevance(f,c)是特征f和类属性C的相关度,其值越高代表特征f对于分类的帮助越大,反之则越低;定义如下:Relevance(f,c)=I(f,c)(2)Redundancy(f,s)是特征f和特征集合s中所有特征的互信息的平均值,其值越高,f对于特征集合s的评分就越低,反之则越高;Ns表示特征数量;定义如下:
【专利技术属性】
技术研发人员:马廷淮,贾冬冬,田伟,金子龙,
申请(专利权)人:南京信息工程大学,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。