一种基于和声搜索的混合特征选择方法技术

技术编号:15724803 阅读:98 留言:0更新日期:2017-06-29 11:13
本发明专利技术公开了一种基于和声搜索的混合特征选择方法,将过滤器与和声搜索的优点结合起来,形成一个混合系统。该系统能从大量用户原始特征集中选择最优特征子集,并将该特征子集用于社交网络中垃圾用户的分类和检测。目前,分类器的性能好坏取决于特征子集的选取,而特征选择问题可以被看作是优化问题,其目标是选择最佳的或接近最佳的特征子集。提出一种方法,利用滤波方法与和声算法的计算简单、迅速的优点实现最佳特征子集选取的目的。克服了过滤方法忽略特征之间依赖关系和包装器计算成本较高的缺点。

【技术实现步骤摘要】
一种基于和声搜索的混合特征选择方法
本专利技术涉及社交网络数据挖掘和安全领域,特别是涉及基于和声搜索的混合特征选择方法。
技术介绍
随着互联网技术的不断发展,社会化网络正引领着互联网产业新的增长势,在线社交网络已经成为现代人们生活必不可少的交往方式之一。国外的Twitter、Facebook、国内的新浪微博、腾讯微博等平台的用户增长率接连翻倍。由于社交网络的运行模式,用户通过社交网络每一天都会产生和获得大量信息。理论上来说,在社交网络中可利用的特征是无穷无尽的,同时并不是所有的用户特征都至关重要,只有小部分的特征才是决定性因素,所以如何解决用户特征的选取问题,是准确地从社交网络数据中挖掘知识的关键。特征选择在数据挖据、机器学习和模式识别等多个领域都有应用,其主要目的是从一个问题域中发现一个最小的特征子集,这个最小的特征子集保持一个适当的高精度,并且能代表原始数据。在现实问题中,特征选择通常要丢弃嘈杂、不相关或有误导性的特征,通过消除这些特征,可以大大提高分类问题(如文本和Web内容分类等)的准确率以及效率。目前,特征选择大体可以分为两类:过滤器(Filter)和包装器(wrappers)。一方面,基于过滤器的方法直接应用到数据集,一般只考虑数据的内在属性并给予相关的分数。得分高的特征作为分类算法的输入。该方法的主要缺点在于忽略了特征之间依赖关系,这导致了一些特征的重复性。另一方面,基于包装器的方法一般使用一种学习算法来评估特征子集,同时,使用一种学习算法的性能指标,以指导特征子集搜索。该方法考虑到了特征之间依赖关系,但由于它是计算密集型,所以具有较高的计算成本。针对上述两种方法的缺点,对于社交网络用户特征这种巨大的数据集,单纯使用某一种方法并不能够达到很好效果。
技术实现思路
为了克服上述现有技术存在的缺陷,本专利技术的目的是提供一种基于和声搜索的混合特征选择方法。该方法将过滤器和和声搜索结合起来,形成一种可以进行特征选择的混合系统。和声搜索是一种元启发式算法,它模仿了音乐播放器的即兴演奏过程,具有较低的复杂度。和声搜索已经成功地运用到了各种各样的优化问题上,跟传统的优化方式比也有自己的计算简单,容易理解的优势。通过结合过滤器大大减小了和声搜索的搜索空间。为了实现上述目的本专利技术采用如下技术方案:一种基于和声搜索的混合特征选择方法,包括以下步骤:S1:对社交网络用户原始特征集数据进行归一化和离散处理。S2:将步骤S1处理后的数据分别输入到若干个过滤器中,每个过滤器处理得到各自的特征子集;通过多数投票算法从若干个特征子集中选出数量较小的较优特征子集。S3:初始化和声记忆(HarmonyMemory)的音乐家(Musicians)数目,最大迭代次数,和声记忆取值概率(HarmonyMemoryConsideringRate)和微调概率(PitchadjustmentRate);将S2中得到的较优特征子集存储在和声记忆中,作为随机和声。S4:每个音乐家从原始特征集中随机选择一个音符,形成新的和声;通过和声的依赖程度(DependencyDegree)判定和声好坏,如果形成的新的和声比在和声记忆中最坏的和声好,新的和声则存入和声记忆中,而所述最坏的和声则被移除;否则丢掉该新的和声。S5:按照步骤S4迭代直到达到最大迭代次数,输出此时的新的和声,作为最优和声。步骤S1中所述归一化处理让每个特征具有大概相同的规模,每个特征的规模均落在[0,1]中,具体方法为:其中minf和maxf分别代表特征的最小值和最大值,f为特征原有值,f'表示归一化处理后取值范围落在[0,1]的特征值。步骤S2所述过滤器包括信息增益、Relief算法和卡方统计三种过滤器。所述信息增益(InformationGain)是一种基于排序的特征选择方法,具有较高信息增益的特征会得到更好的排名。其计算方法如下:特征A的信息增益可以表示为:Gain(A)=H(S)-H(S|A)其中,H(S)为将一个元组分类到S的熵,H(S|A)为一个元组在有特征值A的情况下分类到S的熵;S表示分类系统中的类别,一共有C1,C2,C3,…Cm类。H(S)由如下公式计算:其中,p(Cx)为Cx出现的概率,m表示分类系统中类别的个数;H(S|A)的计算公式为:H(S|A)=P(a)H(S|a)+P(a')H(S|a')其中P(a)表示特征A出现的概率,P(a')表示特征A不出现的概率。H(S|a)表示有特征值A的的情况下分类到S的条件熵,公式如下:H(S|a')表示没有特征值A的情况下分类到S的条件熵,公式如下:所述Relief算法是一种特征权重算法,根据各个特征和类别的相关性赋予特征不同的权重,权重小于阈值的特征将被移除;所述特征和类别的相关性是根据样本之间的距离确定的。特征A的权重可由以下公式计算:Diff(A,R,H)表示样本R,H的特征值A之间差异,diff(A,R,M)表示样本R,M的特征值A之间差异,H和M分别为样本R的同类样本中的最近邻样本和不同类样本中的最近邻样本,m为抽样次数。特征的权重越大,表示该特征的分类能力越强,反之,表示该特征分类能力越弱。所述卡方统(Chi-SquareStatistics)是一个基于熵的方法。每一个特征是由它的卡方值(Chi-SquareValue)来评价的。卡方值的计算方法为:其中n为间隔的数目,c为类别的数目,Sij表示样本在ith间隔和jth类别的数目,Fij为Sij的预期频率,其计算公式为:Fij=Ki*Cj/N其中Cj表示样本在jth类别的数目,N为总的样本数目,Ki表示样本在ith间隔的数目。步骤S4中所述和声的依赖程度通过如下公式计算:其中,U为一个不为空的有限的对象集,X为U的一个子集;P、Q均为A的子集,A是不为空的有限的特征集;PX是低近似,表示的是一定能够分类在X;POSP(Q)表示由P判定,并且肯定属于Q的不可分别关系决定的对象所组成的最大集合;γP(Q)表示Q依赖P的程度。本专利技术将过滤器和和声搜索结合起来,形成一个混合系统进行特征选择。由于和声搜索自身的计算复杂度较低,并且通过结合过滤器大大减小了和声搜索的搜索空间,这样在一定程度上克服了过滤方法忽略特征之间依赖关系和包装器计算成本较高的缺点。附图说明本专利技术的上述和/或附加的方面和优点,结合下面附图对实施例的描述中将变得明显和容易理解,其中:图1是本专利技术的整体流程结构示意图;图2是本专利技术的信息增益的特征排序示意图;图3是本专利技术的Relief算法的流程图。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的含义。下面通过参考附图描述的实施例是示例性的,仅用于解释本专利技术,而不能理解为对本专利技术的限制。图1是本专利技术的整体流程结构示意图。如图所示,本专利技术提供一种基于和声搜索的混合特征选择方法。首先,对社交网络用户原始特征集进行处理;然后利用信息增益、Relief算法和卡方统计三种过滤器结合结合多数投票算法选出特征子集,初始化和声记忆中。最后利用和声搜索和粗糙依赖函数选出最优特征子集。具体步骤如下:S1:将数据集的所有特征进行归一化、离散化处理。S2:处理好的数据作为几个过滤器的输入,各自得到最佳的特征本文档来自技高网
...
一种基于和声搜索的混合特征选择方法

【技术保护点】
一种基于和声搜索的混合特征选择方法,包括以下步骤:S1:对社交网络用户原始特征集数据进行归一化和离散处理;S2:将步骤S1处理后的数据分别输入到若干个过滤器中,每个过滤器处理得到各自的特征子集;通过多数投票算法从若干个特征子集中选出较优特征子集;S3:初始化和声记忆的音乐家数目,最大迭代次数,和声记忆取值概率和微调概率;将S2中得到的较优特征子集存储在和声记忆中,作为随机和声;S4:每个音乐家从原始特征集中随机选择一个音符,形成新的和声;通过和声的依赖程度判定和声好坏,如果形成的新的和声比在和声记忆中最坏的和声好,新的和声则存入和声记忆中,而所述最坏的和声则被移除;否则丢掉该新的和声;S5:按照步骤S4迭代直到达到最大迭代次数,输出此时的新的和声,作为最优和声。

【技术特征摘要】
1.一种基于和声搜索的混合特征选择方法,包括以下步骤:S1:对社交网络用户原始特征集数据进行归一化和离散处理;S2:将步骤S1处理后的数据分别输入到若干个过滤器中,每个过滤器处理得到各自的特征子集;通过多数投票算法从若干个特征子集中选出较优特征子集;S3:初始化和声记忆的音乐家数目,最大迭代次数,和声记忆取值概率和微调概率;将S2中得到的较优特征子集存储在和声记忆中,作为随机和声;S4:每个音乐家从原始特征集中随机选择一个音符,形成新的和声;通过和声的依赖程度判定和声好坏,如果形成的新的和声比在和声记忆中最坏的和声好,新的和声则存入和声记忆中,而所述最坏的和声则被移除;否则丢掉该新的和声;S5:按照步骤S4迭代直到达到最大迭代次数,输出此时的新的和声,作为最优和声。2.根据权利要求1所述一种基于和声搜索的混合特征选择方法,其特征在于:步骤S1中所述归一化处理让每个特征具有大概相同的规模,每个特征的规模均落在[0,1]中,具体方法为:其中minf和maxf分别代表特征的最小值和最大值,f为特征原有值,f'表示归一化处理后取值范围落在[0,1]的特征值。3.根据权利要求1所述一种基于和声搜索的混合特征选择方法,其特征在于:步骤S2所述过滤器包括信息增益、Relief算法和卡方统计。4.根据权利要求3所述一种基于和声搜索的混合特征选择方法,其特征在于:所述信息增益的计算方法如下:特征A的信息增益可以表示为:Gain(A)=H(S)-H(S|A)其中,H(S)为将一个元组分类到S的熵,H(S|A)为一个元组在有特征值A的情况下分类到S的熵;S表示分类系统中的类别,一共有C1,C2,C3,…Cm类;H(S)由如下公式计算:其中,p(Cx)为Cx出现的概率,m表示分类系统中类别的个数;H(S|A)的计算公式为:H(S|A)=P(a)H(S|a)+P(a')H(S|a')其中P(a)表示特征A出现的概率,P(a')表示特征A不出现的概率。H(S|a)表示有特征值A的的情况下分类到...

【专利技术属性】
技术研发人员:徐光侠张钰柔刘榕刘俊解绍词代皓唐志京郑爽蒋鹏
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1