一种基于和声搜索的混合特征选择方法技术

技术编号：15724803 阅读：113 留言：0更新日期：2017-06-29 11:13

本发明专利技术公开了一种基于和声搜索的混合特征选择方法，将过滤器与和声搜索的优点结合起来，形成一个混合系统。该系统能从大量用户原始特征集中选择最优特征子集，并将该特征子集用于社交网络中垃圾用户的分类和检测。目前，分类器的性能好坏取决于特征子集的选取,而特征选择问题可以被看作是优化问题，其目标是选择最佳的或接近最佳的特征子集。提出一种方法，利用滤波方法与和声算法的计算简单、迅速的优点实现最佳特征子集选取的目的。克服了过滤方法忽略特征之间依赖关系和包装器计算成本较高的缺点。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于和声搜索的混合特征选择方法
本专利技术涉及社交网络数据挖掘和安全领域，特别是涉及基于和声搜索的混合特征选择方法。
技术介绍
随着互联网技术的不断发展,社会化网络正引领着互联网产业新的增长势,在线社交网络已经成为现代人们生活必不可少的交往方式之一。国外的Twitter、Facebook、国内的新浪微博、腾讯微博等平台的用户增长率接连翻倍。由于社交网络的运行模式，用户通过社交网络每一天都会产生和获得大量信息。理论上来说，在社交网络中可利用的特征是无穷无尽的，同时并不是所有的用户特征都至关重要，只有小部分的特征才是决定性因素，所以如何解决用户特征的选取问题，是准确地从社交网络数据中挖掘知识的关键。特征选择在数据挖据、机器学习和模式识别等多个领域都有应用，其主要目的是从一个问题域中发现一个最小的特征子集，这个最小的特征子集保持一个适当的高精度，并且能代表原始数据。在现实问题中，特征选择通常要丢弃嘈杂、不相关或有误导性的特征，通过消除这些特征，可以大大提高分类问题(如文本和Web内容分类等)的准确率以及效率。目前，特征选择大体可以分为两类：过滤器(Filter)和包装器(wrappers)。一方面，基于过滤器的方法直接应用到数据集，一般只考虑数据的内在属性并给予相关的分数。得分高的特征作为分类算法的输入。该方法的主要缺点在于忽略了特征之间依赖关系，这导致了一些特征的重复性。另一方面，基于包装器的方法一般使用一种学习算法来评估特征子集，同时，使用一种学习算法的性能指标，以指导特征子集搜索。该方法考虑到了特征之间依赖关系，但由于它是计算密集型，所以具有较高的计算...
一种基于和声搜索的混合特征选择方法

【技术保护点】
一种基于和声搜索的混合特征选择方法，包括以下步骤：S1：对社交网络用户原始特征集数据进行归一化和离散处理；S2：将步骤S1处理后的数据分别输入到若干个过滤器中，每个过滤器处理得到各自的特征子集；通过多数投票算法从若干个特征子集中选出较优特征子集；S3：初始化和声记忆的音乐家数目，最大迭代次数，和声记忆取值概率和微调概率；将S2中得到的较优特征子集存储在和声记忆中，作为随机和声；S4：每个音乐家从原始特征集中随机选择一个音符，形成新的和声；通过和声的依赖程度判定和声好坏，如果形成的新的和声比在和声记忆中最坏的和声好，新的和声则存入和声记忆中，而所述最坏的和声则被移除；否则丢掉该新的和声；S5：按照步骤S4迭代直到达到最大迭代次数，输出此时的新的和声，作为最优和声。

【技术特征摘要】
1.一种基于和声搜索的混合特征选择方法，包括以下步骤：S1：对社交网络用户原始特征集数据进行归一化和离散处理；S2：将步骤S1处理后的数据分别输入到若干个过滤器中，每个过滤器处理得到各自的特征子集；通过多数投票算法从若干个特征子集中选出较优特征子集；S3：初始化和声记忆的音乐家数目，最大迭代次数，和声记忆取值概率和微调概率；将S2中得到的较优特征子集存储在和声记忆中，作为随机和声；S4：每个音乐家从原始特征集中随机选择一个音符，形成新的和声；通过和声的依赖程度判定和声好坏，如果形成的新的和声比在和声记忆中最坏的和声好，新的和声则存入和声记忆中，而所述最坏的和声则被移除；否则丢掉该新的和声；S5：按照步骤S4迭代直到达到最大迭代次数，输出此时的新的和声，作为最优和声。2.根据权利要求1所述一种基于和声搜索的混合特征选择方法，其特征在于：步骤S1中所述归一化处理让每个特征具有大概相同的规模,每个特征的规模均落在[0,1]中，具体方法为：其中minf和maxf分别代表特征的最小值和最大值，f为特征原有值，f'表示归一化处理后取值范围落在[0,1]的特征值。3.根据权利要求1所述一种基于和声搜索的混合特征选择方法，其特征在于：步骤S2所述过滤器包括信息增益、Relief算法和卡方统计。4.根据权利要求3所述一种基于和声搜索的混合特征选择方法，其特征在于：所述信息增益的计算方法如下：特征A的信息增益可以表示为：Gain(A)＝H(S)-H(S|A)其中,H(S)为将一个元组分类到S的熵，H(S|A)为一个元组在有特征值A的情况下分类到S的熵；S表示分类系统中的类别，一共有C1,C2,C3,…Cm类；H(S)由如下公式计算：其中，p(Cx)为Cx出现的概率，m表示分类系统中类别的个数；H(S|A)的计算公式为：H(S|A)＝P(a)H(S|a)+P(a')H(S|a')其中P(a)表示特征A出现的概率，P(a')表示特征A不出现的概率。H(S|a)表示有特征值A的的情况下分类到...

【专利技术属性】
技术研发人员：徐光侠，张钰柔，刘榕，刘俊，解绍词，代皓，唐志京，郑爽，蒋鹏，
申请(专利权)人：重庆邮电大学，
类型：发明
国别省市：重庆,50

全部详细技术资料下载我是这个专利的主人