The invention discloses an off-line model for spam classification improvement and selection method, which comprises the following steps: (1) feature selection and feature selection method using extended feature selection, structure feature vector, using feature vector model representation of the original text; (2) optimization training and test classification algorithm and its improvement the improvement for the classification of spam messages for offline classification algorithm, based on the classification algorithm and the improvement of the step (1) training set and test set for the data preparation, the use of the training set for training and testing of the off-line optimization algorithm and its improvement; (3) choose Offline classification algorithm based on the evaluation index. This article puts forward the evaluation index for the classification of spam messages, the use of the evaluation index of step (2) test results obtained by the analysis and selection of optimal classification algorithm.
【技术实现步骤摘要】
面向垃圾短信分类的离线模型改进与选择方法
本专利技术涉及一种离线文本分类算法,具体涉及一种面向垃圾短信分类的离线模型改进与选择方法,属于基于文本内容的垃圾短信识别
技术介绍
在文本分类问题中最重要的是选择和训练文本分类模型,文本分类的性能在很大程度上取决于文本分类模型。近来,研究人员基于机器学习,结合统计学、信息学等多学科理论提出各种各样的文本分类模型。朴素贝叶斯分类算法是基于统计学的机器学习方法,被广泛应用于文本分类问题。该算法基于特征独立性假设,虽然实际问题中特征之间往往存在相关性,但是该假设简化了朴素贝叶斯分类模型的计算。在基于内容的垃圾短信分类问题中,朴素贝叶斯分类算法取得了很好的预测性能。决策分类树算法也是文本分类问题的常用算法,它使用训练数据集学习一棵决策分类树,树中的每个节点对应一个特征,节点的每个分支对应基于该节点特征的一个划分,树的叶子节点对应类别标签。目前有很多决策树构造方法,例如基于信息增益的ID3算法、基于信息增益比的C4.5算法和基于基尼指数的CART算法等。决策树分类算法应用于文本分类问题得到一组规则,沿着这些规则对测试文本的对应特征进行判断,最终可以确定测试文本的类别。感知机由Schutze等人首次应用到文本分类问题中。后来,应用于文本分类问题的感知机算法经过大量的改进和优化,例如POSITIVEWINNOW、BALANCEDWINNOW、WIDROW-HOFF等等。感知机实际上是最简单的神经网络,二者的区别在于,感知机学习得到的是线性分类模型,而神经网络得到的是非线性的分类模型,但是感知机却能取得与神经网络近似的分 ...
【技术保护点】
一种面向垃圾短信分类的离线模型改进与选择方法,其特征在于,包括以下步骤:(1)特征选择与扩展,使用特征选择方法选择特征,构造特征词向量,使用特征词向量模型表示原始短信文本;(2)离线分类算法及改进的调优训练与测试,对离线分类算法作面向垃圾短信分类的改进,根据各离线分类算法及改进对步骤(1)所得的训练集和测试集进行数据准备,使用训练集对各离线算法及改进进行调优训练和测试;(3)基于评价指标的离线分类算法选择,提出面向垃圾短信分类的评价指标,使用该评价指标对步骤(2)所得到的测试结果进行分析并选择最优离线分类算法。
【技术特征摘要】
1.一种面向垃圾短信分类的离线模型改进与选择方法,其特征在于,包括以下步骤:(1)特征选择与扩展,使用特征选择方法选择特征,构造特征词向量,使用特征词向量模型表示原始短信文本;(2)离线分类算法及改进的调优训练与测试,对离线分类算法作面向垃圾短信分类的改进,根据各离线分类算法及改进对步骤(1)所得的训练集和测试集进行数据准备,使用训练集对各离线算法及改进进行调优训练和测试;(3)基于评价指标的离线分类算法选择,提出面向垃圾短信分类的评价指标,使用该评价指标对步骤(2)所得到的测试结果进行分析并选择最优离线分类算法。2.根据权利要求1所述的面向垃圾短信分类的离线模型改进与选择方法,其特征在于,所述步骤(1)的具体步骤为:(1.1)基于统计阈值和平均信息增益的频繁词特征选择,阈值是可调参数,根据阈值选择频繁词作为特征词集,根据特征词集的平均信息增益变化情况决定是否继续调整阈值;(1.2)基于N-Gram算法的双字词和组合词特征选择,基于N-Gram算法产生文字片断序列,根据步骤(1.1)得到的最优统计阈值过滤掉非频繁序列,将剩余的序列构建关联矩阵,矩阵元素为对应行列组合序列在垃圾短信文本中的出现频度,根据一定的标准筛选组合文字序列;(1.3)非修饰性实词组合成元组特征,遍历所有的垃圾短信文本寻找名词+动词\形容词组合,根据一定的标准对所得元组特征进行筛选;(1.4)基于累积信息增益的特征选择,对由以上步骤得到的词和组合词特征的合并结果,选择累积信息增益达到原始特征词信息增益总和的95%的特征词,进而构建特征词向量。3.根据权利要求1所述的面向垃圾短信分类的离线模型改进与选择方法,其特征在于,所述步骤(2)的具体步骤为:(2.1)对离线分类算法作面向垃圾短信分类的改进,包括基于特定数据格式的LR,特定数据格...
【专利技术属性】
技术研发人员:毛莺池,齐海,贾必聪,李晓芳,平萍,徐淑芳,
申请(专利权)人:河海大学,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。