当前位置: 首页 > 专利查询>河海大学专利>正文

面向垃圾短信分类的离线模型改进与选择方法技术

技术编号:16399281 阅读:59 留言:0更新日期:2017-10-17 19:40
本发明专利技术公开了一种面向垃圾短信分类的离线模型改进与选择方法,包括以下步骤:(1)特征选择与扩展,使用特征选择方法选择特征,构造特征词向量,使用特征词向量模型表示原始短信文本;(2)离线分类算法及改进的调优训练与测试,对离线分类算法作面向垃圾短信分类的改进,根据各离线分类算法及改进对步骤(1)所得的训练集和测试集进行数据准备,使用训练集对各离线算法及改进进行调优训练和测试;(3)基于评价指标的离线分类算法选择,提出面向垃圾短信分类的评价指标,使用该评价指标对步骤(2)所得到的测试结果进行分析并选择最优离线分类算法。

Off line model improvement and selection method for spam short message classification

The invention discloses an off-line model for spam classification improvement and selection method, which comprises the following steps: (1) feature selection and feature selection method using extended feature selection, structure feature vector, using feature vector model representation of the original text; (2) optimization training and test classification algorithm and its improvement the improvement for the classification of spam messages for offline classification algorithm, based on the classification algorithm and the improvement of the step (1) training set and test set for the data preparation, the use of the training set for training and testing of the off-line optimization algorithm and its improvement; (3) choose Offline classification algorithm based on the evaluation index. This article puts forward the evaluation index for the classification of spam messages, the use of the evaluation index of step (2) test results obtained by the analysis and selection of optimal classification algorithm.

【技术实现步骤摘要】
面向垃圾短信分类的离线模型改进与选择方法
本专利技术涉及一种离线文本分类算法,具体涉及一种面向垃圾短信分类的离线模型改进与选择方法,属于基于文本内容的垃圾短信识别

技术介绍
在文本分类问题中最重要的是选择和训练文本分类模型,文本分类的性能在很大程度上取决于文本分类模型。近来,研究人员基于机器学习,结合统计学、信息学等多学科理论提出各种各样的文本分类模型。朴素贝叶斯分类算法是基于统计学的机器学习方法,被广泛应用于文本分类问题。该算法基于特征独立性假设,虽然实际问题中特征之间往往存在相关性,但是该假设简化了朴素贝叶斯分类模型的计算。在基于内容的垃圾短信分类问题中,朴素贝叶斯分类算法取得了很好的预测性能。决策分类树算法也是文本分类问题的常用算法,它使用训练数据集学习一棵决策分类树,树中的每个节点对应一个特征,节点的每个分支对应基于该节点特征的一个划分,树的叶子节点对应类别标签。目前有很多决策树构造方法,例如基于信息增益的ID3算法、基于信息增益比的C4.5算法和基于基尼指数的CART算法等。决策树分类算法应用于文本分类问题得到一组规则,沿着这些规则对测试文本的对应特征进行判断,最终可以确定测试文本的类别。感知机由Schutze等人首次应用到文本分类问题中。后来,应用于文本分类问题的感知机算法经过大量的改进和优化,例如POSITIVEWINNOW、BALANCEDWINNOW、WIDROW-HOFF等等。感知机实际上是最简单的神经网络,二者的区别在于,感知机学习得到的是线性分类模型,而神经网络得到的是非线性的分类模型,但是感知机却能取得与神经网络近似的分类性能,并且训练时间复杂度较低。KNN算法基于距离度量函数选择与测试样本距离最近的k个训练样本,然后使用多数表决的方法决定测试样本的类别。无需训练,但是分类误差也较大,如果k值选择得过小,容易受到噪声数据的影响,如果k值选择得过大,这时与测试样本距离较大(不相似)的训练样本也会对预测起作用,产生错误的预测结果。在文本分类问题中,使用更多的是KNN与其他分类算法结合的分类模型,例如最近邻和聚类算法、最近邻和最大后验估计等。支持向量机分类算法被广泛应用于文本分类问题中,并且大量实验表明支持向量机是准确率很高的分类模型。近来,集成分类器越来越受到关注,其基本思想是“三个臭皮匠赛过一个诸葛亮”,多个分类器的预测结果一定比单个分类器的更加可信,学习多个弱分类器,最后综合每个弱分类器的分类结果作为最终预测结果。分类器集成规则主要有多数表决规则(MajorityVoting)、动态分类器选择(dynamicselection)、线性加权组合规则(WeightedLinearCombination)、自适应分类器组合规则(AdaptiveCombination)等。AdaBoost就是一种构建集成分类器的算法,该算法通过动态改变样本权重分布学习多个弱分类器,采用的集成规则是线性加权组合规则,根据弱分类器的分类误差率计算权值。面向垃圾短信特征信息较为稳定的静态短信数据,本专利技术对离线分类算法进行改进和选择,其中离线分类算法包括:LR、AdaBoost决策树、SVM和GBDT,提出面向垃圾短信分类的评价指标,并基于评价指标进行离线模型选择。
技术实现思路
专利技术目的:本专利技术基于垃圾短信特征信息较为稳定的静态短信数据集提出离线分类算法的改进与选择,旨在得到最优的垃圾短信分类模型。离线分类算法及改进包括基于特定数据格式的LR,特定的数据格式降低了LR模型的时空资源消耗,提高了模型的训练和测试效率;差异化损失的AdaBoost决策树,差异化损失是基于垃圾短信识别中正常短信误判代价高于垃圾短息误判的特点,由于AdaBoost在迭代产生弱分类器的过程中可以动态更新样本权重分布,所以可以通过在迭代过程中差异化的调整错分样本的权重使得上一轮中由正常短信误判为垃圾短信的样本在本轮迭代中受到较误判垃圾短信更大的关注;在处理非线性可分问题和分类性能上具有一定优势的SVM和可以自动做特征选择并且每次迭代只使用部分特征,性能很好的GBDT,并介绍它们的参数调优方法。其次,提出面向垃圾短信分类的评价指标,对离线分类算法进行参数调优训练和测试,并基于评价指标对离线模型进行选择。技术方案:一种面向垃圾短信分类的离线模型改进与选择方法,包括以下四个方面:(1)短信文本预处理,主要的预处理内容包括:分词、短信文本统一转简体表述、号码等脱敏字符串转单字符、去除停用词;(2)特征选择与扩展,根据步骤(1)所得到的预处理结果,使用特征选择方法选择特征,构造特征词向量,使用特征词向量模型表示原始短信文本;(3)离线分类算法及改进的调优训练与测试,对离线分类算法作面向垃圾短信分类的改进,根据各离线分类算法及改进对步骤(2)所得的训练集和测试集进行数据准备,使用训练集对各离线算法及改进进行调优训练和测试;(4)基于评价指标的离线分类算法选择,提出面向垃圾短信分类的评价指标,使用该评价指标对步骤(3)所得到的测试结果进行分析并选择最优离线分类算法。所述内容(1)短信文本预处理,主要的预处理内容包括:分词、短信文本统一转简体表述、号码等脱敏字符串转单字符、去除停用词,具体为:(1.1)使用Ansj对短信文本分词,保留词性标注;(1.2)短信文本统一转简体表述、号码等脱敏字符串转单字符;(1.3)根据停用词表去除停用词。所述内容(2)特征选择与扩展,根据步骤(1)所得到的预处理结果,使用特征选择方法选择特征,构造特征词向量,使用特征词向量模型表示原始短信文本,具体为:(2.1)基于统计阈值和平均信息增益的频繁词特征选择,阈值是可调参数,根据阈值选择频繁词作为特征词集,根据特征词集的平均信息增益变化情况决定是否继续调整阈值;(2.2)基于N-Gram算法的双字词和组合词特征选择,基于N-Gram算法产生文字片断序列,根据步骤(2.1)得到的最优统计阈值过滤掉非频繁序列,将剩余的序列构建关联矩阵,矩阵元素为对应行列组合序列在垃圾短信文本中的出现频度,根据一定的标准筛选组合文字序列;(2.3)非修饰性实词组合成元组特征,遍历所有的垃圾短信文本寻找名词+动词\形容词组合,根据一定的标准对所得元组特征进行筛选。(2.4)基于累积信息增益的特征选择,对由以上步骤得到的词和组合词特征的合并结果,选择累积信息增益达到原始特征词信息增益总和的95%的特征词,进而构建特征词向量。所述内容(3)离线分类算法及改进的调优训练与测试,对离线分类算法作面向垃圾短信分类的改进,根据各离线分类算法及改进对步骤(2)所得的训练集和测试集进行数据准备,使用训练集对各离线算法及改进进行调优训练和测试,具体为:(3.1)对离线分类算法作面向垃圾短信分类的改进,包括基于特定数据格式的LR,特定数据格式为:labelindex1:value1index2:value2...,使用该特定数据格式,LR在计算系数向量和实例的内积时公式为:其中,w代表系数向量(矩阵),xi表示第i个实例向量(矩阵),indexj代表实例向量xi非零元素的下标,由于采用0、1词典模型,因此非0元素为1,label为实例类别标签,通常为整数,如0和1,value是对应的特征取值,由于本发本文档来自技高网
...
面向垃圾短信分类的离线模型改进与选择方法

【技术保护点】
一种面向垃圾短信分类的离线模型改进与选择方法,其特征在于,包括以下步骤:(1)特征选择与扩展,使用特征选择方法选择特征,构造特征词向量,使用特征词向量模型表示原始短信文本;(2)离线分类算法及改进的调优训练与测试,对离线分类算法作面向垃圾短信分类的改进,根据各离线分类算法及改进对步骤(1)所得的训练集和测试集进行数据准备,使用训练集对各离线算法及改进进行调优训练和测试;(3)基于评价指标的离线分类算法选择,提出面向垃圾短信分类的评价指标,使用该评价指标对步骤(2)所得到的测试结果进行分析并选择最优离线分类算法。

【技术特征摘要】
1.一种面向垃圾短信分类的离线模型改进与选择方法,其特征在于,包括以下步骤:(1)特征选择与扩展,使用特征选择方法选择特征,构造特征词向量,使用特征词向量模型表示原始短信文本;(2)离线分类算法及改进的调优训练与测试,对离线分类算法作面向垃圾短信分类的改进,根据各离线分类算法及改进对步骤(1)所得的训练集和测试集进行数据准备,使用训练集对各离线算法及改进进行调优训练和测试;(3)基于评价指标的离线分类算法选择,提出面向垃圾短信分类的评价指标,使用该评价指标对步骤(2)所得到的测试结果进行分析并选择最优离线分类算法。2.根据权利要求1所述的面向垃圾短信分类的离线模型改进与选择方法,其特征在于,所述步骤(1)的具体步骤为:(1.1)基于统计阈值和平均信息增益的频繁词特征选择,阈值是可调参数,根据阈值选择频繁词作为特征词集,根据特征词集的平均信息增益变化情况决定是否继续调整阈值;(1.2)基于N-Gram算法的双字词和组合词特征选择,基于N-Gram算法产生文字片断序列,根据步骤(1.1)得到的最优统计阈值过滤掉非频繁序列,将剩余的序列构建关联矩阵,矩阵元素为对应行列组合序列在垃圾短信文本中的出现频度,根据一定的标准筛选组合文字序列;(1.3)非修饰性实词组合成元组特征,遍历所有的垃圾短信文本寻找名词+动词\形容词组合,根据一定的标准对所得元组特征进行筛选;(1.4)基于累积信息增益的特征选择,对由以上步骤得到的词和组合词特征的合并结果,选择累积信息增益达到原始特征词信息增益总和的95%的特征词,进而构建特征词向量。3.根据权利要求1所述的面向垃圾短信分类的离线模型改进与选择方法,其特征在于,所述步骤(2)的具体步骤为:(2.1)对离线分类算法作面向垃圾短信分类的改进,包括基于特定数据格式的LR,特定数据格...

【专利技术属性】
技术研发人员:毛莺池齐海贾必聪李晓芳平萍徐淑芳
申请(专利权)人:河海大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1