一种针对不同学科题目文本分类的方法技术

技术编号：12589526 阅读：98 留言：0更新日期：2015-12-24 14:43

本发明专利技术适用于数据预处理技术领域，提供了一种针对不同学科题目文本分类的方法，所述方法包括以下步骤：A、使用卡方检验对每门学科进行选词组成该学科的特征词表；B、利用朴素贝叶斯模型将选好的特征词进行学科分类；C、利用支持向量机对朴素贝叶斯模型分类中给出的前两名概率最大的结构进行二次分类给出第一名结果。通过两次分类，使得分类平均正确率得到提高，本方法实现简单、操作简单、使用方便准确，对学科间的分类更加准确，有效的提高了邻近学科之间分类的正确率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术设及数据预处理技术，尤其设及。
技术介绍
随着网络上文本信息的爆炸式增长，对文本的处理需求越来越迫切，同时要求的精度和准确性也越来越高，尤其是在文档分类和信息检索等领域，经常需要对大批量的文档进行自动分类。目前的文本分类方法主要包含=个环节，即文本表示、特征提取和文本分类，一般来说不同的文本分类方法主要区别在于如何表示文本。在文本表示方面，主要有基于词典向量和基于深度学习两种文本分类法，前者直接将文本按照分词结果表示为向量，向量的每个位表示在文档中有无该分词或者通过某种加权方法后得到的值，而后者一般通过深度学习方法将词表示成向量，向量中每一位没有具体的意义，但整个向量可用来描述该词与其他词之间的联系；在特征提取方面，除了常用的词频、逆向文档频率等指标，还有信息增益W及卡方检验等统计学方法；在文本分类方面，常用的分类法如朴素贝叶斯、k邻近、支持向量机W及神经网络等方法都可W用于文本分类。目前的文本分类方法在处理特征明显、类别间相互差异较大的文本时有较高的正确率，但在处理有一定相似度的文本时效果会降低，W常见的初、高中九口学科的题目，即数、语、外、物、化、生、政、史、地为例，其中理科与文科之间比较容易分类，但理科或者文科内部的各科间都有一定的相似度。在基于词典向量的方法中，选择特征词时一般都会使用统计学习方法，在统计时一般只考虑了词的信息，而词与词之间的关联则被忽略；而基于深度学习的方法在把词表示成向量后，虽然向量中包含了词与词之间的关联信息，但在用词向量表示整个文本时，由于不同文本的长度变化幅度大，难...

【技术保护点】
一种针对不同学科题目文本分类的方法，其特征在于：所述方法包括以下步骤：A、使用卡方检验对每门学科进行选词组成该学科的特征词表；B、利用朴素贝叶斯模型将选好的特征词进行学科分类；C、利用支持向量机对朴素贝叶斯模型分类中给出的前两名概率最大的结果进行二次分类给出第一名结果。

【技术特征摘要】

【专利技术属性】
技术研发人员：罗登，周贤华，万享，张玉志，
申请(专利权)人：上海德唐数据科技有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人