一种文本分类方法及装置制造方法及图纸

技术编号：11683290 阅读：150 留言：0更新日期：2015-07-06 15:16

本发明专利技术提供一种文本分类方法及装置，方法包括：将用于实现文本词组分词的分词算法对Mahout贝叶斯算法中的分词算法进行替换，学习与各个行业分别相关的专业词汇存入词库，获取待分类的文本；针对待分类的文本中的每一个文本，利用Mahout贝叶斯算法中用于实现文本词组分词的分词算法遍历文本中的每句文字，并将遍历到的每句文字分别与每个词库所存储的专业词汇进行匹配；根据与遍历到的每句文字最匹配的词库，对相应的那一句文字进行分词处理；针对分词处理后的每一个文本，计算所划分的每一个词组的词频反词频统计值；根据每一个词组的词频反词频统计值，对待分类的文本进行分类操作。根据上述方案，提高了文本分类的准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机
，特别涉及一种文本分类方法及装置。
技术介绍
随着计算机技术的不断发展，文本分类技术的应用领域也越来越广。传统的文本分类技术是通过人工的方式，按照每一个文本的具体内容将其归纳为某一类别，这种方式在文本的数量极大时，文本分类效率就会降低。目前，可以使用Mahout贝叶斯算法实现对海量文本的分类，该分类过程可以包括如下两个步骤：1、自动分词；2自动分类。然而，Mahout贝叶斯算法针对文本的自动分词，只能实现单个中文文字的分词，例如，"核磁共振"，Mahout贝叶斯算法所实现的分词结果包括："核""磁""共""振"，由于对文本的分类可以通过每个文本所分词的含义实现分类，如果将每个文本所分词后的结果包括多个单个文字，无法利用单个文字的含义实现分类，因此，文本分类的准确性较低。
技术实现思路
有鉴于此，本专利技术提供一种文本分类方法及装置，以解决现有技术方案中文本分类的准确性较低的问题。本专利技术提供了一种文本分类方法，将用于实现文本词组分词的分词算法对Mahout 贝叶斯算法中的分词算法进行替换，以使Mahout贝叶斯算法实现文本词组的分词，学习与各个行业分别相关的专业词汇，并将与每个行业相关的专业词汇分别存入相应的词库中，还包括：获取待分类的文本；针对所述待分类的文本中的每一个文本，利用Mahout贝叶斯算法中所述用于实现文本词组分词的分词算法遍历文本中的每句文字，并将遍历到的每句文字分别与每个词库所存储的专业词汇进行匹配；根据与遍历到的每句文字最匹配的词库，对相应的那一句文字进行分...

【技术保护点】
一种文本分类方法，其特征在于，将用于实现文本词组分词的分词算法对Mahout贝叶斯算法中的分词算法进行替换，以使Mahout贝叶斯算法实现文本词组的分词，学习与各个行业分别相关的专业词汇，并将与每个行业相关的专业词汇分别存入相应的词库中，还包括：获取待分类的文本；针对所述待分类的文本中的每一个文本，利用Mahout贝叶斯算法中所述用于实现文本词组分词的分词算法遍历文本中的每句文字，并将遍历到的每句文字分别与每个词库所存储的专业词汇进行匹配；根据与遍历到的每句文字最匹配的词库，对相应的那一句文字进行分词处理；针对分词处理后的每一个文本，计算所划分的每一个词组的词频反词频统计值；根据每一个词组的词频反词频统计值，对所述待分类的文本进行分类操作。

【技术特征摘要】

【专利技术属性】
技术研发人员：孙镜涛，甄教明，
申请(专利权)人：浪潮集团有限公司，
类型：发明
国别省市：山东;37

全部详细技术资料下载我是这个专利的主人