本发明专利技术提供一种文本分类方法及装置,方法包括:将用于实现文本词组分词的分词算法对Mahout贝叶斯算法中的分词算法进行替换,学习与各个行业分别相关的专业词汇存入词库,获取待分类的文本;针对待分类的文本中的每一个文本,利用Mahout贝叶斯算法中用于实现文本词组分词的分词算法遍历文本中的每句文字,并将遍历到的每句文字分别与每个词库所存储的专业词汇进行匹配;根据与遍历到的每句文字最匹配的词库,对相应的那一句文字进行分词处理;针对分词处理后的每一个文本,计算所划分的每一个词组的词频反词频统计值;根据每一个词组的词频反词频统计值,对待分类的文本进行分类操作。根据上述方案,提高了文本分类的准确率。
【技术实现步骤摘要】
本专利技术涉及计算机
,特别涉及一种文本分类方法及装置。
技术介绍
随着计算机技术的不断发展,文本分类技术的应用领域也越来越广。传统的文本 分类技术是通过人工的方式,按照每一个文本的具体内容将其归纳为某一类别,这种方式 在文本的数量极大时,文本分类效率就会降低。 目前,可以使用Mahout贝叶斯算法实现对海量文本的分类,该分类过程可以包括 如下两个步骤:1、自动分词;2自动分类。 然而,Mahout贝叶斯算法针对文本的自动分词,只能实现单个中文文字的分词,例 如,"核磁共振",Mahout贝叶斯算法所实现的分词结果包括:"核""磁""共""振",由于对 文本的分类可以通过每个文本所分词的含义实现分类,如果将每个文本所分词后的结果包 括多个单个文字,无法利用单个文字的含义实现分类,因此,文本分类的准确性较低。
技术实现思路
有鉴于此,本专利技术提供一种文本分类方法及装置,以解决现有技术方案中文本分 类的准确性较低的问题。 本专利技术提供了一种文本分类方法,将用于实现文本词组分词的分词算法对Mahout 贝叶斯算法中的分词算法进行替换,以使Mahout贝叶斯算法实现文本词组的分词,学习与 各个行业分别相关的专业词汇,并将与每个行业相关的专业词汇分别存入相应的词库中, 还包括: 获取待分类的文本; 针对所述待分类的文本中的每一个文本,利用Mahout贝叶斯算法中所述用于实 现文本词组分词的分词算法遍历文本中的每句文字,并将遍历到的每句文字分别与每个词 库所存储的专业词汇进行匹配; 根据与遍历到的每句文字最匹配的词库,对相应的那一句文字进行分词处理; 针对分词处理后的每一个文本,计算所划分的每一个词组的词频反词频统计值; 根据每一个词组的词频反词频统计值,对所述待分类的文本进行分类操作。 优选地, 进一步包括:存储每一个词组的词频反词频统计值; 进一步包括:在所述待分类的文本中发生文本删除操作或文本增加操作时,根据 文本删除操作或文本增加操作所对应的文本,对存储的每一词组的词频反词频统计值进行 更新。 优选地, 进一步包括:预先设定维度阈值; 所述对所述待分类的文本进行分类操作,包括: 确定每个文本分别对应的多维向量; 根据预先设定的所述维度阈值,和,每个文本分别对应的多维向量,获取每个文本 分别对应的第一维度向量,其中,每个文本分别对应的第一维度向量的维度均等于所述维 度阈值; 根据预先设定的所述维度阈值以及所述待分类的文本,分析得到所述待分类的文 本所对应的多类主题,其中,每类主题分别对应一个维度与所述维度阈值相等的第二维度 向量; 在所述待分类的文本中选择一个尚未被进行分类的文本,将该选择的文本所对应 的第一维度向量,分别与每一个第二维度向量计算余弦相似度,将余弦相似度的最大值所 对应的分类主题作为该选择的文本的主题,继续执行本步骤,直到所述待分类的文本均被 分类完毕。 优选地, 进一步包括:设定统计个数阈值; 所述确定每个文本分别对应的多维向量,包括:在文本中获取与所述统计个数阈 值相等个数的值最大的词频反词频统计值;将获取的值最大的词频反词频统计值作为该文 本的多维向量,其中,该文本的多维向量的维度个数与所述统计个数阈值相等;或, 所述获取每个文本分别对应的第一维度向量,包括:针对所述待分类的文本中每 个文本分别对应的多维向量进行维度拼接,以将所述待分类的文本均统一到一个多维空 间中;将统一到的该多维空间进行主成分分析降维,得到每个文本分别对应的第一维度向 量;或, 通过下式计算所述余弦相似度:【主权项】1. 一种文本分类方法,其特征在于,将用于实现文本词组分词的分词算法对Mahout贝 叶斯算法中的分词算法进行替换,以使Mahout贝叶斯算法实现文本词组的分词,学习与各 个行业分别相关的专业词汇,并将与每个行业相关的专业词汇分别存入相应的词库中,还 包括: 获取待分类的文本; 针对所述待分类的文本中的每一个文本,利用Mahout贝叶斯算法中所述用于实现文 本词组分词的分词算法遍历文本中的每句文字,并将遍历到的每句文字分别与每个词库所 存储的专业词汇进行匹配; 根据与遍历到的每句文字最匹配的词库,对相应的那一句文字进行分词处理; 针对分词处理后的每一个文本,计算所划分的每一个词组的词频反词频统计值; 根据每一个词组的词频反词频统计值,对所述待分类的文本进行分类操作。2. 根据权利要求1所述的方法,其特征在于, 进一步包括:存储每一个词组的词频反词频统计值; 进一步包括:在所述待分类的文本中发生文本删除操作或文本增加操作时,根据文本 删除操作或文本增加操作所对应的文本,对存储的每一词组的词频反词频统计值进行更 新。3. 根据权利要求1所述的方法,其特征在于, 进一步包括:预先设定维度阈值; 所述对所述待分类的文本进行分类操作,包括: 确定每个文本分别对应的多维向量; 根据预先设定的所述维度阈值,和,每个文本分别对应的多维向量,获取每个文本分别 对应的第一维度向量,其中,每个文本分别对应的第一维度向量的维度均等于所述维度阈 值; 根据预先设定的所述维度阈值以及所述待分类的文本,分析得到所述待分类的文本 所对应的多类主题,其中,每类主题分别对应一个维度与所述维度阈值相等的第二维度向 量; 在所述待分类的文本中选择一个尚未被进行分类的文本,将该选择的文本所对应的第 一维度向量,分别与每一个第二维度向量计算余弦相似度,将余弦相似度的最大值所对应 的分类主题作为该选择当前第1页1 2 本文档来自技高网...
【技术保护点】
一种文本分类方法,其特征在于,将用于实现文本词组分词的分词算法对Mahout贝叶斯算法中的分词算法进行替换,以使Mahout贝叶斯算法实现文本词组的分词,学习与各个行业分别相关的专业词汇,并将与每个行业相关的专业词汇分别存入相应的词库中,还包括:获取待分类的文本;针对所述待分类的文本中的每一个文本,利用Mahout贝叶斯算法中所述用于实现文本词组分词的分词算法遍历文本中的每句文字,并将遍历到的每句文字分别与每个词库所存储的专业词汇进行匹配;根据与遍历到的每句文字最匹配的词库,对相应的那一句文字进行分词处理;针对分词处理后的每一个文本,计算所划分的每一个词组的词频反词频统计值;根据每一个词组的词频反词频统计值,对所述待分类的文本进行分类操作。
【技术特征摘要】
【专利技术属性】
技术研发人员:孙镜涛,甄教明,
申请(专利权)人:浪潮集团有限公司,
类型:发明
国别省市:山东;37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。