一种文本分类方法及装置制造方法及图纸

技术编号：25637217 阅读：20 留言：0更新日期：2020-09-15 21:29

本发明专利技术公开一种文本分类方法及装置，该方法至少包括如下步骤：基于预先设置的M种分类类型，分别采用N种分类算法计算待分类文本采用每一种分类类型分类时的评分tn，M≥2，N≥2，n＝M*N；将属于同一种分类类型的N个评分t

全部详细技术资料下载

【技术实现步骤摘要】
一种文本分类方法及装置
本专利技术涉及计算机数据处理领域，特别涉及一种文本分类方法及装置。
技术介绍
文本分类，就在给定的分类体系下，根据文本的内容自动地确定文本关联的类别。文本分类是一个映射的过程，它将未标明类别的文本映射到已有的类别中，该映射可以是一一映射，也可以是一对多的映射，因为通常一篇文本可以同多个类别相关联。然而，现有技术中至少存在如下问题：现有的文本分类方法存在分类不准确以及效率不高等问题。如已授权中国专利CN102073704A中公开的文本分类处理方法：其通过网络侧设备提供的分类参数，在用户设备上通过预先设置的模型进行分类，获取多个分类特征与分类参数的相关程度，并将文本存储在相关程度最高的文本信息主体中，实际上为根据文本特征与分类参数相关性进行分类的技术方案，其采用的算法较为单一，分类过程可能存在片面性较大的问题，最终获取的分类结果准确度不够高。
技术实现思路
为解决上述技术问题，本专利技术提供了一种文本分类方法及装置，其基于预先设定的分类类型，通过多种算法相融合的方法获得一种准确度较高的文本分类结果。本专利技术提供的技术方案如下：第一方面，提供一种文本分类方法，所述方法至少包括如下步骤：基于预先设置的M种分类类型，分别采用N种分类算法计算待分类文本采用每一种分类类型分类时的评分tn，M≥2，N≥2，n＝M*N；将属于同一种分类类型的N个评分tn进行加权融合，获得每一种分类类型的最终评分Tm；对所述M种分类类型的最终评分Tm进行排序，...

【技术保护点】
1.一种文本分类方法，其特征在于，所述方法至少包括如下步骤：/n基于预先设置的M种分类类型，分别采用N种分类算法计算待分类文本采用每一种分类类型分类时的评分t

【技术特征摘要】
1.一种文本分类方法，其特征在于，所述方法至少包括如下步骤：
基于预先设置的M种分类类型，分别采用N种分类算法计算待分类文本采用每一种分类类型分类时的评分tn，M≥2，N≥2，n＝M*N；
将属于同一种分类类型的N个评分tn进行加权融合，获得每一种分类类型的最终评分Tm；
对所述M种分类类型的最终评分Tm进行排序，并选出最终评分Tm最高的类型作为所述待分类文本的最终分类类型。

2.根据权利要求1所述的方法，其特征在于，所述分别采用N种分类算法计算待分类文本采用每一种分类类型分类时的评分tn之前，还包括：获取训练文本集；
所述基于预先设置的M种分类类型，分别采用N种分类算法计算待分类文本采用每一种分类类型分类时的评分tn，包括：
分别计算预先获取的训练文本集中每一个分词的每一类型的条件概率；
获取待分类文本的特征向量；
利用所述训练文本集的条件概率与待分类文本的特征向量分别计算所述待分类文本采用每一种分类类型分类时的评分tn。

3.根据权利要求2所述的方法，其特征在于，获取训练文本集具体包括如下子步骤：
将样本集中的每一文本样本进行分词获得第一分词结果，并对每一文本样本进行预分类；
基于所述第一分词结果生成样本集词列表；
将每一文本样本的第一分词结果与所述样本集词列表对比，并以所述样本集词列表中是否存在所述第一分词结果中的分词进行分类，将所述样本集表示成向量形式，并作为训练文本集。

4.根据权利要求3所述的方法，其特征在于，所述获取待分类文本的特征向量，包括：
对所述待分类文本进行分词获得第二分词结果；
将所述第二分词结果与所述样本集词列表对比，并以所述样本集词列表中是否存在所述第二分词结果中的分词进行分类，获得所述待分类文本的特征向量。

5.根据权利要求4所述的方法，其特征在于，对所述条件概率的值进行策略增加，以使每一个分词的每一类型的条件概率均大于0，且所述训练文本集中每一个分词针对同一类型的增加后的条件概率和为1。

6.根据权利要求1～5任意一项所述的方法，其特征在于，所述分类算法至少包括贝叶斯算法及TFIDF算...

【专利技术属性】
技术研发人员：陈家兵，陈涛，薛云，季家亮，
申请(专利权)人：苏宁云计算有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人