一种文本分类方法及装置制造方法及图纸

技术编号:25637217 阅读:20 留言:0更新日期:2020-09-15 21:29
本发明专利技术公开一种文本分类方法及装置,该方法至少包括如下步骤:基于预先设置的M种分类类型,分别采用N种分类算法计算待分类文本采用每一种分类类型分类时的评分tn,M≥2,N≥2,n=M*N;将属于同一种分类类型的N个评分t

【技术实现步骤摘要】
一种文本分类方法及装置
本专利技术涉及计算机数据处理领域,特别涉及一种文本分类方法及装置。
技术介绍
文本分类,就在给定的分类体系下,根据文本的内容自动地确定文本关联的类别。文本分类是一个映射的过程,它将未标明类别的文本映射到已有的类别中,该映射可以是一一映射,也可以是一对多的映射,因为通常一篇文本可以同多个类别相关联。然而,现有技术中至少存在如下问题:现有的文本分类方法存在分类不准确以及效率不高等问题。如已授权中国专利CN102073704A中公开的文本分类处理方法:其通过网络侧设备提供的分类参数,在用户设备上通过预先设置的模型进行分类,获取多个分类特征与分类参数的相关程度,并将文本存储在相关程度最高的文本信息主体中,实际上为根据文本特征与分类参数相关性进行分类的技术方案,其采用的算法较为单一,分类过程可能存在片面性较大的问题,最终获取的分类结果准确度不够高。
技术实现思路
为解决上述技术问题,本专利技术提供了一种文本分类方法及装置,其基于预先设定的分类类型,通过多种算法相融合的方法获得一种准确度较高的文本分类结果。本专利技术提供的技术方案如下:第一方面,提供一种文本分类方法,所述方法至少包括如下步骤:基于预先设置的M种分类类型,分别采用N种分类算法计算待分类文本采用每一种分类类型分类时的评分tn,M≥2,N≥2,n=M*N;将属于同一种分类类型的N个评分tn进行加权融合,获得每一种分类类型的最终评分Tm;对所述M种分类类型的最终评分Tm进行排序,并选出最终评分Tm最高的类型作为所述待分类文本的最终分类类型。在一些较佳的实施方式中,所述分别采用N种分类算法计算待分类文本采用每一种分类类型分类时的评分tn之前,还包括:获取训练文本集;所述基于预先设置的M种分类类型,分别采用N种分类算法计算待分类文本采用每一种分类类型分类时的评分tn,包括:分别计算预先获取的训练文本集中每一个分词的每一类型的条件概率;获取待分类文本的特征向量;利用所述训练文本集的条件概率与待分类文本的特征向量分别计算所述待分类文本采用每一种分类类型分类时的评分tn。在一些较佳的实施方式中,获取训练文本集具体包括如下子步骤:将样本集中的每一文本样本进行分词获得第一分词结果,并对每一文本样本进行预分类;基于所述第一分词结果生成样本集词列表;将每一文本样本的第一分词结果与所述样本集词列表对比,并以所述样本集词列表中是否存在所述第一分词结果中的分词进行分类,将所述样本集表示成向量形式,并作为训练文本集。在一些较佳的实施方式中,所述获取待分类文本的特征向量,包括:对所述待分类文本进行分词获得第二分词结果;将所述第二分词结果与所述样本集词列表对比,并以所述样本集词列表中是否存在所述第二分词结果中的分词进行分类,获得所述待分类文本的特征向量。在一些较佳的实施方式中,对所述条件概率的值进行策略增加,以使每一个分词的每一类型的条件概率均大于0,且所述训练文本集中每一个分词针对同一类型的增加后的条件概率和为1。在一些较佳的实施方式中,所述分类算法至少包括贝叶斯算法及TFIDF算法。在一些较佳的实施方式中,所述采用TFIDF算法计算每一种分类类型的评分tn时,至少包括如下子步骤:根据所述训练文本集及TFIDF算法得出TFIDF的向量;将所述TFIDF的向量作为输入,通过神经网络计算每一种分类类型的评分tn。第二方面,提供一种文本分类装置,所述装置至少包括:第一计算模块,用于基于预先设置的M种分类类型,分别采用N种分类算法计算待分类文本采用每一种分类类型分类时的评分tn,M≥2,N≥2,n=M*N;第二计算模块,用于将属于同一种分类类型的N个评分tn进行加权融合,获得每一种分类类型的最终评分Tm;排序筛选模块,用于对所述M种分类类型的最终评分Tm进行排序,并选出最终评分Tm最高的类型作为所述待分类文本的最终分类类型。在一些较佳的实施方式中,所述装置还包括:训练文本集获取模块;所述第一计算模块至少包括:第一计算子模块,用于分别计算预先获取的训练文本集中每一个分词的每一类型的条件概率;特征向量获取子模块,用于获取待分类文本的特征向量;第二计算子模块,利用所述训练文本集的条件概率与待分类文本的特征向量分别计算所述待分类文本采用每一种分类类型分类时的评分tn。在一些较佳的实施方式中,所述训练文本集获取模块至少包括:第一分词子模块,用于将样本集中的每一文本样本进行分词获得第一分词结果;预分类子模块,用于对所述每一文本样本进行预分类;生成子模块,用于基于所述第一分词结果生成样本集词列表;第一处理子模块,用于将每一文本样本的第一分词结果与所述样本集词列表对比,并以所述样本集词列表中是否存在所述第一分词结果中的分词进行分类,将所述样本集表示成向量形式,并作为训练文本集。在一些较佳的实施方式中,所述特征向量获取子模块至少包括:第一分词单元,用于对所述待分类文本进行分词获得第二分词结果;第一处理单元,用于将所述第二分词结果与所述样本集词列表对比,并以所述样本集词列表中是否存在所述第二分词结果中的分词进行分类,获得所述待分类文本的特征向量。在一些较佳的实施方式中,所述第二计算子模块至少包括策略增加单元,用于对所述条件概率的值进行策略增加,以使每一个分词的每一类型的条件概率均大于0,且所述训练文本集中每一个分词针对同一类型的增加后的条件概率和为1。在一些较佳的实施方式中,所述第二计算子模块还包括:贝叶斯算法单元与TFIDF算法单元。在一些较佳的实施方式中,所述采用贝叶斯算法计算每一种分类类型的评分tn时,获取对数贝叶斯评分。在一些较佳的实施方式中,所述TFIDF算法单元至少包括:第一计算子单元,用于根据所述训练文本集及TFIDF算法得出TFIDF的向量;第二计算子单元,用于将所述TFIDF的向量作为输入,通过神经网络计算每一种分类类型的评分tn。第三方面,还提供一种计算机系统,包括:一个或多个处理器;以及与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行如下操作:基于预先设置的M种分类类型,分别采用N种分类算法计算待分类文本采用每一种分类类型分类时的评分tn,M≥2,N≥2,n=M*N;将每一种分类类型的N个评分tn进行加权融合,获得每一种分类类型的最终评分Tm;对所述M种分类类型的最终评分TM进行排序,并选出最终评分Tm最高的类型作为所述待分类文本的最终分类类型。本专利技术相比现有技术而言的有益效果在于:本专利技术提供一种文本分类方法,该方法至少包括如下步骤:基于预先设置的M种分类类型,分别采用N种分类算法计算待分类文本采用每一种分类类型本文档来自技高网...

【技术保护点】
1.一种文本分类方法,其特征在于,所述方法至少包括如下步骤:/n基于预先设置的M种分类类型,分别采用N种分类算法计算待分类文本采用每一种分类类型分类时的评分t

【技术特征摘要】
1.一种文本分类方法,其特征在于,所述方法至少包括如下步骤:
基于预先设置的M种分类类型,分别采用N种分类算法计算待分类文本采用每一种分类类型分类时的评分tn,M≥2,N≥2,n=M*N;
将属于同一种分类类型的N个评分tn进行加权融合,获得每一种分类类型的最终评分Tm;
对所述M种分类类型的最终评分Tm进行排序,并选出最终评分Tm最高的类型作为所述待分类文本的最终分类类型。


2.根据权利要求1所述的方法,其特征在于,所述分别采用N种分类算法计算待分类文本采用每一种分类类型分类时的评分tn之前,还包括:获取训练文本集;
所述基于预先设置的M种分类类型,分别采用N种分类算法计算待分类文本采用每一种分类类型分类时的评分tn,包括:
分别计算预先获取的训练文本集中每一个分词的每一类型的条件概率;
获取待分类文本的特征向量;
利用所述训练文本集的条件概率与待分类文本的特征向量分别计算所述待分类文本采用每一种分类类型分类时的评分tn。


3.根据权利要求2所述的方法,其特征在于,获取训练文本集具体包括如下子步骤:
将样本集中的每一文本样本进行分词获得第一分词结果,并对每一文本样本进行预分类;
基于所述第一分词结果生成样本集词列表;
将每一文本样本的第一分词结果与所述样本集词列表对比,并以所述样本集词列表中是否存在所述第一分词结果中的分词进行分类,将所述样本集表示成向量形式,并作为训练文本集。


4.根据权利要求3所述的方法,其特征在于,所述获取待分类文本的特征向量,包括:
对所述待分类文本进行分词获得第二分词结果;
将所述第二分词结果与所述样本集词列表对比,并以所述样本集词列表中是否存在所述第二分词结果中的分词进行分类,获得所述待分类文本的特征向量。


5.根据权利要求4所述的方法,其特征在于,对所述条件概率的值进行策略增加,以使每一个分词的每一类型的条件概率均大于0,且所述训练文本集中每一个分词针对同一类型的增加后的条件概率和为1。


6.根据权利要求1~5任意一项所述的方法,其特征在于,所述分类算法至少包括贝叶斯算法及TFIDF算...

【专利技术属性】
技术研发人员:陈家兵陈涛薛云季家亮
申请(专利权)人:苏宁云计算有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1