基于深度学习的文本分类方法、装置、服务器及存储介质制造方法及图纸

技术编号:27284421 阅读:36 留言:0更新日期:2021-02-06 11:52
本申请实施例提供一种基于深度学习的文本分类方法、装置、服务器及存储介质,通过按照训练语料分句权重对训练语料进行关键分句筛选,得到关键分句筛选后的训练语料构成的训练样本集,从而可以按照语言习惯选择尽可能保留完整语句与原始语序,通过基于分句权重选取关键分句用于后续的文本分类判别训练,可以使得深度学习模型能够学习到正常的语义特征。在此基础上,通过获取训练样本集中不同预设长度分区的分区样本集,并将每个分区样本集分别输入深度学习模型中进行训练,得到不同预设长度分区的文本分类模型,从而采用多长度分区的多模型训练方式,能够对不同文本长度的待分类文本自适应选取深度学习模型进行分类,提高分类精度。度。度。

【技术实现步骤摘要】
基于深度学习的文本分类方法、装置、服务器及存储介质


[0001]本申请涉及深度学习
,具体而言,涉及一种基于深度学习的文本分类方法、装置、服务器及存储介质。

技术介绍

[0002]随着计算机技术的发展越来越成熟,互联网与用户的生活变得密不可分,网络载体也由一开始的传统计算机发展成现在的各式各样的终端,例如手机、服务器、平板等。在相关技术发展中,各种智能设备也将进入物联网时代,在万物互联的背景下,网络中的文本信息呈现爆炸式增长。大数据时代的到来,意味着数据即金钱,而非结构化的文本信息并没有任何实际作用。基于此,如何对这些文本信息进行分类,一直是当前亟待研究的技术问题。

技术实现思路

[0003]基于现有设计的不足,本申请提供一种基于深度学习的文本分类方法、装置、服务器及存储介质,根据训练语料集合对应的词权重表计算训练语料集合中每一训练语料的分句的分句权重,并按照分句权重对每一训练语料进行关键分句筛选,得到关键分句筛选后的训练语料构成的训练样本集,从而可以按照语言习惯选择尽可能保留完整语句与原始语序,基于分句权重选取关键分句用于分类判别,可以使得深度学习模型能够学习到正常的语义特征,在此基础上获取训练样本集中不同预设长度分区的分区样本集,并将每个分区样本集分别输入深度学习模型中进行训练,得到不同预设长度分区的文本分类模型,从而采用多长度分区的多模型训练方式,能够对不同文本长度的待分类文本自适应选取深度学习模型进行分类。
[0004]根据本申请的第一方面,提供一种基于深度学习的文本分类方法,应用于服务器,所述方法包括:
[0005]对训练语料集合进行处理,构建所述训练语料集合对应的词权重表;
[0006]根据所述词权重表计算所述训练语料集合中每一训练语料的分句的分句权重,并按照所述分句权重对每一训练语料进行关键分句筛选,得到关键分句筛选后的训练语料构成的训练样本集;
[0007]获取所述训练样本集中不同预设长度分区的分区样本集,并将每个分区样本集分别输入深度学习模型中进行训练,得到不同预设长度分区的文本分类模型;
[0008]基于所述文本分类模型对输入的待分类文本进行文本分类。
[0009]在第一方面的一种可能的实施方式中,所述对训练语料集合进行处理,构建所述训练语料集合对应的词权重表步骤,包括:
[0010]获取训练语料集合,所述训练语料集合中的每个训练语料包括训练文本以及所述训练文本的类别标签;
[0011]对每个所述训练文本进行分词,得到所述训练文本对应的分词结果,所述分词结
果由多个分词组成;
[0012]采用贝叶斯算法计算每个分词的贝叶斯后验概率,其中,所述贝叶斯后验概率用于表示当一个目标分词出现时,该目标分词对应的训练文本为每个类别标签的概率;
[0013]对所述每个分词的贝叶斯后验概率进行统计,获得所述每个分词的类别标签概率分布,并将所述类别标签概率分布的方差作为所述每个分词的词权重,其中,所述类别标签概率分布的方差表示所述类别标签概率分布的离散程度,当离散程度越大时,所述类别标签概率分布对应的类别标签的区分能力越大;
[0014]对所述每个分词的词权重进行排序得到所述训练语料集合对应的词权重表。
[0015]在第一方面的一种可能的实施方式中,所述根据所述词权重表计算所述训练语料集合中每一分句的分句权重的步骤,包括:
[0016]对所述训练语料集合中每个训练语料进行分句,得到至少一个分句;
[0017]对每个所述分句进行分词,得到每个所述分句的分词结果;
[0018]从所述词权重表中获得每个所述分句的分词结果中每个分词的词权重,并将所述每个分词的词权重之和确定为所述分句的分句权重。
[0019]在第一方面的一种可能的实施方式中,所述按照所述分句权重对每一训练语料进行关键分句筛选,得到关键分句筛选后的训练语料构成的训练样本集的步骤,包括:
[0020]计算每一训练语料的文本长度,其中,所述文本长度为所述训练语料中所有分句的分词总数量;
[0021]若所述训练语料的文本长度小于等于预设长度,则将所述训练语料的所有分句作为关键分句后进行合并,输出筛选后的训练语料;
[0022]若所述训练语料的文本长度大于所述预设长度,并且所述训练语料的分句数量大于1,则按照所述分句权重对所述训练语料的分句进行排序,选取排序结果中的前N个分句作为关键分句后进行合并,输出筛选后的训练语料,其中,N为正整数,并且筛选后的训练语料的文本长度不大于所述预设长度;以及
[0023]若所述训练语料的文本长度大于所述预设长度,并且所述训练语料的分句数量为1,则将所述训练语料中超出所述预设长度的分词进行剔除后,输出筛选后的训练语料。
[0024]在第一方面的一种可能的实施方式中,所述获取所述训练样本集中不同预设长度分区的分区样本集的步骤,包括:
[0025]获取所述训练样本集中每个预设长度分区的初始分区样本集;
[0026]判断每个预设长度分区的初始分区样本集中每个类别标签的样本数量与其它类别标签的样本数量的差异数量是否大于设定数量;
[0027]当该类别标签的样本数量与其它类别标签的样本数量的差异数量大于设定数量时,采用排列组合的方式对同类别标签的其它预设长度分区的初始分区样本集的分区样本进行关键句筛选后,得到排列组合后的新增分句,并将所述新增分句添加到该预设长度分区的初始分区样本集中,得到不同预设长度分区的分区样本集。
[0028]在第一方面的一种可能的实施方式中,所述基于所述文本分类模型对输入的待分类文本进行文本分类的步骤,包括:
[0029]对所述待分类文本进行分词,并根据分词总数量得到所述待分类文本的文本长度;
[0030]判断所述待分类文本的文本长度是否超过所有预设长度分区;
[0031]当所述待分类文本的文本长度不超过所有预设长度分区时,选择对应的预设长度分区的文本分类模型进行文本分类,得到所述待分类文本的文本分类结果;以及
[0032]当所述待分类文本的文本长度超过所有预设长度分区时,则对所述待分类文本进行关键分句筛选,得到关键分句筛选后的目标待分类文本,其中,所述目标待分类文本的文本长度位于所述预设长度分区;
[0033]选择所述目标待分类文本的文本长度对应的预设长度分区的文本分类模型,对所述目标待分类文本进行文本分类,得到所述目标待分类文本的文本分类结果。
[0034]在第一方面的一种可能的实施方式中,所述基于所述文本分类模型对输入的待分类文本进行文本分类的步骤,包括:
[0035]对所述待分类文本进行关键句筛选,得到文本长度分别匹配每个预设长度分区的目标待分类文本;
[0036]将每个目标待分类文本分别输入到该目标待分类文本对应预设长度分区的文本分类模型中,获得每个目标待分类文本在对应的文本分类模型中的文本分类结果;
[0037]对每个文本分类结果中的每个类别标本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的文本分类方法,其特征在于,应用于服务器,所述方法包括:对训练语料集合进行处理,构建所述训练语料集合对应的词权重表;根据所述词权重表计算所述训练语料集合中每一训练语料的分句的分句权重,并按照所述分句权重对每一训练语料进行关键分句筛选,得到关键分句筛选后的训练语料构成的训练样本集;获取所述训练样本集中不同预设长度分区的分区样本集,并将每个分区样本集分别输入深度学习模型中进行训练,得到不同预设长度分区的文本分类模型;基于所述文本分类模型对输入的待分类文本进行文本分类。2.根据权利要求1所述的基于深度学习的文本分类方法,其特征在于,所述对训练语料集合进行处理,构建所述训练语料集合对应的词权重表步骤,包括:获取训练语料集合,所述训练语料集合中的每个训练语料包括训练文本以及所述训练文本的类别标签;对每个所述训练文本进行分词,得到所述训练文本对应的分词结果,所述分词结果由多个分词组成;采用贝叶斯算法计算每个分词的贝叶斯后验概率,其中,所述贝叶斯后验概率用于表示当一个目标分词出现时,该目标分词对应的训练文本为每个类别标签的概率;对所述每个分词的贝叶斯后验概率进行统计,获得所述每个分词的类别标签概率分布,并将所述类别标签概率分布的方差作为所述每个分词的词权重,其中,所述类别标签概率分布的方差表示所述类别标签概率分布的离散程度,当离散程度越大时,所述类别标签概率分布对应的类别标签的区分能力越大;对所述每个分词的词权重进行排序得到所述训练语料集合对应的词权重表。3.根据权利要求1所述的基于深度学习的文本分类方法,其特征在于,所述根据所述词权重表计算所述训练语料集合中每一分句的分句权重的步骤,包括:对所述训练语料集合中每个训练语料进行分句,得到至少一个分句;对每个所述分句进行分词,得到每个所述分句的分词结果;从所述词权重表中获得每个所述分句的分词结果中每个分词的词权重,并将所述每个分词的词权重之和确定为所述分句的分句权重。4.根据权利要求1所述的基于深度学习的文本分类方法,其特征在于,所述按照所述分句权重对每一训练语料进行关键分句筛选,得到关键分句筛选后的训练语料构成的训练样本集的步骤,包括:计算每一训练语料的文本长度,其中,所述文本长度为所述训练语料中所有分句的分词总数量;若所述训练语料的文本长度小于等于预设长度,则将所述训练语料的所有分句作为关键分句后进行合并,输出筛选后的训练语料;若所述训练语料的文本长度大于所述预设长度,并且所述训练语料的分句数量大于1,则按照所述分句权重对所述训练语料的分句进行排序,选取排序结果中的前N个分句作为关键分句后进行合并,输出筛选后的训练语料,其中,N为正整数,并且筛选后的训练语料的文本长度不大于所述预设长度;以及若所述训练语料的文本长度大于所述预设长度,并且所述训练语料的分句数量为1,则
将所述训练语料中超出所述预设长度的分词进行剔除后,输出筛选后的训练语料。5.根据权利要求1所述的基于深度学习的文本分类方法,其特征在于,所述获取所述训练样本集中不同预设长度分区的分区样本集的步骤,包括:获取所述训练样本集中每个预设长度分区的初始分区样本集;判断每...

【专利技术属性】
技术研发人员:朱永强伍文成
申请(专利权)人:成都网安科技发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1