本申请公开一种文本分类方法、装置、电子设备及存储介质,包括:将待识别文本输入到预先根据预训练模型训练而得到的文本分类模型。在文本分类模型中,确定待识别文本的目标主类别,再确定与目标主类别对应的文本识别算法。在文本分类模型内,根据文本识别算法确定待识别文本是否属于目标子类别并得到分类结果。本申请实施例中到的文本分类模型在确定待识别文本的主类别后,再根据该主类别对应的算法确定待识别文本所属的文本子类别。本申请中的文本分类模型具有区分不同主类别类型文本的特征,因此能够更加准确地识别出多个主类别文本的子类别。的子类别。的子类别。
【技术实现步骤摘要】
文本分类方法、装置、电子设备及存储介质
[0001]本申请涉及人工智能
,尤其涉及一种文本分类方法、装置、电子设备及存储介质。
技术介绍
[0002]文本分类广泛应用在资源推送/查询场景中,例如新闻资讯、论文等不同类别的文本内容的推送/查询。实践中发现文本分类的准确度较低,资源推送/查询的效率低,给用户带来的体验较差。因此,如何提高文本分类的准确度是现有技术中亟待解决的技术问题。
技术实现思路
[0003]鉴于上述问题,本申请提出了一种文本分类方法、装置、电子设备及存储介质,能解决上述问题。
[0004]第一方面,本申请实施例提供了一种文本分类方法,所述方法包括:获取待识别文本;将所述待识别文本输入文本分类模型进行分类处理,输出分类结果;其中,在所述分类处理中,所述文本分类模型具体用于:确定待识别文本的目标主类别;根据文本识别算法确定所述待识别文本是否属于目标子类别,得到所述分类结果,所述文本识别算法与所述目标主类别相对应。
[0005]可以看出,在本申请实施例中,由于文本识别算法与目标主类别相对应,所以在确定待识别文本是否属于子类别的时候,所使用的文本识别算法是根据待识别文本的主类别类型而确定的,从而能够避免针对所有类型的文本,在确定该文本是否为目标子类别的时候,都使用相同的文本识别算法进行分类,进而能够提高分类的准确度。
[0006]第二方面,本申请实施例提供了一种文本分类模型的训练方法,所述方法包括:获取训练数据集,所述训练数据集包括多个样本文本、多个主类别以及目标子类别的判定标签,其中,每个样本文本对应于一个主类别和一个判定标签,每个主类别对应一个判定标签;将所述训练数据集输入预训练模型中进行迭代训练,得到文本分类模型;其中,在每次迭代训练过程中,所述预训练模型具体用于:确定每个所述样本文本的预测主类别;根据预测识别算法确定每个所述样本文本是否属于所述目标子类别,得到预测结果,所述预测识别算法与所述预测主类别相对应;当所述预测主类别与该样本文本对应的主类别之间的误差小于第一预设误差,并且所述预测结果与该样本文本对应的判定标签之间的误差小于第二预设误差,完成迭代训练,得到所述文本分类模型。
[0007]可以看出,在本申请实施例中,每次迭代训练中可以得到预训练模型对样本文本预测的预测主类别,以及属于/不属于目标子类别的预测结果,其中,预测结果可以使用预测主类别对应的预测识别算法来确定。最后,将模型预测的预测主类别和预测结果与标注的主类别和判别标签分别进行比较,得出预测的误差,通过不断调整预训练模型的参数,使识别误差减小,最终完成迭代训练。这样,由于不同的预测识别算法对应不同的预测主类别,因此本申请针对性地对不同的预测主类别使用不同的预测识别算法进行目标子类别的
识别,在迭代训练的过程中,可以使预训练模型逐渐能够区分各个目标主类别的文本,降低预测值与标准值之间的误差,使训练完成的文本分类模型能够更加准确地识别出多个目标主类别文本的子类别。
[0008]第三方面,本申请实施例提供了一种文本分类装置,所述装置包括:文本获取模块以及分类处理模块。其中,文本获取模块用于获取待识别文本;分类处理模块用于将所述待识别文本输入文本分类模型进行分类处理,输出分类结果;其中,在所述分类处理中,所述文本分类模型具体用于:确定待识别文本的目标主类别;根据文本识别算法确定所述待识别文本是否属于目标子类别,得到所述分类结果,所述文本识别算法与所述目标主类别相对应。
[0009]第四方面,本申请实施例提供了一种文本分类模型的训练装置,所述装置包括:样本获取模块以及迭代训练模块。其中,样本获取模块用于获取训练数据集,所述训练数据集包括多个样本文本、多个主类别以及目标子类别的判定标签,其中,每个样本文本对应于一个主类别和一个判定标签,每个主类别对应一个判定标签;迭代训练模块用于将所述训练数据集输入预训练模型中进行迭代训练,得到文本分类模型;其中,在每次迭代训练过程中,所述预训练模型具体用于:确定每个所述样本文本的预测主类别;根据预测识别算法确定每个所述样本文本是否属于所述目标子类别,得到预测结果,所述预测识别算法与所述预测主类别相对应;当所述预测主类别与该样本文本对应的主类别之间的误差小于第一预设误差,并且所述预测结果与该样本文本对应的判定标签之间的误差小于第二预设误差,停止迭代训练,得到所述文本分类模型。
[0010]第五方面,本申请实施例提供了一种电子设备,包括:一个或多个处理器;存储器;一个或多个应用程序,其中,所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个应用程序配置用于执行上述方法。
[0011]第六方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有程序代码,所述程序代码可被处理器调用执行上述方法。
[0012]第七方面,本申请实施例提供了一种包含指令的计算机程序产品,其特征在于,所述计算机程序产品中存储有指令,当其在计算机上运行时,使得计算机实现上述方法。
[0013]可以看出,在本申请实施例中,目标主类别所涉及的文本各自具有不同的特点,因此可以先使用预训练模型训练而得到文本分类模型识别出待识别文本的目标主类别,在文本分类模型中确定待识别文本是否属于子类别的时候,对包含不同目标主类别的待识别文本使用不同的文本识别算法。所使用的文本识别算法是根据待识别文本的主类别类型而确定的,从而能够避免针对所有类型的文本,在确定该文本是否为目标子类别的时候,都使用相同的文本识别算法进行分类,进而能够提高分类的准确度。
[0014]本申请的这些方面或其他方面在以下实施例的描述中会更加简明易懂。
附图说明
[0015]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0016]图1示出了本申请一实施例提供的文本分类方法的一种应用环境示意图;
[0017]图2示出了本申请一实施例提供的文本分类方法的流程示意图;
[0018]图3示出了本申请又一实施例提供的文本分类方法的流程示意图;
[0019]图4示出了本申请一实施例提供的一种文本分类模型的处理过程示意图;
[0020]图5示出了本申请又一实施例提供的第一目标文本的示意图;
[0021]图6示出了本申请另一实施例提供的文本分类方法的流程示意图;
[0022]图7示出了本申请一实施例提供的文本分类模型的训练方法的流程示意图;
[0023]图8示出了本申请一实施例提供的训练数据集的示意图;
[0024]图9示出了本申请又一实施例提供的文本分类模型的训练方法的流程示意图;
[0025]图10示出了本申请另一实施例提供的文本分类模型的训练方法的流程示意图;
[0026]本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种文本分类方法,其特征在于,所述方法包括:获取待识别文本;将所述待识别文本输入文本分类模型进行分类处理,输出分类结果;其中,在所述分类处理中,所述文本分类模型具体用于:确定待识别文本的目标主类别;根据文本识别算法确定所述待识别文本是否属于目标子类别,得到所述分类结果,所述文本识别算法与所述目标主类别相对应。2.根据权利要求1所述的方法,其特征在于,所述文本分类模型包括第一生成器,所述第一生成器用于:对所述待识别文本添加第一语句得到第一目标文本,其中,所述第一语句为第一判别语句中的用于表征目标主类别的第一文本内容被掩盖之后的语句;预测第一目标文本中被掩盖的第一文本内容,得到第一预测文本,根据所述第一预测文本确定所述目标主类别。3.根据权利要求1所述的方法,其特征在于,所述文本分类模型包括第二生成器,所述第二生成器用于:对所述待识别文本添加第二语句得到第二目标文本,其中,所述第二语句为第二判别语句中的目标子类别的判定词被掩盖之后的语句;根据所述文本识别算法预测所述第二目标文本中被掩盖的判定词,得到第二预测文本,根据所述第二预测文本确定所述分类结果。4.一种文本分类模型的训练方法,其特征在于,所述方法包括:获取训练数据集,所述训练数据集包括多个样本文本、多个主类别以及目标子类别的判定标签,其中,每个样本文本对应于一个主类别和一个判定标签,每个主类别对应一个判定标签;将所述训练数据集输入预训练模型中进行迭代训练,得到文本分类模型;其中,在每次迭代训练过程中,所述预训练模型具体用于:确定每个所述样本文本的预测主类别;根据所述预测识别算法确定每个所述样本文本是否属于所述目标子类别,得到预测结果,所述预测识别算法与所述预测主类别相对应;当所述预测主类别与该样本文本对应的主类别之间的误差小于第一预设误差,并且所述预测结果与该样本文本对应的判定标签之间的误差小于第二预设误差,完成迭代训练,得到所述文本分类模型。5.根据权利要求4所述的方法,其特征在于,所述预训练模型还用于构建第一生成器,在每次迭代训练过程中,所述第一生成器用于:对每个所述样本文本添加第一语句得到第一样本文本,其中,所述第一语句为第一判别语句中的用于表征预测主类别的第一样本内容被掩盖之后的语句;预测所述第一样本文本中被掩盖的第一样本内容,得到...
【专利技术属性】
技术研发人员:吕乐宾,蒋宁,王洪斌,吴海英,权佳成,
申请(专利权)人:马上消费金融股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。