System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 文本分类方法、模型的训练方法和装置制造方法及图纸_技高网

文本分类方法、模型的训练方法和装置制造方法及图纸

技术编号:40303795 阅读:5 留言:0更新日期:2024-02-07 20:49
本申请公开了一种文本分类方法、模型的训练方法和装置,用以提高文本分类准确性。本方案包括:获取多个初始文本段以及与初始文本段具有翻译关系的翻译文本段;基于多个初始文本段与多个翻译文本段构建多个语义文本组,任一个语义文本组包括具有翻译关系的多个文本段,属于同一个语义文本组的多个文本段由多种不同的预设语言表达;获取多个语义文本组分别对应的分类标签,分类标签包括对应的语义文本组中的各个文本段的语义表达的情感标签;根据标注标签和训练样本训练初始文本分类模型得到文本分类模型,其中,训练样本包括多个语义文本组中的各个文本段,标注标签为训练样本所属的语义文本组对应的分类标签。

【技术实现步骤摘要】

本申请涉及模型训练领域,尤其涉及一种文本分类方法、模型的训练方法和装置


技术介绍

1、目前,自然语言处理(natural language processing,nlp)任务中往往是对语言基本语义进行理解。其中,主要任务包含语义相似度、文本分类、自然语言推理等。自然语言推理是一种根据已有的文本对未知信息进行推理的过程。

2、人类在语言交流中,不同的人在不同情况的表述中存在特殊性。比如说,同一人在不同时段、不同认知下,表述存在特异性。再比如,同一人在相同认知、不同心态下,表述存在特异性。因此,基于人类语言表达的特异性,人的特征与语言特征之间不存在一一对应的关系,难以对人的自然语言进行分类。

3、如何提高文本分类的准确性,是本申请所要解决的技术问题。


技术实现思路

1、本申请实施例的目的是提供一种文本分类方法、模型的训练方法和装置,用以提高文本分类准确性。

2、第一方面,提供了一种文本分类模型的训练方法,包括:

3、获取多个初始文本段以及与所述初始文本段具有翻译关系的翻译文本段,其中,所述翻译文本段是将所述初始文本段翻译为多种预设语言得到的文本段;

4、基于多个所述初始文本段与多个所述翻译文本段构建多个语义文本组,任一个语义文本组包括具有翻译关系的多个文本段,属于同一个语义文本组的多个文本段由多种不同的预设语言表达;

5、获取所述多个语义文本组分别对应的分类标签,所述分类标签包括对应的语义文本组中的各个文本段的语义表达的情感标签;

6、根据标注标签和训练样本训练初始文本分类模型得到所述文本分类模型,其中,所述训练样本包括所述多个语义文本组中的各个文本段,所述标注标签为所述训练样本所属的语义文本组对应的分类标签。

7、第二方面,提供了一种文本分类方法,包括:

8、获取待分类文本段;

9、基于所述待分类文本段生成由多种预设语言表达的多个待分类翻译文本段,所述多个待分类翻译文本段的语义表达的情感与所述待分类文本段的语义表达的情感相同;

10、将所述待分类文本段和所述多个待分类翻译文本段输入文本分类模型,得到所述待分类文本段的分类预测结果,其中,所述文本分类模型根据标注标签和训练样本训练初始文本分类模型得到,其中,所述训练样本包括多个语义文本组中的各个文本段,所述标注标签为所述训练样本所属的语义文本组对应的分类标签,所述多个语义文本组基于多个初始文本段与多个翻译文本段构建,任一个语义文本组包括具有翻译关系的多个文本段,所述多个翻译文本段是将所述初始文本段翻译为多种预设语言得到的文本段,属于同一个语义文本组的多个文本段由多种不同的预设语言表达,所述分类标签包括对应的语义文本组中的各个文本段的语义表达的情感标签。

11、第三方面,提供了一种文本分类装置,包括:

12、获取模块,获取待分类文本段;

13、生成模块,基于所述待分类文本段生成由多种预设语言表达的多个待分类翻译文本段,所述多个待分类翻译文本段的语义表达的情感与所述待分类文本段的语义表达的情感相同;

14、分类模块,将所述待分类文本段和所述多个待分类翻译文本段输入文本分类模型,得到所述待分类文本段的分类预测结果,其中,所述文本分类模型根据标注标签和训练样本训练初始文本分类模型得到,其中,所述训练样本包括多个语义文本组中的各个文本段,所述标注标签为所述训练样本所属的语义文本组对应的分类标签,所述多个语义文本组基于多个初始文本段与多个翻译文本段构建,任一个语义文本组包括具有翻译关系的多个文本段,所述多个翻译文本段是将所述初始文本段翻译为多种预设语言得到的文本段,属于同一个语义文本组的多个文本段由多种不同的预设语言表达,所述分类标签包括对应的语义文本组中的各个文本段的语义表达的情感标签。

15、第四方面,提供了一种文本分类模型的训练装置,包括:

16、文本获取模块,获取多个初始文本段以及与所述初始文本段具有翻译关系的翻译文本段,其中,所述翻译文本段是将所述初始文本段翻译为多种预设语言得到的文本段;

17、构建模块,基于多个所述初始文本段与多个所述翻译文本段构建多个语义文本组,任一个语义文本组包括具有翻译关系的多个文本段,属于同一个语义文本组的多个文本段由多种不同的预设语言表达;

18、标签获取模块,获取所述多个语义文本组分别对应的分类标签,所述分类标签包括对应的语义文本组中的各个文本段的语义表达的情感标签;

19、训练模块,根据标注标签和训练样本训练初始文本分类模型得到所述文本分类模型,其中,所述训练样本包括所述多个语义文本组中的各个文本段,所述标注标签为所述训练样本所属的语义文本组对应的分类标签。

20、第五方面,提供了一种电子设备,该电子设备包括处理器、存储器及存储在该存储器上并可在该处理器上运行的计算机程序,该计算机程序被该处理器执行时实现如第一方面或第二方面的方法的步骤。

21、第六方面,提供了一种计算机可读存储介质,该计算机可读存储介质上存储计算机程序,该计算机程序被处理器执行时实现如第一方面或第二方面的方法的步骤。

22、在本申请实施例中,首先,获取多个初始文本段以及与初始文本段具有翻译关系的翻译文本段,其中,翻译文本段是将初始文本段翻译为多种预设语言得到的文本段,然后,基于多个初始文本段与多个翻译文本段构建多个语义文本组,任一个语义文本组包括具有翻译关系的多个文本段,属于同一个语义文本组的多个文本段由多种不同的预设语言表达。其中,多种预设语言表达的文本段能基于多种预设语言之间的差异性来对模型实现训练,不同语言的文本段之间能起到相互验证的效果,用以避免由唯一语言的表达局限性造成语言特征丢失的情况。随后,获取多个语义文本组分别对应的分类标签,分类标签包括对应的语义文本组中的各个文本段的语义表达的情感标签。其中,分类标签表征对应的语义文本组中的多个文本段的语义表达出的情感,基于语义表达的情感能关联多种不同预设语言表达的文本段,从而使不同语言表达的文本相互关联。最后,根据标注标签和训练样本训练初始文本分类模型得到文本分类模型,其中,训练样本包括多个语义文本组中的各个文本段,标注标签为训练样本所属的语义文本组对应的分类标签,能使模型学习不同语言表达情感的能力,从而避免唯一语言训练模型可能造成的分类局限性,进而提升模型的文本分类准确性。

本文档来自技高网...

【技术保护点】

1.一种文本分类模型的训练方法,其特征在于,包括:

2.如权利要求1所述的方法,其特征在于,获取所述多个语义文本组分别对应的分类标签,包括:

3.如权利要求1或2所述的方法,其特征在于,根据标注标签和训练样本训练初始文本分类模型得到所述文本分类模型,包括:

4.如权利要求3所述的方法,其特征在于,将分词后的训练样本输入词嵌入层,得到所述训练样本对应的文本编码结果,包括:

5.如权利要求1或2所述的方法,其特征在于,获取多个初始文本段以及与所述初始文本段具有翻译关系的翻译文本段之前,还包括:

6.一种文本分类方法,其特征在于,包括:

7.如权利要求6所述的方法,其特征在于,所述待分类文本段包括目标用户与对话用户之间的目标对话文本段,所述对话用户是与所述目标用户参与同一个对话的用户;

8.如权利要求7所述的方法,其特征在于,根据所述第一分类结果、所述第二分类结果和所述第三分类结果确定所述目标对话文本段的分类预测结果,包括:

9.如权利要求7或8所述的方法,其特征在于,所述方法还包括:>

10.如权利要求9所述的方法,其特征在于,确定所述目标对话文本段的分类预测结果与所述历史分类预测结果的第一相似度,以及,确定所述目标对话文本段的分类预测结果与所述文本分类预测结果的第二相似度,包括:

11.一种文本分类装置,其特征在于,包括:

12.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至5或6至10中任一项所述的方法的步骤。

13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5或6至10中任一项所述的方法的步骤。

...

【技术特征摘要】

1.一种文本分类模型的训练方法,其特征在于,包括:

2.如权利要求1所述的方法,其特征在于,获取所述多个语义文本组分别对应的分类标签,包括:

3.如权利要求1或2所述的方法,其特征在于,根据标注标签和训练样本训练初始文本分类模型得到所述文本分类模型,包括:

4.如权利要求3所述的方法,其特征在于,将分词后的训练样本输入词嵌入层,得到所述训练样本对应的文本编码结果,包括:

5.如权利要求1或2所述的方法,其特征在于,获取多个初始文本段以及与所述初始文本段具有翻译关系的翻译文本段之前,还包括:

6.一种文本分类方法,其特征在于,包括:

7.如权利要求6所述的方法,其特征在于,所述待分类文本段包括目标用户与对话用户之间的目标对话文本段,所述对话用户是与所述目标用户参与同一个对话的用户;

8.如权利要求7所述的方法,其特征在于,根据所述第...

【专利技术属性】
技术研发人员:白安琪蒋宁夏粉吴海英肖冰
申请(专利权)人:马上消费金融股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1