System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 文本纠错模型的训练方法及装置、文本纠错方法及装置制造方法及图纸_技高网

文本纠错模型的训练方法及装置、文本纠错方法及装置制造方法及图纸

技术编号:44420005 阅读:0 留言:0更新日期:2025-02-28 18:35
本申请适用于计算机技术领域,提供了一种文本纠错模型的训练方法及装置、文本纠错方法及装置,训练方法包括:获取包括多个第一训练样本的第一训练数据集,每个第一训练样本包括新增错误类型的第一错误文本以及第一标注文本;将第一错误文本及第一标注文本分别作为模型输入样本和模型输出样本,对与主纠错模型的输出层连接的旁支模型进行训练,得到目标文本纠错模型;主纠错模型基于包括多个第二训练样本的第二训练数据集训练得到,每个第二训练样本包括已有错误类型的第二错误文本及第二标注文本。上述训练方法,实现了主纠错模型和旁支模型的协同工作,在保持对已有错误类型纠错能力的同时,还能够对新增错误类型进行高效且准确的纠错。

【技术实现步骤摘要】

本申请属于计算机,尤其涉及一种文本纠错模型的训练方法及装置、文本纠错方法及装置


技术介绍

1、文本纠错是自然语言处理(natural language processing,nlp)领域中的一个基础的问题,其主要目的是对原始文本中的输入进行错误检测,并根据自然语言处理技术对错误进行纠正。

2、现阶段主要采用大规模语言模型对文本纠错任务进行错误检测。当出现新增错误类型的文本纠错任务时,由于大规模语言模型在训练的过程中并未使用包含新增错误类型的文本纠错任务的样本数据,因此需要利用既包含已有错误类型又包含新增错误类型的组合训练数据集来重新训练大规模语言模型,调整大规模语言模型的所有参数以确保大规模语言也能够对新增错误类型进行有效的检测。但是随着新增错误类型的文本纠错任务不断出现,如果每次都需要重新训练整个大规模语言模型以适应这些新增错误类型,那么会导致训练成本高昂、训练周期较长。


技术实现思路

1、本申请实施例提供了一种文本纠错模型的训练方法及装置、文本纠错方法及装置,可以解决现有方法需要利用既包含已有错误类型又包含新增错误类型的组合训练数据集来重新训练大规模语言模型,导致训练成本高昂、训练周期较长的问题。

2、第一方面,本申请实施例提供了一种文本纠错模型的训练方法,文本纠错模型包括:主纠错模型和旁支模型,所述旁支模型为与所述主纠错模型的输出层连接的轻量级神经网络模型,文本纠错模型的训练方法包括:

3、获取第一训练数据集;所述第一训练数据集包括多个第一训练样本,每个所述第一训练样本包括新增错误类型的第一错误文本以及对所述第一错误文本进行纠正后的第一标注文本;

4、将所述第一训练样本中的所述第一错误文本及对应的第一标注文本分别作为模型输入样本和模型输出样本,对所述旁支模型进行训练,得到目标文本纠错模型;其中,所述主纠错模型基于第二训练数据集训练得到,所述第二训练数据集包括多个第二训练样本,每个所述第二训练样本包括已有错误类型的第二错误文本以及对所述第二错误文本进行纠正后的第二标注文本。

5、在第一方面的一种可能的实现方式中,所述将所述第一训练样本中的所述第一错误文本及对应的第一标注文本分别作为模型输入样本和模型输出样本,对所述旁支模型进行训练,包括:

6、将所述第一训练样本中的所述第一错误文本输入至所述主纠错模型,所述主纠错模型输出第一解码特征和至少一个中间解码特征;

7、将所述中间解码特征输入至所述旁支模型,所述旁支模型输出第二解码特征;

8、根据所述第一解码特征和所述第二解码特征,确定第一预测文本;

9、计算所述第一预测文本和所述第一标注文本之间的损失;

10、根据所述第一预测文本和所述第一标注文本之间的损失迭代更新所述旁支模型的模型参数,直至所述旁支模型满足预设的第一训练停止条件。

11、在第一方面的一种可能的实现方式中,所述主纠错模型包括:编码子网络和解码子网络;

12、所述编码子网络包含:n个串联的编码器,所述n大于1;

13、所述解码子网络包含:n个串联的解码器;

14、所述编码子网络中最后一个编码器的输出端与所述解码子网络中的首个解码器的输入端连接;

15、所述将所述第一训练样本中的所述第一错误文本输入至所述主纠错模型,所述主纠错模型输出第一解码特征和至少一个中间解码特征,包括:

16、将所述第一错误文本依次输入所述编码子网络中的n个串联的编码器,得到所述第一错误文本的编码特征;

17、将所述第一错误文本的编码特征依次输入所述编码子网络中的n个串联的解码器,每个解码器对应输出一个中间解码特征,并将最后一个解码器对应输出的中间解码特征作为第一解码特征。

18、在第一方面的一种可能的实现方式中,所述旁支模型包括:m层lst网络,m小于n;

19、所述将所述中间解码特征输入至所述旁支模型,所述旁支模型输出第二解码特征,包括:

20、在所述旁支模型的输入层为第一层lst网络的情况下,将初始向量和第n-m层解码器输出的中间解码特征输入至第一层lst网络,得到第一层lst网络输出的特征;

21、将第n-m+i层解码器输出的中间解码特征和第i层lst网络输出的特征,输入至第i+1层lst网络,得到第i+1层lst网络输出的特征,并将第m层lst网络输出的特征确定为所述第二解码特征;i取1至m-1的正整数。

22、在第一方面的一种可能的实现方式中,所述根据所述第一解码特征和所述第二解码特征,确定第一预测文本,包括:

23、将所述第一解码特征和所述第二解码特征进行特征融合,得到第一融合特征;

24、根据所述第一融合特征确定所述第一预测文本。

25、第二方面,本申请实施例提供了一种文本纠错方法,包括:

26、获取目标文本;

27、将所述目标文本输入目标文本纠错模型,得到对所述目标文本进行纠错后的文本,其中,所述目标文本纠错模型采用如上述第一方面中任一项所述的文本纠错模型的训练方法训练得到。

28、第三方面,本申请实施例提供了一种文本纠错模型的训练装置,文本纠错模型包括:主纠错模型和旁支模型,所述旁支模型为与所述主纠错模型的输出层连接的轻量级神经网络模型,文本纠错模型的训练装置包括:

29、第一训练数据集获取模块,用于获取第一训练数据集;所述第一训练数据集包括多个第一训练样本,每个所述第一训练样本包括新增错误类型的第一错误文本以及对所述第一错误文本进行纠正后的第一标注文本;

30、训练模块,用于将所述第一训练样本中的所述第一错误文本及对应的第一标注文本分别作为模型输入样本和模型输出样本,对所述旁支模型进行训练,得到目标文本纠错模型;其中,所述主纠错模型基于第二训练数据集训练得到,所述第二训练数据集包括多个第二训练样本,每个所述第二训练样本包括已有错误类型的第二错误文本以及对所述第二错误文本进行纠正后的第二标注文本。

31、第四方面,本申请实施例提供了一种文本纠错装置,包括:

32、目标文本获取模块,用于获取目标文本;

33、输入输出模块,用于将所述目标文本输入目标文本纠错模型,得到对所述目标文本进行纠错后的文本,其中,所述目标文本纠错模型采用如上述第一方面中任一项所述的文本纠错模型的训练方法训练得到。

34、第五方面,本申请实施例提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面中任一项所述的文本纠错模型的训练方法,或者,所述处理器执行所述计算机程序时实现如上述第二方面所述的文本纠错方法。

35、第六方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现本文档来自技高网...

【技术保护点】

1.一种文本纠错模型的训练方法,其特征在于,文本纠错模型包括:主纠错模型和旁支模型,所述旁支模型为与所述主纠错模型的输出层连接的轻量级神经网络模型,文本纠错模型的训练方法包括:

2.根据权利要求1所述的文本纠错模型的训练方法,其特征在于,所述将所述第一训练样本中的所述第一错误文本及对应的第一标注文本分别作为模型输入样本和模型输出样本,对所述旁支模型进行训练,包括:

3.根据权利要求2所述的文本纠错模型的训练方法,其特征在于,所述主纠错模型包括:编码子网络和解码子网络;

4.根据权利要求2所述的文本纠错模型的训练方法,其特征在于,所述旁支模型包括:M层LST网络,M小于N;

5.根据权利要求2所述的文本纠错模型的训练方法,其特征在于,所述根据所述第一解码特征和所述第二解码特征,确定第一预测文本,包括:

6.一种文本纠错方法,其特征在于,包括:

7.一种文本纠错模型的训练装置,其特征在于,文本纠错模型包括:主纠错模型和旁支模型,所述旁支模型为与所述主纠错模型的输出层连接的轻量级神经网络模型,文本纠错模型的训练装置包括:

8.一种文本纠错装置,其特征在于,包括:

9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述的文本纠错模型的训练方法,或者,所述处理器执行所述计算机程序时实现如权利要求6所述的文本纠错方法。

10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的文本纠错模型的训练方法,或者,所述计算机程序被处理器执行时实现如权利要求6所述的文本纠错方法。

...

【技术特征摘要】

1.一种文本纠错模型的训练方法,其特征在于,文本纠错模型包括:主纠错模型和旁支模型,所述旁支模型为与所述主纠错模型的输出层连接的轻量级神经网络模型,文本纠错模型的训练方法包括:

2.根据权利要求1所述的文本纠错模型的训练方法,其特征在于,所述将所述第一训练样本中的所述第一错误文本及对应的第一标注文本分别作为模型输入样本和模型输出样本,对所述旁支模型进行训练,包括:

3.根据权利要求2所述的文本纠错模型的训练方法,其特征在于,所述主纠错模型包括:编码子网络和解码子网络;

4.根据权利要求2所述的文本纠错模型的训练方法,其特征在于,所述旁支模型包括:m层lst网络,m小于n;

5.根据权利要求2所述的文本纠错模型的训练方法,其特征在于,所述根据所述第一解码特征和所述第二解码特征,确定第一预测文本,包括:

6.一种文本纠错方法,...

【专利技术属性】
技术研发人员:吴文先余晓填肖嵘罗忆
申请(专利权)人:深圳云天励飞技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1