System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 文本纠错方法和文本纠错装置、电子设备及介质制造方法及图纸_技高网

文本纠错方法和文本纠错装置、电子设备及介质制造方法及图纸

技术编号:44048224 阅读:21 留言:0更新日期:2025-01-15 01:28
本申请实施例提供了一种文本纠错方法和文本纠错装置、电子设备及介质,属于金融科技技术领域。该方法包括:将目标文本输入文本检错模型进行文本检错得到文本标记数据,文本标记数据用于标记文本字符中的正确字符和错误字符;基于文本标记数据将目标文本输入文本纠错模型;基于字音特征提取子模型提取文本字符的文本字音特征;基于字形特征提取子模型提取文本字形特征,文本字形特征包括错误字符的第一掩码特征;基于语义特征提取子模型提取文本语义特征,文本字形特征包括错误字符的第二掩码特征;基于纠错子模型对文本字音特征、文本字形特征和文本语义特征进行文本预测,得到目标纠错文本。本申请实施例能够提高对文本的纠错准确性。

【技术实现步骤摘要】

本申请涉及金融科技,尤其涉及一种文本纠错方法和文本纠错装置、电子设备及介质


技术介绍

1、在银行、保险公司等金融机构中,通常需要和客户进行大量的自然语言交互,且会产生大量的交互文本。这些交互文本可以是将对话语音经过自动语音识别(automat icspeech recognit ion,asr)技术转译生成的文本,也可以是客户通过键盘输入的文本。因为一些主客观因素的影响,所生成的文本无法保证完全正确,即生成的文本都可能会存在一些文本错误。然而,文本的错误对准确理解客户的意图有着影响,因此文本纠错就显得尤为重要。相关技术所采用的文本纠错方式,通常是考虑文本的语义信息来实现文本纠错,然而这种方式的纠错准确性较低。因此,如何提高对文本的纠错准确性,避免错误文本对客户意图识别的影响,成为了亟待解决的技术问题。


技术实现思路

1、本申请实施例的主要目的在于提出一种文本纠错方法和文本纠错装置、电子设备及介质,旨在提高对文本的纠错准确性,避免错误文本对客户意图识别的影响。

2、为实现上述目的,本申请实施例的第一方面提出了一种文本纠错方法,所述方法包括:获取目标文本,所述目标文本包括文本字符;

3、将所述目标文本输入预先训练的文本检错模型进行文本检错,得到文本标记数据,所述文本标记数据用于标记所述文本字符中的正确字符或者错误字符;

4、基于所述文本标记数据将所述目标文本输入预先训练的文本纠错模型,所述文本纠错模型包括字音特征提取子模型、字形特征提取子模型、语义特征提取子模型和纠错子模型;

5、基于所述字音特征提取子模型对所述目标文本进行字音特征提取,得到所述文本字符的文本字音特征;

6、基于所述字形特征提取子模型对所述目标文本进行字形特征提取,得到文本字形特征,所述文本字形特征包括第一掩码特征,所述第一掩码特征是所述错误字符的字形特征;

7、基于所述语义特征提取子模型对所述目标文本进行语义特征提取,得到文本语义特征,所述文本字形特征包括第二掩码特征,所述第二掩码特征是所述错误字符的语义特征;

8、基于所述纠错子模型对所述文本字音特征、所述文本字形特征和所述文本语义特征进行文本预测,得到目标纠错文本。

9、在一些实施例,所述文本标记数据包括字符错误标记,所述字符错误标记用于指示所述错误字符;所述基于所述文本标记数据将所述目标文本输入预先训练的文本纠错模型,包括:

10、基于所述字符错误标记对所述目标文本进行字符替换,得到替换文本;所述替换文本用于表征将所述目标文本中所述字符错误标记对应的文本字符替换成预设掩码后的文本;

11、根据所述替换文本更新所述目标文本,并将更新后的所述目标文本输入所述文本纠错模型。

12、在一些实施例,所述字形特征提取子模型包括字符向量化层、第一卷积层、第一池化层和第一全连接层,所述基于所述字形特征提取子模型对所述目标文本进行字形特征提取,得到文本字形特征,包括:

13、基于所述字符向量化层对所述目标文本中的所述正确字符进行字符向量化,得到字符图像特征;

14、基于所述字符向量化层对所述预设掩码进行字符向量化,得到所述第一掩码特征;

15、基于所述第一卷积层对所述字符图像特征进行卷积处理,得到字符卷积特征;

16、基于所述第一池化层对所述字符卷积特征进行池化处理,得到字符池化特征;

17、基于所述第一全连接层对所述字符池化特征进行特征融合,得到字符字形特征;

18、基于预设特征大小对所述字符字形特征和所述第一掩码特征进行特征融合,得到所述文本字形特征。

19、在一些实施例,所述基于所述字符向量化层对所述目标文本中的所述正确字符进行字符向量化,得到字符图像特征,包括:

20、对所述目标文本进行文本风格提取,得到文本风格数据;

21、基于所述文本风格数据确定第一预设字体和第二预设字体;

22、基于所述第一预设字体对所述目标文本中的所述正确字符进行字符向量化,得到第一字符图像子特征;

23、基于所述第二预设字体对所述目标文本中的所述正确字符进行字符向量化,得到第二字符图像子特征;

24、对所述第一字符图像子特征和所述第二字符图像子特征进行特征融合,得到所述字符图像特征。

25、在一些实施例,所述语义特征提取子模型包括嵌入层和编码层,所述基于所述语义特征提取子模型对所述目标文本进行语义特征提取,得到文本语义特征,包括:

26、基于所述嵌入层对所述目标文本中的所述正确字符进行语义向量化,得到字符语义特征;

27、基于所述嵌入层对所述目标文本中的所述预设掩码进行语义向量化,得到第二掩码特征;

28、基于所述编码层对所述字符语义特征和所述第二掩码特征进行特征编码,得到所述文本语义特征。

29、在一些实施例,所述字音特征提取子模型包括拼音转换层、第二卷积层、第二池化层和第二全连接层,所述基于所述字音特征提取子模型对所述目标文本进行字音特征提取,得到文本字音特征,包括:

30、基于所述拼音转换层对所述目标文本进行拼音转换,得到文本拼音,所述文本拼音包括字符拼音序列和字符音调标记;

31、基于所述第二卷积层对所述字符拼音序列和所述字符音调标记进行卷积处理,得到字音卷积特征;

32、基于所述第二池化层对所述字音卷积特征进行池化处理,得到字音池化特征;

33、基于所述第二全连接层对所述字音池化特征进行特征融合,得到所述文本字音特征。

34、在一些实施例,所述纠错子模型包括特征融合层和预测层,所述基于所述纠错子模型对所述文本字音特征、所述文本字形特征和所述文本语义特征进行文本预测,得到目标纠错文本,包括:

35、基于所述特征融合层对所述文本字音特征、所述文本字形特征和所述文本语义特征进行特征融合,得到目标文本特征;

36、基于所述预测层对所述目标文本特征进行文本预测,得到所述目标纠错文本。

37、为实现上述目的,本申请实施例的第二方面提出了一种文本纠错装置,所述装置包括:

38、获取模块,用于获取目标文本,所述目标文本包括文本字符;

39、检错模块,用于将所述目标文本输入预先训练的文本检错模型进行文本检错,得到文本标记数据,所述文本标记数据用于标记所述文本字符中的正确字符和错误字符;

40、输入模块,用于基于所述文本标记数据将所述目标文本输入预先训练的文本纠错模型,所述文本纠错模型包括字音特征提取子模型、字形特征提取子模型、语义特征提取子模型和纠错子模型;

41、字音提取模块,用于基于所述字音特征提取子模型对所述目标文本进行字音特征提取,得到所述文本字符的文本字音特征;

42、字形提取模块,用于基于所述字形特征提取子模型对所述目标文本进行字形特本文档来自技高网...

【技术保护点】

1.一种文本纠错方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述文本标记数据包括字符错误标记,所述字符错误标记用于指示所述错误字符;所述基于所述文本标记数据将所述目标文本输入预先训练的文本纠错模型,包括:

3.根据权利要求2所述的方法,其特征在于,所述字形特征提取子模型包括字符向量化层、第一卷积层、第一池化层和第一全连接层,所述基于所述字形特征提取子模型对所述目标文本进行字形特征提取,得到文本字形特征,包括:

4.根据权利要求3所述的方法,其特征在于,所述基于所述字符向量化层对所述目标文本中的所述正确字符进行字符向量化,得到字符图像特征,包括:

5.根据权利要求1至4中任一项所述的方法,其特征在于,所述语义特征提取子模型包括嵌入层和编码层,所述基于所述语义特征提取子模型对所述目标文本进行语义特征提取,得到文本语义特征,包括:

6.根据权利要求1至4中任一项所述的方法,其特征在于,所述字音特征提取子模型包括拼音转换层、第二卷积层、第二池化层和第二全连接层,所述基于所述字音特征提取子模型对所述目标文本进行字音特征提取,得到文本字音特征,包括:

7.根据权利要求1至4中任一项所述的方法,其特征在于,所述纠错子模型包括特征融合层和预测层,所述基于所述纠错子模型对所述文本字音特征、所述文本字形特征和所述文本语义特征进行文本预测,得到目标纠错文本,包括:

8.一种文本纠错装置,其特征在于,所述装置包括:

9.一种电子设备,其特征在于,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的方法。

10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法。

...

【技术特征摘要】

1.一种文本纠错方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述文本标记数据包括字符错误标记,所述字符错误标记用于指示所述错误字符;所述基于所述文本标记数据将所述目标文本输入预先训练的文本纠错模型,包括:

3.根据权利要求2所述的方法,其特征在于,所述字形特征提取子模型包括字符向量化层、第一卷积层、第一池化层和第一全连接层,所述基于所述字形特征提取子模型对所述目标文本进行字形特征提取,得到文本字形特征,包括:

4.根据权利要求3所述的方法,其特征在于,所述基于所述字符向量化层对所述目标文本中的所述正确字符进行字符向量化,得到字符图像特征,包括:

5.根据权利要求1至4中任一项所述的方法,其特征在于,所述语义特征提取子模型包括嵌入层和编码层,所述基于所述语义特征提取子模型对所述目标文本进行语义特征提取,得到文本语义特征,包括:

6...

【专利技术属性】
技术研发人员:于凤英王健宗程宁
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1