一种文本校正方法、装置、电子设备及计算机存储介质制造方法及图纸

技术编号:35944611 阅读:19 留言:0更新日期:2022-12-14 10:34
本申请公开了一种文本校正方法、装置、电子设备及计算机存储介质,该方法对待校正文本进行向量转换。得到N个第一字向量后,输入文本校正模型的识别子模型,对N个第一字向量进行错误识别,得到第一错误识别结果。再将第一错误识别结果输入纠错子模型,根据文本错误类型对第三字向量进行错误纠正,得到M个第二字向量。根据M个第二字向量得到目标校正文本。通过将待校正文本转换为字向量,能够对每个第一字向量进行识别,识别得到错误字向量以及对应错误类型后,对错误字向量进行纠错,能够从字向量的维度对文本错误类型进行识别,进而降低对待校正文本长度的敏感度,提高对错误类型识别的准确度,降低出现误纠的可能性。降低出现误纠的可能性。降低出现误纠的可能性。

【技术实现步骤摘要】
一种文本校正方法、装置、电子设备及计算机存储介质


[0001]本申请属于语言处理
,尤其涉及一种文本校正方法、装置、电子设备及计算机存储介质。

技术介绍

[0002]随着移动互联网技术的不断进步,在文本进行扫描或录入时,极易发生人为错误或机器识别错误,可以通过计算机对文本进行自动校正,以避免出现由于文本错误而导致工作效率降低的问题。
[0003]传统的文本校正方法是通过混淆度阈值对文本中出现的错误进行识别,再基于同音字或形近字候选集对文本进行纠错,但传统的文本校正方法对待校正文本的质量要求比较高,并且混淆度对文本长度较为敏感,导致传统文本校正方法对错误类型识别的效果较差,容易造成误纠。

技术实现思路

[0004]本申请实施例提供一种文本校正方法、装置、电子设备及计算机存储介质,能够提高对文本错误类型识别的准确度,降低出现误纠的可能性。
[0005]第一方面,本申请实施例提供一种文本校正方法,该方法可以包括:
[0006]获取待校正文本;
[0007]对待校正文本当中的每个字符进行向量转换,得到N个第一字向量,N为正整数;
[0008]将N个第一字向量输入到文本校正模型的识别子模型中,通过识别子模型对N个第一字向量进行错误识别,得到第一错误识别结果,第一错误识别结果包括第三字向量和第三字向量对应的文本错误类型,第三字向量为N个第一字向量中存在文本错误的字向量;
[0009]将第一错误识别结果,输入到文本校正模型的纠错子模型中,通过纠错子模型对第一错误识别结果中的第三字向量进行错误纠正,得到M个第二字向量,M为正整数;
[0010]根据M个第二字向量,得到目标校正文本。
[0011]在其中一个实施例中,文本错误类型包括缺失、冗余、误用和乱序中的至少一项;上述涉及到的将N个第一字向量输入到文本校正模型的识别子模型中,通过识别子模型对N个第一字向量进行错误识别,得到第一错误识别结果,可以包括:
[0012]将N个第一字向量输入到文本校正模型的识别子模型中,通过识别子模型对N个第一字向量进行错误识别,得到第一错误识别结果;
[0013]根据第三字向量对应的文本错误类型对第三字向量执行第一标记操作,第一标记用于指示第三字向量对应的文本错误类型;
[0014]相应的,上述涉及到的将第一错误识别结果,输入到文本校正模型的纠错子模型中,通过纠错子模型对第一错误识别结果中的第三字向量进行错误纠正,得到M个第二字向量,可以包括:
[0015]将第一错误识别结果,输入到文本校正模型的纠错子模型中,通过纠错子模型,根
据第一标记,对第一错误识别结果中的第三字向量进行错误纠正,得到M个第二字向量。
[0016]在其中一个实施例中,上述涉及到的将N个第一字向量输入到文本校正模型的识别子模型中,通过识别子模型对N个第一字向量进行错误识别,得到第一错误识别结果,可以包括:
[0017]将N个第一字向量输入到文本校正模型的识别子模型中,通过识别子模型对N个第一字向量进行错误识别;
[0018]在识别概率大于预设阈值的情况下,得到第一错误识别结果。
[0019]在其中一个实施例中,上述涉及到的将第一错误识别结果,输入到文本校正模型的纠错子模型中,通过纠错子模型,根据第一标记,对第一错误识别结果中的第三字向量进行错误纠正,得到M个第二字向量,可以包括:
[0020]将第一错误识别结果,输入到文本校正模型的纠错子模型中,通过纠错子模型,根据第一标记指示的文本错误类型,确定对第三字向量执行的第一纠错操作;
[0021]执行第一纠错操作,得到M个第二字向量。
[0022]在其中一个实施例中,上述涉及到的将第一错误识别结果,输入到文本校正模型的纠错子模型中,通过纠错子模型,根据第一标记指示的文本错误类型,确定对第三字向量执行的第一纠错操作,可以包括:
[0023]在第一标记指示的文本错误类型为冗余的情况下,第一纠错操作包括删除第三字向量;
[0024]在第一标记指示的文本错误类型为乱序的情况下,第一纠错操作包括,将第三字向量,与第一标记指示的文本错误类型为乱序的相邻第三字向量的位置互换。
[0025]在其中一个实施例中,上述涉及到的将第一错误识别结果,输入到文本校正模型的纠错子模型中,通过纠错子模型,根据第一标记指示的文本错误类型,确定对第三字向量执行的第一纠错操作,可以包括:
[0026]在第一标记指示的文本错误类型为缺失的情况下,第一纠错操作包括,根据第三字向量和第一标记指示的文本错误类型,确定缺失字向量;
[0027]根据缺失字向量和第一标记指示的文本错误类型,组成第二标记;
[0028]获取预设标记集合,预设标记集合是由多个预设标记组成的,预设标记集合是对待训练纠错子模型进行迭代训练时得到的;
[0029]对比第二标记和多个预设标记;
[0030]在多个预设标记中存在与第二标记相同的预设标记的情况下,在第三字向量之后添加缺失字向量。
[0031]在其中一个实施例中,上述涉及到的将第一错误识别结果,输入到文本校正模型的纠错子模型中,通过纠错子模型,根据第一标记指示的文本错误类型,确定对第三字向量执行的第一纠错操作,可以包括:
[0032]在第一标记指示的文本错误类型为误用的情况下,第一纠错操作包括,获取预设标记集合,预设标记集合包括多个预设标记及其对应的纠错概率,纠错概率是对待训练纠错子模型进行迭代训练得到的,预设标记包括所指示的文本错误类型和预设字向量;
[0033]在多个预设标记中选择满足以下条件的目标预设标记,条件包括:符合第一标记指示的文本错误类型、第三字向量与预设字向量的编辑距离不大于预设范围;
[0034]在选择得到至少一个目标预设标记的情况下,根据纠错概率最高的目标预设标记中的预设字向量,替换第三字向量。
[0035]在其中一个实施例中,在上述涉及到的对待校正文本当中的每个字符进行向量转换之前,还可以包括:
[0036]对待校正文本进行预处理,预处理包括删除空格、删除换行符和按照标点符号分割成短句。
[0037]在其中一个实施例中,在上述涉及到的将N个第一字向量输入到文本校正模型的识别子模型中,通过识别子模型对N个第一字向量进行错误识别,得到第一错误识别结果之前,还可以包括:
[0038]基于K个第四字向量,进行文本错误构建操作,得到文本错误和J个第六字向量,K为正整数,J为正整数;
[0039]其中,文本错误包括第五字向量和第五字向量对应的文本错误类型,第五字向量是K个第四字向量中进行文本错误构建操作的字向量,J个第六字向量是对K个第四字向量进行文本错误构建操作后得到的字向量;
[0040]根据K个第四字向量、文本错误和J个第六字向量,得到第一训练样本。
[0041]在其中一个实施例中,在上述涉及到的根据K个第四字向量、文本错误和J个第六字向量,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本校正方法,其特征在于,包括:获取待校正文本;对所述待校正文本当中的每个字符进行向量转换,得到N个第一字向量,所述N为正整数;将所述N个第一字向量输入到文本校正模型的识别子模型中,通过所述识别子模型对所述N个第一字向量进行错误识别,得到第一错误识别结果,所述第一错误识别结果包括第三字向量和所述第三字向量对应的文本错误类型,所述第三字向量为N个第一字向量中存在文本错误的字向量;将所述第一错误识别结果,输入到文本校正模型的纠错子模型中,通过所述纠错子模型对所述第一错误识别结果中的所述第三字向量进行错误纠正,得到M个第二字向量,所述M为正整数;根据所述M个第二字向量,得到目标校正文本。2.根据权利要求1所述的方法,其特征在于,所述文本错误类型包括缺失、冗余、误用和乱序中的至少一项;所述将所述N个第一字向量输入到文本校正模型的识别子模型中,通过所述识别子模型对所述N个第一字向量进行错误识别,得到第一错误识别结果,包括:将所述N个第一字向量输入到文本校正模型的识别子模型中,通过所述识别子模型对所述N个第一字向量进行错误识别,得到第一错误识别结果;根据所述第三字向量对应的文本错误类型对所述第三字向量执行第一标记操作,第一标记用于指示所述第三字向量对应的文本错误类型;所述将所述第一错误识别结果,输入到文本校正模型的纠错子模型中,通过所述纠错子模型对所述第一错误识别结果中的所述第三字向量进行错误纠正,得到M个第二字向量,包括:将所述第一错误识别结果,输入到文本校正模型的纠错子模型中,通过所述纠错子模型,根据所述第一标记,对所述第一错误识别结果中的所述第三字向量进行错误纠正,得到M个第二字向量。3.根据权利要求1所述的方法,其特征在于,所述将所述N个第一字向量输入到文本校正模型的识别子模型中,通过所述识别子模型对所述N个第一字向量进行错误识别,得到第一错误识别结果,包括:将所述N个第一字向量输入到文本校正模型的识别子模型中,通过所述识别子模型对所述N个第一字向量进行错误识别;在识别概率大于预设阈值的情况下,得到第一错误识别结果。4.根据权利要求2所述的方法,其特征在于,所述将所述第一错误识别结果,输入到文本校正模型的纠错子模型中,通过所述纠错子模型,根据所述第一标记,对所述第一错误识别结果中的所述第三字向量进行错误纠正,得到M个第二字向量,包括:将所述第一错误识别结果,输入到文本校正模型的纠错子模型中,通过所述纠错子模型,根据所述第一标记指示的文本错误类型,确定对第三字向量执行的第一纠错操作;执行所述第一纠错操作,得到M个第二字向量。5.根据权利要求4所述的方法,其特征在于,所述将所述第一错误识别结果,输入到文本校正模型的纠错子模型中,通过所述纠错子模型,根据所述第一标记指示的文本错误类
型,确定对第三字向量执行的第一纠错操作,包括:在所述第一标记指示的文本错误类型为冗余的情况下,第一纠错操作包括删除所述第三字向量;在所述第一标记指示的文本错误类型为乱序的情况下,第一纠错操作包括,将所述第三字向量,与所述第一标记指示的文本错误类型为乱序的相邻第三字向量的位置互换。6.根据权利要求5所述的方法,其特征在于,所述将所述第一错误识别结果,输入到文本校正模型的纠错子模型中,通过所述纠错子模型,根据所述第一标记指示的文本错误类型,确定对第三字向量执行的第一纠错操作,包括:在所述第一标记指示的文本错误类型为缺失的情况下,第一纠错操作包括,根据所述第三字向量和所述第一标记指示的文本错误类型,确定缺失字向量;根据所述缺失字向量和第一标记指示的文本错误类型,组成第二标记;获取预设标记集合,所述预设标记集合是由多个预设标记组成的,所述预设标记集合是对待训练纠错子模型进行迭代训练时得到的;对比所述第二标记和所述多个预设标记;在多个预设标记中存在与所述第二标记相同的预设标记的情况下,在第三字向量之后添加所述缺失字向量。7.根据权利要求6所述的方法,其特征在于,所述将所述第一错误识别结果,输入到文本校正模型的纠错子模型中,通过所述纠错子模型,根据所述第一标记指示的文本错误类型,确定对第三字向量执行的第一纠错操作,包括:在所述第一标记指示的文本错误类型为误用的情况下,第一纠错操作包括,获取预设标记集合,所述预设标记集合包括多个预设标记及其对应的纠错概率,所述纠错概率是对待训练纠错子模型进行迭代训练得到的,预设标记包括所指示的文本错误类型和预设字向量;在所述多个预设标记中选择满足以下条件的目标预设标记,条件包括:符合所述第一标记指示的文本错误类型、所述第三字向量与所述预设字向量的编辑...

【专利技术属性】
技术研发人员:崔震罗奕康聂砂张士存郑江戴菀庭王伊妍
申请(专利权)人:建信金融科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1