【技术实现步骤摘要】
一种文本校正方法、装置、电子设备及计算机存储介质
[0001]本申请属于语言处理
,尤其涉及一种文本校正方法、装置、电子设备及计算机存储介质。
技术介绍
[0002]随着移动互联网技术的不断进步,在文本进行扫描或录入时,极易发生人为错误或机器识别错误,可以通过计算机对文本进行自动校正,以避免出现由于文本错误而导致工作效率降低的问题。
[0003]传统的文本校正方法是通过混淆度阈值对文本中出现的错误进行识别,再基于同音字或形近字候选集对文本进行纠错,但传统的文本校正方法对待校正文本的质量要求比较高,并且混淆度对文本长度较为敏感,导致传统文本校正方法对错误类型识别的效果较差,容易造成误纠。
技术实现思路
[0004]本申请实施例提供一种文本校正方法、装置、电子设备及计算机存储介质,能够提高对文本错误类型识别的准确度,降低出现误纠的可能性。
[0005]第一方面,本申请实施例提供一种文本校正方法,该方法可以包括:
[0006]获取待校正文本;
[0007]对待校正文本当中的每个字符进行向量转换,得到N个第一字向量,N为正整数;
[0008]将N个第一字向量输入到文本校正模型的识别子模型中,通过识别子模型对N个第一字向量进行错误识别,得到第一错误识别结果,第一错误识别结果包括第三字向量和第三字向量对应的文本错误类型,第三字向量为N个第一字向量中存在文本错误的字向量;
[0009]将第一错误识别结果,输入到文本校正模型的纠错子模型中,通过纠错子模型对第一错误 ...
【技术保护点】
【技术特征摘要】
1.一种文本校正方法,其特征在于,包括:获取待校正文本;对所述待校正文本当中的每个字符进行向量转换,得到N个第一字向量,所述N为正整数;将所述N个第一字向量输入到文本校正模型的识别子模型中,通过所述识别子模型对所述N个第一字向量进行错误识别,得到第一错误识别结果,所述第一错误识别结果包括第三字向量和所述第三字向量对应的文本错误类型,所述第三字向量为N个第一字向量中存在文本错误的字向量;将所述第一错误识别结果,输入到文本校正模型的纠错子模型中,通过所述纠错子模型对所述第一错误识别结果中的所述第三字向量进行错误纠正,得到M个第二字向量,所述M为正整数;根据所述M个第二字向量,得到目标校正文本。2.根据权利要求1所述的方法,其特征在于,所述文本错误类型包括缺失、冗余、误用和乱序中的至少一项;所述将所述N个第一字向量输入到文本校正模型的识别子模型中,通过所述识别子模型对所述N个第一字向量进行错误识别,得到第一错误识别结果,包括:将所述N个第一字向量输入到文本校正模型的识别子模型中,通过所述识别子模型对所述N个第一字向量进行错误识别,得到第一错误识别结果;根据所述第三字向量对应的文本错误类型对所述第三字向量执行第一标记操作,第一标记用于指示所述第三字向量对应的文本错误类型;所述将所述第一错误识别结果,输入到文本校正模型的纠错子模型中,通过所述纠错子模型对所述第一错误识别结果中的所述第三字向量进行错误纠正,得到M个第二字向量,包括:将所述第一错误识别结果,输入到文本校正模型的纠错子模型中,通过所述纠错子模型,根据所述第一标记,对所述第一错误识别结果中的所述第三字向量进行错误纠正,得到M个第二字向量。3.根据权利要求1所述的方法,其特征在于,所述将所述N个第一字向量输入到文本校正模型的识别子模型中,通过所述识别子模型对所述N个第一字向量进行错误识别,得到第一错误识别结果,包括:将所述N个第一字向量输入到文本校正模型的识别子模型中,通过所述识别子模型对所述N个第一字向量进行错误识别;在识别概率大于预设阈值的情况下,得到第一错误识别结果。4.根据权利要求2所述的方法,其特征在于,所述将所述第一错误识别结果,输入到文本校正模型的纠错子模型中,通过所述纠错子模型,根据所述第一标记,对所述第一错误识别结果中的所述第三字向量进行错误纠正,得到M个第二字向量,包括:将所述第一错误识别结果,输入到文本校正模型的纠错子模型中,通过所述纠错子模型,根据所述第一标记指示的文本错误类型,确定对第三字向量执行的第一纠错操作;执行所述第一纠错操作,得到M个第二字向量。5.根据权利要求4所述的方法,其特征在于,所述将所述第一错误识别结果,输入到文本校正模型的纠错子模型中,通过所述纠错子模型,根据所述第一标记指示的文本错误类
型,确定对第三字向量执行的第一纠错操作,包括:在所述第一标记指示的文本错误类型为冗余的情况下,第一纠错操作包括删除所述第三字向量;在所述第一标记指示的文本错误类型为乱序的情况下,第一纠错操作包括,将所述第三字向量,与所述第一标记指示的文本错误类型为乱序的相邻第三字向量的位置互换。6.根据权利要求5所述的方法,其特征在于,所述将所述第一错误识别结果,输入到文本校正模型的纠错子模型中,通过所述纠错子模型,根据所述第一标记指示的文本错误类型,确定对第三字向量执行的第一纠错操作,包括:在所述第一标记指示的文本错误类型为缺失的情况下,第一纠错操作包括,根据所述第三字向量和所述第一标记指示的文本错误类型,确定缺失字向量;根据所述缺失字向量和第一标记指示的文本错误类型,组成第二标记;获取预设标记集合,所述预设标记集合是由多个预设标记组成的,所述预设标记集合是对待训练纠错子模型进行迭代训练时得到的;对比所述第二标记和所述多个预设标记;在多个预设标记中存在与所述第二标记相同的预设标记的情况下,在第三字向量之后添加所述缺失字向量。7.根据权利要求6所述的方法,其特征在于,所述将所述第一错误识别结果,输入到文本校正模型的纠错子模型中,通过所述纠错子模型,根据所述第一标记指示的文本错误类型,确定对第三字向量执行的第一纠错操作,包括:在所述第一标记指示的文本错误类型为误用的情况下,第一纠错操作包括,获取预设标记集合,所述预设标记集合包括多个预设标记及其对应的纠错概率,所述纠错概率是对待训练纠错子模型进行迭代训练得到的,预设标记包括所指示的文本错误类型和预设字向量;在所述多个预设标记中选择满足以下条件的目标预设标记,条件包括:符合所述第一标记指示的文本错误类型、所述第三字向量与所述预设字向量的编辑...
【专利技术属性】
技术研发人员:崔震,罗奕康,聂砂,张士存,郑江,戴菀庭,王伊妍,
申请(专利权)人:建信金融科技有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。