一种文本纠错的方法、装置、设备和可读存储介质制造方法及图纸

技术编号:32856820 阅读:7 留言:0更新日期:2022-03-30 19:29
本申请提供一种文本纠错的方法、装置、设备和可读存储介质,该方法通过获取待纠错文本的描述信息,其中描述信息用于表示待纠错文本的领域信息和识别信息;根据描述信息确定纠错字典,其中纠错字典是由源词语和目标词语构成的有向词对集合,不同的描述信息对应的纠错字典不同;根据纠错字典,对待纠错文本进行文本纠错。通过该方法可以达到提高文本纠错结果正确性和确定性的效果。确性和确定性的效果。确性和确定性的效果。

【技术实现步骤摘要】
一种文本纠错的方法、装置、设备和可读存储介质


[0001]本申请涉及计算机信息技术的领域,具体而言,涉及一种文本纠错的方法、装置、设备和可读存储介质。

技术介绍

[0002]随着计算机信息技术的高速发展,语音输入、手写输入、扫描输入等经常还与自动化系统相结合,进而完成更复杂的任务。但这也对输入的准确性提出了更高的要求,错误的输入将导致下游自动化系统无法正常工作。
[0003]不区分编辑内容对应的领域,盲目的进行文本纠错导致在机器输入和特定场景下纠错效果差。而且现有方案普遍采用概率模型,纠错效果与上下文有关,不能支持对特定词语必须纠错为特定内容的要求。
[0004]因此,如何提高文本纠错结果的正确性,成为亟需解决的技术问题。

技术实现思路

[0005]本申请实施例的目的在于提供一种文本纠错的方法,通过本申请的实施例的技术方案可以达到提高文本纠错结果正确性的效果。
[0006]第一方面,本申请提供了一种文本纠错的方法,该方法通过获取待纠错文本的描述信息,其中描述信息用于表示待纠错文本的领域信息和识别信息;根据描述信息确定纠错字典,其中纠错字典是由源词语和目标词语构成的有向词对集合,不同的描述信息对应的纠错字典不同;根据纠错字典,对待纠错文本进行文本纠错。
[0007]在上述过程中,通过文本的来源和识别信息确定对应的纠错字典,通过将字典中的目标词语依次替换文本中出现错误的源词语,完成文本纠错,通过纠错字典中有向词对进行文本纠错的方式,可以精确的定位特殊词语并且准确的进行正确词语的替换,进而实现文本纠错的准确性。
[0008]可选的,获取待纠错文本的描述信息,包括:
[0009]根据待纠错文本的领域信息和识别信息确定描述信息。
[0010]在上述过程中,通过文本的文本归属、使用场景和识别信息,可以精确的查找字典中对应的有向词对的位置,进而完成目标词语和源词语的替换,使纠错结果更加精确。
[0011]可选的,描述信息,包括:
[0012]应用信息和内容信息,应用信息用于表示待纠错文本的文本归属和使用场景,内容信息用于表示待纠错文本在输入来源中通过时间分割和空间分割得到的内容。
[0013]在上述过程中,通过文本的应用场景和识别信息的不同,可以确定不同字典中对应需要的有向词对。
[0014]可选的,在获取待纠错文本的描述信息之前,所述方法还包括:
[0015]将人工输入的有向词对和/或对已有的有向词对推导出的新的有向词对构建成所述纠错字典。
[0016]在上述过程中,提前构成的纠错字典可以更快更准确的进行对应的有向词对的查找,进而更精确的完成文本的纠错。
[0017]可选的,根据纠错字典,对待纠错文本进行文本纠错,包括:
[0018]根据纠错字典生成文本纠错的方法;
[0019]根据文本纠错的方法,对待纠错文本进行文本纠错。
[0020]在上述过程中,通过文本来源和识别的方式可以找到出错的词语对应的字典,然后将该字典中有向词对中的目标词语替换源词语,完成文本的纠错。
[0021]可选的,根据文本纠错的方法,对待纠错文本进行文本纠错,包括:
[0022]根据文本纠错的方法,将纠错字典中的有向词对中的目标词语依次替换待纠错文本中对应的源词语,完成对待纠错文本的文本纠错。
[0023]在上述过程中,通过不同的纠错字典可以利用文本纠错的方法,分析出具体是什么场景下的什么样的识别信息对应的纠错字典,通过字典遍历查找并替换对应的错误词语,可以使文本纠错更准确。
[0024]可选的,在根据文本纠错的方法,将纠错字典中的有向词对中的目标词语依次替换待纠错文本中对应的源词语之后,所述方法还包括;
[0025]将目标词语作为第二源词语,再次查找第二源词语对应的第二目标词语:
[0026]将第二目标词语替换待纠错文本中对应的源词语,完成对待纠错文本的文本纠错。
[0027]在上述过程中,通过一次的纠错可能达不到最终想要的纠错结果,可以将纠错后的文本按照上述的过程再次进行文本的纠错,达到更精确的文本纠错。
[0028]第二方面,本申请实施例提供了一种文本纠错的装置,包括:
[0029]获取模块,用于获取待纠错文本的描述信息,其中所述描述信息用于表示所述待纠错文本的领域信息和识别信息;
[0030]确定模块,用于根据所述描述信息确定纠错字典,其中所述纠错字典是由源词语和目标词语构成的有向词对集合,不同的所述描述信息对应的所述纠错字典不同;
[0031]纠错模块,用于根据所述纠错字典,对所述待纠错文本进行文本纠错。
[0032]可选的,获取模块具体用于:
[0033]根据待纠错文本的领域信息和识别信息确定描述信息。
[0034]可选的,所述描述信息,包括:
[0035]应用信息和内容信息,应用信息用于表示待纠错文本的文本归属和使用场景,内容信息用于表示待纠错文本在输入来源中通过时间分割和空间分割得到的内容。
[0036]可选的,所述装置还包括:
[0037]构成模块,用于在获取待纠错文本的描述信息之前,将人工输入的有向词对和/或对已有的有向词对推导出的新的有向词对构建成纠错字典。
[0038]可选的,纠错模块具体用于:
[0039]根据纠错字典生成文本纠错的方法;
[0040]根据文本纠错的方法,对待纠错文本进行文本纠错。
[0041]可选的,纠错模块具体用于:
[0042]根据文本纠错的方法,将纠错字典中的有向词对中的目标词语依次替换待纠错文
本中对应的源词语,完成对待纠错文本的文本纠错。
[0043]可选的,所述装置还包括;
[0044]第二纠错模块,用于在所述根据所述文本纠错的方法,将所述纠错字典中的有向词对中的目标词语依次替换所述待纠错文本中对应的源词语之后,将目标词语作为第二源词语,再次查找第二源词语对应的第二目标词语:
[0045]将第二目标词语替换待纠错文本中对应的源词语,完成对待纠错文本的文本纠错。
[0046]第三方面,本申请实施例提供一种电子设备,包括处理器以及存储器,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,运行如上述第一方面提供的所述方法中的步骤。
[0047]第四方面,本申请实施例提供一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时运行如上述第一方面提供的所述方法中的步骤。
[0048]本申请的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
[0049]为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本纠错的方法,其特征在于,包括:获取待纠错文本的描述信息,其中所述描述信息用于表示所述待纠错文本的领域信息和识别信息;根据所述描述信息确定纠错字典,其中所述纠错字典是由源词语和目标词语构成的有向词对集合,不同的所述描述信息对应的所述纠错字典不同;根据所述纠错字典,对所述待纠错文本进行文本纠错。2.根据权利要求1所述的方法,其特征在于,所述获取待纠错文本的描述信息,包括:根据所述待纠错文本的领域信息和所述识别信息确定所述描述信息。3.根据权利要求1或2所述的方法,其特征在于,所述描述信息,包括:应用信息和内容信息,所述应用信息用于表示所述待纠错文本的文本归属和使用场景,所述内容信息用于表示所述待纠错文本在输入来源中通过时间分割和空间分割得到的内容。4.根据权利要求1或2所述的方法,其特征在于,在所述获取待纠错文本的描述信息之前,所述方法还包括:将人工输入的所述有向词对和/或对已有的所述有向词对推导出的新的有向词对构建成所述纠错字典。5.根据权利要求1或2所述的方法,其特征在于,所述根据所述纠错字典,对所述待纠错文本进行文本纠错,包括:根据所述纠错字典生成文本纠错的方法;根据所述文本纠错的方法,对所述待纠错文本进行文本纠错。6.根据权利要求5所述的方法,其特征在于,所述根据所述文本纠错的方法,对所述待纠错文本进行文本纠错,包括:根据...

【专利技术属性】
技术研发人员:王建辉杜新凯吕超刘广鹏郑志敏
申请(专利权)人:阳光保险集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1