文本纠错方法、装置、存储介质及电子设备制造方法及图纸

技术编号:30407027 阅读:29 留言:0更新日期:2021-10-20 11:14
本公开涉及一种文本纠错方法、装置、存储介质及电子设备,无需丰富的先验知识和大量的人力来构建规则,实现对文本的自动纠错。该方法包括:获取原始文本;所述原始文本输入纠错模型中,得到所述纠错模型输出所述原始文本的纠错标签序列,其中,所述纠错模型通过训练样本进行训练得到的,所述训练样本包括待纠错文本和作为所述待纠错文本的标签的文本纠错标签序列,所述纠错标签序列为所述原始文本转换为目标文本的转换条件;根据所述纠错标签序列对所述原始文本进行纠错处理,得到目标文本。得到目标文本。得到目标文本。

【技术实现步骤摘要】
文本纠错方法、装置、存储介质及电子设备


[0001]本公开涉及深度学习
,具体地,涉及一种文本纠错方法、装置、存储介质及电子设备。

技术介绍

[0002]随着人工智能技术的快速发展,深度学习技术也实现了快速发展,将深度学习技术用于对文本的自动纠错(如英语文本的语法纠错),可极大地解放教师资源,还可辅助学生自主学习。
[0003]相关技术中,主要通过两种方式来实现对文本的自动纠错。第一种是基于规则和语言模型的传统方法,来实现文本纠错,但文本的错误形式多样,构建规则需要丰富的先验知识和大量的人力,且无法在准确率和覆盖范围上达到平衡。第二种是采用机器翻译的方式,将原始的文本当作源语言,改正后的文本作为目标语言,利用端到端的模型进行训练,但要保证翻译结果的准确性需要大量标注数据来进行训练,且端到端模型的工作速度慢,会导致翻译效率低下。

技术实现思路

[0004]本公开的目的是提供一种文本纠错方法、装置、存储介质及电子设备,无需丰富的先验知识和大量的人力来构建规则,实现对文本的自动纠错。
[0005]为了实现上述目的,第一方面,本公开提供一种文本纠错方法,所述方法包括:
[0006]获取原始文本;
[0007]将所述原始文本输入纠错模型中,得到所述纠错模型输出所述原始文本的纠错标签序列,其中,所述纠错模型通过训练样本进行训练得到的,所述训练样本包括待纠错文本和作为所述待纠错文本的标签的文本纠错标签序列,所述纠错标签序列为所述原始文本转换为目标文本的转换条件;
[0008]根据所述纠错标签序列对所述原始文本进行纠错处理,得到目标文本。
[0009]可选地,所述纠错模型的输出层后还包括预测层;
[0010]所述将所述原始文本输入纠错模型中,得到所述纠错模型输出所述原始文本的纠错标签序列,包括:
[0011]将所述输出层输出的对应所述原始文本中各单词的向量输入到所述预测层中;
[0012]所述预测层根据预设标签表获取所述原始文本中各单词的向量的纠错标签,得到所述纠错文本的纠错标签序列。
[0013]可选地,所述文本纠错标签序列的获取方式包括:
[0014]获取文本序列对,所述文本序列对包括待纠错文本序列和对应所述待纠错文本的目标文本序列;
[0015]根据预设转换操作和预设标签表,对所述待纠错文本序列进行文本序列匹配,获取所述待纠错文本序列转换为对应所述待纠错文本序列的目标文本序列的文本纠错标签
序列。
[0016]可选地,所述预设转换操作包括插入操作、删除操作以及替换操作,其中,所述插入操作表示在所述原始文本中插入单词,所述删除操作表示删除所述原始文本中的目标单词,所述替换操作表示对所述原始文本中的目标单词进行替换。
[0017]可选地,所述预设标签表包括保持标签、删除标签、插入标签以及替换标签,其中,所述保持标签用于指示被标记的单词保持不变,所述删除标签用于指示删除被标记的单词,所述插入标签用于指示在被标记的单词后面插入单词,所述替换标签用于指示将被标记的单词进行替换。
[0018]可选地,所述替换标签包括动词形态变化表、形容词形态变化表、名词形态变化表以及单词大小写变化标签,其中,所述动词形态变化表包含动词不同形态的转换关系,所述形容词形态变化表包括形容词的比较级状态和最高级状态的转换关系,所述名词形态变化表包括名词的单复数形态转换关系,所述单词大小写变化标签包括源单词到目标单词的转换关系;
[0019]所述插入标签包括单词原形表,所述单词原形表包括单词原形与单词的不同形态的对应关系。
[0020]可选地,所述根据所述纠错标签序列对所述原始文本进行纠错处理,得到目标文本,包括:
[0021]根据所述纠错标签序列对所述原始文本进行纠错处理,得到纠错文本;
[0022]将所述纠错文本输入所述纠错模型中,所述纠错模型输出所述纠错文本的纠错标签序列;
[0023]根据所述纠错文本的纠错标签序列对所述纠错文本进行纠错处理,直至所述纠错处理次数达到预设纠错次数或者相邻两次纠错处理得到的纠错文本一致的情况下,确定当前纠错处理得到的纠错文本为目标文本。
[0024]第二方面,本公开提供一种文本纠错装置,所述装置包括:
[0025]获取模块,被配置成用于获取原始文本;
[0026]执行模块,被配置成用于将所述原始文本输入纠错模型中,得到所述纠错模型输出所述原始文本的纠错标签序列,其中,所述纠错模型通过训练样本进行训练得到的,所述训练样本包括待纠错文本和作为所述待纠错文本的标签的文本纠错标签序列,所述纠错标签序列为所述原始文本转换为目标文本的转换条件;
[0027]处理模块,被配置成用于根据所述纠错标签序列对所述原始文本进行纠错处理,得到目标文本。
[0028]第三方面,本公开提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现第一方面中任一项所述的文本纠错方法的步骤。
[0029]第四方面,本公开提供一种电子设备,包括:
[0030]存储器,其上存储有计算机程序;
[0031]处理器,用于执行所述存储器中的所述计算机程序,以实现第一方面中任一项所述的文本纠错方法的步骤。
[0032]通过上述技术方案,通过纠错模型获取原始文本的纠错标签序列,根据纠错标签序列对原始文本进行纠错处理,得到目标文本,无需丰富的先验知识和大量人力,提高了纠
错结果的准确率和纠错效率。
[0033]本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
[0034]附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
[0035]图1是根据本公开一示例性实施例示出的一种文本纠错方法的流程图;
[0036]图2是根据本公开一示例性实施例示出的一种文本纠错方法的纠错模型示意图;
[0037]图3是根据本公开一示例性实施例示出的一种文本纠错方法的另一流程图;
[0038]图4是根据本公开一示例性实施例示出的一种文本纠错装置的框图;
[0039]图5是根据本公开一示例性实施例示出的一种电子设备。
具体实施方式
[0040]以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
[0041]正如
技术介绍
所言,相关技术中可采用基于规则和语言模型的传统方法以及机器翻译的方式来实现文本纠错。基于规则和语言模型的传统方法,需要丰富的先验知识和大量的人力来构建规则,在保证纠错结果的准确率的同时无法保证该方法可进行纠错的覆盖范围,若扩大纠错的覆盖范围无法保证纠正结果的准确率。机器翻译的方式需要通过大量的源语言和目标语言来对模型进行训练,提高了纠错成本,且因其模型为端到端模本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本纠错方法,其特征在于,所述方法包括:获取原始文本;将所述原始文本输入纠错模型中,得到所述纠错模型输出所述原始文本的纠错标签序列,其中,所述纠错模型通过训练样本进行训练得到的,所述训练样本包括待纠错文本和作为所述待纠错文本的标签的文本纠错标签序列,所述纠错标签序列为所述原始文本转换为目标文本的转换条件;根据所述纠错标签序列对所述原始文本进行纠错处理,得到目标文本。2.根据权利要求1所述的方法,其特征在于,所述纠错模型的输出层后还包括预测层;所述将所述原始文本输入纠错模型中,得到所述纠错模型输出所述原始文本的纠错标签序列,包括:将所述输出层输出的对应所述原始文本中各单词的向量输入到所述预测层中;所述预测层根据预设标签表获取所述原始文本中各单词的向量的纠错标签,得到所述纠错文本的纠错标签序列。3.根据权利要求1所述的方法,其特征在于,所述文本纠错标签序列的获取方式包括:获取文本序列对,所述文本序列对包括待纠错文本序列和对应所述待纠错文本的目标文本序列;根据预设转换操作和预设标签表,对所述待纠错文本序列进行文本序列匹配,获取所述待纠错文本序列转换为对应所述待纠错文本序列的目标文本序列的文本纠错标签序列。4.根据权利要求3所述的方法,其特征在于,所述预设转换操作包括插入操作、删除操作以及替换操作,其中,所述插入操作表示在所述原始文本中插入单词,所述删除操作表示删除所述原始文本中的目标单词,所述替换操作表示对所述原始文本中的目标单词进行替换。5.根据权利要求3所述的方法,其特征在于,所述预设标签表包括保持标签、删除标签、插入标签以及替换标签,其中,所述保持标签用于指示被标记的单词保持不变,所述删除标签用于指示删除被标记的单词,所述插入标签用于指示在被标记的单词后面插入单词,所述替换标签用于指示将被标记的单词进行替换。6.根据权利要求5所述的方法,其特征在于,所述替换标签包括动词形态变化表、形容词...

【专利技术属性】
技术研发人员:陶俊杰张晓雷杨翕雯时静一邱伟伟
申请(专利权)人:新东方教育科技集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1