文本纠错方法、系统、电子设备以及介质技术方案

技术编号:37301728 阅读:11 留言:0更新日期:2023-04-21 22:47
本公开实施例涉及文本纠错方法、系统、电子设备以及介质。该方法包括:获取包括源句和目标句的样本标签,并对样本标签中的源句随机添加掩码,获得带有掩码的源句;将带有掩码的源句输入训练模型,获得预测结果;根据所述样本标签的源句、目标句和预测结果计算精确率和召回率;对多个样本标签的精确率和召回率计算平均精确率和平均召回率,并根据平均精确率和平均召回率计算精确率和召回率的调和平均数F1;以及根据所述调和平均数F1调整所述训练模型,并将调整之后的训练模型作为文本纠错模型。型。型。

【技术实现步骤摘要】
文本纠错方法、系统、电子设备以及介质


[0001]本公开涉及机器学习和人工智能领域,具体地,涉及文本纠错方法、系统、电子设备以及介质。

技术介绍

[0002]文本纠错旨在对用户的文本输入进行客观性纠正,如错别字、不规范表达等。通过对大数据的学习,以往的纠错模型会对常见错误进行有效地纠正,却很难学习到尚未见到的错误模式。然而对于一个需要服务于多个不同领域的通用纠错系统,由于领域之间的相关表达和知识具有差别,模型很难在训练中见到所有类型的错误。

技术实现思路

[0003]提供该
技术实现思路
部分以便以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。该
技术实现思路
部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
[0004]根据本公开的一些实施例,提供了一种文本纠错方法,包括:获取包括源句和目标句的样本标签,并对样本标签中的源句随机添加掩码,获得带有掩码的源句;将带有掩码的源句输入训练模型,获得预测结果;根据所述样本标签的源句、目标句和预测结果计算精确率和召回率;对多个样本标签的精确率和召回率计算平均精确率和平均召回率,并根据平均精确率和平均召回率计算精确率和召回率的调和平均数F1;以及根据所述调和平均数F1调整所述训练模型,并将调整之后的训练模型作为文本纠错模型。
[0005]根据本公开的一些实施例,提供了一种文本纠错系统,包括:掩码添加单元,被配置为获取包括源句和目标句的样本标签,并对样本标签中的源句随机添加掩码,获得带有掩码的源句;预测单元,被配置为将带有掩码的源句输入训练模型,获得预测结果;计算单元,被配置为根据所述样本标签的源句、目标句和预测结果计算精确率和召回率,对多个样本标签的精确率和召回率计算平均精确率和平均召回率,并根据平均精确率和平均召回率计算精确率和召回率的调和平均数F1;以及调整单元,被配置为根据所述调和平均数F1调整所述训练模型,并将调整之后的训练模型作为文本纠错模型。
[0006]根据本公开的一些实施例,提供了一种电子设备,包括:存储器;和耦接至存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行本公开中所述的任一实施例的方法。
[0007]根据本公开的一些实施例,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时执行本公开中所述的任一实施例的方法。
[0008]根据本公开的一些实施例,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时执行本公开中所述的任一实施例的方法。
[0009]通过以下参照附图对本公开的示例性实施例的详细描述,本公开的其它特征、方面及其优点将会变得清楚。
附图说明
[0010]下面参照附图说明本公开的优选实施例。此处所说明的附图用来提供对本公开的进一步理解,各附图连同下面的具体描述一起包含在本说明书中并形成说明书的一部分,用于解释本公开。应当理解的是,下面描述中的附图仅仅涉及本公开的一些实施例,而非对本公开构成限制。在附图中:
[0011]图1示出了相关技术中的纠错模型在EXC上的准确率与在INC上的准确率的对比示意图。
[0012]图2示出了通过KL散度表示的利用混淆集的方法对原始数据分布产生的分布差的示意图。
[0013]图3示出了根据本公开的示例性实施例,在掩码添加比率尝试取不同值时得到的参数的结果示意图。
[0014]图4示出了通过KL散度表示的利用混淆集的方法对原始数据分布产生的分布差与利用本公开的MFT对原始数据分布产生的分布差的比较的示意图。
[0015]图5示出了根据本公开的示例性实施例的文本纠错系统的训练方法的示意性流程图。
[0016]图6示出了对MFT模型与finetune模型的召回进行比较的示意图。
[0017]图7示出了根据本公开的示例性实施例的文本纠错系统的示意性框图。
[0018]图8示出了根据本公开的示例性实施例的电子设备的示意性框图。
[0019]图9示出了根据本公开的示例性实施例中可采用的计算机系统的示例结构的框图。
[0020]应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不一定是按照实际的比例关系绘制的。在各附图中使用了相同或相似的附图标记来表示相同或者相似的部件。因此,一旦某一项在一个附图中被定义,则在随后的附图中可能不再对其进行进一步讨论。
具体实施方式
[0021]下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,但是显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。以下对实施例的描述实际上也仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例。
[0022]应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值应被解释为仅仅是示例性的,不限制本公开的范围。
[0023]本公开中使用的术语“包括”及其变型意指至少包括后面的元件/特征、但不排除其它元件/特征的开放性术语,即“包括但不限于”。此外,本公开使用的术语“包含”及其变型意指至少包含后面的元件/特征、但不排除其它元件/特征的开放性术语,即“包含但不限于”。因此,包括与包含是同义的。术语“基于”意指“至少部分地基于”。
[0024]整个说明书中所称“一个实施例”、“一些实施例”或“实施例”意味着与实施例结合描述的特定的特征、结构或特性被包括在本公开的至少一个实施例中。例如,术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。而且,短语“在一个实施例中”、“在一些实施例中”或“在实施例中”在整个说明书中各个地方的出现不一定全都指的是同一个实施例,但是也可以指同一个实施例。
[0025]需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。除非另有指定,否则“第一”、“第二”等概念并非意图暗示如此描述的对象必须按时间上、空间上、排名上的给定顺序或任何其它方式的给定顺序。
[0026]需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
[0027]本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
[0028]下面结合附图对本公开的实施例进行详细说明,但是本公开并不限于这些具体的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本纠错方法,包括:获取包括源句和目标句的样本标签,并对样本标签中的源句随机添加掩码,获得带有掩码的源句;将带有掩码的源句输入训练模型,获得预测结果;根据所述样本标签的源句、目标句和预测结果计算精确率和召回率;对多个样本标签的精确率和召回率计算平均精确率和平均召回率,并根据平均精确率和平均召回率计算精确率和召回率的调和平均数F1;以及根据所述调和平均数F1调整所述训练模型,并将调整之后的训练模型作为文本纠错模型。2.根据权利要求1所述的文本纠错方法,其中调和平均数2.根据权利要求1所述的文本纠错方法,其中调和平均数3.根据权利要求1所述的文本纠错方法,还包括:根据源句中的错误对于训练模型是否是第一次出现将多个样本标签分成两类,第一类为源句中的错误对于训练模型是第一次出现,第二类为源句中的错误对于训练模型不是第一次出现。4.根据权利要求3所述的文本纠错方法,还包括:分别对第一类和第二类中的多个样本标签的精确率和召回率取平均,得到第一类样本标签的平均精确率和平均召回率以及第二类样本标签的平均精确率和平均召回率;以及根据第一类样本标签的平均精确率和平均召回率计算E

F1,并且根据第二类样本标签的平均精确率和平均召回率计算I

F1,其中E

F1为训练模型在那些训练时没有见过的错误上的精确率和召回率的调和平均数F1,并且I

F1为训练模型在那些训练时见过的错误上的精确率和召回率的调和平均数F1。5.根据权利要求1

4中任一项所述的文本纠错方法,其中对源句随机添加掩码的比率为0.1

0.3。6.根据权利要求1

4中任一项所述的文本纠错方法,还包括:将待纠错的源句输入所述文本纠错模型,获得纠错后的目标句。7.一种文本纠错系统,包括:掩码添加单元,被配置为获取包括源句和目标句的样本标签,并对样本标签中的源句随机添加掩码,获得带有掩码的源句;预测单元,被配置为将带有掩码的源句输入训练模型,获得预测结果;计算单元,被配置为根据所述样本标签的源句、目标句和预测结果计算精...

【专利技术属性】
技术研发人员:张少华伍鸿秋张雨辰
申请(专利权)人:北京有竹居网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1