一种基于编辑方法的文本对比学习纠错系统、方法及装置制造方法及图纸

技术编号:33636202 阅读:14 留言:0更新日期:2022-06-02 01:49
本发明专利技术公开了一种基于编辑方法的文本对比学习纠错系统、方法及装置,涉及文本纠错技术领域。本发明专利技术首先对输入的源文本送入编码器和解码器A,得到源文本表示向量,通过表示向量预测出对每个字符需要进行的操作,利用预测出的操作及文本表示向量预测出操作在文本的结束位置,接着将文本表示向量、对文本的操作以及操作结束位置输入解码器B预测出替换内容。最后通过编辑算法,对源文本进行编辑操作,得到目标文本。相较于端到端纠错模型,本实施例通过引入对比学习模块,增加了编码模块的表示能力;分步骤操作,提高了模型可解释性以及可控性;通过设置各解码器预测内容,可按需操作,适用于不同场景任务。适用于不同场景任务。适用于不同场景任务。

【技术实现步骤摘要】
一种基于编辑方法的文本对比学习纠错系统、方法及装置


[0001]本专利技术涉及文本纠错
,尤其涉及一种基于编辑方法的文本对比学习纠错系统、方法及装置。

技术介绍

[0002]随着科技的进步与时代的发展,越来越多的智能技术运用在我们日常生活中,帮助我们更好的处理工作与生活中的各种任务。在文字办公时尤其是政务领域对文本字词使用正确与否及其敏感,故需要我们通过技术的手段对源文本进行文本纠错。
[0003]文本纠错主要是针对文本中出现的错误进行检测和纠正,属于综合性的自然语言处理研究子方向,能够比较全面体现自然语言处理的技术水平,且具有广阔的应用前景。
[0004]国内外已经有诸如飞鹰智能文本校对系统、pycorector、NOUNPLUS、Ginger等文本纠错工具投入使用,这些系统根据使用者目的找出文本中的拼写错误,语法错误。中文文本纠错有两种解决思路,基于规则和深度模型。基于规则的解决思路:通过切词,从字粒度和词粒度两方面检测,形成疑似错误位置候选集,遍历疑似错误位置,并使用音似、形似词典替换错误位置的词,通过语言模型计算句子困惑度,对所有候选集结果比较并排序,得到最优纠正词。此方法需要人工提取特征,创建候选词典,过程繁琐且难以适用于复杂场景。基于深度模型的解决思路:深度模型实现大多使用端到端的方法,利用深度神经网络模型的强大语言表征能力以及语言建模能力,进行文本纠错,此种方法避免了人工提取特征,且对文本任务的拟合能力强。
[0005]深度模型提供的“端到端”的学习范式,整个学习的流程并不进行人为的子问题划分,而是完全交给深度学习模型直接学习从原始数据到期望输出的映射;即:端到端的学习其实就是不做其他额外处理,从原始数据输入到任务结果输出,整个训练和预测过程,都是在模型里完成的。但鉴于政务领域文本纠错依赖于政务词典,且表述语句有着较强的逻辑性,端到端模型难以达到预期纠错效果。
[0006]因此,有必要提供一种基于编辑方法的文本对比学习纠错系统、方法及装置来解决上述技术问题。

技术实现思路

[0007]为解决上述技术问题,本专利技术一种基于编辑方法的文本对比学习纠错系统,用于对源文本进行文本纠错,包括编码器、解码器A、解码器B和编辑算法模块。
[0008]具体述的,所编码器用于将源文本转化为表示向量,所述编码器通过正文本样例与负文本样例训练得到,并利用对比损失公式,拉近相似正文本样例表示向量之间的距离,扩大非相似样本之间的表示向量距离,并将表示向量对齐,得到表示向量。
[0009]具体的,所述解码器A用于对表示向量进行操作预测t与结束位置预测p,得到文本操作序列和文本结束位置序列;所述解码器B用于对表示向量进行替换内容预测r,得到文本替换内容序列。
[0010]具体的,所述编辑算法模块根据解码器A与解码器B得到的文本操作序列、文本结束位置序列和文本替换内容序列进行文本编辑合成,通过文本操作序列选择对应执行操作,通过文本结束位置序列选择对应执行操作位置,通过文本替换内容序列在文本对应位置按照对应操作填充替换内容,得到目标文本,完成文本纠错。
[0011]作为更进一步的解决方案,所述编码器、解码器A和解码器B均通过Transformer模块进行设置,并通过已标注训练样本进行训练得到预测模型。
[0012]作为更进一步的解决方案,对比损失训练公式如下:
[0013][0014]其中,N表示训练样本数,(h
i
,h

i
)表示正样本句子对;(h
i
,h
j
)表示负样本句子对;(h
i
,h

j
)表示扩展的负样本句子对;i与j表示同批不同类的数据。
[0015]一种基于编辑方法的文本对比学习纠错方法,运用于如上述任意一项所述的一种基于编辑方法的文本对比学习纠错系统中,将源文本的文本纠错任务分割为操作预测t、结束位置预测p和替换内容预测r,并通过对应解码器进行预测;所述操作预测t和结束位置预测p通过解码器A进行,所述替换内容预测r通过解码器B进行。
[0016]作为更进一步的解决方案,通过以下步骤实现对原文本的对比学习纠错:
[0017]S1获取待纠错的源文本;
[0018]S2将源文本送入编码器进行编码,得到表示向量;
[0019]S3将表示向量送入解码器A并进行操作预测t,得到文本操作序列;
[0020]S4将文本操作序列和表示向量共同送入解码器A并进行结束位置预测p,得到文本结束位置序列;
[0021]S5将表示向量、文本操作序列和文本结束位置序列送入解码器B并进行替换内容预测r,得到文本替换内容序列;
[0022]S6将表示向量、文本操作序列、文本结束位置序列和文本替换内容序列送入编辑算法模块并进行文本算法编辑,得到目标文本;
[0023]S7根据所得目标文本,完成最终的文本纠错与替换。
[0024]作为更进一步的解决方案,通过如下步骤训练得到编码器:
[0025]D1通过人工/机器进行训练正负样本数据采集,得到正文本样例h
i
与负文本样例h
j

[0026]D2对正文本样例h
i
与负文本样例h
j
进行数据扩增,得到正文本扩增样例h

i
与负文本扩增样例h
j


[0027]D3组建Transformer编码器模块;
[0028]D4组合相似的正样本句子对(h
i
,h

i
)、非相似的负样本句子对(h
i
,h
j
)和扩展的负样本句子对(h
i
,h
j

);
[0029]D5将正样本句子对(h
i
,h

i
)、负样本句子对(h
i
,h
j
)和扩展的负样本句子对(h
i
,h
j

)输入Transformer编码器模块进行对比损失训练;
[0030]D6拉近正样本句子对之间的编码距离,扩大负样本句子对之间的编码距离,使Transformer编码器模块学习到正负样本数据之间的表述差异;
[0031]D7完成训练,得到编码器。
[0032]作为更进一步的解决方案,通过如下步骤训练得到解码器A的操作预测t部分:
[0033]A1收集大量待纠错文本,得到学习纠错语料;
[0034]A2对待纠错文本各字符通过人工/机器进行操作标注,得到操作训练序列;
[0035]A3将待纠错文本通过编码器转化为训练表示向量;
[0036]A4将训练表示向量和对应操作训练序列输入Transformer解码器模块进行操作本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于编辑方法的文本对比学习纠错系统,用于对源文本进行文本纠错,其特征在于,包括编码器、解码器A、解码器B和编辑算法模块;所述编码器用于将源文本转化为表示向量,所述编码器通过正文本样例与负文本样例训练得到,并利用对比损失公式,拉近相似正文本样例表示向量之间的距离,扩大非相似样本之间的表示向量距离,并将表示向量对齐,得到表示向量;所述解码器A用于对表示向量进行操作预测t与结束位置预测p,得到文本操作序列和文本结束位置序列;所述解码器B用于对表示向量进行替换内容预测r,得到文本替换内容序列;所述编辑算法模块根据解码器A与解码器B得到的文本操作序列、文本结束位置序列和文本替换内容序列进行文本编辑合成,通过文本操作序列选择对应执行操作,通过文本结束位置序列选择对应执行操作位置,通过文本替换内容序列在文本对应位置按照对应操作填充替换内容,得到目标文本,完成文本纠错。2.根据权利要求1所述的一种基于编辑方法的文本对比学习纠错系统,其特征在于,所述编码器、解码器A和解码器B均通过Transformer模块进行设置,并通过已标注训练样本进行训练得到预测模型。3.根据权利要求1所述的一种基于编辑方法的文本对比学习纠错系统,其特征在于,对比损失训练公式如下:其中,N表示训练样本数,(h
i
,h

i
)表示正样本句子对;(h
i
,h
j
)表示负样本句子对;(h
i
,h

j
)表示扩展的负样本句子对;i与j表示同批不同类的数据。4.一种基于编辑方法的文本对比学习纠错方法,运用于如权利要求1至权利要求3任意一项所述的一种基于编辑方法的文本对比学习纠错系统中,其特征在于,将源文本的文本纠错任务分割为操作预测t、结束位置预测p和替换内容预测r,并通过对应解码器进行预测;所述操作预测t和结束位置预测p通过解码器A进行,所述替换内容预测r通过解码器B进行。5.根据权利要求4所述的一种基于编辑方法的文本对比学习纠错方法,其特征在于,通过以下步骤实现对原文本的对比学习纠错:S1获取待纠错的源文本;S2将源文本送入编码器进行编码,得到表示向量;S3将表示向量送入解码器A并进行操作预测t,得到文本操作序列;S4将文本操作序列和表示向量共同送入解码器A并进行结束位置预测p,得到文本结束位置序列;S5将表示向量、文本操作序列和文本结束位置序列送入解码器B并进行替换内容预测r,得到文本替换内容序列;S6将表示向量、文本操作序列、文本结束位置序列和文本替换内容序列送入编辑算法模块并进行文本算法编辑,得到目标文本;
S7根据所得目标文本,完成最终的文本纠错与替换。6.根据权利要求4所述的一种基于编辑方法的文本对比学习纠错方法,其特征在于,通过如下步骤训练得到编码器:D1通过人工/机器进行训练正负样本数据采集,得到正文本样例h
i
与负文本样例h
j
;D2对正文本样例h
i
与负文本样例h
j
进行数据扩增,得到正文本扩增样例h

i
与负文本扩增样例h

j
;D3组建Transformer编码器模块;D4组合相似的正样本句子对(h
i
,h

i
...

【专利技术属性】
技术研发人员:钟勇陈科
申请(专利权)人:成都中科信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1