一种基于编辑方法的文本对比学习纠错系统、方法及装置制造方法及图纸

技术编号：33636202 阅读：14 留言：0更新日期：2022-06-02 01:49

本发明专利技术公开了一种基于编辑方法的文本对比学习纠错系统、方法及装置，涉及文本纠错技术领域。本发明专利技术首先对输入的源文本送入编码器和解码器A，得到源文本表示向量，通过表示向量预测出对每个字符需要进行的操作，利用预测出的操作及文本表示向量预测出操作在文本的结束位置，接着将文本表示向量、对文本的操作以及操作结束位置输入解码器B预测出替换内容。最后通过编辑算法，对源文本进行编辑操作，得到目标文本。相较于端到端纠错模型，本实施例通过引入对比学习模块，增加了编码模块的表示能力；分步骤操作，提高了模型可解释性以及可控性；通过设置各解码器预测内容，可按需操作，适用于不同场景任务。适用于不同场景任务。适用于不同场景任务。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于编辑方法的文本对比学习纠错系统、方法及装置

[0001]本专利技术涉及文本纠错
，尤其涉及一种基于编辑方法的文本对比学习纠错系统、方法及装置。

技术介绍

[0002]随着科技的进步与时代的发展，越来越多的智能技术运用在我们日常生活中，帮助我们更好的处理工作与生活中的各种任务。在文字办公时尤其是政务领域对文本字词使用正确与否及其敏感，故需要我们通过技术的手段对源文本进行文本纠错。
[0003]文本纠错主要是针对文本中出现的错误进行检测和纠正，属于综合性的自然语言处理研究子方向，能够比较全面体现自然语言处理的技术水平，且具有广阔的应用前景。
[0004]国内外已经有诸如飞鹰智能文本校对系统、pycorector、NOUNPLUS、Ginger等文本纠错工具投入使用，这些系统根据使用者目的找出文本中的拼写错误，语法错误。中文文本纠错有两种解决思路，基于规则和深度模型。基于规则的解决思路：通过切词，从字粒度和词粒度两方面检测，形成疑似错误位置候选集，遍历疑似错误位置，并使用音似、形似词典替换错误位置的词，通过语言模型计算句子困惑度，对所有候选集结果比较并排序，得到最优纠正词。此方法需要人工提取特征，创建候选词典，过程繁琐且难以适用于复杂场景。基于深度模型的解决思路：深度模型实现大多使用端到端的方法，利用深度神经网络模型的强大语言表征能力以及语言建模能力，进行文本纠错，此种方法避免了人工提取特征，且对文本任务的拟合能力强。
[0005]深度模型提供的“端到端”的学习范式，整个学习的流程并不...

【技术保护点】

【技术特征摘要】
1.一种基于编辑方法的文本对比学习纠错系统，用于对源文本进行文本纠错，其特征在于，包括编码器、解码器A、解码器B和编辑算法模块；所述编码器用于将源文本转化为表示向量，所述编码器通过正文本样例与负文本样例训练得到，并利用对比损失公式，拉近相似正文本样例表示向量之间的距离，扩大非相似样本之间的表示向量距离，并将表示向量对齐，得到表示向量；所述解码器A用于对表示向量进行操作预测t与结束位置预测p，得到文本操作序列和文本结束位置序列；所述解码器B用于对表示向量进行替换内容预测r，得到文本替换内容序列；所述编辑算法模块根据解码器A与解码器B得到的文本操作序列、文本结束位置序列和文本替换内容序列进行文本编辑合成，通过文本操作序列选择对应执行操作，通过文本结束位置序列选择对应执行操作位置，通过文本替换内容序列在文本对应位置按照对应操作填充替换内容，得到目标文本，完成文本纠错。2.根据权利要求1所述的一种基于编辑方法的文本对比学习纠错系统，其特征在于，所述编码器、解码器A和解码器B均通过Transformer模块进行设置，并通过已标注训练样本进行训练得到预测模型。3.根据权利要求1所述的一种基于编辑方法的文本对比学习纠错系统，其特征在于，对比损失训练公式如下：其中，N表示训练样本数，(h
i
，h
’
i
)表示正样本句子对；(h
i
，h
j
)表示负样本句子对；(h
i
，h
’
j
)表示扩展的负样本句子对；i与j表示同批不同类的数据。4.一种基于编辑方法的文本对比学习纠错方法，运用于如权利要求1至权利要求3任意一项所述的一种基于编辑方法的文本对比学习纠错系统中，其特征在于，将源文本的文本纠错任务分割为操作预测t、结束位置预测p和替换内容预测r，并通过对应解码器进行预测；所述操作预测t和结束位置预测p通过解码器A进行，所述替换内容预测r通过解码器B进行。5.根据权利要求4所述的一种基于编辑方法的文本对比学习纠错方法，其特征在于，通过以下步骤实现对原文本的对比学习纠错：S1获取待纠错的源文本；S2将源文本送入编码器进行编码，得到表示向量；S3将表示向量送入解码器A并进行操作预测t，得到文本操作序列；S4将文本操作序列和表示向量共同送入解码器A并进行结束位置预测p，得到文本结束位置序列；S5将表示向量、文本操作序列和文本结束位置序列送入解码器B并进行替换内容预测r，得到文本替换内容序列；S6将表示向量、文本操作序列、文本结束位置序列和文本替换内容序列送入编辑算法模块并进行文本算法编辑，得到目标文本；
S7根据所得目标文本，完成最终的文本纠错与替换。6.根据权利要求4所述的一种基于编辑方法的文本对比学习纠错方法，其特征在于，通过如下步骤训练得到编码器：D1通过人工/机器进行训练正负样本数据采集，得到正文本样例h
i
与负文本样例h
j
；D2对正文本样例h
i
与负文本样例h
j
进行数据扩增，得到正文本扩增样例h
’
i
与负文本扩增样例h
’
j
；D3组建Transformer编码器模块；D4组合相似的正样本句子对(h
i
，h
’
i
...

【专利技术属性】
技术研发人员：钟勇，陈科，
申请(专利权)人：成都中科信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人