一种基于意图一致性的文本纠错方法、装置和介质制造方法及图纸

技术编号：37636388 阅读：29 留言：0更新日期：2023-05-20 08:56

本发明专利技术公开了一种基于意图一致性的文本纠错方法、装置和介质，该方法包括：收集原始纠错数据进行预处理和标注，构建文本纠错模型的纠错数据集；构建基于神经网络的文本纠错模型，将待纠错文本输入至文本纠错模型输出第一字符概率分布；使用第一字符概率分布及其对应的真实标签计算纠错损失值作为第一损失值；使用第一字符概率分布计算基于意图一致性得分的纠错损失值作为第二损失值；基于第一损失值和第二损失值，以两阶段训练的方式训练文本纠错模型，以获取训练好的最终的文本纠错模型；将待纠错文本输入训练得到的文本纠错模型进行纠错，输出纠错后文本。本发明专利技术可以有效地降低文本纠错模型的误纠率，提高纠错准确率，具有很强的实用性。有很强的实用性。有很强的实用性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于意图一致性的文本纠错方法、装置和介质

[0001]本专利技术涉及文本纠错领域，尤其涉及一种基于意图一致性的文本纠错方法、装置和介质。

技术介绍

[0002]文本纠错是自然语言处理中的一项重要技术，用于纠正文本中有拼写错误的字词。该技术在许多自然语言处理的场景中（比如智能问答、智能语音助手、光学字符识别等场景）扮演着重要的角色，并且是许多下游任务的前置步骤，比如意图分类任务。在这些场景下，中文文本中的字词经常会被错误地识别为同音字、近音字、形近字等，从而影响下游任务的准确性。
[0003]现有的文本纠错技术方案主要有以下两者：第一种是使用统计语言模型来对文本中的字词错误进行检测和纠正，但该模型仅仅是利用了语料库里的词组的频率信息，无法利用文本中的语义信息，纠错的效果十分有限；第二种是基于深度学习使用神经网络来构建文本纠错模型，比如使用预训练语言模型来实现端到端的文本纠错，该方法能有效利用文本中的语义信息，效果往往比第一种好，也是目前的主流方法。
[0004]受到训练数据的分布和训练方式的影响，基于深度学习的文本纠错模型容易将文本中原本正确的字词误纠为错误字词，这种误纠可能会导致文本中的意图信息发生变化，导致下游的意图分类模型预测的意图也发生变化，从而影响下游任务的准确性。以往的方法忽视了文本纠错前后意图应该保持一致性，从而容易发生误纠的情况。

技术实现思路

[0005]本专利技术的目的在于针对现有技术的不足，提供一种基于意图一致性的文本纠错方法、装置和介质。
[0006]...

【技术保护点】

【技术特征摘要】
1.一种基于意图一致性的文本纠错方法，其特征在于，包括以下步骤：S1、收集原始纠错数据并进行预处理和标注，以构建文本纠错模型的纠错数据集；所述纠错数据集包括训练集、验证集和测试集；S2、基于神经网络构建文本纠错模型，将待纠错文本输入文本纠错模型输出第一字符概率分布；所述文本纠错模型包括嵌入层、编码器和纠错层；S3、根据所述步骤S2获取的待纠错文本的第一字符概率分布及其对应的真实标签计算的纠错损失值作为第一损失值；S4、基于所述步骤S2获取的待纠错文本的第一字符概率分布获取纠错后文本，将待纠错文本和纠错后文本分别输入意图分类模型输出对应的意图类别概率分布，根据意图类别概率分布之间的双向KL散度获取意图一致性得分，以截断的意图一致性得分作为权重对所述步骤S3获取的纠错损失值进行加权以获取加权纠错损失值作为第二损失值；S5、基于所述步骤S3获取的第一损失值和所述步骤S4获取的第二损失值，使用所述步骤S1构建的纠错数据集以两阶段训练的方式对所述步骤S2构建的文本纠错模型进行训练，以获取训练好的最终的文本纠错模型；S6、接受用户输入的或者所述步骤S1构建的测试集中的待纠错文本，使用所述步骤S5获取的最终的文本纠错模型进行纠错，以获取纠错后文本。2.根据权利要求1所述的基于意图一致性的文本纠错方法，其特征在于，所述步骤S1包括以下子步骤：S11、从需要用到文本纠错技术的系统的历史记录中收集原始纠错数据或基于混淆集随机生成包含错误字词的原始纠错数据；S12、对所述步骤S11收集的原始纠错数据进行预处理，以获取格式统一的纠错数据；所述预处理包括繁简转换、大小写处理和去除特殊字符；S13、对所述步骤S12获取的格式统一的纠错数据进行标注，以获取待纠错文本对应的正确文本作为真实标签，根据待纠错文本及其对应的正确文本获取纠错数据；S14、将所述步骤S13获取的纠错数据按照8:1:1的比例随机划分为训练集、验证集、测试集。3.根据权利要求1所述的基于意图一致性的文本纠错方法，其特征在于，所述步骤S2包括以下子步骤：S21、使用预训练语言模型的embedding模块构建文本纠错模型的嵌入层，将待纠错文本输入嵌入层输出字符嵌入向量序列；S22、使用预训练语言模型的编码器构建文本纠错模型的编码器，将所述步骤S21获取的待纠错文本的字符嵌入向量序列输入编码器输出字符表征向量序列；S23、基于全连接层和softmax层构建文本纠错模型的纠错层，将所述步骤S22获取的待纠错文本的字符表征向量序列输入纠错层输出第一字符概率分布。4.根据权利要求3所述的基于意图一致性的文本纠错方法，其特征在于，所述预训练语言模型包括BERT、RoBERTa和ALBERT模型。5.根据权利要求1所述的基于意图一致性的文本纠错方法，其特征在于，所述步骤S3具体为：通过计算待纠错文本的第一字符概率分布及其对应的真实标签之间的交叉熵损失，以获取纠错损失值，所述纠错损失值为第一损失值。
6.根据权利要求1所述的基于意图一致性的文本纠错方法，其特征在于，所述步骤S4包括以下子步骤：S41、选取所述步骤S2获取的待纠错文本中每个字符的第一字符概率分布中概率最大的字符作为模型预测的正确字符，...

【专利技术属性】
技术研发人员：赵鑫安，宋伟，朱世强，谢冰，王雨菡，
申请(专利权)人：之江实验室，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人