一种中文拼写错误检查方法技术

技术编号：36513718 阅读：9 留言：0更新日期：2023-02-01 15:43

本发明专利技术提供了一种中文拼写错误检查方法，包括：获取原文本和噪声文本，训练得到降噪模块并获取原文本的语义特征表示；通过纠正模块输出得到正确文本，所述纠正模块包括候选集生成模块以及状态转移矩阵生成模块，具体是：通过候选集生成模块根据原文本的语义特征表示输出最终候选集；通过状态转移矩阵生成模块获取最终候选集中每个字符的转移概率，并生成最终候选集的状态转移矩阵；计算状态转移矩阵中各转移路径的分数，选择得分最高的转移路径作为正确文本输出。本发明专利技术提供的中文拼写错误检查方法通过增加降噪模块，得到原文本的正确语义特征表示，使原文本和噪声文本的字符更加准确，消除错误字符对原文本语境的影响。消除错误字符对原文本语境的影响。消除错误字符对原文本语境的影响。

全部详细技术资料下载

【技术实现步骤摘要】
一种中文拼写错误检查方法

[0001]本专利技术涉及文本纠错
，具体涉及一种中文拼写错误检查方法。

技术介绍

[0002]目前中文文本检查的方法主要有基于统计语言模型的规则方法和端到端的深度学习方法两大类。基于统计语言模型的规则匹配分为错误检测、候选召回、候选排序三个步骤，此方法需要大量语料库训练语言模型和人工规则设计，在纠错结果上也无法令人满意。基于端到端的深度学习方法主要有基于自回归的seq2seq模型和非自回归的Bert模型；由于文本大部分字符不需要修改，自回归模型会造成性能的浪费。
[0003]因此目前主流的中文文本检查方法是基于非自回归模型，在模型的最后一层通过全连接层，直接对单个字符进行纠错预测，并且在此基础上还融合了拼音和字形的信息，以达到提高纠错效果的目的。
[0004]但是该方法忽略了纠错结果字符间存在的依赖关系，因而直接通过全连接层预测正确字符的方式会造成上下文依赖关系的丢失，造成语句间的不连贯。除此之外，当文本出现多个错误字符时，会影响全文的上下文语境，出现错误的词向量表示，容易将正确字符纠为错误字符，出现过度纠正的现象。
[0005]综上所述，急需一种中文拼写错误检查方法以解决现有技术中存在的问题。

技术实现思路

[0006]本专利技术目的在于提供一种中文拼写错误检查方法，具体技术方案如下：一种中文拼写错误检查方法，包括：S1：获取原文本和噪声文本，训练得到降噪模块并获取原文本的语义特征表示；S2：通过纠正模块输出得到正确文本，所述纠正模块包括候选...

【技术保护点】

【技术特征摘要】
1.一种中文拼写错误检查方法，其特征在于，包括：S1：获取原文本和噪声文本，训练得到降噪模块并获取原文本的语义特征表示；S2：通过纠正模块输出得到正确文本，所述纠正模块包括候选集生成模块以及状态转移矩阵生成模块，具体是：S2
‑
1：通过候选集生成模块根据原文本的语义特征表示输出最终候选集；S2
‑
2：通过状态转移矩阵生成模块获取最终候选集中每个字符的转移概率，并生成最终候选集的状态转移矩阵；S2
‑
3：计算状态转移矩阵中各转移路径的分数，选择得分最高的转移路径作为正确文本输出。2.根据权利要求1所述的中文拼写错误检查方法，其特征在于，所述降噪模块包括噪声文本生成模块以及降噪网络，所述噪声文本生成模块基于特定规则搭建，降噪网络基于Bert搭建。3.根据权利要求2所述的中文拼写错误检查方法，其特征在于，所述步骤S1包括：S1
‑
1：采集原文本，通过噪声文本生成模块生成噪声文本；S1
‑
2：通过降噪网络获取原文本和噪声文本的初始语义特征表示，通过噪声文本的初始语义特征和其没有加噪的概率对原文本的初始语义特征表示进行降噪处理，获得原文本的语义特征表示。4.根据权利要求3所述的中文拼写错误检查方法，其特征在于，所述步骤S2
‑
1具体是：基于候选集生成模块对原文本的语义特征表示进行归一化，获得候选集合中每个字符作为替换字符的预测概率，选取预测概率前top
‑
k的字符作为最终候选集。5.根据权利要求4所述的中文拼写错误检查方法，其特征在于，所述S2
‑
2具体是使用最终候选集中的替换字符对原文本的当前字符进行依次替换，得...

【专利技术属性】
技术研发人员：李芳芳，汤达夫，欧晓叶，毛星亮，
申请(专利权)人：中南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人