当前位置: 首页 > 专利查询>中南大学专利>正文

一种中文拼写错误检查方法技术

技术编号:36513718 阅读:9 留言:0更新日期:2023-02-01 15:43
本发明专利技术提供了一种中文拼写错误检查方法,包括:获取原文本和噪声文本,训练得到降噪模块并获取原文本的语义特征表示;通过纠正模块输出得到正确文本,所述纠正模块包括候选集生成模块以及状态转移矩阵生成模块,具体是:通过候选集生成模块根据原文本的语义特征表示输出最终候选集;通过状态转移矩阵生成模块获取最终候选集中每个字符的转移概率,并生成最终候选集的状态转移矩阵;计算状态转移矩阵中各转移路径的分数,选择得分最高的转移路径作为正确文本输出。本发明专利技术提供的中文拼写错误检查方法通过增加降噪模块,得到原文本的正确语义特征表示,使原文本和噪声文本的字符更加准确,消除错误字符对原文本语境的影响。消除错误字符对原文本语境的影响。消除错误字符对原文本语境的影响。

【技术实现步骤摘要】
一种中文拼写错误检查方法


[0001]本专利技术涉及文本纠错
,具体涉及一种中文拼写错误检查方法。

技术介绍

[0002]目前中文文本检查的方法主要有基于统计语言模型的规则方法和端到端的深度学习方法两大类。基于统计语言模型的规则匹配分为错误检测、候选召回、候选排序三个步骤,此方法需要大量语料库训练语言模型和人工规则设计,在纠错结果上也无法令人满意。基于端到端的深度学习方法主要有基于自回归的seq2seq模型和非自回归的Bert模型;由于文本大部分字符不需要修改,自回归模型会造成性能的浪费。
[0003]因此目前主流的中文文本检查方法是基于非自回归模型,在模型的最后一层通过全连接层,直接对单个字符进行纠错预测,并且在此基础上还融合了拼音和字形的信息,以达到提高纠错效果的目的。
[0004]但是该方法忽略了纠错结果字符间存在的依赖关系,因而直接通过全连接层预测正确字符的方式会造成上下文依赖关系的丢失,造成语句间的不连贯。除此之外,当文本出现多个错误字符时,会影响全文的上下文语境,出现错误的词向量表示,容易将正确字符纠为错误字符,出现过度纠正的现象。
[0005]综上所述,急需一种中文拼写错误检查方法以解决现有技术中存在的问题。

技术实现思路

[0006]本专利技术目的在于提供一种中文拼写错误检查方法,具体技术方案如下:一种中文拼写错误检查方法,包括:S1:获取原文本和噪声文本,训练得到降噪模块并获取原文本的语义特征表示;S2:通过纠正模块输出得到正确文本,所述纠正模块包括候选集生成模块以及状态转移矩阵生成模块,具体是:S2

1:通过候选集生成模块根据原文本的语义特征表示输出最终候选集;S2

2:通过状态转移矩阵生成模块获取最终候选集中每个字符的转移概率,并生成最终候选集的状态转移矩阵;S2

3:计算状态转移矩阵中各转移路径的分数,选择得分最高的转移路径作为正确文本输出。
[0007]优选的,所述降噪模块包括噪声文本生成模块以及降噪网络,所述噪声文本生成模块基于特定规则搭建,降噪网络基于Bert搭建。
[0008]优选的,所述步骤S1包括:S1

1:采集原文本,通过噪声文本生成模块生成噪声文本;S1

2:通过降噪网络获取原文本和噪声文本的初始语义特征表示,通过噪声文本的初始语义特征和其没有加噪的概率对原文本的初始语义特征表示进行降噪处理,获得原文本的语义特征表示。
[0009]优选的,所述步骤S2

1具体是:基于候选集生成模块对原文本的语义特征表示进行归一化,获得候选集合中每个字符作为替换字符的预测概率,选取预测概率前top

k的字符作为最终候选集;优选的,所述S2

2具体是使用最终候选集中的替换字符对原文本的当前字符进行依次替换,得到初始输入文本,然后将当前字符的下一位字符使用mask代替,到最终输入文本,获取最终输入文本的语义特征表示,将最终输入文本的语义特征表示通过标准化层与全连接层,获取对整个词汇表的预测概率,归一化得到当前位i置候选集的转移概率, 表示原文本第i个位置的最终候选集中第个字符到原文本第i+1个位置的最终候选集中第个字符的转移概率,依次遍历原文本的每个位置,重复上述操作,输出得到整个最终候选集的状态转移矩阵。
[0010]优选的,所述步骤S2

3中转移路径的得分计算表达式如下:;其中,表示第条转移路径得分,表达第条转移路径,表示原文本的字符总数,表示原文本第i个位置的字符预测为最终候选集第个字符的概率。
[0011]优选的,所述降噪处理的单个字符损失计算表达式如下:;其中,表示降噪处理的单个字符损失,表示对的相对熵,表示对的相对熵,表示原文本第i个字符的语义特征表示,表示噪声文本第i个字符的语义特征表示,i大于等于1,小于等于;所述降噪处理的整体损失计算表达式如下:;其中,表示降噪处理的整体损失,表示噪声文本第i个字符没有加噪的概率,表示第i个字符的标记,若该位置添加了噪声,则值为0,否则为1。
[0012]优选的,转移路径的损失函数表示式如下:;其中,表示转移路径的损失函数,表示正确转移路径的得分,表示各转移路径得分总和。
[0013]优选的,降噪处理和转移路径的整体损失函数表达式如下:;其中,表示超参数,表示降噪处理和转移路径的整体损失函数。
[0014]优选的,所述大于0小于1。
[0015]应用本专利技术的技术方案,具有以下有益效果:(1)本专利技术提供的中文拼写错误检查方法通过增加降噪模块,获取原文本和噪声文本,训练降噪模块,通过降噪模块得到原文本的正确语义特征表示,使原文本和噪声文本的语义表示更加准确,消除错误字符对原文本语境的影响,从而避免文本出现多个错误字符时,错误字符会对全文的上下文语境造成噪声干扰,出现错误的词向量表示,容易导致将正确字符被纠为错误字符,出现过度纠正的现象。
[0016](2)本专利技术的纠正模块中状态转移矩阵生成模块通过获取候选集合中每个字符的转移概率从而生成状态转移矩阵,然后计算状态转移矩阵中各转移路径的得分,取得分最高的转移路径作为正确文本输出,加强了输出结果中各字符之间的相关性,提高了文本输出的正确率。
[0017](3)本专利技术基于候选集生成模块对原文本的语义特征表示进行归一化,获得候选集合中每个字符作为替换字符的预测概率,选取预测概率前top

k的字符作为状态转移矩阵生成模块输入的最终候选集,极大地减少了状态转移矩阵生成模块输入的组合数量,降低了后续计算成本,并且不会对纠正效果产生影响。
[0018](4)本专利技术通过Bert的mask任务,在原句中,先从最终候选集中依次选择字符对当前字符进行替换,当前字符的下一个字符进行mask处理,通过Bert的mask任务得到mask位置各个候选字符的预测概率,将其作为状态转移矩阵,从而得到一个动态矩阵,使其获得学习能力,能够根据上下文变化进行调整。
[0019]除了上面所描述的目的、特征和优点之外,本专利技术还有其它的目的、特征和优点。下面将参照图,对本专利技术作进一步详细的说明。
附图说明
[0020]构成本申请的一部分的附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是本专利技术优选实施例1的流程示意图;图2是本专利技术优选实施例1的整体模块示意图。
具体实施方式
[0021]为了便于理解本专利技术,下面将对本专利技术进行更全面的描述,并给出了本专利技术的较佳实施例。但是,本专利技术可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本专利技术的公开内容的理解更加透彻全面。
[0022]除非另有定义,本文所使用的所有的技术和科学术语与属于本专利技术的
的技术人员通常理解的含义相同。本文中在本专利技术的说明书中所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种中文拼写错误检查方法,其特征在于,包括:S1:获取原文本和噪声文本,训练得到降噪模块并获取原文本的语义特征表示;S2:通过纠正模块输出得到正确文本,所述纠正模块包括候选集生成模块以及状态转移矩阵生成模块,具体是:S2

1:通过候选集生成模块根据原文本的语义特征表示输出最终候选集;S2

2:通过状态转移矩阵生成模块获取最终候选集中每个字符的转移概率,并生成最终候选集的状态转移矩阵;S2

3:计算状态转移矩阵中各转移路径的分数,选择得分最高的转移路径作为正确文本输出。2.根据权利要求1所述的中文拼写错误检查方法,其特征在于,所述降噪模块包括噪声文本生成模块以及降噪网络,所述噪声文本生成模块基于特定规则搭建,降噪网络基于Bert搭建。3.根据权利要求2所述的中文拼写错误检查方法,其特征在于,所述步骤S1包括:S1

1:采集原文本,通过噪声文本生成模块生成噪声文本;S1

2:通过降噪网络获取原文本和噪声文本的初始语义特征表示,通过噪声文本的初始语义特征和其没有加噪的概率对原文本的初始语义特征表示进行降噪处理,获得原文本的语义特征表示。4.根据权利要求3所述的中文拼写错误检查方法,其特征在于,所述步骤S2

1具体是:基于候选集生成模块对原文本的语义特征表示进行归一化,获得候选集合中每个字符作为替换字符的预测概率,选取预测概率前top

k的字符作为最终候选集。5.根据权利要求4所述的中文拼写错误检查方法,其特征在于,所述S2

2具体是使用最终候选集中的替换字符对原文本的当前字符进行依次替换,得...

【专利技术属性】
技术研发人员:李芳芳汤达夫欧晓叶毛星亮
申请(专利权)人:中南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1