中文文本纠错系统、方法、装置及计算机可读存储介质制造方法及图纸

技术编号：30158652 阅读：16 留言：0更新日期：2021-09-25 15:11

本发明专利技术涉及一种基于机器学习模型的中文文本纠错系统、方法、装置及计算机可读存储介质。所述系统包括中文文本预训练模块、中文文本输入模块、中文拼写检查模块、中文拼写纠正模块、语义纠正模块以及文法语言评价模块。中文文本纠错方法能够注重上下语句的连贯性，避免出现单一词组是正确的但同音的词组选择会出现偏差的情况，使得整句中多个词组连接在一起时语义通顺而不出现偏差。起时语义通顺而不出现偏差。起时语义通顺而不出现偏差。

全部详细技术资料下载

【技术实现步骤摘要】
中文文本纠错系统、方法、装置及计算机可读存储介质

[0001]本专利技术涉及计算机文字处理
，尤其涉及一种基于机器学习模型的中文文本纠错系统、方法、装置及计算机可读存储介质。

技术介绍

[0002]中文作为现在世界上使用人数最多的语言在机器学习领域的发展尚存在非常多的局限性，由于中文的字音字形语法顺序等都较为复杂，所以不论是在人工输入或者机器识别领域，中文的拼写检查与纠错都有非常大的需求量。
[0003]专利CN 111639489 A通过机器学习的多种方法检查以及修正中文文本中出现的多种错误，将不通顺的文本修正为通顺的、适合阅读的中文文本；通过困惑度查询到错误字符发生的位置，再利用混淆集以及语言模型打分的方式选择正确的修改方式对错误字符进行替换，最终返回正确的中文语言表述。虽然这一方法能够采用多线程处理，可以多个文本句子同时并发，纠正处理效率高，并通过机器学习的多种方法检查以及修正中文文本中出现的多种错误，将不通顺的文本修正为通顺的、适合阅读的中文文本，通过困惑度查询到错误字符发生的位置，再利用混淆集以及语言模型的方式选择正确的修改方式对错误字符进行替换，最终返回正确的中文语言表述。但是，这种方式容易忽略上下语句的连贯性，导致单一词组是正确的，但同音的词组选择会出现偏差，整句中多个词组连接在一起时会出现纠正错误的问题而导致语义偏差。而且还存在同一文本中的前后纠正相似词组给出不同的纠正方式，导致上下文之间出现纠正错误的问题而导致语义偏差。

技术实现思路

[0004]有鉴于此，本专利技术提...

【技术保护点】

【技术特征摘要】
1.一种中文文本纠错系统，所述系统基于机器学习模型，其特征在于，所述系统包括：中文文本预训练模块，用于对中文文本进行预训练，并获取中文文本的困惑度、混淆集、语言模型及语义模型；中文文本输入模块，对输入的文本进行预处理，删除非常用标点以及长度异常的空格，转换中英文标点以及编码格式；中文拼写检查模块，用于当中文文本中字符有拼写错误时，自动返回不正确字符的位置；中文拼写纠正模块，通过中文文本预训练模块以及中文拼写检查模块定位错误字符位置，使用候选词逐一替换字符，通过语言模型计算通顺度结果，选择最优拼写纠正文本输出形成第一纠正文本；语义纠正模块，通过中文文本预训练模块中的语义模型计算所述第一纠正文本的上下语句中语义通顺度结果，对所述第一纠正文本重新选择候选词逐一替换字符使得上下语句中语义统一，输出多个语义统一后的纠正文本形成第二纠正文本；文法语言评价模块，用以输入所述第二纠正文本并评价所有第二纠正文本中语义总得分，将所有第二纠正文本中语义总得分从大至小排序，输出最高得分的第二纠正文本为最终纠正文本。2.一种中文文本纠错方法，包括上述权利要求1所述的中文文本纠错系统，其特征在于，所述中文文本纠错方法包括以下步骤：S1：进行中文文本预训练，获取中文文本的困惑度、混淆集、语言模型及语义模型；S2：对输入的文本进行预处理，删除非常用标点以及长度异常的空格，转换中英文标点以及编码格式；S3：将每个字符或标点作为一个位置，以字符为单位做余下处理，当中文文本中有拼写错误时，系统返回不正确字符的位置；S4：通过错误检测定位所有疑似错误后，使用候选词逐一替换该字符，基于语言模型得到类候选短文本集的通顺度计算结果，最终选择最优拼写纠正文本输出形成第一纠正文本；S5：通过中文文本预训练模块中的语义模型计算所述第一纠正文本的上下语句中语义通顺度结果，对所述第一纠正文本重新选择候选词逐一替换字符使得上下语句中语义统一，输出多个语义统一后的纠正文本形成第二纠正文本；S6：评价所有第二纠正文本中语义总得分，将所有第二纠正文本中语义总得分从大至小排序，输出最高得分的第二纠正文本为最终纠正文本。3.根据权利要求2所述的中文文本纠错方法，其特征在于，所述S5步骤具体包括：S51：对所述第一纠正文本中的每一个纠错候选词利用语义模型计算该纠错候选词中每一个候选词的得分；S52：将该纠错候选词中每一个词语与相邻词语的得分进行累加，获得该纠错候选词的语义通顺度结果总得分；S53：将所有第一纠正文本中语义通顺度结果总得分从大至小排序，输出最高得分的第一纠正文本作为第二纠正文本。4.根据权利要求2所述的中文文本纠错方法，其特征在于，所述S6步骤具体包括：
S61：对所述第二纠正文本中的每一个语句的语义利用语义模型计算该语句中语义的得分；S62：将所述第二纠正文本中每一个语句与相邻语句的出现概率进行乘积，获得该第二纠正文本的语义通顺度结果总得分；S63：将所有第二纠正文本中语义总得分从大至小排序，输出最高得分的第二纠正文本为最终纠正文本。5.根据权利要求4所述的中文文本纠错方法，其特征在于，所述语义模型计算该语句中语义的得分方式为：按照谐音字词、混淆音字词、字词顺序颠倒、字词不全、形似字错误、敏感词、常识性错误以及多字进行分类处理形成所述语义模型，所述语义模型为P(S)≈...

【专利技术属性】
技术研发人员：海月，
申请(专利权)人：上海熙瑾信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人