中文文本纠错系统、方法、装置及计算机可读存储介质制造方法及图纸

技术编号:30158652 阅读:16 留言:0更新日期:2021-09-25 15:11
本发明专利技术涉及一种基于机器学习模型的中文文本纠错系统、方法、装置及计算机可读存储介质。所述系统包括中文文本预训练模块、中文文本输入模块、中文拼写检查模块、中文拼写纠正模块、语义纠正模块以及文法语言评价模块。中文文本纠错方法能够注重上下语句的连贯性,避免出现单一词组是正确的但同音的词组选择会出现偏差的情况,使得整句中多个词组连接在一起时语义通顺而不出现偏差。起时语义通顺而不出现偏差。起时语义通顺而不出现偏差。

【技术实现步骤摘要】
中文文本纠错系统、方法、装置及计算机可读存储介质


[0001]本专利技术涉及计算机文字处理
,尤其涉及一种基于机器学习模型的中文文本纠错系统、方法、装置及计算机可读存储介质。

技术介绍

[0002]中文作为现在世界上使用人数最多的语言在机器学习领域的发展尚存在非常多的局限性,由于中文的字音字形语法顺序等都较为复杂,所以不论是在人工输入或者机器识别领域,中文的拼写检查与纠错都有非常大的需求量。
[0003]专利CN 111639489 A通过机器学习的多种方法检查以及修正中文文本中出现的多种错误,将不通顺的文本修正为通顺的、适合阅读的中文文本;通过困惑度查询到错误字符发生的位置,再利用混淆集以及语言模型打分的方式选择正确的修改方式对错误字符进行替换,最终返回正确的中文语言表述。虽然这一方法能够采用多线程处理,可以多个文本句子同时并发,纠正处理效率高,并通过机器学习的多种方法检查以及修正中文文本中出现的多种错误,将不通顺的文本修正为通顺的、适合阅读的中文文本,通过困惑度查询到错误字符发生的位置,再利用混淆集以及语言模型的方式选择正确的修改方式对错误字符进行替换,最终返回正确的中文语言表述。但是,这种方式容易忽略上下语句的连贯性,导致单一词组是正确的,但同音的词组选择会出现偏差,整句中多个词组连接在一起时会出现纠正错误的问题而导致语义偏差。而且还存在同一文本中的前后纠正相似词组给出不同的纠正方式,导致上下文之间出现纠正错误的问题而导致语义偏差。

技术实现思路

[0004]有鉴于此,本专利技术提供一种基于机器学习模型的中文文本纠错系统、方法、装置及计算机可读存储介质,以解决现有的快递行业中存在消费者填写信息不完整或不标准造成派送错误带来时间延迟、送件效率低以及经济损失的技术问题。
[0005]为解决上述问题,本专利技术提供一种中文文本纠错系统,所述系统基于机器学习模型,所述系统包括:中文文本预训练模块,用于对中文文本进行预训练,并获取中文文本的困惑度、混淆集、语言模型及语义模型;中文文本输入模块,对输入的文本进行预处理,删除非常用标点以及长度异常的空格,转换中英文标点以及编码格式;中文拼写检查模块,用于当中文文本中字符有拼写错误时,自动返回不正确字符的位置;中文拼写纠正模块,通过中文文本预训练模块以及中文拼写检查模块定位错误字符位置,使用候选词逐一替换字符,通过语言模型计算通顺度结果,选择最优拼写纠正文本输出形成第一纠正文本;语义纠正模块,通过中文文本预训练模块中的语义模型计算所述第一纠正文本的上下语句中语义通顺度结果,对所述第一纠正文本重新选择候选词逐一替换字符使得上下语句中语义统一,输出多个语义统一后的纠正文本形成第二纠正文本;文法语言评价模块,用以输入所述第二纠正文本并评价所有第二纠正文本中语义总得分,将所有第二纠正文本中语义总得分从大至小排序,输出最高得分的第二纠正文本为最终纠正文本。
[0006]一种中文文本纠错方法,包括上述中文文本纠错系统,所述中文文本纠错方法包括以下步骤:S1:进行中文文本预训练,获取中文文本的困惑度、混淆集、语言模型及语义模型;S2:对输入的文本进行预处理,删除非常用标点以及长度异常的空格,转换中英文标点以及编码格式;S3:将每个字符或标点作为一个位置,以字符为单位做余下处理,当中文文本中有拼写错误时,系统返回不正确字符的位置;S4:通过错误检测定位所有疑似错误后,使用候选词逐一替换该字符,基于语言模型得到类候选短文本集的通顺度计算结果,最终选择最优拼写纠正文本输出形成第一纠正文本;S5:通过中文文本预训练模块中的语义模型计算所述第一纠正文本的上下语句中语义通顺度结果,对所述第一纠正文本重新选择候选词逐一替换字符使得上下语句中语义统一,输出多个语义统一后的纠正文本形成第二纠正文本;S6:评价所有第二纠正文本中语义总得分,将所有第二纠正文本中语义总得分从大至小排序,输出最高得分的第二纠正文本为最终纠正文本。
[0007]进一步地,所述S5步骤具体包括:S51:对所述第一纠正文本中的每一个纠错候选词利用语义模型计算该纠错候选词中每一个候选词的得分;S52:将该纠错候选词中每一个词语与相邻词语的得分进行累加,获得该纠错候选词的语义通顺度结果总得分;S53:将所有第一纠正文本中语义通顺度结果总得分从大至小排序,输出最高得分的第一纠正文本作为第二纠正文本。
[0008]进一步地,所述S6步骤具体包括:S61:对所述第二纠正文本中的每一个语句的语义利用语义模型计算该语句中语义的得分;S62:将所述第二纠正文本中每一个语句与相邻语句的出现概率进行乘积,获得该第二纠正文本的语义通顺度结果总得分;S63:将所有第二纠正文本中语义总得分从大至小排序,输出最高得分的第二纠正文本为最终纠正文本。
[0009]进一步地,所述语义模型计算该语句中语义的得分方式为:按照谐音字词、混淆音字词、字词顺序颠倒、字词不全、形似字错误、敏感词、常识性错误以及多字进行分类处理形成所述语义模型,所述语义模型为P(S)≈ P(w1)*P(w2|w1)*P(w3|w2)*...*P(w
n
|w
n
‑1),P(w
i
|w
i
‑1)= count(w
i
,w
i
‑1)/count(w
i
‑1);其中,p(w1…
w
n
)为句子的概率,P为句子的概率,n 为句子长度,p(w
i
|w
i
‑1)为两个词共现的条件概率,w代表词,count(w
i
‑1)为词 w
i
‑1在语料库中出现的次数,count(w
i
,w
i
‑1)为w
i
,w
i
‑1两个词同时出现的次数;将所述第二纠正文本中的每一个语句分别计算句子出现的概率p(w1…
w
n
),将所述第二纠正文本中所有语句出现的概率乘积获得所述第二纠正文本的语义通顺度结果总得分P(S)。
[0010]进一步地,所述S4步骤具体包括:S41:取得疑似错误字符的替换字符候选集,通过错误检测定位所有疑似错误后,在混淆集中取得所有疑似错字的音似、形似以及常见识别错误候选词;S42:使用候选字对字符所在位置进行替换,对于可替换的每个字符,枚举混淆集的每个字来替换原始字符,由此获得替换掉疑似错误字符的短文本候选集;S43:基于S13中的n元语言模型得到候选短文本的通顺度排序结果,选择通顺度得分最高的句子作为最终候选文本。
[0011]进一步地,所述S43具体为:S431:以词语为最小计算单元,利用现有中文分词模型进行分词;S432:基于特定语言模型、在特定语料库中通过计算常用词语相对应出现的频率计算得到通顺度;S433:如果文本通顺度大于预定义的阈值,则替换原始文本;S434:如果最
终候选文本通顺度小于预定义的阈值,则原始文本是正确的,保留原始文本。<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种中文文本纠错系统,所述系统基于机器学习模型,其特征在于,所述系统包括:中文文本预训练模块,用于对中文文本进行预训练,并获取中文文本的困惑度、混淆集、语言模型及语义模型;中文文本输入模块,对输入的文本进行预处理,删除非常用标点以及长度异常的空格,转换中英文标点以及编码格式;中文拼写检查模块,用于当中文文本中字符有拼写错误时,自动返回不正确字符的位置;中文拼写纠正模块,通过中文文本预训练模块以及中文拼写检查模块定位错误字符位置,使用候选词逐一替换字符,通过语言模型计算通顺度结果,选择最优拼写纠正文本输出形成第一纠正文本;语义纠正模块,通过中文文本预训练模块中的语义模型计算所述第一纠正文本的上下语句中语义通顺度结果,对所述第一纠正文本重新选择候选词逐一替换字符使得上下语句中语义统一,输出多个语义统一后的纠正文本形成第二纠正文本;文法语言评价模块,用以输入所述第二纠正文本并评价所有第二纠正文本中语义总得分,将所有第二纠正文本中语义总得分从大至小排序,输出最高得分的第二纠正文本为最终纠正文本。2.一种中文文本纠错方法,包括上述权利要求1所述的中文文本纠错系统,其特征在于,所述中文文本纠错方法包括以下步骤:S1:进行中文文本预训练,获取中文文本的困惑度、混淆集、语言模型及语义模型;S2:对输入的文本进行预处理,删除非常用标点以及长度异常的空格,转换中英文标点以及编码格式;S3:将每个字符或标点作为一个位置,以字符为单位做余下处理,当中文文本中有拼写错误时,系统返回不正确字符的位置;S4:通过错误检测定位所有疑似错误后,使用候选词逐一替换该字符,基于语言模型得到类候选短文本集的通顺度计算结果,最终选择最优拼写纠正文本输出形成第一纠正文本;S5:通过中文文本预训练模块中的语义模型计算所述第一纠正文本的上下语句中语义通顺度结果,对所述第一纠正文本重新选择候选词逐一替换字符使得上下语句中语义统一,输出多个语义统一后的纠正文本形成第二纠正文本;S6:评价所有第二纠正文本中语义总得分,将所有第二纠正文本中语义总得分从大至小排序,输出最高得分的第二纠正文本为最终纠正文本。3.根据权利要求2所述的中文文本纠错方法,其特征在于,所述S5步骤具体包括:S51:对所述第一纠正文本中的每一个纠错候选词利用语义模型计算该纠错候选词中每一个候选词的得分;S52:将该纠错候选词中每一个词语与相邻词语的得分进行累加,获得该纠错候选词的语义通顺度结果总得分;S53:将所有第一纠正文本中语义通顺度结果总得分从大至小排序,输出最高得分的第一纠正文本作为第二纠正文本。4.根据权利要求2所述的中文文本纠错方法,其特征在于,所述S6步骤具体包括:
S61:对所述第二纠正文本中的每一个语句的语义利用语义模型计算该语句中语义的得分;S62:将所述第二纠正文本中每一个语句与相邻语句的出现概率进行乘积,获得该第二纠正文本的语义通顺度结果总得分;S63:将所有第二纠正文本中语义总得分从大至小排序,输出最高得分的第二纠正文本为最终纠正文本。5.根据权利要求4所述的中文文本纠错方法,其特征在于,所述语义模型计算该语句中语义的得分方式为:按照谐音字词、混淆音字词、字词顺序颠倒、字词不全、形似字错误、敏感词、常识性错误以及多字进行分类处理形成所述语义模型,所述语义模型为P(S)≈...

【专利技术属性】
技术研发人员:海月
申请(专利权)人:上海熙瑾信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1