一种基于用户自定义修正词库的文字修正方法及装置制造方法及图纸

技术编号:32969481 阅读:10 留言:0更新日期:2022-04-09 11:32
本发明专利技术公开了一种基于用户自定义修正词库的文字修正方法及装置。先对文档进行分词处理,得到集合,将分词结果与修正词库中的错误词汇进行对比。当结果一致时,则确定存在词语错误;建立修正词库纠正模型,该模型针对某一修正词修改支持人工修改与机器推荐两种功能,根据人工修改与机器推荐采纳次数计算该修正词的相对置信度与绝对置信度,综合两种置信度计算该修正词的混合置信度。当某一个错误词汇有多个修正词汇时,根据修正词汇的混合置信度大小推荐修正词。当用户选择机器推荐或者人工纠错时,进行自适应修改,调整修正词的置信度与下一次修正词的推荐策略,从而可以自适应地提供正确率较高的修正方案,进而提高智能推荐的准确性。的准确性。的准确性。

【技术实现步骤摘要】
一种基于用户自定义修正词库的文字修正方法及装置


[0001]本专利技术涉及文字识别
,尤其涉及一种基于用户自定义修正词库的文字修正方法及装置。

技术介绍

[0002]近年来,随着计算机视觉技术的快速发展,图片文字的OCR(Optical Character Recognition,光学字符识别)技术成为了热门的发展方向。在OCR识别过程中,识别结果的准确性至关重要。如果识别结果不准确,可能会带来一些不必要的麻烦,而且还会制约OCR识别技术的发展。
[0003]因此,需要一种能够提高OCR识别技术准确性的方法。

技术实现思路

[0004]本专利技术通过提供一种基于用户自定义修正词库的文字修正方法及装置,能够提高OCR识别技术准确性。
[0005]本专利技术提供了一种基于用户自定义修正词库的文字修正方法,包括:
[0006]对文档d
i
进行分词处理,得到集合F;所述集合F=Cut(d
i
)={w
i1
,w
i2
,
……
,w
im
},其中,m表示文档d
i
经过分词处理之后得到的词语w
i
的个数;
[0007]将所述集合F中的词语w
i
与预设的修正词库中的错误词进行匹配;
[0008]若匹配成功,用所述修正词库中与所述错误词对应的第一修正词替换词语w
i
,得到修正后的合集F
′<br/>={w

i1
,w

i2
,
……
,w

im
,},并将所述第一修正词的自动推荐频次m_frequence加一;
[0009]通过公式计算得到所述第一修正词的绝对置信度a_confidence;其中,δ1表示预设的第一平滑;
[0010]通过公式计算得到所述第一修正词的相对置信度r_confidence;其中,u_frequence表示所述第一修正词的人工推荐频次;
[0011]通过公式通过公式计算得到所述第一修正词的混合置信度confidence;其中,σ
a
表示m_confidence的标准差,表示m_confidence的平均值,σ
r
表示u_frequence的标准差,表示u_frequence的平均值;
[0012]将混合置信度最大的修正词作为所述修正词库中优先推荐的修正词。
[0013]具体来说,还包括:
[0014]接收修改指令;所述修改指令包括:修改命令、目标原词及指定修正词;
[0015]将所述指定修正词与所述预设的修正词库中的第二修正词进行匹配;
[0016]若匹配成功,用所述第二修正词替换所述目标原词,并将所述第二修正词的人工推荐频次ud_frequence加一;
[0017]通过公式计算得到所述第二修正词的绝对置信度ac_confidence;其中,mc_frequence
i
表示所述第二修正词的自动推荐频次,δ2表示预设的第二平滑;
[0018]通过公式计算得到所述第二修正词的相对置信度rd_confidence;其中,ud_frequence
j
表示所述第二修正词的人工推荐频次;
[0019]通过公式通过公式计算得到所述第二修正词的混合置信度e_confidence;其中,σ
a1
表示mc_confidence的标准差,表示mc_confidence的平均值,σ
r1
表示ud_frequence的标准差,表示ud_frequence的平均值;
[0020]对所述修正词库中修正词的混合置信度进行更新。
[0021]具体来说,还包括:
[0022]若匹配不成功,用所述指定修正词替换所述目标原词,并将所述指定修正词添加到所述修正词库中,并赋予所述指定修正词的初始自动推荐频次、人工推荐频次、绝对置信度、相对置信度和混合置信度。
[0023]具体来说,所述对文档d
i
进行分词处理,包括:
[0024]通过N

gram统计语言模型对所述文档d
i
进行分词处理。
[0025]本专利技术还提供了一种基于用户自定义修正词库的文字修正装置,包括:
[0026]分词模块,用于对文档d
i
进行分词处理,得到集合F;所述集合F=Cut(d
i
)={w
i1
,w
i2
,
……
,w
im
},其中,m表示文档d
i
经过分词处理之后得到的词语w
i
的个数;
[0027]第一匹配模块,用于将所述集合F中的词语w
i
与预设的修正词库中的错误词进行匹配;
[0028]第一修正模块,用于若匹配成功,用所述修正词库中与所述错误词对应的第一修正词替换词语w
i
,得到修正后的合集F

={w

i1
,w

i2
,
……
,w

im
,},并将所述第一修正词的自动推荐频次m_frequence加一;
[0029]第一绝对置信度计算模块,用于通过公式计算得到所述第一修正词的绝对置信度a_confidence;其中,δ1表示预设的第一平滑;
[0030]第一相对置信度计算模块,用于通过公式计算得到所述第一修正词的相对置信度r_confidence;其中,u_frequence表示所述第一修正词的人工推荐频次;
[0031]第一混合置信度计算模块,用于通过公式第一混合置信度计算模块,用于通过公式计算得到所述第一修正词的混合置信度confidence;其中,σ
a
表示m_confidence的标准差,表示m_confidence的平均值,σ
r
表示u_frequence的标准差,表示u_frequence的平均值;
[0032]推荐修正词设置模块,用于将混合置信度最大的修正词作为所述修正词库中优先推荐的修正词。
[0033]具体来说,还包括:
[0034]修改指令接收模块,用于接收修改指令;所述修改指令包括:修改命令、目标原词及指定修正词;
[0035]第二匹配模块,用于将所述指定修正词与所述预设的修正词库中的第二修正词进行匹配;
[0036]第二修正模块,用于若匹配成功,用所述第二修正词替换所述目标原词,并将所述第二修正词的人工推荐频次ud_frequence加一;
[0037]第二绝对置信度计算模块,用于通过公式计算得到所述第二修正词的绝对置信度ac_c本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于用户自定义修正词库的文字修正方法,其特征在于,包括:对文档d
i
进行分词处理,得到集合F;所述集合F=Cut(d
i
)={w
i1
,w
i2
,......,w
im
},其中,m表示文档d
i
经过分词处理之后得到的词语w
i
的个数;将所述集合F中的词语w
i
与预设的修正词库中的错误词进行匹配;若匹配成功,用所述修正词库中与所述错误词对应的第一修正词替换词语w
i
,得到修正后的合集F

={w

i1
,w

i2
,......,w

im
,},并将所述第一修正词的自动推荐频次m_frequence加一;通过公式计算得到所述第一修正词的绝对置信度a_confidence;其中,δ1表示预设的第一平滑;通过公式计算得到所述第一修正词的相对置信度r_confidence;其中,u_frequence表示所述第一修正词的人工推荐频次;通过公式通过公式计算得到所述第一修正词的混合置信度confidence;其中,σ
a
表示m_confidence的标准差,表示m_confidence的平均值,σ
r
表示u_frequence的标准差,表示u_frequence的平均值;将混合置信度最大的修正词作为所述修正词库中优先推荐的修正词。2.如权利要求1所述的方法,其特征在于,还包括:接收修改指令;所述修改指令包括:修改命令、目标原词及指定修正词;将所述指定修正词与所述预设的修正词库中的第二修正词进行匹配;若匹配成功,用所述第二修正词替换所述目标原词,并将所述第二修正词的人工推荐频次ud_frequence加一;通过公式计算得到所述第二修正词的绝对置信度ac_confidence;其中,mc_frequence
i
表示所述第二修正词的自动推荐频次,δ2表示预设的第二平滑;通过公式计算得到所述第二修正词的相对置信度rd_confidence;其中,ud_frequencej表示所述第二修正词的人工推荐频次;通过公式通过公式计算得到所述第二修正词的混合置信度e_confidence;其中,σ
a1
表示mc_confidence的标准差,表示mc_confidence的平均值,σ
r1
表示ud_frequence的标准差,表示ud_frequence的平均值;对所述修正词库中修正词的混合置信度进行更新。3.如权利要求2所述的方法,其特征在于,还包括:
若匹配不成功,用所述指定修正词替换所述目标原词,并将所述指定修正词添加到所述修正词库中,并赋予所述指定修正词的初始自动推荐频次、人工推荐频次、绝对置信度、相对置信度和混合置信度。4.如权利要求1所述的方法,其特征在于,所述对文档d
i
进行分词处理,包括:通过N

gram统计语言模型对所述文档d
i
进行分词处理。5.一种基于用户自定义修正词库的文字修正装置,其特征在于,包括:分词模块,用于对文档d
i
进行分词处理,得到集合F;所述集合F=Cut(d
i
)={w
i1
,w
i2
,......,w
im
},其中,m表示文档d
...

【专利技术属性】
技术研发人员:魏泉李纲冷杨名陈汉梅黄晓梁瑞文江文华赵灵希张虎胆谢新洲詹璐鸣
申请(专利权)人:武汉识辨科技有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1