【技术实现步骤摘要】
一种基于用户自定义修正词库的文字修正方法及装置
[0001]本专利技术涉及文字识别
,尤其涉及一种基于用户自定义修正词库的文字修正方法及装置。
技术介绍
[0002]近年来,随着计算机视觉技术的快速发展,图片文字的OCR(Optical Character Recognition,光学字符识别)技术成为了热门的发展方向。在OCR识别过程中,识别结果的准确性至关重要。如果识别结果不准确,可能会带来一些不必要的麻烦,而且还会制约OCR识别技术的发展。
[0003]因此,需要一种能够提高OCR识别技术准确性的方法。
技术实现思路
[0004]本专利技术通过提供一种基于用户自定义修正词库的文字修正方法及装置,能够提高OCR识别技术准确性。
[0005]本专利技术提供了一种基于用户自定义修正词库的文字修正方法,包括:
[0006]对文档d
i
进行分词处理,得到集合F;所述集合F=Cut(d
i
)={w
i1
,w
i2
,
……
,w
im
},其中,m表示文档d
i
经过分词处理之后得到的词语w
i
的个数;
[0007]将所述集合F中的词语w
i
与预设的修正词库中的错误词进行匹配;
[0008]若匹配成功,用所述修正词库中与所述错误词对应的第一修正词替换词语w
i
,得到修正后的合集F
′< ...
【技术保护点】
【技术特征摘要】
1.一种基于用户自定义修正词库的文字修正方法,其特征在于,包括:对文档d
i
进行分词处理,得到集合F;所述集合F=Cut(d
i
)={w
i1
,w
i2
,......,w
im
},其中,m表示文档d
i
经过分词处理之后得到的词语w
i
的个数;将所述集合F中的词语w
i
与预设的修正词库中的错误词进行匹配;若匹配成功,用所述修正词库中与所述错误词对应的第一修正词替换词语w
i
,得到修正后的合集F
′
={w
′
i1
,w
′
i2
,......,w
′
im
,},并将所述第一修正词的自动推荐频次m_frequence加一;通过公式计算得到所述第一修正词的绝对置信度a_confidence;其中,δ1表示预设的第一平滑;通过公式计算得到所述第一修正词的相对置信度r_confidence;其中,u_frequence表示所述第一修正词的人工推荐频次;通过公式通过公式计算得到所述第一修正词的混合置信度confidence;其中,σ
a
表示m_confidence的标准差,表示m_confidence的平均值,σ
r
表示u_frequence的标准差,表示u_frequence的平均值;将混合置信度最大的修正词作为所述修正词库中优先推荐的修正词。2.如权利要求1所述的方法,其特征在于,还包括:接收修改指令;所述修改指令包括:修改命令、目标原词及指定修正词;将所述指定修正词与所述预设的修正词库中的第二修正词进行匹配;若匹配成功,用所述第二修正词替换所述目标原词,并将所述第二修正词的人工推荐频次ud_frequence加一;通过公式计算得到所述第二修正词的绝对置信度ac_confidence;其中,mc_frequence
i
表示所述第二修正词的自动推荐频次,δ2表示预设的第二平滑;通过公式计算得到所述第二修正词的相对置信度rd_confidence;其中,ud_frequencej表示所述第二修正词的人工推荐频次;通过公式通过公式计算得到所述第二修正词的混合置信度e_confidence;其中,σ
a1
表示mc_confidence的标准差,表示mc_confidence的平均值,σ
r1
表示ud_frequence的标准差,表示ud_frequence的平均值;对所述修正词库中修正词的混合置信度进行更新。3.如权利要求2所述的方法,其特征在于,还包括:
若匹配不成功,用所述指定修正词替换所述目标原词,并将所述指定修正词添加到所述修正词库中,并赋予所述指定修正词的初始自动推荐频次、人工推荐频次、绝对置信度、相对置信度和混合置信度。4.如权利要求1所述的方法,其特征在于,所述对文档d
i
进行分词处理,包括:通过N
‑
gram统计语言模型对所述文档d
i
进行分词处理。5.一种基于用户自定义修正词库的文字修正装置,其特征在于,包括:分词模块,用于对文档d
i
进行分词处理,得到集合F;所述集合F=Cut(d
i
)={w
i1
,w
i2
,......,w
im
},其中,m表示文档d
...
【专利技术属性】
技术研发人员:魏泉,李纲,冷杨名,陈汉梅,黄晓,梁瑞文,江文华,赵灵希,张虎胆,谢新洲,詹璐鸣,
申请(专利权)人:武汉识辨科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。