System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于强化学习的低质量文本图像自适应增强OCR的方法技术_技高网

一种基于强化学习的低质量文本图像自适应增强OCR的方法技术

技术编号:42725897 阅读:18 留言:0更新日期:2024-09-13 12:11
本发明专利技术提供了一种基于强化学习的低质量文本图像自适应增强OCR的方法,包括以下步骤:S1:获取图像预处理任务,确定应用环境;S2:构建深度Q网络,针对当前应用环境确定强化学习三要素:状态、动作和奖励;其中,状态为低质量图像的直方图统计,动作为图像预处理操作,奖励为预设奖励函数;S3:通过深度Q网络不断进行图像预处理操作组合进行学习训练,得到最优图像预处理策略,基于最优图像预处理策略对低质量图像进行预处理,通过预设OCR模型对预处理后的低质量图像进行处理,得到最优OCR输出文本。

【技术实现步骤摘要】

本专利技术涉及光学字符识别,尤其涉及一种基于强化学习的低质量文本图像自适应增强ocr的方法。


技术介绍

1、光学字符识别(ocr)技术的广泛应用已经对多个行业带来了改变,使得从图像或扫描文档中提取文本信息变得可能;然而,在实际应用中,尤其是处理大量扫描或拍摄的文档时,图像的质量往往存在很大的变异;低质量的文本图像,如带有噪声、模糊、倾斜、非均匀的光照或复杂的背景,为ocr技术带来了巨大的挑战。传统的图像预处理方法,如去噪、二值化、直方图均衡化等,虽然在某些情境下能够改进ocr的效果,但由于图像的多样性和复杂性,固定的预处理步骤和参数往往无法满足所有情况;对于低质量的文本图像,需要更为精细的预处理策略,以确保高质量的ocr输出;现有的制定针对低质量文本图像的最佳预处理策略往往通过人工手动制定,而人工手动制定最佳的预处理流程是耗时且需要专业知识的。


技术实现思路

1、针对现有技术中所存在的不足,本专利技术提供了一种基于强化学习的低质量文本图像自适应增强ocr的方法,其解决了现有技术中存在的现有的制定针对低质量文本图像的最佳预处理策略往往通过人工手动制定,而人工手动制定最佳的预处理流程是耗时且需要专业知识的问题。

2、根据本专利技术的实施例,一种基于强化学习的低质量文本图像自适应增强ocr的方法,包括以下步骤:

3、s1:获取图像预处理任务,确定应用环境;

4、s2:构建深度q网络,针对当前应用环境确定强化学习三要素:状态、动作和奖励;其中,状态为低质量图像的直方图统计,动作为图像预处理操作,奖励为预设奖励函数;

5、s3:通过深度q网络不断进行图像预处理操作组合进行学习训练,得到最优图像预处理策略,基于最优图像预处理策略对低质量图像进行预处理,通过预设ocr模型对预处理后的低质量图像进行处理,得到最优ocr输出文本。

6、作为本专利技术的一个实施例,所述图像预处理操作包括:灰度化、二值化、全局阈值、自适应阈值、去噪、锐化、大小调整、形态学操作、直方图均衡化、光照校正、退卷曲、背景去除和线条和框架去除。

7、作为本专利技术的一个实施例,通过深度q网络不断进行图像预处理操作组合进行学习训练,得到最优图像预处理策略,包括:

8、s31:深度q网络对图像预处理操作组合进行预设次数的学习训练,得到若干图像预处理策略;

9、s32:深度q网络根据若干图像预处理策略对低质量图像进行预处理,得到若干预处理后的低质量图像;

10、s33:将若干预处理后低质量图像输入预设ocr模型中,得到若干ocr输出文本;

11、s34:通过预训练的bert模型对若干ocr输出文本进行质量评估,得到若干质量评估结果;

12、s35:基于若干质量评估结果选择其中质量评估结果最高的的图像预处理策略作为最优图像预处理策略。

13、作为本专利技术的一个实施例,所述学习训练的训练策略包括:经验回放、ε-greedy策略和更新q值;

14、经验回放包括:创建一个缓冲区来存储经验<d,y,j,d*>,其中,d为低质量图像化的直方图统计,y为图像预处理动作,j为奖励,d*为预处理后的低质量图像的直方图统计。

15、作为本专利技术的一个实施例,所述步骤s34包括:

16、s341:获取一个ocr输出文本,随机选取ocr输出文本中预设数量的词语,得到若干待比较词语数据;

17、s342:对ocr输出文本中的若干待比较词语数据进行遮蔽,通过预训练的bert模型对遮蔽的若干待比较词语进行预测,得到若干真实文本数据;

18、s343:将若干真实文本数据和若干待比较词语数据一一对应并计算文本相似性,得到若干文本相似结果;

19、s344:计算若干文本相似结果的平均值,得到一个ocr输出文本的质量评估结果;

20、s355:重复s341至s344,直至遍历所有ocr输出文本,得到若干质量评估结果。

21、作为本专利技术的一个实施例,所述深度q网络架构包括:输入层、隐藏层和输出层;

22、其中,隐藏层包括:卷积层和全连接层。

23、相比于现有技术,本专利技术具有如下有益效果:通过深度q网络自适应的给出最优图像预处理策略,根据最优图像预处理策略对低质量图像进行处理后通过ocr技术进行识别,提高了ocr的读取结果质量,避免了对低质量文本图像的最佳预处理策略需要通过人工手动制定。

本文档来自技高网...

【技术保护点】

1.一种基于强化学习的低质量文本图像自适应增强OCR的方法,其特征在于,包括以下步骤:

2.如权利要求1所述的一种基于强化学习的低质量文本图像自适应增强OCR的方法,其特征在于,

3.如权利要求1所述的一种基于强化学习的低质量文本图像自适应增强OCR的方法,其特征在于,

4.如权利要求1所述的一种基于强化学习的低质量文本图像自适应增强OCR的方法,其特征在于,包括:

5.如权利要求3所述的一种基于强化学习的低质量文本图像自适应增强OCR的方法,其特征在于,

6.如权利要求1所述的一种基于强化学习的低质量文本图像自适应增强OCR的方法,其特征在于,

【技术特征摘要】

1.一种基于强化学习的低质量文本图像自适应增强ocr的方法,其特征在于,包括以下步骤:

2.如权利要求1所述的一种基于强化学习的低质量文本图像自适应增强ocr的方法,其特征在于,

3.如权利要求1所述的一种基于强化学习的低质量文本图像自适应增强ocr的方法,其特征在于,

【专利技术属性】
技术研发人员:陈星宇刘映麟程蜀晋
申请(专利权)人:重庆市信息通信咨询设计院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1