一种基于深度学习优化网络的图文识别方法及系统技术方案

技术编号:27312868 阅读:26 留言:0更新日期:2021-02-10 09:39
本发明专利技术公开了一种基于深度学习优化网络的图文识别方法及系统,属于光学字符识别技术领域,其特征在于:至少包括如下步骤:步骤一:通过深度学习目标检测技术,识别出单帧图像中的物体;步骤二:通过抠图模型和对齐模型,将所述物体抠出图片,并对齐;步骤三:将所述图片整块进行OCR识别;步骤四:将OCR识别得到的文字识别结果送入基于深度学习自然语言处理建立的NLP校正模型进行校正,最终输出文字识别结果。本发明专利技术借助深度学习目标检测技术,通过建立不精确文本校正模型,能快速识别整块文字的照片、视频加工工艺,它能将整幅照片或整帧视频中的整块文字块标记出来,从而节省OCR处理的系统资源,大大提高文字识别效率。大大提高文字识别效率。大大提高文字识别效率。

【技术实现步骤摘要】
一种基于深度学习优化网络的图文识别方法及系统


[0001]本专利技术属于光学字符识别
,尤其涉及一种基于深度学习优化网络的图文识别方法及系统。

技术介绍

[0002]众所周知,OCR(Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。如何除错或利用辅助信息提高识别正确率,是OCR最重要的课题,ICR(Intelligent Character Recognition)的名词也因此而产生。衡量一个OCR系统性能好坏的主要指标有:拒识率、误识率、识别速度、用户界面的友好性,产品的稳定性,易用性及可行性等。
[0003]请参阅图1,传统的OCR识别技术,通常会先找出单个文字块,而单个文字块通常十分众多,很多小块进行拼接,这导致系统资源的极大浪费,同时使得文字识别效率大大降低。

技术实现思路

[0004]针对现有技术存在的问题,本专利技术提出了一种基于深度学习优化网络的图文识别方法及系统,借助深度学习目标检测技术,通过建立不精确文本校正模型,能快速识别整块文字的照片、视频加工工艺,它能将整幅照片或整帧视频中的整块文字块标记出来,从而节省OCR处理的系统资源,大大提高文字识别效率。<br/>[0005]本专利技术的目的之一在于提供一种基于深度学习优化网络的图文识别方法,包括如下步骤:
[0006]步骤一:通过深度学习目标检测技术,识别出单帧图像中的物体;
[0007]步骤二:通过抠图模型和对齐模型,将所述物体抠出图片,并对齐;
[0008]步骤三:将所述图片整块进行OCR识别;
[0009]步骤四:将OCR识别得到的文字识别结果送入基于深度学习自然语言处理建立的NLP校正模型进行校正,最终输出文字识别结果。
[0010]优选地,建立基于深度学习自然语言处理的NLP校正模型具体步骤为:
[0011]首先,利用前期积累的语料库进行进行深度人工神经网络的初始化;
[0012]然后,利用整理好的整块进行OCR识别的识别过程信息、NLP人工校正的输入文本的错误信息、校正过程记录相关信息,以及作为数据集输入对齐的目标物体信息、精确度不高的文本进行训练,通过合理设置的损失函数对深度人工神经网络进行权值调整。
[0013]优选地,所述单帧图像为照片集终的单张图片或视频中的单帧图片。
[0014]本专利技术的目的之二在于提供一种基于深度学习优化网络的图文识别系统,至少包
括:
[0015]物体识别模块:通过深度学习目标检测技术,识别出单帧图像中的物体;
[0016]对齐模块:通过抠图模型和对齐模型,将所述物体抠出图片,并对齐;
[0017]OCR识别模块:将所述图片整块进行OCR识别;
[0018]修正模块:将OCR识别得到的文字识别结果送入基于深度学习自然语言处理建立的NLP校正模型进行校正,最终输出文字识别结果。
[0019]优选地,建立基于深度学习自然语言处理的NLP校正模型具体步骤为:
[0020]首先,利用前期积累的语料库进行深度人工神经网络的初始化;
[0021]然后,利用整理好的整块进行OCR识别的识别过程信息、NLP人工校正的输入文本的错误信息、校正过程记录相关信息,以及作为数据集输入对齐的目标物体信息、精确度不高的文本进行训练,通过合理设置的损失函数对深度人工神经网络进行权值调整。
[0022]优选地,所述单帧图像为照片集的单张图片或视频中的单帧图片。
[0023]本专利技术的目的之三在于提供一种实现基于深度学习优化网络的图文识别方法的计算机程序。
[0024]本专利技术的目的之四在于提供一种实现基于深度学习优化网络的图文识别方法的信息数据处理终端。
[0025]本专利技术的目的之五在于提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行基于深度学习优化网络的图文识别方法。
[0026]综上所述,本专利技术的优点及积极效果为:
[0027]使用本专利技术的技术方案,能快速识别整块文字的照片、视频加工工艺,它能将整幅照片或整帧视频中的整块文字块标记出来,从而节省OCR处理的系统资源,大大提高文字识别效率。
附图说明
[0028]图1为传统技术方案的流程图;
[0029]图2为本专利技术优选实施例的流程图;
[0030]图3为本专利技术优选实施例中NLP校正模型的建立流程图;
[0031]图4为本专利技术优选实施例中NLP的应用流程图。
具体实施方式
[0032]为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。
[0033]请参阅图2,一种基于深度学习优化网络的图文识别方法,包括如下步骤:
[0034]1)首先在图像或者视频帧中通过深度学习目标检测技术识别出物体。
[0035]2)通过后台众多的目标物体抠图模型和对齐模型,将各个识别出的物体抠出图片来并对齐。
[0036]3)将对齐的物体图片整块进行OCR识别,而不是单个字符OCR识别。此过程中,由于整块图片进行OCR识别过程中,存在着大量干扰和扭曲,识别出的文字可能极不符合要求。
[0037]4)将上一步骤不精确的文字识别结果送入基于深度学习自然语言处理建立的NLP(自然语言处理,Natural Language Processing,以下同)校正模型进行校正,最终输出较精确的文字识别结果。
[0038]其中:建立基于深度学习自然语言处理的NLP校正模型具体步骤为:
[0039]1)首先,利用前期积累的语料库进行深度人工神经网络(DNN)的初始化。
[0040]2)利用整理好的整块进行OCR识别的识别过程信息、NLP人工校正的输入文本的错误信息、校正过程记录相关信息,以及作为数据集输入的对齐的目标物体信息、精确度不高的文本进行训练,通过合理设置的损失函数对DNN进行权值调整。
[0041]使用已训练好的“基于深度学习自然语言处理建立的NLP校正模型”的过程如图4所示:对于需要文字识别的图像或视频帧,将其作为输入,输入到已训练好的DNN当中,DNN输出校正好的较为精确的文本。
[0042]本专利技术图3、图4中所涉及的人工神经网络(DNN),包括但不限于下列网络或网络的组合:CNN(Convolution neural network卷积神经网络)、RNN(Recurrent neural network递归神经网络)、GAN(Generative Adversarial本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习优化网络的图文识别方法,其特征在于:至少包括如下步骤:步骤一:通过深度学习目标检测技术,识别出单帧图像中的物体;步骤二:通过抠图模型和对齐模型,将所述物体抠出图片,并对齐;步骤三:将所述图片整块进行OCR识别;步骤四:将OCR识别得到的文字识别结果送入基于深度学习自然语言处理建立的NLP校正模型进行校正,最终输出文字识别结果。2.基于权利要求1所述基于深度学习优化网络的图文识别方法,其特征在于,建立基于深度学习自然语言处理的NLP校正模型具体步骤为:首先,利用前期积累的语料库进行进行深度人工神经网络的初始化;然后,利用整理好的整块进行OCR识别的识别过程信息、NLP人工校正的输入文本的错误信息、校正过程记录相关信息,以及作为数据集输入对齐的目标物体信息、精确度不高的文本进行训练,通过合理设置的损失函数对深度人工神经网络进行权值调整。3.基于权利要求1或2所述基于深度学习优化网络的图文识别方法,其特征在于,所述单帧图像为照片集终的单张图片或视频中的单帧图片。4.一种基于深度学习优化网络的图文识别系统,其特征在于:至少包括:物体识别模块:通过深度学习目标检测技术,识别出单帧图像中的物体;对齐模块:通过抠图模型和对齐模型,将...

【专利技术属性】
技术研发人员:戴亦斌
申请(专利权)人:北京信工博特智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1