基于Gabor滤波器的文字信息特征提取与识别方法技术

技术编号:15502122 阅读:130 留言:0更新日期:2017-06-03 23:10
基于Gabor滤波器的文字信息特征提取与识别方法。现有的视频和图像中文本信息的提取技术效率较低的问题。本发明专利技术通过以下步骤实现:设计Gabor滤波器,设计并训练DBN分类网络,运用形态学的方法,对定位后的图像进行去噪、空洞区域的填充以及孤立点的剔除操作,使定位的文本图像更加精确,并将最终去噪后的文本定位二值图像映射到原始视频帧图像上,得到准确的文本定位区域;对定位并且处理后的准确的文本定位区域,进行文本增强、二值化处理、归一化与特征提取操作;运用OCR识别技术对经步骤四处理后的文本进行识别。本发明专利技术能更加精准的提取视频和图像中文本信息。

Feature extraction and recognition method of text information based on Gabor filter

Feature extraction and recognition method of text information based on Gabor filter. The existing techniques for extracting text information in video and images are inefficient. The invention is realized by the following steps: Gabor filter design, design and training of DBN network classification, using morphological method, denoising, filling holes and eliminate the operation of isolated points on the location of the text image positioning is more accurate, and will eventually go to the text location after noise two value image mapping to the original video frame image, text location accurately; to accurately locate and text location area after processing, text enhancement, binarization processing, normalization and feature extraction operation; using OCR technology to identify the text after treatment were identified in step four. The invention can extract the text information in the video and the image more accurately.

【技术实现步骤摘要】
基于Gabor滤波器的文字信息特征提取与识别方法
:本专利技术涉及一种基于Gabor滤波器的文字信息特征提取与识别方法。
技术介绍
:近年来,随着人们的生活水平的提升以及多媒体信息技术的不断发展,图像、视频已经成为人们的日常生活中不可缺少的一种重要的信息媒介,也成为互联网中信息传播的一种途径。在现实生活中,新闻、电影与电视剧以及自拍视频等多媒体内容每天都会大量的产生。面对互联网上如此大容量的视频和图像,如何对视频数据的管理、使用以及对重要视频内容的检索就变得异常的重要。视频的文字是具有高层语义信息的,一般情况下,是对视频内容的辅助和说明,便于人们理解视频内容以及对视频的检索等,所以文字信息是与视频密不可分的。如果能够对视频中的文字进行有效的识别,就可以利用识别到的文字信息实现对视频内容进行自动摘要,让人们在对视频进行检索、视频的理解以及分析等方面更加方便。所以,如何对视频中的文本内容进行有效的定位以及识别就变得非常有意义。针对视频和图像中文本信息的提取,可以将其应用于视频内容检索、智能交通、视觉识别系统、数字图书馆以及一些其它领域。
技术实现思路
:本专利技术的目的是为了解决现有的视频和图像中文本信息的提取技术效率较低的问题,而提出的一种基于Gabor滤波器的文字信息特征提取与识别方法。上述的目的通过以下的技术方案实现:步骤一、设计Gabor滤波器;步骤二、设计并训练DBN分类网络;步骤三、运用形态学的方法,对定位后的图像进行去噪、空洞区域的填充以及孤立点的剔除操作,使定位的文本图像更加精确,并将最终去噪后的文本定位二值图像映射到原始视频帧图像上,得到准确的文本定位区域;步骤四、对定位并且处理后的准确的文本定位区域,进行文本增强、二值化处理、归一化与特征提取操作;步骤五、运用OCR识别技术对经步骤四处理后的文本进行识别。有益效果:本专利技术通过Gabor滤波器的特性以及对于文字纹理特征响应的特点。研究正弦平面波的特性和高斯函数的属性,给出了利用Gabor滤波器对文字信息特征的提取方法,以及在四个方向上对于文字的纹理特征的响应情况。利用深度学习的方法,构造深度置信网络。通过构造的网络对Gabor滤波器在四个方向上输出的纹理特征图像进行处理,实现对文本的定位。然后利用形态学的处理方法,对视频中定位到的文本区域进行腐蚀与膨胀、开闭混合运算等以去除噪声、孤立点、以及对空洞区域的填充等,使定位到的文本图像更加准确。最后,对形态学处理后的文本区域,进行图像二值化、字符切分与归一化以及特征提取等,使得处理后的文本能够有效的在OCR中识别,从而提升视频中文本的识别率。具体实施方式:具体实施方式一:本实施方式的基于Gabor滤波器的文字信息特征提取与识别方法,所述的文字信息特征提取与识别方法通过以下步骤实现:步骤一、设计Gabor滤波器;步骤二、设计并训练DBN分类网络;步骤三、运用形态学的方法,对定位后的图像进行去噪、空洞区域的填充以及孤立点的剔除操作,使定位的文本图像更加精确,并将最终去噪后的文本定位二值图像映射到原始视频帧图像上,得到准确的文本定位区域;步骤四、对定位并且处理后的准确的文本定位区域,进行文本增强、二值化处理、归一化与特征提取操作;步骤五、运用OCR识别技术对经步骤四处理后的文本进行识别。具体实施方式二:与具体实施方式一不同的是,本实施方式的基于Gabor滤波器的文字信息特征提取与识别方法,步骤一所述的设计Gabor滤波器的过程是指选择合适参数对视频帧图像从0°、45°、90°、135°四个方向上对字符特殊的纹理特征进行处理,得到四幅在这四个方向上的纹理特征图像,抑制背景区域,保持四个方向上的文字纹理特征,具体为:将Gabor滤波器在空间域看做是一个正弦平面波,这个正弦平面波整好被Gaussian函数调制从而形成Gabor滤波器,其中,Gabor滤波器由7个参数来决定,分别是中心点、角度、均方差和以及和,并通过以下假设简化Gabor滤波器的函数,(1).正弦平面波的方向与Gaussian核函数的旋转角度相同,即;(2).Gaussian核函数的中心点在(0,0),均方差;(3).经过Gaussian函数调制之后的正弦平面波,其余弦与正弦存在区别,余弦成分需要减去,从而使得平面正弦波在整体上保持零均值的特性,通过化简后的二维Gabor滤波器可以定义为:表示像素位置;ω表示频率;θ表示滤波方向;σ表示均方差;频率ω与方差σ的关系式为:,φ是倍频程的带宽,取值为1。具体实施方式三:与具体实施方式一或二不同的是,本实施方式的基于Gabor滤波器的文字信息特征提取与识别方法,步骤二所述的设计并训练DBN分类网络是指利用RBM网络结构来构建DBN分类网络,根据不同层数的RBM网络,达到不同深度的DBN分类网络,比较不同深度的网络结构、复杂度、定位效果,选择合适深度的DBN分类网络对视频帧图像进行处理,定位出文本区域,具体为:DBN网络是由一系列受限玻尔兹曼机的概率模型组成的,描述过程如下:假设有一个系统S,它有n层,设输入为,输出为,学习的一般过程表示为:,如果系统的输出等于它的输入,即输入经过系统变化之后没有任何的信息损失或者损失很小,可以看作基本上保持不变,说明输入经过每一层Si,都几乎没有信息的损失,即任意一层Si的输出,都是对原有信息,也就是输入的另外一种表示;其中:所述的每一层网络的预训练均使用无监督学习进行;每次只用无监督学习训练网络中的一层,并将它的训练结果作为其高一层的输入;用自顶而下的监督算法去调整所有层。具体实施方式四:与具体实施方式三不同的是,本实施方式的基于Gabor滤波器的文字信息特征提取与识别方法,步骤三所述的运用形态学的方法,对定位后的图像进行去噪、空洞区域的填充以及孤立点的剔除操作,具体为:首先,运用腐蚀和膨胀分别对经由DBN网络分类处理后的二值图像进行运算;其次,利用腐蚀和膨胀运算组合成的开闭运算对DBN网络分类处理后的二值图像进行单独开或者闭运算;再次,对DBN分类网络处理后的二值图像进行先开后闭运算及先闭后开运算。具体实施方式五:与具体实施方式一、二或四不同的是,本实施方式的基于Gabor滤波器的文字信息特征提取与识别方法,其特征是:其特征是:步骤四所述的对定位并且处理后的准确的文本定位区域时,进行文本增强和二值化处理具体为:(1).取初始阈值g0,且其中,gmax是最大灰度值,gmin是最小灰度值;(2).根据初始阈值g0,将视频中图像像素大于g0和小于g0两个部分;(3).分别求步骤2中大于初始阈值g0部分的期望值以及小于初始阈值g0部分的期望值,再对这两个部分的期望值分别取平均值;(4).不断的进行迭代,直到的值达到足够的小,取t=,此时的t值为阈值。具体实施方式六:与具体实施方式五不同的是,本实施方式的基于Gabor滤波器的文字信息特征提取与识别方法,步骤四所述的对定位并且处理后的准确的文本定位区域时,进行归一化操作具体为:设定原图像的大小为,经过归一化后的大小变为,经过分裂操作过程:将原始图像中的每一个像素点都放大,即把这一点的像素值从原始图像的阵列复制到放大后的阵列中,得到新的阵列的大小为;经过合并操作过程:将大小为的阵列划分成个大小为的阵列;则对阵列图像中每一点本文档来自技高网...

【技术保护点】
一种基于Gabor滤波器的文字信息特征提取与识别方法,其特征是: 所述的文字信息特征提取与识别方法通过以下步骤实现:步骤一、设计Gabor滤波器;步骤二、设计并训练DBN分类网络;步骤三、运用形态学的方法,对定位后的图像进行去噪、空洞区域的填充以及孤立点的剔除操作,使定位的文本图像更加精确,并将最终去噪后的文本定位二值图像映射到原始视频帧图像上,得到准确的文本定位区域;步骤四、对定位并且处理后的准确的文本定位区域,进行文本增强、二值化处理、归一化与特征提取操作;步骤五、运用OCR识别技术对经步骤四处理后的文本进行识别。

【技术特征摘要】
1.一种基于Gabor滤波器的文字信息特征提取与识别方法,其特征是:所述的文字信息特征提取与识别方法通过以下步骤实现:步骤一、设计Gabor滤波器;步骤二、设计并训练DBN分类网络;步骤三、运用形态学的方法,对定位后的图像进行去噪、空洞区域的填充以及孤立点的剔除操作,使定位的文本图像更加精确,并将最终去噪后的文本定位二值图像映射到原始视频帧图像上,得到准确的文本定位区域;步骤四、对定位并且处理后的准确的文本定位区域,进行文本增强、二值化处理、归一化与特征提取操作;步骤五、运用OCR识别技术对经步骤四处理后的文本进行识别。2.根据权利要求1所述的基于Gabor滤波器的文字信息特征提取与识别方法,其特征是:步骤一所述的设计Gabor滤波器的过程是指选择合适参数对视频帧图像从0°、45°、90°、135°四个方向上对字符特殊的纹理特征进行处理,得到四幅在这四个方向上的纹理特征图像,抑制背景区域,保持四个方向上的文字纹理特征,具体为:将Gabor滤波器在空间域看做是一个正弦平面波,这个正弦平面波整好被Gaussian函数调制从而形成Gabor滤波器,其中,Gabor滤波器由7个参数来决定,分别是中心点、角度、均方差和以及和,并通过以下假设简化Gabor滤波器的函数,(1).正弦平面波的方向与Gaussian核函数的旋转角度相同,即;(2).Gaussian核函数的中心点在(0,0),均方差;(3).经过Gaussian函数调制之后的正弦平面波,其余弦与正弦存在区别,余弦成分需要减去,从而使得平面正弦波在整体上保持零均值的特性,通过化简后的二维Gabor滤波器可以定义为:表示像素位置;ω表示频率;θ表示滤波方向;σ表示均方差;频率ω与方差σ的关系式为:,φ是倍频程的带宽,取值为1。3.根据权利要求1或2所述的基于Gabor滤波器的文字信息特征提取与识别方法,其特征是:步骤二所述的设计并训练DBN分类网络是指利用RBM网络结构来构建DBN分类网络,根据不同层数的RBM网络,达到不同深度的DBN分类网络,比较不同深度的网络结构、复杂度、定位效果,选择合适深度的DBN分类网络对视频帧图像进行处理,定位出文本区域,具体为:DBN网络是由一系列受限玻尔兹曼机的概率模型组成的,描述过程如下:假设有一个系统S,它有n层,设输入为,输出为,学习的一般过程表示为:,如果系统的输出等于它...

【专利技术属性】
技术研发人员:刘明珠李文静郑云非
申请(专利权)人:哈尔滨理工大学
类型:发明
国别省市:黑龙江,23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1