Feature extraction and recognition method of text information based on Gabor filter. The existing techniques for extracting text information in video and images are inefficient. The invention is realized by the following steps: Gabor filter design, design and training of DBN network classification, using morphological method, denoising, filling holes and eliminate the operation of isolated points on the location of the text image positioning is more accurate, and will eventually go to the text location after noise two value image mapping to the original video frame image, text location accurately; to accurately locate and text location area after processing, text enhancement, binarization processing, normalization and feature extraction operation; using OCR technology to identify the text after treatment were identified in step four. The invention can extract the text information in the video and the image more accurately.
【技术实现步骤摘要】
基于Gabor滤波器的文字信息特征提取与识别方法
:本专利技术涉及一种基于Gabor滤波器的文字信息特征提取与识别方法。
技术介绍
:近年来,随着人们的生活水平的提升以及多媒体信息技术的不断发展,图像、视频已经成为人们的日常生活中不可缺少的一种重要的信息媒介,也成为互联网中信息传播的一种途径。在现实生活中,新闻、电影与电视剧以及自拍视频等多媒体内容每天都会大量的产生。面对互联网上如此大容量的视频和图像,如何对视频数据的管理、使用以及对重要视频内容的检索就变得异常的重要。视频的文字是具有高层语义信息的,一般情况下,是对视频内容的辅助和说明,便于人们理解视频内容以及对视频的检索等,所以文字信息是与视频密不可分的。如果能够对视频中的文字进行有效的识别,就可以利用识别到的文字信息实现对视频内容进行自动摘要,让人们在对视频进行检索、视频的理解以及分析等方面更加方便。所以,如何对视频中的文本内容进行有效的定位以及识别就变得非常有意义。针对视频和图像中文本信息的提取,可以将其应用于视频内容检索、智能交通、视觉识别系统、数字图书馆以及一些其它领域。
技术实现思路
:本专利技术的目的是为了解决现有的视频和图像中文本信息的提取技术效率较低的问题,而提出的一种基于Gabor滤波器的文字信息特征提取与识别方法。上述的目的通过以下的技术方案实现:步骤一、设计Gabor滤波器;步骤二、设计并训练DBN分类网络;步骤三、运用形态学的方法,对定位后的图像进行去噪、空洞区域的填充以及孤立点的剔除操作,使定位的文本图像更加精确,并将最终去噪后的文本定位二值图像映射到原始视频帧图像上,得到准确的文 ...
【技术保护点】
一种基于Gabor滤波器的文字信息特征提取与识别方法,其特征是: 所述的文字信息特征提取与识别方法通过以下步骤实现:步骤一、设计Gabor滤波器;步骤二、设计并训练DBN分类网络;步骤三、运用形态学的方法,对定位后的图像进行去噪、空洞区域的填充以及孤立点的剔除操作,使定位的文本图像更加精确,并将最终去噪后的文本定位二值图像映射到原始视频帧图像上,得到准确的文本定位区域;步骤四、对定位并且处理后的准确的文本定位区域,进行文本增强、二值化处理、归一化与特征提取操作;步骤五、运用OCR识别技术对经步骤四处理后的文本进行识别。
【技术特征摘要】
1.一种基于Gabor滤波器的文字信息特征提取与识别方法,其特征是:所述的文字信息特征提取与识别方法通过以下步骤实现:步骤一、设计Gabor滤波器;步骤二、设计并训练DBN分类网络;步骤三、运用形态学的方法,对定位后的图像进行去噪、空洞区域的填充以及孤立点的剔除操作,使定位的文本图像更加精确,并将最终去噪后的文本定位二值图像映射到原始视频帧图像上,得到准确的文本定位区域;步骤四、对定位并且处理后的准确的文本定位区域,进行文本增强、二值化处理、归一化与特征提取操作;步骤五、运用OCR识别技术对经步骤四处理后的文本进行识别。2.根据权利要求1所述的基于Gabor滤波器的文字信息特征提取与识别方法,其特征是:步骤一所述的设计Gabor滤波器的过程是指选择合适参数对视频帧图像从0°、45°、90°、135°四个方向上对字符特殊的纹理特征进行处理,得到四幅在这四个方向上的纹理特征图像,抑制背景区域,保持四个方向上的文字纹理特征,具体为:将Gabor滤波器在空间域看做是一个正弦平面波,这个正弦平面波整好被Gaussian函数调制从而形成Gabor滤波器,其中,Gabor滤波器由7个参数来决定,分别是中心点、角度、均方差和以及和,并通过以下假设简化Gabor滤波器的函数,(1).正弦平面波的方向与Gaussian核函数的旋转角度相同,即;(2).Gaussian核函数的中心点在(0,0),均方差;(3).经过Gaussian函数调制之后的正弦平面波,其余弦与正弦存在区别,余弦成分需要减去,从而使得平面正弦波在整体上保持零均值的特性,通过化简后的二维Gabor滤波器可以定义为:表示像素位置;ω表示频率;θ表示滤波方向;σ表示均方差;频率ω与方差σ的关系式为:,φ是倍频程的带宽,取值为1。3.根据权利要求1或2所述的基于Gabor滤波器的文字信息特征提取与识别方法,其特征是:步骤二所述的设计并训练DBN分类网络是指利用RBM网络结构来构建DBN分类网络,根据不同层数的RBM网络,达到不同深度的DBN分类网络,比较不同深度的网络结构、复杂度、定位效果,选择合适深度的DBN分类网络对视频帧图像进行处理,定位出文本区域,具体为:DBN网络是由一系列受限玻尔兹曼机的概率模型组成的,描述过程如下:假设有一个系统S,它有n层,设输入为,输出为,学习的一般过程表示为:,如果系统的输出等于它...
【专利技术属性】
技术研发人员:刘明珠,李文静,郑云非,
申请(专利权)人:哈尔滨理工大学,
类型:发明
国别省市:黑龙江,23
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。