本发明专利技术涉及一种视频中的文本跟踪和多帧增强方法。视频中的文本,大都叠加在复杂背景中,将其直接送入OCR(光学字符识别)软件识别,识别率较低,所以还需要进行文本增强操作,以便将文本和背景分离。视频中的文本,大都要持续数十帧甚至上百帧,并且在相邻帧中,文本颜色基本保持不变,而背景是动态变化的,所以多帧之间具有大量的互补信息可用于文本增强。本发明专利技术的方法利用文本笔画具有边缘对的特点消除背景边缘像素的影响,然后使用Hausdorff距离度量方法跟踪文本在相邻帧的位置,在得到文本图像在相邻帧的多个副本之后,利用最小像素搜索法消除背景,得到具有干净背景的二值文本图像,可以大大提高OCR软件对视频文本的识别率。
【技术实现步骤摘要】
专利
本专利技术涉及基于内容的多媒体检索
,更具体地,本专利技术涉及视频中的文本识别。 本专利技术利用视频场景中的文本行在多帧之间具有大量的互补信息的特点,提出了一种视频中的 文本跟踪和多帧增强方法。本专利技术的方法可以消除背景,提高视频文本的光学字符软件(OCR, Optical Character Recognition)识另摔。 专利技术背景视频中的文本提供了和视频内容高度相关的信息,比如场景地点、事件时间,以及体育比 赛中的比分、运动员姓名等信息,但是相对于文档图像中的文本,视频中的文本识别面临以下 难点(l)由于电视制式、视频传输和存储的原因,视频图像分辨率较低;(2)视频中的文本往往 叠加在视频场景中。由于大多数商用光学字符识别(OCR, Optical Character Recognitkm)软件只能 处理具有干净背景的二值图像,所以在检测到视频中的文本区域以后,还必须将文本和背景分 离开来,得到具有干净背景的文本图像,然后才能进行OCR识别。关于图像二值化,己经有了 很多的相关工作,但是这些方法并不适用于视频文本的二值化操作。综合起来,视频文本区域在时域具有以下特点(l)同一文本会持续几十帧甚至几百帧;(2) 当文本有运动时,呈现水平或者垂直的线型运动;(3)文字的生存期,文字像素颜色保持不变,背景像素颜色可能具有很大的变化。所以,如果能将多帧的文本区域信息综合起来,生成新的文本图像,动态变换的背景像素 会被削弱,有利于文本的进一步识别。视频中文本的运动总体来说可以分为两类刚性运动和非刚性运动。刚性运动是指文本在 运动过程中没有缩放、扭曲等艺术效果,整个运动周期过程中文本的尺寸没有发生变化,固定 不变;非刚性运动与刚性运动相反,文本在运动过程中具有縮放、淡入淡出、扭曲等形式。对 于具有非刚性运动的视频文本,由于在运动过程中文本尺寸发生了变化,同时可能具有多种艺 术表现形式,导致文本在空域中的几何属性发生了改变。所以,在非刚性运动情况下,文本行 在多帧的不同表现形式对于消除背景,增强文本并没有太大的意义。同时,视频中的文本,比 如新闻和电影视频中的文本,统计可以发现,大部分都是刚性运动,所以本专利技术的方法只考虑 文本具有刚性运动情形时的文本跟踪和增强问题。近些年,在视频文本自动追踪领域主要有两种常用的技术基于SSD (Sum of SquaredDifference)的跟踪方法和基于M估计模板匹配的追踪方法。在"Text Enhancement in Digital Video Using Multiple Frame Integration. Proceedings of ACM Multimedia , Orlando FL, USA, 1999:19 22"中,HuipingLi.公开了一种利用基于SSD跟踪文本,利用多帧信息增强文本的方法, 而在博士论文"视频文本的提取.杭州:浙江大学,2006"中,章东平公开了一种基于M估计模板 匹配的追踪方法。然而,无论是基于SSD或者是M估计模板匹配的方法,当文本位于运动背景 或者文本颜色具有变化效果的时候,跟踪效果都不是很理想,这是由两种方法本身的匹配规则 说决定的。文本行区域在整个运动周期期间,文本像素颜色本身也可能会发生变化,比如文本 像素颜色具有同一个色调,但是饱和度或者亮度会发生渐进改变。此时,基于SSD的方法会在 匹配时产生较大的匹配值,最终不能正确跟踪文本在相邻帧的位置。另外,基于M估计模板匹 配的方法本身计算复杂度较高,虽说可以追踪具有平移、縮小、放大、旋转、淡入淡出和部分 被遮挡的水平或倾斜排列文本,但是追踪文本在相邻帧的位置主要是用于多帧增强文本质量, 利用文本区域的时域特征消除背景,而当文本被遮挡或者縮小放大时,追踪到的文本行文本像 素本身的空域信息已经变得不完整,对于提高文本的质量,获得高质量的文本二值图像没有太 大的意义。所以,本发朋提出了一种新的并能适应文本具有变化背景、文本像素颜色不一致时 的文本跟踪和多帧增强算法中国专利技术专利00807661.8公开了一种"文本增强的方法",该方法根据空域信息增强文本质 量,和本文基于时域增强文本的思路具有较大差异。
技术实现思路
本专利技术要解决的问题克服现有技术的不足,提供一种利用多帧互补信息增强视频文本的方法,该方法即使在文本具有运动背景时也具有更好的跟踪效果,显著提高了OCR软件对视频文本的识别准确率。本专利技术的技术解决方案 ,包括以下步骤(1) 利用文本检测算法检测视频序列第!'帧中出现的文本区域,记为文本图像力,将参考图 像Rf设置为力,令C代表文本图像/多个副本的集合,将力添加到集合C中;(2) 跟踪文本图像力在相邻帧的位置,跟踪过程如下步骤2.1:利用Canny边缘算子提取参考图像Rf的边缘图EM; 步骤2.2:估算参考图像Rf在后续帧的出现区域,记为R'; 步骤2.3:利用Canny边缘算子提取R'的边缘图EMI;步骤2.4:利用文本笔画形成的边缘具有边缘对的特点,删除边缘图EM和EM1中的背景 对象形成的边缘;步骤2.5:采用Chamfer 5-7-11距离变换将边缘图EM.和EM1进行Hausdorff距离变换;步骤2.6:计算R'和Rf之间的Hausdorff距离值v,如果v小于预先设定的阈值,R'中取得值 v所在的区域f就是参考图像Rf在相邻帧的匹配区域;如果v大于预先设定的阈值,完成文本跟 踪过程;步骤2.7:将参考图像Rf设置f,将Rf添加到集合C中,转到步骤(2.1),继续跟踪; (3)利用最小像素搜索法,经由集合C中的多个文本图像,得到一个新的文本图像/,此 时变换的背景已经被大大减弱消除;(4)利用最小均方差的二值化方法,对文本图像/进行二值化操作,最终得到具有干净背景 的文本二值化图像。所述步骤(2.4)的方法如下 (1)计算文本图像每个像素点的梯度方向0(jc,力,计算公式如下<formula>formula see original document page 6</formula>(2) 如果在相邻的距离范围内出现梯度方向平行的两个像素,则认为这两个像 素构成像素对,其中Dmin和Dn^的值由需要跟踪的文本字体的大小决定;(3) 令EM代表边缘集合,边缘对(p,,p2)集合记为Ep,则Ep对E的重构定义为/ £(£0£》,E经由Ep重构后得到结果主要由文本边缘组成。 所述步骤(2.2)的方法如下 (1)假定视频的分辨率为RHxRv (Rv、 RH分别为垂直、水平分辨率),帧率s帧/秒,如 果文本的出现时间为&,那么当前文本在相邻帧垂直和水平方向上的偏移值-(2)设置&的最小估计值,根据上述公式,在相邻帧得到文本的最大偏帧垂直偏移值和最 大水平方向偏移值,如果当前文本区力的矩形面积为wxh,根据最大偏移值如和欲,可以估计 出参考图像Rf在相邻下一帧的匹配区域面积大小(w^ 2x说)x" + 2x3v)。本专利技术与现有技术相比的优点在于(1)本专利技术在跟踪文本图像乂的算法中利用了文本笔画边缘对的特点,采用Hausdorff距 离值跟踪文本,能有效消除在文本跟踪过程中背景对象引入的误差,跟踪算法具有更好的适应性本文档来自技高网...
【技术保护点】
一种视频中的文本跟踪和多帧增强方法,其特征在于:包括以下步骤:(1)利用文本检测算法检测视频序列第i帧中出现的文本区域,记为文本图像f↓[i],将参考图像R↓[f]设置为f↓[i],令C代表文本图像f↓[i]多个副本的集合,将f↓[i]添加到集合C中;(2)跟踪文本图像f↓[i]在相邻帧的位置,跟踪过程如下:步骤2.1:利用Canny边缘算子提取参考图像R↓[f]的边缘图EM;步骤2.2:估算参考图像R↓[f]在后续帧的出现区域,记为R′;步骤2.3:利用Canny边缘算子提取R′的边缘图EM1;步骤2.4:利用文本笔画形成的边缘具有边缘对的特点,删除边缘图EM和EM1中的背景对象形成的边缘;步骤2.5:采用Chamfer5-7-11距离变换将边缘图EM和EM1进行Hausdorff距离变换;步骤2.6:计算R′和R↓[f]之间的Hausdorff距离值v,如果v小于预先设定的阈值,R′中取得值v所在的区域f′就是参考图像R↓[f]在相邻帧的匹配区域;如果v大于预先设定的阈值,完成文本跟踪过程;步骤2.7:将参考图像R↓[f]设置f,将R↓[f]添加到集合C中,转到步骤(2.1),继续跟踪;(3)利用最小像素搜索法,经由集合C中的多个文本图像,得到一个新的文本图像f,此时变换的背景已经被大大减弱消除;(4)利用最小均方差的二值化方法,对文本图像f进行二值化操作,最终得到具有干净背景的文本二值化图像。...
【技术特征摘要】
【专利技术属性】
技术研发人员:朱成军,李超,秦思思,熊璋,
申请(专利权)人:北京航空航天大学,
类型:发明
国别省市:11[中国|北京]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。