提供一种用于检测视频文本的方法和装置。该检测视频文本的方法包括:将形成视频的帧中的第t帧(其中t是正整数)读取为当前帧;确定在当前帧中是否存在从在前帧检测到的文本区,所述在前帧是形成视频的帧中的第(t-N)帧(其中,N是正整数);如果确定出在当前帧中没有从在前帧检测到的文本区,则检测整个当前帧中的文本区;以及如果确定出在当前帧存在从在前帧检测到的文本区,则从通过从当前帧排除对应于从在前帧检测到的文本区的区域而获得的剩余区检测文本区,以及验证在下一帧中是否存在文本区,所述下一帧是形成视频的帧中的第(t+N)帧。
【技术实现步骤摘要】
本专利技术涉及视频处理,以及更具体地说,涉及用于检测视频文本(text ofvideo)的方法和装置。
技术介绍
检测视频文本的传统方法主要分成在压缩域(compressed domain)中检测视频文本的方法和在未压缩域中检测视频文本的方法。首先,在名为“Automatic Caption Text Detection and Processing forDigital Images”的U.S.专利No.6,185,329中,公开了在压缩域中检测视频文本的传统方法。在该方法中,由于在压缩域中检测文本,故可以快速地检测文本,但由于从压缩域提供的信息的限制,不能正确地检测文本。接着,在名为“Method and Apparatus for Detecting and InterpretingTextual Captions in Digital Video Signal”的U.S.专利No.6,101,274以及名为“Generalized Text Localization in Images”的U.S.专利No.6,470,094中,公开了在未压缩域中检测视频文本的传统方法。在这些方法中,可以相当正确地检测文本,但由于解压缩帧需要太多时间,将会降低检测文本的速度。此外,难以在复杂背景中存在文本区以及随时间流逝快速改变背景区的环境下检测文本。
技术实现思路
本专利技术提供一种检测视频文本的方法,通过该方法,正确和快速地检测视频中的文本同时比现有技术更少地受特定环境的影响。本专利技术还提供一种用于检测视频文本的装置,其中正确和快速地检测视频中的文本同时比现有技术更少地受特定环境的影响。根据本专利技术的一个方面,提供一种检测视频文本的方法,该方法包括将形成视频的帧中的第t帧(其中t是正整数)读取为当前帧;确定在当前帧中是否存在从在前帧检测到的文本区,所述在前帧是形成视频的帧中的第(t-N)帧(其中,N是正整数);如果确定出在当前帧中没有从在前帧检测到的文本区,则检测整个当前帧中的文本区;以及如果确定出在当前帧中存在从在前帧检测到的文本区,则从通过从当前帧排除对应于从在前帧检测到的文本区的区域获得的剩余区检测文本区,以及验证(verifying)在下一帧中是否存在文本区,所述下一帧是形成视频的帧中的第(t+N)帧。根据本专利技术的另一方面,提供一种用于检测视频文本的装置,该装置包括帧输入单元,将形成视频的帧中的第t帧(其中t是正整数)读取为当前帧;文本区校验(checking)单元,校验在当前帧中是否存在从在前帧检测到的文本区,所述在前帧是形成视频的帧中的第(t-N)帧(其中,N是正整数),以及将校验结果输出为第一控制信号;第一文本区检测单元,响应于第一控制信号,从当前帧检测文本区;第二文本区检测单元,响应于第一控制信号,从通过从当前帧排除对应于从在前帧检测到的文本区的区域获得的剩余区检测文本区;以及文本区验证单元,验证在下一帧中是否存在文本区,所述下一帧是形成视频的帧中的第(t+N)帧。附图说明通过参考附图,详细地描述示例性实施例,本专利技术的上述和其他特征和优点将更显而易见,其中图1是示例说明根据本专利技术的实施例的检测视频文本的方法的流程图;图2是示例说明根据本专利技术的实施例的图1的操作14的流程图;图3是示例说明根据本专利技术的实施例的图2的操作40的流程图;图4是表示用于理解图3的操作60的图像组(GOPs)的视图;图5是表示用于理解图3的操作62的8×8子块的视图;图6是表示加权值与梯度的关系曲线的图;图7是示例说明根据本专利技术的实施例的图2的操作44的流程图;图8是示例说明根据本专利技术的实施例的图7的操作82的流程图;图9是用于理解图8的操作82A的由行和列组成的文本帧(text frame)的示例视图;图10是示例说明根据本专利技术的实施例的图8的操作104的流程图;图11是示例说明根据本专利技术的实施例的图2的操作46的流程图;图12是用于理解图11的实施例46A的帧的示意视图; 图13是示例说明根据本专利技术的实施例的图1的操作16的流程图;图14是用于理解图13的操作176的帧的示意视图;图15是示例说明根据本专利技术的实施例的图13的操作180的流程图;图16是用于理解图15的操作180A的帧的示意视图;图17是用于根据本专利技术的实施例检测视频文本的装置的框图;图18是根据本专利技术的实施例的图17的第一文本区检测单元的框图;图19是根据本专利技术的实施例的图18的第一字符块检测部分的框图;图20是根据本专利技术的实施例的图18的第一文本帧校验部分的框图;图21是根据本专利技术的实施例的图18的第一文本区确定部分的框图;图22是根据本专利技术的实施例的图21的边界框确定部分的框图;图23是根据本专利技术的实施例的图22的行和列组合部分的框图;图24是根据本专利技术的实施例的图18的开始帧搜索部分的框图;图25是根据本专利技术的实施例的图17的第二文本区检测单元的框图;图26是根据本专利技术的实施例的图17的文本区验证单元的框图;以及图27是根据本专利技术的实施例的图26的结束帧搜索部分的框图。具体实施例方式在下文中,将参考附图,详细地描述根据本专利技术的实施例的检测视频文本的方法。图1是示例说明根据本专利技术的实施例的检测视频文本的方法的流程图。图1的检测视频文本的方法包括检测或验证当前帧中的文本区(操作10至16)以及根据当前帧是否是视频的结束帧来准备读取下一帧(操作18和20)。在操作10中,将形成视频的帧中的第t(其中t是正整数)帧读取为当前帧。在操作10后,在操作12中,确定在当前帧中是否存在从在前帧检测到的文本区,该在前帧是形成视频的帧中的第(t-N)(其中N是正整数)帧。在这种情况下,文本区是其中存在文本的区域。文本区中的文本可以是作为由视频创作者有意插入的文本的重叠文本,或是作为视频本身中的文本的场景文本。文本区中的文本在索引、汇总或搜索视频中起重要作用。如果确定出在当前帧中不存在从在前帧检测到的文本区,在操作14中,从当前帧检测文本区。例如,在当前帧是第一帧时,没有在前帧。这一情形对应于在当前帧中不存在从在前帧检测到的文本区的情形。因此,从为第一帧的当前帧检测文本区。图2是示例说明根据本专利技术的实施例14A的图1的操作14的流程图。图2的实施例14A包括从当前帧确定文本区(操作40至44)和搜索起始帧(操作46)。在操作40中,从当前帧检测字符块。图3是示例说明根据本专利技术的实施例40A的图2的操作40的流程图。图3的实施例40A包括确定文本侯选像素和文本候选块(操作60和62)以及使用文本候选块确定字符块(操作64)。在操作60中,获得当前帧的每个像素的亮度和为第(t+N)帧的下一帧的每个像素的亮度间的亮度差,这些像素位于相同位置,以及将在获得小于第一阈值TH1的亮度差时使用的当前帧的像素确定为文本候选像素。在这种情况下,当当前帧是视频的最后一帧时,没有下一帧。因此,例如,可以将获得亮度差时使用的下一帧的每个像素的亮度设置为当前帧的每个像素的亮度。例如,为确定当前帧中的像素中的位置(x,y)中的像素是否是文本候选像素,获得该像素的亮度值It(x,y)与下一帧中相同位置(x,y)中的像素的亮度值It+N(x,y)间的亮度差(或差值的绝对值),以及校验该亮度差本文档来自技高网...
【技术保护点】
一种检测视频文本的方法,该方法包括:将形成视频的帧中的第t帧(其中t是正整数)读取为当前帧;确定在当前帧中是否存在从在前帧检测到的文本区,所述在前帧是形成视频的帧中的第(t-N)帧(其中,N是正整数);如果确定出在当 前帧中没有从在前帧检测到的文本区,则检测整个当前帧中的文本区;以及如果确定出在当前帧中存在从在前帧检测到的文本区,则从通过从当前帧排除对应于从在前帧检测到的文本区的区域而获得的剩余区检测文本区,以及验证在下一帧中是否存在文本区,所述 下一帧是形成视频的帧中的第(t+N)帧。
【技术特征摘要】
...
【专利技术属性】
技术研发人员:郑喆坤,金智渊,文永秀,
申请(专利权)人:三星电子株式会社,
类型:发明
国别省市:KR[韩国]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。