一种视频图像中叠加透明时间字符的夜间成像识别方法技术

技术编号:26260030 阅读:28 留言:0更新日期:2020-11-06 17:55
本发明专利技术属于计算机视觉领域,涉及一种夜间视频图像中透明时间标注信息的识别方法,包括:改进CRNN的训练过程配置;制作透明时间字符叠加夜间背景图像作为训练输入样本;引入二维注意力机制模块训练出适合夜间透明时间字符的识别模型;使用识别模型从夜间待检图像中输出时间识别结果并进行逻辑校验。本发明专利技术针对主流摄像机设备上透明时间标注信息的识别需求,使用夜间成像环境,初步提升透明时间字符与背景图像的差异性,并进一步增强透明时间字符的特征提取能力,构造了自然场景‘无衬底’叠加透明特征文本的识别模型,实现了夜间成像环境下、具备特征加权抽取能力的透明时间字符识别方法。

【技术实现步骤摘要】
一种视频图像中叠加透明时间字符的夜间成像识别方法
本专利技术属于计算机视觉领域,可用于公安及相关行业视频监控系统画面中叠加时间字符的检测。尤其涉及一种夜间视频图像中透明时间标注信息的识别方法。
技术介绍
在针对视频监控图像中叠加时间字符的识别方案设计过程中,发现某些主流品牌的摄像机在叠加字符时可能采用笔画透明(即非黑非白的灰色)显示的风格,这给本已面临诸多困难的‘无衬底’背景的字符识别带来了新的挑战。有实验数据显示,在相同的自然场景下,使用字符笔画透明风格比不透明(纯黑色或纯白色)风格,其识别准确率下降20%以上,严重影响了方案的预期应用效果。基于深度学习技术的图像中叠加时间字符的识别算法,为了获得较理想的效果,一般都会假定应用场景的约束条件——即在图像中采用规范的、纯黑色或纯白色、非透明风格标注叠加的字符。由于透明字符固有的低对比度属性,极容易与图像的自然背景产生混淆,而变得更加不易辨认,直接影响训练模型的性能。通过实验数据分析,单纯依靠算法训练来提升笔画透明字符的识别准确率,已经遇到了瓶颈。
技术实现思路
本专利技术所要解决的技术问题是,针对笔画透明时间字符的识别需求,提供一种夜间视频图像中透明时间字符的识别方法。本专利技术的基本技术构思是,改进CRNN(一种基于图像序列的通用文本识别神经网络)的训练过程配置;制作透明时间字符叠加夜间背景图像作为训练输入样本;引入二维注意力机制模块训练出适合夜间透明时间字符的识别模型;使用识别模型从夜间待检图像中输出时间识别结果并进行逻辑校验。为解决上述技术问题,本专利技术提出一种满足夜间成像中透明时间字符的识别方法,包括以下步骤:步骤i、改进CRNN通用文本识别网络的训练方法;步骤ii、制作CRNN夜间透明时间字符训练样本;步骤iii、引入注意力模块强化训练夜间透明时间字符识别模型;步骤iv、识别夜间待检图像中的透明时间字符并校验输出值的合理性。优选的,所述步骤i,改进CRNN通用文本识别网络的训练方法的具体步骤包括:1-1)在主干ResNet分类网络(一种主流CNN卷积网络)的特征提取环节,采用3层采样,以保留字符的更多横向特征;1-2)在提取字符高度特征时,使用最大值池化;1-3)选择单层LSTM(长短时记忆网络),将其输出的隐藏层向量,用于注意力向量计算。优选的,所述步骤ii,制作CRNN夜间透明时间字符训练样本的具体步骤包括:2-1)在背景透明图像上,使用字符像素渲染函数在其上生成黑白颜色、多种字体、多种时间格式的时间字符;2-2)使用PerlinNoise噪点图对上述时间字符笔画像素生成随机斑点;2-3)对带有随机斑点的时间字符进行透明度处理,叠加到随机的夜间背景图像上作为训练的输入样本;2-4)取2-1)中时间字符的文本形式,将其中非标准时间格式的字符进行忽略和强制替换处理,作为与2-3)匹配的识别目标样本;优选的,所述步骤iii、引入注意力模块强化训练夜间透明时间字符识别模型的具体步骤包括:3-1)采用CTC编码体系,记录从特征图解码出的每一个时间字符特征与其目标时间字符文本的匹配概率向量;3-2)在解码输出匹配概率向量的同时,将LSTM内部的隐藏层向量叠加到处理过的特征图上生成一个注意力权重图,对相应位置时间字符进行特征增强;3-3)在注意力模块中,将注意力权重图降维成注意力向量,和匹配概率向量进行简单加计算,得到最终的目标字符匹配概率向量;3-4)当匹配概率整体最优时,即得到时间字符识别模型。优选的,所述步骤vi,识别夜间待检图像中的时间字符并校验输出值的合理性的具体步骤包括:4-1)在夜间时段采集视频监控设备的待检图像,输入识别模型;4-2)当识别输出的数字字符数量不足标准的时候,判定为无法校验,强制转化为特定时间值;4-3)对识别输出的数字字符数量超出标准的,补齐或删除多余的时间连接符号‘-和:’;4-4)按照‘年月日’和‘时分秒’的逻辑约束,并结合3-3)中记录的匹配概率,完成时间分割和修正,转化为最终时间值。至此,完成CRNN夜间文字识别模型的训练,输入夜间待检图像,得到时间字符识别结果,实现本专利技术的技术方案。本专利技术的有益效果包括:1)针对主流摄像机设备上一种透明时间标注信息的识别需求,实现了自然场景‘无衬底’叠加透明特征文本的识别模型,形成了专用解决方案。2)将对透明时间字符的特征学习问题,转向在特定成像模式下,进一步提升字符与背景区分度的新思路,为类似应用领域的识别需求提供了一种关键技术。附图说明下面结合附图和具体实施方式对本专利技术的技术方案作进一步具体说明。图1为本专利技术方法的基本流程图。图2为CRNN网络夜间识别模型的训练输入样本。图3为夜间待检图像中代表性时间字符的显示效果图。图4为引入注意力机制增强字符特征提取的示意图。图5为识别结果的时间字符格式标准化示例图样,其中5(a)表示补充未显现的“:”符号的时间字符格式示意图,5(b)表示删除掉多余的“:”符号的时间字符格式示意图。图6为识别结果的时间字符逻辑校验示例图样。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。如图1所示,本专利技术提出一种满足夜间成像中透明时间字符的识别方法的整体流程图,主要步骤如下:步骤i、自定义CRNN文本识别网络结构;步骤ii、制作夜间透明时间字符训练样本;步骤iii、引入注意力模块强化训练识别模型;步骤iv、识别夜间待检图像中的透明时间字符并校验输出值的合理性。更具体的,步骤i包括如下细分步骤:1-1)在主干ResNet分类网络(一种主流CNN卷积网络)的特征提取环节,采用3层采样设置,以保留字符的更多横向特征;本实施例中,3层采样从512像素宽度的原始图像,得到64像素宽度特征图。1-2)在提取字符高度特征时,使用最大值池化;mf=max({f0,y|y∈{0,1,2,3}})从高度方向上的4个特征值中选取最大的一个特征,提升字符识别精度。1-3)选择单层LSTM(长短时记忆网络),将其输出的隐藏层向量,用于注意力向量计算。步骤ii包括如下细分步骤:2-1)在背景透明图像上,使用字符像素渲染函数在其上生成黑白颜色、多种字体、多种时间格式的时间字符;Ωi={0,1,...,K}绘制K个字符,其中Ωi代表第i个字符将要绘制的像素范围(仅包含该字符的笔画像素),Ω0代表除字符像素之外的背景像素。I[x,y]表示图像中像素[x,y]的RGB平均亮度值,Ωi表示第i个字符所覆盖的本文档来自技高网...

【技术保护点】
1.一种视频图像中叠加透明时间字符的夜间成像识别方法,其特征在于,包括以下步骤:/n步骤i、改进CRNN通用文本识别网络的训练方法;/n步骤ii、制作CRNN夜间透明时间字符训练样本;/n步骤iii、引入注意力模块强化训练夜间透明时间字符识别模型;/n步骤iv、识别夜间待检图像中的透明时间字符并校验输出值的合理性。/n

【技术特征摘要】
1.一种视频图像中叠加透明时间字符的夜间成像识别方法,其特征在于,包括以下步骤:
步骤i、改进CRNN通用文本识别网络的训练方法;
步骤ii、制作CRNN夜间透明时间字符训练样本;
步骤iii、引入注意力模块强化训练夜间透明时间字符识别模型;
步骤iv、识别夜间待检图像中的透明时间字符并校验输出值的合理性。


2.根据权利要求1所述的视频图像中叠加透明时间字符的夜间成像识别方法,其特征在于,所述步骤i,改进CRNN通用文本识别网络的训练方法的具体步骤包括:
1-1)在主干ResNet分类网络的特征提取环节,采用3层采样,以保留字符的更多横向特征;
1-2)在提取字符高度特征时,使用最大值池化;
1-3)选择单层LSTM,将其输出的隐藏层向量,用于注意力向量计算。


3.根据权利要求1所述的视频图像中叠加透明时间字符的夜间成像识别方法,其特征在于,所述步骤ii,制作CRNN夜间透明时间字符训练样本的具体步骤包括:
2-1)在背景透明图像上,使用字符像素渲染函数在其上生成黑白颜色、多种字体、多种时间格式的时间字符;
2-2)使用PerlinNoise噪点图对上述时间字符笔画像素生成随机斑点;
2-3)对带有随机斑点的时间字符进行透明度处理,叠加到随机的夜间背景图像上作为训练的输入样本;
2-4)取2-1)中时间字符的文本形式,将其中非标准时...

【专利技术属性】
技术研发人员:聂晖杨小波李军
申请(专利权)人:武汉东智科技股份有限公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1