基于DDT深度神经模型结构的监控图像地点信息识别方法技术

技术编号:31090363 阅读:20 留言:0更新日期:2021-12-01 12:52
本发明专利技术涉及计算机视觉技术领域,特别是涉及一种基于DDT深度神经模型结构的监控图像地点信息识别方法,包括步骤:对图像进行预处理;将预处理后的图像应用Deep

【技术实现步骤摘要】
基于DDT深度神经模型结构的监控图像地点信息识别方法


[0001]本说明书涉及计算机视觉领域,特别是涉及一种基于深度学习的视频图像中叠加地点信息文字的识别方法。

技术介绍

[0002]视频监控在平安城市、智能交通、智慧城市等重点行业基础设施和公共服务的持续建设带动了安防监控行业的高速发展。根据公安部发布的《GA/T 751

2008视频图像文字标注规范》,监控图像中的辖区地点信息,必须按照“视频图像设备基础信息”——简称“一机一档”,进行人工的正确标注。这不仅是贯彻落实公安部《关于加强公安大数据智能化建设应用的指导意见》的工作内容要求,也是“全国公安视频图像数据治理专项”任务的基础保障。
[0003]全国由公安部组织建设的视频监控规模已经达到1000万量级,采用人工方式对监控图像中的标注信息进行核查是极其低效、且不可持续的,所以通过一种AI算法自动识别监控图像中的地点信息,对当前公安部专项任务推进工作具有重要的现实意义。
[0004]常见基于深度学习的文字信息识别采用的是循环神经网络结构,或者使用纯基于注意力机制的Transformer结构对文本数据进行识别。这两种结构识别地点信息都有很大的弊端,前者当字符过长时,模型只能保存部分提取到的特征;对图像提取的特征向量并非以单个字符为单元;最后导致不能保证稳定识别出整个文字行。后者使用注意力机制对图像进行特征提取缺少丰富性;需要配合增加位置编码信息,也会在一定程度上降低识别结果精度。

技术实现思路

[0005]为解决上述问题,本文提出一种基于DDT深度模型结构的监控图像地点信息识别的方法。
[0006]所述DDT深度模型为Deep feature

Decoder Transformer深度神经模型。该模型的Deep feature子结构对输入的监控图像进行特征提取,并对提取到的特征进行降维,使其序列化。之后将特征序列并行输入Decoder子结构,在Decoder子结构中,采用多头注意力机制对特征进行循环解码,将解码的结果与汉字库进行映射,选指定长度的字符作为地点识别的结果。并使用基于先验概率的交叉熵函数计算识别结果的损失,并将该损失反馈给网络模型,优化网络参数。
[0007]本专利技术提出的基于DDT深度模型结构的监控图像地点信息识别的方法,包括如下步骤:
[0008]步骤I:对输入的监控图像进行预处理,调整图像尺寸等于深度神经网络的输入维度;
[0009]步骤II:将预处理之后的图像送入所述的Deep

Feature子结构中,得到监控图像的特征矩阵;
[0010]步骤III:从标准正态分布N(0,1)中随机取值,生成与步骤II中特征矩阵等尺寸的位置矩阵,该位置矩阵代表特征矩阵的位置信息;
[0011]步骤IV:从标准正态分布N(0,1)中随机取值,生成由隶属度向量构成的概率矩阵;以相同的取值方法,生成与概率矩阵等尺寸的位置矩阵,该位置矩阵代表概率矩阵的位置信息;
[0012]步骤V:载入深度神经网络模型,将特征矩阵及其位置矩阵、概率矩阵及其位置矩阵作为Decoder子结构的输入,对特征矩阵进行循环解码,计算识别结果的概率矩阵;
[0013]步骤VI:使用线性映射矩阵将步骤V的结果映射至t维,其中t等于字符集合S={s1,s2,.......s
t
,}的大小,得到模型对字符集合中每个字符预测的概率。输出每个隶属度向量中概率值最高的索引值,根据字符集合中索引值与字符映射关系,将索引值替换为字符,作为地点信息识别结果输出。
[0014]优选地,步骤VI之后还设有步骤VII:使用所述的先验概率交叉熵公式计算识别结果与地点字符的损失,并将损失值反馈给网络模型使其更新参数,优化网络模型。
[0015]优选的,所述步骤II的具体步骤如下:
[0016]步骤II

1:将经过预处理之后的监控图像,使用深度特征提取网络进行图像特征提取,从高到低得到C1,C2,C3三个深度特征图;
[0017]步骤II

2:使用卷积操作将特征图C1,C2,C3的通道维度统一,并使用如下公式形成融合特征P1,P2,P3;
[0018]P1=C1[0019]P2=0.5C2+0.5Up
×2(P1)
[0020]P3=0.5C3+0.5Up
×2(P2)
[0021]其中Up
×2(P)代表使用双线性插值函数对特征图P进行2倍上采样操作,之后采用等权相加融合高层与低层特征;
[0022]步骤II

3:使用如下公式对融合特征P3进行维度变换,得到监控图像的特征矩阵A:
[0023]A
c
×
hw
=f(P
c
×
h
×
w
)
[0024]函数f(P
c
×
h
×
w
)表示对尺寸为c
×
h
×
w的张量P进行维度变换得到尺寸为c
×
hw的矩阵A。
[0025]优选的,所述步骤V的具体步骤如下:
[0026]步骤V

1:记特征矩阵为A,其位置矩阵记为A
loc
,将矩阵A与A
loc
进行矩阵相加得到矩阵A

,记概率矩阵为B,其位置矩阵记为B
loc
,将B与B
loc
进行矩阵相加得到矩阵B


[0027]步骤V_2:使用所述公式计算矩阵B

与矩阵B

的正负相关协方差矩阵,将该正负相关协方差矩阵与初始B

进行矩阵相加,并对相加的结果进行归一化得到矩阵B
ln

[0028]步骤V

3:使用所述公式计算矩阵A

与矩阵B
ln
的正负相关协方差矩阵,将该正负相关协方差矩阵与矩阵B
ln
进行矩阵相加;
[0029]步骤V

4:将步骤V

3的结果与线性映射矩阵L1相乘,然后对相乘结果归一化;
[0030]步骤V

5:将隶属度向量进行升维,之后使用激活函数对升维的向量进行激活,最后降维至初始维度,得到新一轮字符隶属度向量构成的矩阵B1;
[0031]步骤V

6:将A、A
loc
、B1、B
loc
作为新一轮Decoder子结构的输入,重复上述步骤,对特
征矩阵A循环解码。
[0032]优选的,所述步骤V

2,V

3计算正负相关协方差矩阵P公式如下:本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于DDT深度模型结构的监控图像地点信息识别的方法,其特征在于,包括如下步骤:步骤I:对输入的监控图像进行预处理,调整图像尺寸等于深度神经网络的输入维度;步骤II:将预处理之后的图像送入所述的Deep

Feature子结构中,得到监控图像的特征矩阵;步骤III:从标准正态分布N(0,1)中随机取值,生成与步骤II中特征矩阵等尺寸的位置矩阵,该位置矩阵代表特征矩阵的位置信息;步骤IV:从标准正态分布N(0,1)中随机取值,生成由隶属度向量构成的概率矩阵;以相同的取值方法,生成与概率矩阵等尺寸的位置矩阵,该位置矩阵代表概率矩阵的位置信息;步骤V:载入深度神经网络模型,将特征矩阵及其位置矩阵、概率矩阵及其位置矩阵作为Decoder子结构的输入,对特征矩阵进行循环解码,计算识别结果的概率矩阵;步骤VI:使用线性映射矩阵将步骤V的结果映射至t维,其中t等于字符集合S={s1,s2,.......s
t
,}的大小,得到模型对字符集合中每个字符预测的概率;输出每个隶属度向量中概率值最高的索引值,根据字符集合中索引值与字符映射关系,将索引值替换为字符,作为地点信息识别结果输出。2.根据权利要求1所述的基于DDT深度模型结构的监控图像地点信息识别的方法,其特征在于,所述步骤VI之后还设有步骤VII:使用所述的先验概率交叉熵公式计算识别结果与地点字符的损失,并将损失值反馈给网络模型使其更新参数,优化网络模型。3.根据权利要求1所述的基于DDT深度模型结构的监控图像地点信息识别的方法,其特征在于,所述步骤II的具体步骤如下:步骤II

1:将经过预处理之后的监控图像,使用深度特征提取网络进行图像特征提取,从高到低得到C1,C2,C3三个深度特征图;步骤II

2:使用卷积操作将特征图C1,C2,C3的通道维度统一,并使用如下公式形成融合特征P1,P2,P3;P1=C1P2=0.5C2+0.5Up
×2(P1)P3=0.5C3+0.5Up
×2(P2)其中Up
×2(P)代表使用双线性插值函数对特征图P进行2倍上采样操作,之后采用等权相加融合高层与低层特征;步骤II

3:使用如下公式对融合特征P3进行维度变换,得到监控图像的特征矩阵A:A
c
×
hw
=f(P
c
×
h
×
w
)函数f(P
c
×
h
×
w
)表示对尺寸为c
×
h
×
w的张量P进行维度变换得到尺寸为c
×
hw的矩阵A。4.根据权利要求1所述的基于DDT深度模型结构的监控图像地点信息识别的方法,其特征在于,所述步骤V的具体步骤如下:步骤V

1:记特征矩阵为A,其位置矩阵记为A
loc
,将矩阵A与A
loc
进行矩阵相加得到矩阵A

,记概率矩阵为B,其位置矩阵记为B
loc
,将B与B
loc
进行矩阵相加得到矩阵B

;步骤V

2:使用所...

【专利技术属性】
技术研发人员:聂晖杨小波李军
申请(专利权)人:武汉东智科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1