一种基于注意力机制的视频监控图像自动标注方法技术

技术编号:37957565 阅读:21 留言:0更新日期:2023-06-30 09:31
本发明专利技术涉及计算机视觉技术领域,具体涉及一种基于注意力机制的视频监控图像自动标注方法,运用Encoder

【技术实现步骤摘要】
一种基于注意力机制的视频监控图像自动标注方法


[0001]本专利技术涉及计算机视觉
,具体涉及一种基于注意力机制的视频监控图像自动标注方法。

技术介绍

[0002]近年来,人工智能在视频监控领域的应用在国内外备受关注,通过图像标注(Image Caption)来生成对视频监控图像精准的描述语句,可以提升计算机对于视频监控中目标信息更为准确的理解。
[0003]图像标注技术可以看作将图像用文本信息描述后,通过深度学习让计算机能够理解其他未知图像中包含哪些学习过的信息。由于传统标注对于图像需要注意的侧重点分布较为分散,通过引入注意力机制能够提升重点关注域视频监控图像信息描述准确性,提升后续计算机对于视频监控场景下所需目标检测准确性。

技术实现思路

[0004]本专利技术的目的在于提供一种基于注意力机制的视频监控图像自动标注方法,运用注意力机制提升视频监控数据集标注质量,引入Encoder

Decoder模型框架实现数据集自动标注,旨在解决大批量数据集标注时需要耗费大量人力的技术问题。
[0005]为实现上述目的,本专利技术提供了一种基于注意力机制的视频监控图像自动标注方法,包括下列步骤:
[0006]构建视频监控场景数据集;
[0007]进行预训练并用实际监控场景微调模型参数;
[0008]通过Yolov4中的特征提取网络CSPDarknet53提取有效目标信息及空间视觉特征向量;
[0009]引入注意力机制至长短期记忆网络LSTM
[0010]输入未标注数据集生成用于表述所需视频监控图像的文本信息。
[0011]其中,所述视频监控场景数据集一部分由公开的数据集构成,另一部分由实际的监控场景中人员异常行为发生时间段提取出的有效图像帧进行分类整理后,选取适应所需场景具有代表性的违规动作图像数据集构成。
[0012]其中,进行预训练并用实际监控场景微调模型参数的过程,具体为引入迁移学习,利用构建的公开数据集进行预训练并提取初始化参数,再利用实际监控场景下采集的视频关键帧数据集对模型进行微调。
[0013]其中,在通过Yolov4中的特征提取网络CSPDarknet53提取有效目标信息及空间视觉特征向量的过程中,将提取出来的目标信息和特征向量传递给解码器中基于注意力机制的长短期记忆网络LSTM。
[0014]其中,在引入注意力机制至长短期记忆网络LSTM的过程中,将图像全局特征与编码器识别到的空间视觉特征通过由tanh函数和softmax函数构成的视觉注意力模块对全局
以及局部的视觉特征进行分析,提升生成标注和实际违规动作目标的贴合效果。
[0015]其中,在输入未标注数据集生成用于表述所需视频监控图像的文本信息的过程中,通过迁移学习方式将预训练后的模型和基于注意力机制的LSTM网络模型构成整体视频监控图像标注模型,对未标注的数据集进行自动标注,生成用于表述所需视频监控图像的文本信息。
[0016]本专利技术提供了一种基于注意力机制的视频监控图像自动标注方法,运用Encoder

Decoder模型框架,编码器选择使用卷积神经网络来提取视频监控图像中的视觉特征并编码为一组向量,解码器选择使用神经网络语言模型对编码器输出的这组向量进行分析,最后输出成一段对于视频监控图像完整表述的文本信息,专利技术先运用了迁移学习的方法引入公开数据集先对模型进行预训练再用实际监控场景数据实现模型参数微调,通过自动化标注的方式可以排除由不同人员标注产生的主观因素影响,能够形成客观的标注标准,并且可以在大批量数据集需要标注时节省大量的人力物力,提升视频监控图像数据集整体标注效果。
附图说明
[0017]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0018]图1是本专利技术的一种基于注意力机制的视频监控图像自动标注方法的流程示意图。
[0019]图2是本专利技术的Encoder

Decoder框架结构示意图。
[0020]图3是本专利技术的CSPDarknet53网络提取特征的过程示意图。
[0021]图4是本专利技术的长短期记忆网络LSTM模型的结构示意图。
具体实施方式
[0022]下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本专利技术,而不能理解为对本专利技术的限制。
[0023]请参阅图1,本专利技术提供了一种基于注意力机制的视频监控图像自动标注方法,包括下列步骤:
[0024]S1:构建视频监控场景数据集;
[0025]S2:进行预训练并用实际监控场景微调模型参数;
[0026]S3:通过Yolov4中的特征提取网络CSPDarknet53提取有效目标信息及空间视觉特征向量;
[0027]S4:引入注意力机制至长短期记忆网络LSTM;
[0028]S5:输入未标注数据集生成用于表述所需视频监控图像的文本信息。
[0029]以下结合具体实施例和执行步骤作进一步说明(具体请参阅图2至图4):
[0030]步骤S1:构建监控场景下目标检测所需数据集,一部分由公开的数据集构成,另一
部分由实际的监控场景中人员异常行为发生时间段提取出的有效图像帧进行分类整理后,选取适应所需场景具有代表性的违规动作图像数据集构成。
[0031]步骤S2:引入迁移学习,利用Step1构建的公开数据集进行预训练并提取初始化参数,再利用实际监控场景下采集的视频关键帧数据集对模型进行微调,将预先训练的网络权重值作为初始化参数加载,能够有效加速收敛并提高模型性能。
[0032]步骤S3:通过Yolov4中的特征提取网络CSPDarknet53来提取最后池化层中有效目标信息P={p1,

,p
t
}及其对应的空间视觉特征向量C={C1,

,C
t
},并将提取出来的目标信息和特征向量传递给解码器中基于注意力机制的长短期记忆网络LSTM。
[0033]步骤S4:引入注意力机制至LSTM中,将图像全局特征与编码器识别到的空间视觉特征通过由tanh函数和softmax函数构成的视觉注意力模块对全局以及局部的视觉特征进行分析,提升生成标注和实际违规动作目标的贴合效果。
[0034]步骤S5:通过迁移学习方式将预训练后的模型和基于注意力机制的LSTM网络模型构成整体视频监控图像标注模型,对未标注的数据集进行自动标注,生成用于表述所需视频监控图像的文本信息。
[0035]如图2所示,模型本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于注意力机制的视频监控图像自动标注方法,其特征在于,包括下列步骤:构建视频监控场景数据集;进行预训练并用实际监控场景微调模型参数;通过Yolov4中的特征提取网络CSPDarknet53提取有效目标信息及空间视觉特征向量;引入注意力机制至长短期记忆网络LSTM;输入未标注数据集生成用于表述所需视频监控图像的文本信息。2.如权利要求1所述的基于注意力机制的视频监控图像自动标注方法,其特征在于,所述视频监控场景数据集一部分由公开的数据集构成,另一部分由实际的监控场景中人员异常行为发生时间段提取出的有效图像帧进行分类整理后,选取适应所需场景具有代表性的违规动作图像数据集构成。3.如权利要求2所述的基于注意力机制的视频监控图像自动标注方法,其特征在于,进行预训练并用实际监控场景微调模型参数的过程,具体为引入迁移学习,利用构建的公开数据集进行预训练并提取初始化参数,再利用实际监控场景下采集的视频关键帧数据集对模型进行微调。4.如权利要求3所述的基于...

【专利技术属性】
技术研发人员:吴军陈红樑黄明益
申请(专利权)人:桂林电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1