视频目标识别方法及装置制造方法及图纸

技术编号：41853239 阅读：11 留言：0更新日期：2024-06-27 18:29

本发明专利技术提供一种视频目标识别方法及装置，涉及视频目标识别技术领域，可解决数据标注难、标注成本高、标注数据匮乏的问题。该方法包括：响应于输入原始视频，确定多个关键帧和待处理帧，待处理帧为任意两个相邻关键帧之间的连续帧，每个关键帧包含至少一个待识别目标。对待识别目标进行标注，得到第一目标包围框。根据第一目标包围框，采用预先训练的目标跟踪模型识别待处理帧内的跟踪目标，跟踪目标与待识别目标的相似度基于目标重叠度和目标类别确定。确定跟踪目标的第二目标包围框。以及根据第一目标包围框与第二目标包围框的重叠度，确定原始视频内的目标类别。本发明专利技术的方法，可以减少目标标注的工作量，提高了视频目标的识别效率和准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及视频目标识别，尤其涉及一种视频目标识别方法及装置。

技术介绍

1、视频细粒度识别是计算机视觉领域中的一项具体任务，其目标是对视频中的目标进行精细化的识别和分类。与普通的视频分类不同，视频细粒度识别需要在更细的类别层次上对目标进行识别。

2、然而，在实际应用中，由于视频细粒度识别往往需要对特定领域的目标进行精细化的分类，因此标注过程一般需要相关领域专家的参与。同时，相对于图像，目标在视频中可能有不同的姿态、角度、遮挡等，以及可能出现模糊、运动等因素的干扰，给标注带来不确定性。相对于图像，视频标注也需要处理更多目标的变化性。

3、由于视频由大量帧组成，数据量远大于图像，即使单个视频的时长不长，累积起来的总工作量也十分可观。因此，数据标注难、标注成本高、标注数据匮乏已成为视频细粒度识别领域技术发展和应用亟需解决的瓶颈难题。

技术实现思路

1、(一)要解决的技术问题

2、针对现有的技术问题，本专利技术的实施例提供一种视频目标识别方法及装置，用于至少部分解决以上技术问题。

3、(二)技术方案

4、本专利技术提供一种视频目标识别方法，包括：响应于输入原始视频，确定多个关键帧和待处理帧，待处理帧为任意两个相邻关键帧之间的连续帧，每个关键帧包含至少一个待识别目标。对待识别目标进行标注，得到第一目标包围框。根据第一目标包围框，采用预先训练的目标跟踪模型识别待处理帧内的跟踪目标，跟踪目标与待识别目标的相似度基于目标重叠度和目标类

5、可选地，根据第一目标包围框，采用预先训练的目标跟踪模型识别待处理帧内的跟踪目标包括：根据第一目标包围框，采用基于相关滤波的跟踪器按时序预测相邻的待处理帧内目标的位置和尺度。根据预测目标的位置和尺度，确定无标注样本。以及根据无标注样本和经过标注的待识别目标优化目标跟踪模型，以确定跟踪目标。

6、可选地，根据无标注样本和经过标注的待识别目标优化目标跟踪模型，以确定跟踪目标包括：根据与关键帧相邻的上一帧待处理帧内的第一预测目标，确定对应关键帧内的第二预测目标。基于目标重叠度和类别相似性，确定第二预测目标与对应关键帧内的标注目标的相似度。以及根据第一预测目标及与第一预测目标相似度最大的多个关键帧内的标注目标，对目标跟踪模型进行优化，以确定跟踪目标。

7、可选地，视频目标识别方法还包括：在第二预测目标与连续多个关键帧内的标注目标的相似度均小于预设阈值的情况下，删除第二预测目标。在关键帧内的标注目标与多个第二预测目标的相似度均小于预设阈值的情况下，采用新建的跟踪器对关键帧内的标注目标进行重关联。

8、可选地，根据第一目标包围框，采用基于相关滤波的跟踪器按时序预测相邻的待处理帧内目标的位置和尺度包括：根据第一目标包围框，对跟踪器进行初始化，以确定与关键帧相邻的下一帧待处理帧内的第三预测目标。根据第三预测目标，按时序逐帧确定与跟踪器响应最大的预测目标。

9、可选地，第一目标包围框包含目标类别标签，根据第一目标包围框与第二目标包围框的重叠度，确定原始视频内的目标类别包括：在第一目标包围框与第二目标包围框的重叠度大于预设阈值的情况下，确定多个匹配目标包围框。采用投票机制确定多个匹配目标包围框中数量最多的目标类别标签。以及根据数量最多的目标类别标签，确定原始视频内的目标类别。

10、可选地，在确定多个匹配目标包围框之前，视频目标识别方法还包括：根据第一目标包围框和第二目标包围框，对原始视频进行按帧裁剪，得到多个裁剪区域，每一帧裁剪区域的尺寸相同。按时序对每一帧裁剪区域进行拼接，得到目标视频。以及根据数量最多的目标类别标签，确定原始视频内的目标类别包括：根据数量最多的目标类别标签，确定目标视频内的目标类别。

11、可选地，确定多个关键帧和待处理帧包括：对原始视频进行拆分，得到多个子视频帧。按固定时间间隔对多个子视频帧进行抽取，得到多个关键帧。以及确定任意相邻的多个关键帧之间的子视频帧为待处理帧。

12、可选地，对待识别目标进行标注，得到第一目标包围框包括：响应于用户输入，对待识别目标进行标注，得到第一目标包围框。或者采用预先训练的深度学习模型对待识别目标进行标注，得到第一目标包围框。

13、本专利技术的第二方面提供了一种视频目标识别装置，包括：第一确定模块，用于响应于输入原始视频，确定多个关键帧和待处理帧，待处理帧为任意两个相邻关键帧之间的连续帧，每个关键帧包含至少一个待识别目标。标注模块，用于对待识别目标进行标注，得到第一目标包围框。识别模块，用于根据第一目标包围框，采用预先训练的目标跟踪模型识别待处理帧内的跟踪目标，跟踪目标与待识别目标的相似度基于目标重叠度和目标类别确定。第二确定模块，用于确定跟踪目标的第二目标包围框。以及第三确定模块，用于根据第一目标包围框与第二目标包围框的重叠度，确定原始视频内的目标类别。

14、(三)有益效果

15、与现有技术相比，本专利技术的实施例提供的视频目标识别方法及装置，至少具有以下有益效果：

16、(1)本专利技术的视频目标识别方法，通过对原始视频进行关键帧提取，且只对关键帧进行标注，减少了目标标注的工作量。同时，采用预先训练的目标跟踪模型对待处理帧内的目标进行位置预测，并基于预测目标和标注目标的相似度及目标包围框的重叠度对原始视频进行目标识别，大大提高了视频目标的识别效率和准确率。

17、(2)本专利技术的视频目标识别方法，通过基于相关滤波的跟踪器可以逐帧确定各待处理帧内的预测目标，并形成无标注样本。结合无标注样本和标注目标形成的样本对目标跟踪模型进行优化，来确定跟踪目标，保证了减小标注量时，目标识别的准确性。

18、(3)本专利技术的视频目标识别方法，基于与各关键帧相邻的待处理帧进行目标相似度的匹配，大大减少了计算量，进一步提高了视频目标的识别效率。

本文档来自技高网...

【技术保护点】

1.一种视频目标识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一目标包围框，采用预先训练的目标跟踪模型识别所述待处理帧内的跟踪目标包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述无标注样本和经过标注的所述待识别目标优化所述目标跟踪模型，以确定所述跟踪目标包括：

4.根据权利要求3所述的方法，其特征在于，还包括：

5.根据权利要求2所述的方法，其特征在于，所述根据所述第一目标包围框，采用基于相关滤波的跟踪器按时序预测相邻的所述待处理帧内目标的位置和尺度包括：

6.根据权利要求1所述的方法，其特征在于，所述第一目标包围框包含目标类别标签，所述根据所述第一目标包围框与所述第二目标包围框的重叠度，确定所述原始视频内的目标类别包括：

7.根据权利要求6所述的方法，其特征在于，在确定多个匹配目标包围框之前，所述方法还包括：

8.根据权利要求1所述的方法，其特征在于，所述确定多个关键帧和待处理帧包括：

9.根据权利要求1所述的方法，其特征在于，所

10.一种视频目标识别装置，其特征在于，包括：

...

【技术特征摘要】

1.一种视频目标识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一目标包围框，采用预先训练的目标跟踪模型识别所述待处理帧内的跟踪目标包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述无标注样本和经过标注的所述待识别目标优化所述目标跟踪模型，以确定所述跟踪目标包括：

4.根据权利要求3所述的方法，其特征在于，还包括：

5.根据权利要求2所述的方法，其特征在于，所述根据所述第一目标包围框，采用基于相关滤波的跟踪器按时序预测相邻的所述待处理帧内目标的位置和尺...

【专利技术属性】
技术研发人员：李越豪，鉴海防，王洪昌，朱文旗，
申请(专利权)人：中国科学院半导体研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人