基于图像合成和域对抗学习的自监督目标跟踪方法及系统技术方案

技术编号：42378385 阅读：4 留言：0更新日期：2024-08-16 15:03

本发明专利技术公开了基于图像合成和域对抗学习的自监督目标跟踪方法及系统，该方法包括：获取目标对象的图像并进行图像预处理，构建目标对象合成视频帧；基于目标对象合成视频帧对视觉目标跟踪器进行训练，得到训练后的视觉目标跟踪器；基于训练后的视觉目标跟踪器，对目标对象进行跟踪，得到目标对象跟踪结果。通过使用本发明专利技术，能够实现跟踪器在任何无标注视频上进行训练，进而减少图像跟踪过程中的干扰因素从而提高跟踪精度。本发明专利技术作为基于图像合成和域对抗学习的自监督目标跟踪方法及系统，可广泛应用于视觉目标跟踪技术领域。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及视觉目标跟踪，尤其涉及基于图像合成和域对抗学习的自监督目标跟踪方法及系统。

技术介绍

1、现有的自监督目标跟踪方法即使在初始帧使用不同的策略采集跟踪目标，但仍然无法包含住完整的目标，即往往是目标对象整体的一部分。所以模型无法学习到完整的目标信息，以至于模型在实际测试时经常只框住目标的一部分，并且极易受到相似物体的干扰，鲁棒性极差。图像合成方法能够将一个完整的目标合成到一个图像中，并且通过这种方式可以获得所合成目标的准确位置与大小，但如果仅仅使用合成图像来训练跟踪器会极大的降低跟踪器的泛化性能。域对抗学习是域适应学习理论中的一种方法，它通过对抗学习的方法能够缩小源域与目标域之间的差距。通过利用域对抗学习可以缓解合成图像对跟踪器训练造成的不利影响。虽然有一些自监督目标跟踪方法也利用图像合成方法，但是他们是将合成图像与真实图像混合到一起进行训练，并没有针对合成图像造成的问题进行优化。这导致了使用这些方法训练出来的跟踪器虽然在训练过程中表现良好，然而实际测试时很难准确的框住目标并极易受相似物体的干扰，从而导致跟踪精度降低。

技术实现思路

1、为了解决上述技术问题，本专利技术的目的是提供基于图像合成和域对抗学习的自监督目标跟踪方法及系统，能够实现跟踪器在任何无标注视频上进行训练，进而减少图像跟踪过程中的干扰因素从而提高跟踪精度。

2、本专利技术所采用的第一技术方案是：基于图像合成和域对抗学习的自监督目标跟踪方法，包括以下步骤：

3、获取目标对象的图像并进

4、基于目标对象合成视频帧对视觉目标跟踪器进行训练，得到训练后的视觉目标跟踪器；

5、基于训练后的视觉目标跟踪器，对目标对象进行跟踪，得到目标对象跟踪结果，所述目标对象跟踪结果包括目标对象的位置与目标对象的大小。

6、进一步，所述获取目标对象的图像并进行图像预处理，构建目标对象合成视频帧这一步骤，其具体包括：

7、获取若干目标对象并进行拍摄处理，得到目标对象的图像，构建初步的目标对象图像数据库；

8、对初步的目标对象图像数据库进行筛选处理，得到目标对象图像数据库；

9、对目标对象图像数据库进行随机选取，获取待变换的目标对象图像；

10、对待变换的目标对象图像进行随机变换处理，得到变换后的目标对象图像；

11、将待变换的目标对象图像与变换后的目标对象图像进行视频帧合成处理，得到目标对象合成视频帧。

12、进一步，所述目标对象合成视频帧包括目标对象初始视频帧序列与目标对象后续视频帧序列，其中，所述目标对象初始视频帧序列表示待变换的目标对象图像，所述目标对象后续视频帧序列表示变换后的目标对象图像。

13、进一步，所述基于目标对象合成视频帧对视觉目标跟踪器进行训练，得到训练后的视觉目标跟踪器这一步骤，其具体包括：

14、构建视觉目标跟踪器，所述视觉目标跟踪器包括跟踪训练器与域分类训练器；

15、基于视觉目标跟踪器的跟踪训练器，对目标对象合成视频帧进行跟踪训练处理，得到训练后的跟踪训练器；

16、基于视觉目标跟踪器的域分类训练器，对预设输入数据进行分类训练处理，得到训练后的域分类训练器，所述预设输入数据为目标对象的图像或目标对象合成视频帧；

17、结合训练后的跟踪训练器与训练后的域分类训练器，得到训练后的视觉目标跟踪器。

18、进一步，所述跟踪训练器包括跟踪特征提取器和跟踪器，所述域分类训练器包括域分类特征提取器和域分类器，所述域分类器包括第一全连接层与第二全连接层。

19、进一步，所述基于视觉目标跟踪器的跟踪训练器，对目标对象合成视频帧进行跟踪训练处理，得到训练后的跟踪训练器这一步骤，其具体包括：

20、将目标对象合成视频帧输入至视觉目标跟踪器的跟踪训练器；

21、基于跟踪训练器的跟踪特征提取器，对目标对象合成视频帧进行特征提取处理，得到目标对象合成视频帧特征；

22、基于跟踪训练器的跟踪器，对目标对象合成视频帧特征进行跟踪预测，得到预测目标对象的位置与预测目标对象的边界框；

23、基于预测目标对象的位置与预测目标对象的边界框，进行跟踪训练器的跟踪损失计算，得到跟踪训练器损失值；

24、根据跟踪训练器损失值对跟踪训练器进行更新，得到训练后的跟踪训练器。

25、进一步，所述基于视觉目标跟踪器的域分类训练器，对预设输入数据进行分类训练处理，得到训练后的域分类训练器这一步骤，其具体包括：

26、将预设输入数据输入至视觉目标跟踪器的域分类训练器；

27、基于域分类训练器的域分类特征提取器，对预设输入数据进行特征提取处理，得到预设输入数据特征；

28、基于域分类训练器的域分类器，对预设输入数据特征进行域对抗训练，得到域对抗结果；

29、根据域对抗结果，进行域分类训练器的分类损失计算，得到域分类训练器损失值；

30、根据域分类训练器损失值对域分类训练器进行更新，得到训练后的域分类训练器。

31、进一步，所述分类损失计算的表达式具体如下所示：

32、；

33、上式中，表示分类损失计算函数，表示域分类器的判断结果，表示视频帧的真实类别。

34、本专利技术所采用的第二技术方案是：基于图像合成和域对抗学习的自监督目标跟踪系统，包括：

35、构建模块，用于获取目标对象的图像并进行图像预处理，构建目标对象合成视频帧；

36、训练模块，用于基于目标对象合成视频帧对视觉目标跟踪器进行训练，得到训练后的视觉目标跟踪器；

37、跟踪模块，用于基于训练后的视觉目标跟踪器，对目标对象进行跟踪，得到目标对象跟踪结果，所述目标对象跟踪结果包括目标对象的位置与目标对象的大小。

38、本专利技术方法及系统的有益效果是：本专利技术通过对目标对象的图像进行图像预处理，构建目标对象合成视频帧，利用图像合成方法将现实中的目标合成到视频序列中以获得带有准确边界框标注的视频帧，进而基于目标对象合成视频帧对视觉目标跟踪器进行训练，得到训练后的视觉目标跟踪器，可以实现跟踪器在任何无标注视频上进行训练，极大的降低了跟踪器训练对标签数据的需求，最后基于训练后的视觉目标跟踪器，对目标对象进行跟踪，得到目标对象跟踪结果，能够减少图像跟踪过程中的干扰因素进而提高跟踪精度。

本文档来自技高网...

【技术保护点】

1.基于图像合成和域对抗学习的自监督目标跟踪方法，其特征在于，包括以下步骤：

2.根据权利要求1所述基于图像合成和域对抗学习的自监督目标跟踪方法，其特征在于，所述获取目标对象的图像并进行图像预处理，构建目标对象合成视频帧这一步骤，其具体包括：

3.根据权利要求2所述基于图像合成和域对抗学习的自监督目标跟踪方法，其特征在于，所述目标对象合成视频帧包括目标对象初始视频帧序列与目标对象后续视频帧序列，其中，所述目标对象初始视频帧序列表示待变换的目标对象图像，所述目标对象后续视频帧序列表示变换后的目标对象图像。

4.根据权利要求3所述基于图像合成和域对抗学习的自监督目标跟踪方法，其特征在于，所述基于目标对象合成视频帧对视觉目标跟踪器进行训练，得到训练后的视觉目标跟踪器这一步骤，其具体包括：

5.根据权利要求4所述基于图像合成和域对抗学习的自监督目标跟踪方法，其特征在于，所述跟踪训练器包括跟踪特征提取器和跟踪器，所述域分类训练器包括域分类特征提取器和域分类器，所述域分类器包括第一全连接层与第二全连接层。

6.根据权利要求5所述基于

7.根据权利要求6所述基于图像合成和域对抗学习的自监督目标跟踪方法，其特征在于，所述基于视觉目标跟踪器的域分类训练器，对预设输入数据进行分类训练处理，得到训练后的域分类训练器这一步骤，其具体包括：

8.根据权利要求7所述基于图像合成和域对抗学习的自监督目标跟踪方法，其特征在于，所述分类损失计算的表达式具体如下所示：

9.基于图像合成和域对抗学习的自监督目标跟踪系统，其特征在于，包括以下模块：

...

【技术特征摘要】

1.基于图像合成和域对抗学习的自监督目标跟踪方法，其特征在于，包括以下步骤：

5.根据权利要求4所述基于图像合成和域对抗学习的自监督目标跟...

【专利技术属性】
技术研发人员：袁笛，耿固，罗旭东，谢雪梅，石光明，
申请(专利权)人：西安电子科技大学广州研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人