目标跟踪器训练方法和目标跟踪方法技术

技术编号：44676722 阅读：6 留言：0更新日期：2025-03-19 20:29

本发明专利技术提供一种目标跟踪器训练方法和目标跟踪方法，所述训练方法包括：基于多个设有各自标签的模板与搜索图像对训练神经网络模型，其中，每个模板与搜索图像对包括目标模板帧和搜索帧，所述标签用于表示各个模板与搜索图像对中目标模板帧和搜索帧是否匹配以及真实目标位置，所述神经网络模型包括编码器、解码器和原型记忆网络；将训练后的神经网络模型确定为用于输出模板与搜索图像对中搜索帧对应的目标跟踪结果的目标跟踪器，所述目标跟踪结果包括用于表示匹配结果的置信度和在匹配情况下的目标位置预测结果。本发明专利技术能够通过利用定位不确定性进行精确的目标状态推理，在目标外观发生剧烈变化的情况下仍能保证可靠的目标外观匹配和目标跟踪结果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及视觉目标跟踪，尤其涉及一种目标跟踪器训练方法和目标跟踪方法。

技术介绍

1、视觉目标跟踪(vot)是计算机视觉领域中的一项重要任务，具有多种实际应用，如智能视频监控、自动驾驶和机器人技术。给定第一帧中初始标注目标的边界框，视觉目标跟踪任务的目标是在整个视频中预测该目标的边界框。跟踪器应构建区分性强的目标外观，以便实时地将目标对象与背景干扰物区分开来，并能够灵活应对目标对象外观发生变化导致的目标跟踪失败的挑战。

2、几十年来，基于匹配的方法由于其良好的平衡性，即准确性和效率，已成为主流解决方案。这类方法从相似性比较的角度处理视觉目标跟踪，通过学习一个双流网络来计算模板和搜索图像之间的相似性，从而估计目标状态。

3、基于transformer的目标跟踪器由于其精度和效率，已成为主流的跟踪范式。尽管取得了一些实质性的进展，但是仍然存在如下两个缺陷：其一，在目标运动过程中，随着时间的推移，由于目标对象的外观会发生剧烈的变化，例如目标对象模糊、被遮挡导致该目标对象不完整，以及目标对象运动导致其角度发生变化(形变)等，不可靠的目标定位跟踪预测结果可能会在整个视频中累积。一些已有的方法，如ltmu、siam r-cnn和keeptrack通过引入在线元更新、对象重新检测或在线外观关联机制可以缓解这一问题，但是，这些方法依赖于局部平滑假设来保持目标对象的时间一致性(在上一帧中目标位置的局部范围内寻找下一帧中的目标位置)，针对运动较快的目标，很容易陷入次优解，从而误导目标外观匹配，最终导致跟踪失败。其二，目标

技术实现思路

1、鉴于此，本专利技术实施例提供了一种目标跟踪器训练方法和目标跟踪方法，以消除或改善现有技术中存在的一个或更多个缺陷。

2、本专利技术的第一方面提供了一种目标跟踪器训练方法，该方法包括以下步骤：

3、基于多个设有各自第一标签和第二标签的模板与搜索图像对训练神经网络模型，

4、其中，每个模板与搜索图像对包括目标模板帧和搜索帧，所述第一标签和第二标签分别用于表示各个模板与搜索图像对中目标模板帧和搜索帧是否匹配，以及搜索帧中的真实目标位置；所述神经网络模型包括编码器、解码器和原型记忆网络，所述编码器用于对所述模板与搜索图像对进行编码，对应输出编码后的目标模板特征和编码后的搜索图像特征；所述解码器用于对所述编码后的搜索图像特征进行解码，对应输出目标定位不确定性和目标位置预测结果；所述原型记忆网络用于根据所述编码后的目标模板特征和该编码后的目标模板特征对应的编码后的搜索图像特征、目标定位不确定性及目标位置预测结果构建目标原型记忆库，并基于所述目标原型记忆库对应生成用于表示匹配结果的置信度，在所述置信度表示对应模板与搜索图像对中目标模板帧和搜索帧匹配且和该模板与搜索图像对的第一标签一致的情况下，构建目标原型记忆库；

5、将训练后的神经网络模型确定为用于输出模板与搜索图像对中搜索帧对应的目标跟踪结果的目标跟踪器，所述目标跟踪结果包括用于表示匹配结果的置信度和在匹配情况下的目标位置预测结果。

6、在本专利技术的一些实施例中，所述解码器包括特征金字塔网络、目标定位分支和目标定位不确定性预测分支，

7、所述特征金字塔网络用于对所述编码后的搜索图像特征进行上采样；

8、所述目标定位分支用于对经上采样的编码后的搜索图像特征中目标位置进行估计，对应输出目标位置预测结果；

9、所述目标定位不确定性预测分支用于基于经上采样的编码后的搜索图像特征对应生成目标定位不确定性。

10、在本专利技术的一些实施例中，所述原型记忆网络包括全局平均池化层、置信度反转模块、拼接模块、卷积层、掩码模块、加权运算模块、目标原型记忆库、记忆读取器、目标原型聚合模块和多层感知器，

11、所述全局平均池化层用于对所述编码后的目标模板特征进行压缩，对应输出目标原型；

12、所述置信度反转模块用于将所述目标定位不确定性对应转换为置信度特征；

13、所述拼接模块用于将所述编码后的搜索图像特征和对应的置信度特征进行拼接，对应输出拼接后的特征；

14、所述卷积层用于对所述拼接后的特征中的视觉语义和定位置信度进行编码，对应输出编码后的特征；

15、所述掩码模块用于对所述目标位置预测结果进行掩码，对应输出目标位置掩码结果；

16、所述加权运算模块用于将所述目标原型和对应的编码后的特征、以及目标位置掩码结果进行加权运算，对应输出目标加权原型；

17、所述目标原型记忆库由多个历史目标加权原型构建，所述多个历史目标加权原型为从输出的多个目标加权原型中选择的一部分目标加权原型；

18、所述记忆读取器用于从所述目标原型记忆库中对应提取出与输出的目标加权原型相似度较高的多个历史目标加权原型；

19、所述目标原型聚合模块用于将与输出的目标加权原型相似度较高的多个历史目标加权原型对应拼接为目标组合原型，并基于交叉注意力机制将所述目标组合原型和对应的目标加权原型进行聚合，对应输出目标聚合原型；

20、所述多层感知器用于基于所述目标聚合原型对应生成置信度，若所述置信度大于预设阈值且表示的匹配结果和对应模板与搜索图像对的第一标签一致，则该置信度对应的目标加权原型可作为历史目标加权原型。

21、在本专利技术的一些实施例中，通过最小化所述解码器的目标定位不确定性损失函数和所述原型记忆网络的交叉熵损失函数，对所述神经网络模型进行迭代训练。

22、在本专利技术的一些实施例中，所述目标定位不确定性损失函数的表达式为：

23、

24、其中，luc表示目标定位不确定性损失函数；μ表示目标位置坐标的预测值；σ表示目标位置坐标预测值的标准差，即目标定位不确定性；μgt表示目标位置坐标的真实值，即第二标签；

25、所述交叉熵损失函数的表达式为：

26、

27、其中，lpro表示交叉熵损失函数；nb表示一个批次中模板与搜索图像对的数量，i表示一个批次中模板与搜索图像对的序号，i＝1,2,…,nb；yi表示第i个模板与搜索图像对的第一标签；pi表示第i个模板与搜索图像对所对应目标聚合原型的置信度。

28、本专利技术的第二方面提供了一种目标跟踪方法，该方法包括以下步骤：

29、获取针对目标运动生成的视频；

30、对所述视频的初始帧中的目标进行标记本文档来自技高网...

【技术保护点】

1.一种目标跟踪器训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述解码器包括特征金字塔网络、目标定位分支和目标定位不确定性预测分支，

3.根据权利要求1所述的方法，其特征在于，所述原型记忆网络包括全局平均池化层、置信度反转模块、拼接模块、卷积层、掩码模块、加权运算模块、目标原型记忆库、记忆读取器、目标原型聚合模块和多层感知器，

4.根据权利要求1所述的方法，其特征在于，通过最小化所述解码器的目标定位不确定性损失函数和所述原型记忆网络的交叉熵损失函数，对所述神经网络模型进行迭代训练。

5.根据权利要求4所述的方法，其特征在于，所述目标定位不确定性损失函数的表达式为：

6.一种目标跟踪方法，其特征在于，所述方法包括：

7.根据权利要求6所述的方法，其特征在于，将所述目标模板帧分别和各个搜索帧作为多个模板与搜索图像对分别输入目标跟踪器，以使得所述目标跟踪器对应输出各个搜索帧的目标跟踪结果的步骤中，若输出的置信度大于预设阈值，则基于该置信度对应的目标加权原型来更新目标原型记忆库。</p>

8.一种电子设备，包括处理器、存储器及存储在存储器上的计算机指令，其特征在于，所述处理器用于执行所述计算机指令，当所述计算机指令被执行时该设备实现如权利要求1至7中任一项所述方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至7中任一项所述方法的步骤。

10.一种计算机程序产品，包括计算机指令，其特征在于，该计算机指令被处理器执行时实现权利要求1至7中任一项所述方法的步骤。

...

【技术特征摘要】

1.一种目标跟踪器训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述解码器包括特征金字塔网络、目标定位分支和目标定位不确定性预测分支，

5.根据权利要求4所述的方法，其特征在于，所述目标定位不确定性损失函数的表达式为：

6.一种目标跟踪方法，其特征在于，所述方法包括：

7.根据...

【专利技术属性】
技术研发人员：尧思远，郭阳，
申请(专利权)人：北京邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人