System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及计算机视觉领域,尤其是从降低模型复杂度角度提出一种基于轻量级网络的多目标跟踪方法。
技术介绍
1、在人工智能的发展过程中,计算机视觉已经成为了一个相当重要的分支,尤其是图像识别与分类技术。计算机视觉图像识别任务是指利用计算机算法来识别和分类图像中的物体、场景、人脸等。单目标跟踪具体的意思是根据一段输入的视频序列,对其中某一个需要关注的目标实现关联。多目标跟踪作为目标检测的一种拓展性任务,广泛应用于智能安防、智慧交通和自动驾驶。本专利技术也聚焦于多目标跟踪任务上做探索和研究。
2、与单目标跟踪相比,多目标跟踪面临着更多挑战。一方面,由于目标数量的多样性,算法需要具备检测新目标和终止旧目标的能力。另一方面,不同目标之间可能发生遮挡、重叠,目标本身也可能出现形变、光照变化等,这些都给目标关联带来了极大困难。此外,复杂动态背景中的干扰噪声,也是多目标跟踪需要应对的一大挑战。
3、传统的多目标跟踪算法多采用"检测-关联"两阶段策略。首先利用检测器如yolo、faster r-cnn等在每一帧提取目标候选框,得到目标外观和运动特征。然后使用数据关联技术如匈牙利算法、联合概率数据关联滤波等,将当前帧检测结果与上一帧的跟踪轨迹进行匹配,实现身份传递。这种分步方法简单直观,但由于检测和关联相对独立,难以很好地传递上下文信息,容易导致错误累积,影响整体性能。
4、近年来,基于端到端框架的多目标跟踪方法取得了长足进步,其中基于transformer的方法成为研究热点。transformer借助自注意力
5、典型的基于transformer的方法,通常将检测目标作为解码器的目标查询,将已有目标的跟踪作为轨迹查询,利用编码器对视频帧建模,解码器对两类查询进行解码并输出预测结果。但transformer模型本身的巨大计算量和参数量,也成为了这些方法推广的瓶颈,限制了它们的实用性和推广能力。
6、除了上述计算复杂度的挑战,多目标跟踪领域还面临着其他一些值得关注的难题和研究方向。比如如何充分利用多模态信息(图像、语音、文本等)来提高跟踪的鲁棒性;如何结合先验知识,提升对复杂场景和不确定因素的适应能力;如何设计更加高效的数据关联策略,降低目标切换和身份漂移的风险;如何将跟踪系统部署到边缘设备,满足实时性和低功耗需求等。这些问题的解决,将极大推动多目标跟踪技术的发展和实际应用落地。
7、总的来说,多目标跟踪作为计算机视觉的核心基础问题,不仅在学术界受到广泛关注,同时也与现实生活的诸多领域密切相关,在安防监控、智能交通、机器人导航、增强现实等方面都有重要应用价值。随着算力的快速提升和深度学习技术的发展,相信多目标跟踪一定能在未来取得越来越多创新性的突破,为人工智能赋予更强的感知理解能力。因此,如何在保持性能的前提下,降低模型复杂度、实现高效轻量化,是当前这一领域急需解决的重要问题。
技术实现思路
1、由于目前的一些基于transformer的多目标跟踪方法所造成的巨大的参数量和浮点运算次数,导致模型的训练需要花费大量的时间和计算资源。实际应用中也很难部署到边缘设备中。因此,本专利技术提出了一种基于轻量级网络的多目标跟踪方法在保持原有精度的情况下,大大降低了模型的浮点运算次数和参数量。首先,将视频逐帧输入到cnn网络中提取多尺度特征。其次利用评分网络对特征进行筛选后输入到编码器中,最后在解码器中同时解码目标查询和轨迹查询,预测对应的边框和类别,形成该帧的所有检测和跟踪结果。
2、本专利技术是通过以下技术方案来实现的:
3、一种基于轻量级网络的多目标跟踪方法,包括以下步骤:
4、步骤一:将cnn提取的多尺度特征通过经过可学习的评分网络筛选前百分之ρ的特征输入编码器中。
5、步骤二:在编码器输出特征之后,筛选出k个目标对象查询;同时初始化100个跟踪对象查询一同输入到解码器中。
6、步骤三:每个查询通过多层感知机进行处理,输入到解码器中以预测对应的边框和类别,形成该帧的所有检测和跟踪结果。同时生成解码器交叉注意力映射图。
7、步骤四:新检测出的目标将初始化新的跟踪对象查询,每一帧的跟踪对象查询会传递到下一帧,携带目标的空间和身份信息,从而完成跟踪过程。
8、步骤一中,我们有一个评分网络g,用于测量特征图xfeat中每个特征的显著性。我们为那些评分属于前百分之ρ的特征定义一个显著区域,对于给定的ρ,显著区域的大小由以下公式算出。编码器中每层特征更新方式表示如下
9、
10、
11、如果当前j不在显著区域ω中,直接保留上一层的特征不变;如果在显著区域中则更新为。其中defattn指的是可变形注意力,ln指的是层归一化,而ffn指的是前馈网络。
12、步骤二中,我们在编码器输出的尾端添加了一个辅助检测头,目的是计算编码器每个输出特征的目标性类别得分,以反映每个特征是否包含目标信息。根据这些类别得分,我们对编码器的所有输出进行排序,并选择得分最高的前k个特征。同时我们在这些选中的特征上应用匈牙利损失来加快编码器的收敛,提高了检测性能。最终,这些前k个编码器特征直接作为解码器模块的目标查询输入。n是预测目标数量,表示第i个预测与真实目标的最优匹配,是代价之和。
13、
14、步骤三中,为了确定编码器 xfeat 的每个特征的显著性,我们需要聚合所有对象查询和编码器输出之间的解码器交叉注意力。该过程产生一个与主干特征图相同大小的单一映射,被定义为解码器交叉注意力图。在密集注意力的情况下,解码器交叉注意力图可以通过对每个解码器层的注意力图求和来轻松获得。在可变形注意力的情况下,对于每个编码器标记,解码器交叉注意力图的相应值可以通过累积解码器对象查询的注意力权重来获得,这些权重的注意力偏移指向编码器输出标记。由于在可变形注意力中计算的注意力偏移是一个分数位置,可变形注意力使用双线性插值来获取值。因此,我们也使用双线性插值来获取解码器交叉注意力图。假设解码器对象查询 q 的注意力偏移、权重和参考点分别为p、a 和 r。那么,可变形注意力的取值为
15、
16、其中v表示的是键值,x 枚举了特征图中的所有整数空间位置,是双线性插值核函数,定义为如下。
17、
18、我们将x位置的dam值累加表示如下:
19、
20、同时为了训练评分网络,我们将解码器交叉注意力权重进行二值化,以便仅保留编码器特征的前百分之ρ的部分。这是因为我们的目标是找到解码器最常引用的一小部分编码器特征,而不是精确地预测解码器将引用每个编码器特征的程度。这个二值化的解码器交叉注意力图暗示了一个独热目标,指示每个编码器特征是否包含在前本文档来自技高网...
【技术保护点】
1.一种基于轻量级网络的多目标跟踪方法,其特征在于:包括以下步骤:
2.根据权利要求1所述的基于轻量级网络的多目标跟踪方法,其特征在于步骤一中的可学习的评分网络。对CNN提取的特征Xfeat中的每个局部特征打分,以判断其被解码器引用的可能性。根据这些分数选择前百分之ρ的特征输入到编码器中。如果当前j不在显著区域Ω中,直接保留上一层的特征不变;如果在显著区域中则更新为。其中DefAttn指的是可变形注意力,LN指的是层归一化,而FFN指的是前馈网络。
3.根据权利要求2所述的基于轻量级网络的多目标跟踪方法,其特征在于步骤二中筛选出k个目标查询。为了提高检测性能,我们在编码器输出上添加了一个辅助检测头。该检测头的作用是计算编码器每个输出特征的目标性类别得分,以反映每个特征是否包含目标信息。根据这些类别得分,我们对编码器的所有输出进行排序,并选择得分最高的前k个特征。随后,这些前k个编码器特征直接作为解码器模块的查询输入。
4.根据权利要求3所述的基于轻量级网络的多目标跟踪方法,其特征在步骤三中解码器交叉注意力图。为了训练评分网络,我们将解码器交叉注
...【技术特征摘要】
1.一种基于轻量级网络的多目标跟踪方法,其特征在于:包括以下步骤:
2.根据权利要求1所述的基于轻量级网络的多目标跟踪方法,其特征在于步骤一中的可学习的评分网络。对cnn提取的特征xfeat中的每个局部特征打分,以判断其被解码器引用的可能性。根据这些分数选择前百分之ρ的特征输入到编码器中。如果当前j不在显著区域ω中,直接保留上一层的特征不变;如果在显著区域中则更新为。其中defattn指的是可变形注意力,ln指的是层归一化,而ffn指的是前馈网络。
3.根据权利要求2所述的基于轻量级网络的多目标跟踪方法,其特征在于步骤二中筛选出k个目标查询。为了提高检测性能,我们在编码器输出上添加了一个辅助检测头。该检测头的作用是计算编码器每个...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。