当前位置: 首页 > 专利查询>湖南大学专利>正文

一种基于联合检测和关联的在线多目标跟踪方法技术

技术编号:34323656 阅读:17 留言:0更新日期:2022-07-31 00:42
本发明专利技术公开了一种基于联合检测和关联的在线多目标跟踪方法,设计了一个端到端架构来联合处理对象检测和在线MOT任务;将目标检测和关联结合到一个单一的神经网络中,为了解决目标检测子模块的输出与关联子模块的输入之间的边界框不一致问题,提出了联合子模块和合适的训练数据生成方法,直接利用目标表示将不同帧中的对象关联起来,同时设计了一个两阶段的训练方法来训练检测子模块和关联子模块,并完全以端到端模式执行在线MOT过程。本发明专利技术结构简单高效。构简单高效。构简单高效。

An online multi-target tracking method based on joint detection and correlation

【技术实现步骤摘要】
一种基于联合检测和关联的在线多目标跟踪方法


[0001]本专利技术属于图像处理领域,具体涉及一种基于联合检测和关联的在线多目标跟踪方法。

技术介绍

[0002]随着人工智能的发展,视觉目标跟踪可以运用到很多领域,例如运动校正、无人驾驶和安防监控等;目标检测方法和数据关联方法是在线多目标跟踪(Online Multi

Object Tracking,MOT)中最重要的两个方法,近年来,关于这两种方法在在线目标跟踪应用中主要有两种技术路径。一是两阶段法,即将这两个分离的模块分别进行处理和优化。但这导致了复杂的模型设计,并需要冗余的模型参数需要学习。二是一阶段法,即将两个子任务整合成一个端到端的模型来优化模型。一阶段方法在单个网络中执行对象检测和对象跟踪,因此,两个子任务可以在目标表示提取中共享模型参数,可显着降低跟踪成本。然而,一阶段法的主要存在以下几种缺点:首先,对象检测和数据关联之间存在模态差异。前者只涉及空间信息的处理,后者涉及时间序列上的数据关联。这些差异使得一阶段法模型的设计更加困难。其次,MOT数据集中现有的检测结果或标签没有相应的检测模型实现。因此,检测网络的输出和关联网络的输入之间的边界框不一致阻止了整个端到端MOT模型中的训练过程。最后,随着检测子模块的持续训练,关联子模块推断的边界框也没有相应的ground truth。这些因素使得难以获得一个端到端模型来实现MOT。

技术实现思路

[0003]本专利技术的目的在于提供一种基于联合检测和关联的在线多目标跟踪方法,将目标检测和关联结合到一个单一的神经网络中,实现端到端联合处理对象检测与MOT任务。
[0004]本专利技术提供的这种基于联合检测和关联的在线多目标跟踪方法,包括如下步骤:
[0005]S1.建立目标检测子模块,通过定位头和表征头获取总检测损失;
[0006]S2.进入连接子模块,将当前帧中的对象表示和历史坐标系中的对象表示进行合并;
[0007]S3.对历史帧和当前视频帧在视频序列中不连续的数据进行数据增强处理;
[0008]S4.进入关联子模块,将扩展的混淆矩阵转换为关联矩阵;
[0009]S5.定义方向性损失、非极大值损失和平衡损失,计算总关联损失;
[0010]S6.得到当前帧目标和具有相应对象表示的历史帧中的目标之间的关联矩阵后,将当前图像对象与历史图像对象联系起来更新轨迹记录器,实现在线跟踪。
[0011]所述的步骤S1,包括将单个视频帧F作为输入,所述的步骤S1,包括将单个视频帧F作为输入,表示三维矩阵;W为宽度;H为宽度;3表示通道数;获得每个视频帧的对象边界框和相应的数学表示;设置主干网络,并在主干网络中添加预测头和表征头;定位头用于定位目标边界框,表征头用于计算对象表示。
[0012]主干网络采用ResNet

34;利用DLA(Deep Layer Aggregation,深度聚集)的一种
变体方法作为目标检测子模块的主干;
[0013]定位头包括,定位头的输入为主干网络的输出表示;每个定位头具有3
×
3内核大小和256输出通道,然后1
×
1卷积以产生定位输出,具体为生成热力图头和尺寸头:
[0014]使用热力图头预测对象中心,热力图头具体为,对于第i帧视频帧中的真实边界框使用热力图头预测对象中心,热力图头具体为,对于第i帧视频帧中的真实边界框表示第i帧左上角横坐标值;表示第i帧左上角纵坐标值;表示第i帧右下角横坐标值;表示第i帧右下角纵坐标值;获得第i帧中心位置p
i
的目标,求第i帧图上的位置q
i
,其中G表示第一下采样因子;当前点位置处的热力图头响应r
q
定义为其中,表示三维矩阵;q
k
表示第k个点的位置;σ为高斯核;根据焦点损失形成热力图头损失函数L
h
作为训练目标:
[0015][0016]其中,N表示当前视频帧中的目标数量;表示当前点位置q处的预测热图响应,当前点位置q处的预测热图响应的类号C
h
=1;α表示焦点损失第一超参数;β表示焦点损失第二超参数;log(
·
)表示取对数,用于简便计算;
[0017]尺寸头具体为,尺寸头用于预测对象围绕其中心位置的宽度和高度;尺寸头的输出定义为其中尺寸头的输出的类号C
z
=2;表示三维矩阵;G表示第一下采样因子;W为宽度;H为宽度;虽然定位精度与对象表示没有直接关系,但会影响检测子任务的性能;对于视频帧中的一个真实框b
i
,根据得到第i帧框的大小z
i
,并且第i帧预测的边界框大小定义为,并且第i帧预测的边界框大小定义为表示第i帧左上角横坐标值;表示第i帧左上角纵坐标值;表示第i帧右下角横坐标值;表示第i帧右下角纵坐标值;将偏移头的输出表示为其中偏移头输出的类号C
d
=2;第i帧图上的真实位移d
i
表示为p
i
表示第i帧中心位置;将第i帧中心位置位移表示为因此尺寸头和偏移头的类似损失L
s
为:
[0018][0019]其中,N表示当前视频帧中的目标数量;z
i
表示第i帧框的大小;表示第i帧预测
的边界框大小;d
i
表示图上的真实位移;表示中心位置位移;||
·
||1表示L1范数;
[0020]因此,定位头损失L
p
为前两个损失的组合:
[0021]L
p
=L
h
+L
s
[0022]其中,L
h
表示热力图头损失函数;L
s
表示尺寸头和偏移头的类似损失;
[0023]表征头包括,生成的表示图为其中表示三维矩阵;S表示第二下采样因子;W为宽度;H为宽度;生成的表示图的输出通道C
e
=128;通过表征头学习的中心位置p的目标表征置p的目标表征表示元素个数为C的一维向量;对于第i帧视频帧中的真实边界框b
i
,获得第i帧热图上的目标中心位置在第i帧某个位置学习一个身份表示并输出到一维分类概率向量v(k),并将第i帧地面实况分类标签表示为u
i
(j);因此,身份分类损失L
c
被构造为:
[0024][0025]其中,N表示帧的总数;J表示数据集中所有身份的总数;v(j)表示身份的预测值;j表示数据集中身份的计数变量;log(
·
)表示取对数,用于简便计算;
[0026]总检测损失为L
d
=L
p
+L
c
,L
c
为身份分类损失;L
p
为定位头损失。
[0027]所述的步骤S2,包括进入连接子本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于联合检测和关联的在线多目标跟踪方法,其特征在于包括如下步骤:S1.建立目标检测子模块,通过定位头和表征头获取总检测损失;S2.进入连接子模块,将当前帧中的对象表示和历史坐标系中的对象表示进行合并;S3.对历史帧和当前视频帧在视频序列中不连续的数据进行数据增强处理;S4.进入关联子模块,将扩展的混淆矩阵转换为关联矩阵;S5.定义方向性损失、非极大值损失和平衡损失,计算总关联损失;S6.得到当前帧目标和具有相应对象表示的历史帧中的目标之间的关联矩阵后,将当前图像对象与历史图像对象联系起来更新轨迹记录器,实现在线跟踪。2.根据权利要求1所述的基于联合检测和关联的在线多目标跟踪方法,其特征在于所述的步骤S1,包括将单个视频帧F作为输入,述的步骤S1,包括将单个视频帧F作为输入,表示三维矩阵;W为宽度;H为宽度;3表示通道数;获得每个视频帧的对象边界框和相应的数学表示;设置主干网络,并在主干网络中添加预测头和表征头;定位头用于定位目标边界框,表征头用于计算对象表示。3.根据权利要求2所述的基于联合检测和关联的在线多目标跟踪方法,其特征在于主干网络采用ResNet

34;利用DLA的一种变体方法作为目标检测子模块的主干;定位头包括,定位头的输入为主干网络的输出表示;每个定位头具有3
×
3内核大小和256输出通道,然后1
×
1卷积以产生定位输出,具体为生成热力图头和尺寸头:使用热力图头预测对象中心,热力图头具体为,对于第i帧视频帧中的真实边界框使用热力图头预测对象中心,热力图头具体为,对于第i帧视频帧中的真实边界框表示第i帧左上角横坐标值;表示第i帧左上角纵坐标值;表示第i帧右下角横坐标值;表示第i帧右下角纵坐标值;获得第i帧中心位置p
i
的目标,求第i帧图上的位置q
i
,其中G表示第一下采样因子;当前点位置处的热力图头响应r
q
定义为其中,表示三维矩阵;q
k
表示第k个点的位置;σ为高斯核;根据焦点损失形成热力图头损失函数L
h
作为训练目标:其中,N表示当前视频帧中的目标数量;表示当前点位置q处的预测热图响应,当前点位置q处的预测热图响应的类号C
h
=1;α表示焦点损失第一超参数;β表示焦点损失第二超参数;log(
·
)表示取对数,用于简便计算;尺寸头具体为,尺寸头用于预测对象围绕其中心位置的宽度和高度;尺寸头的输出定义为其中尺寸头的输出的类号C
z
=2;表示三维矩阵;G表示第一下采样因子;W为宽度;H为宽度;虽然定位精度与对象表示没有直接关系,但会影响检测子任务的性
能;对于视频帧中的一个真实框b
i
,根据得到第i帧框的大小z
i
,并且第i帧预测的边界框大小定义为第i帧预测的边界框大小定义为表示第i帧左上角横坐标值;表示第i帧左上角纵坐标值;表示第i帧右下角横坐标值;表示第i帧右下角纵坐标值;将偏移头的输出表示为其中偏移头输出的类号C
d
=2;第i帧图上的真实位移d
i
表示为p
i
表示第i帧中心位置;将第i帧中心位置位移表示为因此尺寸头和偏移头的类似损失L
s
为:其中,N表示当前视频帧中的目标数量;z
i
表示第i帧框的大小;表示第i帧预测的边界框大小;d
i
表示图上的真实位移;表示中心位置位移;||
·
||1表示L1范数;因此,定位头损失L
p
为前两个损失的组合:L
p
=L
h
+L
s
其中,L
h
表示热力图头损失函数;L
s
表示尺寸头和偏移头的类似损失;表征头包括,生成的表示图为其中表示三维矩阵;S表示第二下采样因子;W为宽度;H为宽度;生成的表示图的输出通道C
e
=128;通过表征头学习的中心位置p的目标表征的目标表征表示元素个数为C的一维向量;对于第i帧视频帧中的真实边界框b
i
,获得第i帧热图上的目标中心位置在第i帧某个位置学习一个身份表示并输出到一维分类概率向量v(k),并将第i帧地面实况分类标签表示为u
i
(j);因此,身份分类损失L
c
被构造为:其中,N表示帧的总数;J表示数据集中所有身份的总数;v(j)表示身份的预测值;j表示数据集中身份的计数变量;log(
·
)表示取对数,用于简便计算;总检测损失为L
d
=L
p
+L
c
,L
c
为身份分类损失;L
p
为定位头损失。4.根据权利要求3所述的基于联合检测和关联的在线多目标跟踪方法,其特征在于所述的步骤S2,包括进入连接子模块S
J
,将当前视频帧F
t
的表示矩阵R
t
沿垂直方向复制到当前帧中的表示张量并将前n帧中的表示矩阵R
t

n
沿水平方向复制到前n帧中的表示张量将当前帧中的表示张量M
t
和前n帧中的表示张量M
t

n
沿着对象表示的通道方向合并到,当前帧和前n帧之间的混淆张量N
m

示每帧的最大目标数;表示三维矩阵;t表示当前时刻。5.根据权利要求4所述的基于联合检测和关联的在线多目标跟踪方法,其特征在于所...

【专利技术属性】
技术研发人员:杨凡王海东李智勇李树涛
申请(专利权)人:湖南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1