训练目标跟踪模型和目标跟踪的方法和装置制造方法及图纸

技术编号:36564738 阅读:17 留言:0更新日期:2023-02-04 17:20
本公开提供了训练目标跟踪模型和目标跟踪的方法和装置,涉及人工智能领域,尤其涉及深度学习领域。具体实现方案为:获取样本集,样本包括视频帧和真实框;构建目标跟踪模型,其中,目标跟踪模型的头部包括交并比头,用于计算交并比损失值;执行如下训练步骤:从样本集中选取样本;将选取的样本中的视频帧输入目标跟踪模型,输出预测框;根据选取的样本中的真实框和预测框的差异计算原始损失值和交并比损失值;若原始损失值和交并比损失值的加权和小于预定阈值,则确定出目标跟踪模型训练完成;否则,调整目标跟踪模型的网络参数,继续执行训练步骤。通过该实施方式能够提高生成的目标跟踪模型的跟踪精度和速度。标跟踪模型的跟踪精度和速度。标跟踪模型的跟踪精度和速度。

【技术实现步骤摘要】
训练目标跟踪模型和目标跟踪的方法和装置
[0001]相关申请的交叉引用
[0002]本申请为申请日为2021年12月03日,申请号为202111464709.3,专利技术名称为“训练目标跟踪模型和目标跟踪的方法和装置”的中国专利申请的分案申请。


[0003]本公开涉及人工智能领域,尤其涉及深度学习领域,具体涉及训练目标跟踪模型和目标跟踪的方法和装置。

技术介绍

[0004]多目标跟踪技术(Multi

Object Tracking)是给定视频图像序列,定位出多个感兴趣的目标,并在连续帧之间维持个体的ID信息和记录其轨迹。多目标跟踪技术是计算机视觉领域中最重要,且最复杂的任务之一,被应用到如自动驾驶、安防巡检、智慧城市等领域。
[0005]相较于目标检测技术仅针对当前静止时刻输出目标的定位信息,多目标跟踪技术增加了一维目标的个体ID信息,利用这个ID信息可以构建出帧和帧之间的联系,从而识别出相邻帧中的同一物体。从应用场景角度看,更能理解两个任务的差异。物体检测的场景像钢筋计数、工业质检、电力巡检、麦穗检测等,都是只需要检测出物体在某个瞬间某个点某个静止时刻的状态。而目标跟踪的场景像智慧交通、医疗分析、牲畜盘点、军事勘察等,都是需要持续追踪物体的连续运动状态,所以这些任务并不能用目标检测代替去做。

技术实现思路

[0006]本公开提供了一种训练目标跟踪模型和目标跟踪的方法、装置、设备、存储介质以及计算机程序产品。
[0007]根据本公开的第一方面,提供了一种训练目标跟踪模型的方法,包括:获取样本集,其中,所述样本集中的样本包括视频帧和用于标注所述视频帧中目标对象的真实框;构建目标跟踪模型,其中,所述目标跟踪模型的头部包括交并比头,用于计算交并比损失值;执行如下训练步骤:从所述样本集中选取样本;将选取的样本中的视频帧输入所述目标跟踪模型,输出预测框;根据选取的样本中的真实框和所述预测框的差异计算原始损失值和交并比损失值;若所述原始损失值和所述交并比损失值的加权和小于预定阈值,则确定出所述目标跟踪模型训练完成;否则,调整所述目标跟踪模型的网络参数,继续执行所述训练步骤。
[0008]根据本公开的第二方面,提供了一种目标跟踪方法,包括:获取待检测的视频帧集合;将所述视频帧集合输入根据第一方面所述的方法训练完成的目标跟踪模型,在每个视频帧中输出至少一个检测框;对于每个视频帧,根据检测框的得分将该视频帧中的检测框划分成高分框集合和低分框集合;对于每个视频帧,将该视频帧的高分框集合与之前已确定的跟踪轨迹进行第一次匹配,将第一次匹配失败的跟踪轨迹与该视频帧的低分框集合进
行第二次匹配,得到更新后的跟踪轨迹。
[0009]根据本公开的第三方面,提供了一种训练目标跟踪模型的装置,包括:获取单元,被配置成获取样本集,其中,所述样本集中的样本包括视频帧和用于标注所述视频帧中目标对象的真实框;构建单元,被配置成构建目标跟踪模型,其中,所述目标跟踪模型的头部包括交并比头,用于计算交并比损失值;训练单元,被配置成执行如下训练步骤:从所述样本集中选取样本;将选取的样本中的视频帧输入所述目标跟踪模型,输出预测框;根据选取的样本中的真实框和所述预测框的差异计算原始损失值和交并比损失值;若所述原始损失值和所述交并比损失值的加权和小于预定阈值,则确定出所述目标跟踪模型训练完成;调整单元,被配置成否则,调整所述目标跟踪模型的网络参数,继续执行所述训练步骤。
[0010]根据本公开的第四方面,提供了一种目标跟踪装置,包括:获取待检测的视频帧集合;将所述视频帧集合输入根据第二方面所述的装置训练完成的目标跟踪模型,在每个视频帧中输出至少一个检测框;对于每个视频帧,根据检测框的得分将该视频帧中的检测框划分成高分框集合和低分框集合;对于每个视频帧,将该视频帧的高分框集合与之前已确定的跟踪轨迹进行第一次匹配,将第一次匹配失败的跟踪轨迹与该视频帧的低分框集合进行第二次匹配,得到更新后的跟踪轨迹。
[0011]根据本公开的第五方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面或第二方面所述的方法。
[0012]根据本公开的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行第一方面或第二方面所述的方法。
[0013]根据本公开的第七方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现第一方面或第二方面所述的方法。
[0014]本公开实施例提供的训练目标跟踪模型和目标跟踪的方法和装置,在不同云端部署设备中都能够达到理想的多目标跟踪效果,并且能较好的解决遮挡、频繁消失出现、物体尺度变化剧烈、姿态变化难以识别、无法扩展到多类别等问题。
[0015]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0016]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0017]图1是本公开可以应用于其中的示例性系统架构图;
[0018]图2是根据本公开训练目标跟踪模型的方法的一个实施例的流程图;
[0019]图3是根据本公开训练目标跟踪模型的方法的一个应用场景的示意图;
[0020]图4是根据本公开目标跟踪的方法的一个实施例的流程图;
[0021]图5是根据本公开训练目标跟踪模型的装置的一个实施例的结构示意图;
[0022]图6是根据本公开目标跟踪的装置的一个实施例的结构示意图;
[0023]图7是适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。
具体实施方式
[0024]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0025]图1示出了可以应用本公开实施例的训练目标跟踪模型的方法、训练目标跟踪模型的装置、目标跟踪的方法或目标跟踪的装置的示例性系统架构100。
[0026]如图1所示,系统架构100可以包括终端101、102,网络103、数据库服务器104和服务器105。网络103用以在终端101、102,数据库服务器104与服务器105之间提供通信链路的介质。网络103可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
[0027]用户110可以使用终端101、102通过网络103与服务器105进行交互,以接收或发送消息等。终端101、102上可以安装本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种训练目标跟踪模型的方法,包括:获取样本集,其中,所述样本集中的样本包括视频帧和用于标注所述视频帧中目标对象的真实框;构建目标跟踪模型,其中,所述目标跟踪模型的头部包括交并比头,用于计算交并比损失值;执行如下训练步骤:从所述样本集中选取样本;将选取的样本中的视频帧输入所述目标跟踪模型,输出预测框;根据选取的样本中的真实框和所述预测框的差异计算原始损失值和交并比损失值;若所述原始损失值和所述交并比损失值的加权和小于预定阈值,则确定出所述目标跟踪模型训练完成;否则,调整所述目标跟踪模型的网络参数,继续执行所述训练步骤;其中,所述构建目标跟踪模型,包括:获取原始目标跟踪模型;获取应用所述目标跟踪模型的终端的运算能力;若所述运算能力大于第一预定能力,则使用HarDNet

85替换掉所述原始目标跟踪模型中的骨干网络,得到构建出的目标跟踪模型;使用深度可分离卷积替换所述目标跟踪模型中的头部中的普通卷积。2.根据权利要求1所述的方法,其中,所述构建目标跟踪模型,包括:获取原始目标跟踪模型;获取应用所述目标跟踪模型的终端的运算能力;若所述运算能力小于第二预定能力,则使用HRNetV2

W18替换掉所述原始目标跟踪模型中的骨干网络,并使用深层融合特征金字塔结构替换掉所述原始目标跟踪模型中的颈部,得到构建出的目标跟踪模型。3.根据权利要求2所述的方法,其中,所述构建目标跟踪模型,包括:去除所述目标跟踪模型中的可变形卷积。4.根据权利要求1所述的方法,其中,所述调整所述目标跟踪模型的网络参数,包括:通过同步批量归一化方式和滑动平均方式调整所述目标跟踪模型的网络参数。5.一种目标跟踪方法,包括:获取待检测的视频帧集合;将所述视频帧集合输入根据权利要求1

4中任一项所述的方法训练完成的目标跟踪模型,在每个视频帧中输出至少一个检测框;对于每个视频帧,根据检测框的得分将该视频帧中的检测框划分成高分框集合和低分框集合;对于每个视频帧,将该视频帧的高分框集合与之前已确定的跟踪轨迹进行第一次匹配,将第一次匹配失败的跟踪轨迹与该视频帧的低分框集合进行第二次匹配,得到更新后的跟踪轨迹。6.根据权利要求5所述的方法,其中,所述第一次匹配和所述第二次匹配包括交并比匹配,所述目标跟踪模型输出检测框的阈值小于原始目标跟踪模型输出检测框的阈值。7.一种训练目标跟踪模型的装置,包括:获取单元,被配置成获取样本集,其中,所述样本集中的样本包括视频帧和用于标注所
述视频帧中目标对象的真实框;构建单元,被配置成构建目标跟踪模型,其中,所述目标跟踪模型的头部包括交并比头,用于计算交并比损失值;训练单元,被配置成执行如下训练步骤:从所述样本集...

【专利技术属性】
技术研发人员:倪烽王冠中党青青邓凯鹏赖宝华刘其文于佃海胡晓光马艳军
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1