本申请实施例提供一种视频目标检测方法、装置及图像处理设备,该设备中预存有MaskRCNN网络,其中包括CNN模型、RPN、检测分支及嵌入分支。图像处理设备针对待检测视频的当前图像帧,将当前图像帧输入CNN模型,得到第一特征图;将第一特征图输入RPN,获得多个候选区域,该候选区域为包括待检测目标的区域;针对获得的每个候选区域,嵌入分支生成与该候选区域对应的第一向量,在存储的嵌入列表中查找是否存在与该第一向量相似的第二向量,若是,对该第一向量进行更新;检测分支以更新后的该第一向量为时序信息对该候选区域的位置进行预测。
【技术实现步骤摘要】
视频目标检测方法、装置及图像处理设备
本申请涉及图像处理
,具体而言,涉及一种视频目标检测方法、装置及图像处理设备。
技术介绍
物体检测作为计算机视觉中的经典研究领域已经有了多年的发展,但截至目前为止,大部分研究都集中在静态图像中的物体检测上。对视频图像中的物体检测研究相对较少。目前,对视频图像中的物体检测的研究主要集中于通过如下两种方式在网络中加入时序信息:第一、利用光流将上一帧的检测结果warp(仿射变换模及扭曲)到当前网络中,作为RGB通道之外的第四通道输入;第二、在做非极大值抑制(Non-MaximumSuppression,NMS)时考虑前几帧图像的候选区域。然而,上述两种方式在实际应用中存在不稳定的情况。
技术实现思路
有鉴于此,本申请的目的在于提供一种视频目标检测方法、装置及图像处理设备,以至少部分地改善上述问题。第一方面,本申请实施例提供一种视频目标检测方法,应用于图像处理设备,所述图像处理设备中预存有用于进行视频目标检测的MaskRCNN网络,所述MaskRCNN网络包括CNN模型、区域建议网络RPN、检测分支以及Embedding嵌入分支;所述方法包括:针对待检测视频的当前图像帧,将所述当前图像帧输入所述CNN模型,得到第一特征图;将所述第一特征图输入所述RPN,获得多个候选区域,所述候选区域为包括待检测目标的区域;针对获得的每个所述候选区域,所述嵌入分支生成与所述候选区域对应的第一向量,在存储的嵌入列表中查找是否存在与所述第一向量相似的第二向量,若存在,则对所述第一向量进行更新;所述检测分支以更新后的所述第一向量为时序信息对所述候选区域的位置进行预测。可选地,所述方法还包括:若所述嵌入列表中不存在与所述第一向量相似的第二向量,则将所述第一向量作为第二向量插入到所述嵌入列表中。可选地,对所述第一向量进行更新,包括:通过以下计算式对所述第一向量Vt进行更新:Vt=γVt+(1-γ)x其中,γ表示权重,x表示所述当前图像帧的前一图像帧中的候选区域的第一向量。可选地,所述方法还包括:通过以下计算式对所述嵌入分支的损失进行计算,并根据计算结果对所述嵌入分支的参数进行调整:其中,表示当前图像帧中第i个被检测的候选区域,表示所述嵌入列表中与该第i个被检测的候选区域对应的第二向量,为所述嵌入列表中任意一个不同于该第二向量的其他第二向量,α表示最小间隔。可选地,所述MaskRCNN网络还包括分割分支,所述方法还包括:获取所述分割分支输出的所述当前图像帧的前一图像帧的分割掩码;将所述CNN模型输出的所述前一帧图像的第一特征图和所述分割掩码进行融合,得到第二特征图;所述检测分支以所述第二特征图为时序信息对所述当前图像帧的第一特征图中的候选区域进行分类。第二方面,本申请实施例提供一种视频目标检测装置,应用于图像处理设备,所述图像处理设备中预存有用于进行视频目标检测的MaskRCNN网络,所述MaskRCNN网络包括CNN模型、RPN、检测分支及嵌入分支;所述装置包括:特征提取模块,用于针对待检测视频的当前图像帧,将所述当前图像帧输入所述CNN模型,得到第一特征图;区域获取模块,用于将所述第一特征图输入所述RPN,获得多个候选区域,所述候选区域为包括待检测目标的区域;更新模块,用于针对获得的每个所述候选区域,通过所述嵌入分支生成与所述候选区域对应的第一向量,在存储的嵌入列表中查找是否存在与所述第一向量相似的第二向量,若存在,则对所述第一向量进行更新;第一预测模块,用于通过所述检测分支以更新后的所述第一向量为时序信息对所述候选区域的位置进行预测。可选地,所述更新模块,还用于当所述嵌入列表中不存在与所述第一向量相似的第二向量时,将所述第一向量作为第二向量插入到所述嵌入列表中。可选地,所述更新模块具体用于通过以下计算式对所述第一向量Vt进行更新:Vt=γVt+(1-γ)x其中,γ表示权重,x表示所述当前图像帧的前一图像帧中的候选区域的第一向量。可选地,所述MaskRCNN网络还包括分割分支,所述装置还包括:分割模块,用于获取所述分割分支输出的所述当前图像帧的前一图像帧的分割掩码;融合模块,用于将所述CNN模型输出的所述前一图像帧的第一特征图和所述分割掩码进行融合,得到第二特征图;第二预测模块,用于通过所述检测分支以所述第二特征图为时序信息对所述当前图像帧的第一特征图中的候选区域进行分类。第三方面,本申请实施例提供一种图像处理设备,包括:处理器及机器可读存储介质,所述机器可读存储介质上存储有机器可执行指令,所述机器可执行指令被执行时促使所述处理器实现本申请实施例第一方面提供的视频目标检测方法。相对于现有技术而言,本申请具实施例有以下有益效果:本申请实施例提供的一种视频目标检测方法、装置及图像处理设备,该设备中预存有MaskRCNN网络,其中包括CNN模型、RPN、检测分支及嵌入分支。图像处理设备针对待检测视频的当前图像帧,将当前图像帧输入CNN模型,得到第一特征图;将第一特征图输入RPN,获得多个候选区域,该候选区域为包括待检测目标的区域;针对获得的每个候选区域,嵌入分支生成与该候选区域对应的第一向量,在存储的嵌入列表中查找是否存在与该第一向量相似的第二向量,若是,对该第一向量进行更新;检测分支以更新后的该第一向量为时序信息对该候选区域的位置进行预测。以嵌入编码形式传递待检测目标的时序信息,网络可以选择性地学习到适于时序传递的编码,从而能够适应视频目标检测任务,避免出现不稳定的情况。附图说明为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1为本申请实施例提供的一种图像处理设备的方框示意图;图2为本申请实施例提供的一种MaskRCNN网络的架构示意图;图3为本申请实施例提供的一种视频目标检测方法的流程示意图;图4为本申请实施例提供的视频目标检测方法的又一流程示意图;图5为本申请实施例提供的一种视频目标检测装置的功能模块框图。图标:100-图像处理设备;110-处理器;120-机器可读存储介质;200-视频目标检测装置;210-特征提取模块;220-区域获取模块;230-更新模块;240-第一预测模块;250-分割模块;260-融合模块;270-第二预测模块。具体实施方式为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释本文档来自技高网...
【技术保护点】
1.一种视频目标检测方法,其特征在于,应用于图像处理设备,所述图像处理设备中预存有用于进行视频目标检测的MaskRCNN网络,所述MaskRCNN网络包括CNN模型、区域建议网络RPN、检测分支以及Embedding嵌入分支;所述方法包括:针对待检测视频的当前图像帧,将所述当前图像帧输入所述CNN模型,得到第一特征图;将所述第一特征图输入所述RPN,获得多个候选区域,所述候选区域为包括待检测目标的区域;针对获得的每个所述候选区域,所述嵌入分支生成与所述候选区域对应的第一向量,在存储的嵌入列表中查找是否存在与所述第一向量相似的第二向量,若存在,则对所述第一向量进行更新;所述检测分支以更新后的所述第一向量为时序信息对所述候选区域的位置进行预测。
【技术特征摘要】
1.一种视频目标检测方法,其特征在于,应用于图像处理设备,所述图像处理设备中预存有用于进行视频目标检测的MaskRCNN网络,所述MaskRCNN网络包括CNN模型、区域建议网络RPN、检测分支以及Embedding嵌入分支;所述方法包括:针对待检测视频的当前图像帧,将所述当前图像帧输入所述CNN模型,得到第一特征图;将所述第一特征图输入所述RPN,获得多个候选区域,所述候选区域为包括待检测目标的区域;针对获得的每个所述候选区域,所述嵌入分支生成与所述候选区域对应的第一向量,在存储的嵌入列表中查找是否存在与所述第一向量相似的第二向量,若存在,则对所述第一向量进行更新;所述检测分支以更新后的所述第一向量为时序信息对所述候选区域的位置进行预测。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:若所述嵌入列表中不存在与所述第一向量相似的第二向量,则将所述第一向量作为第二向量插入到所述嵌入列表中。3.根据权利要求1或2所述的方法,其特征在于,对所述第一向量进行更新,包括:通过以下计算式对所述第一向量Vt进行更新:Vt=γVt+(1-γ)x其中,γ表示权重,x表示所述当前图像帧的前一图像帧中的候选区域的第一向量。4.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:通过以下计算式对所述嵌入分支的损失进行计算,并根据计算结果对所述嵌入分支的参数进行调整:其中,表示当前图像帧中第i个被检测的候选区域,表示所述嵌入列表中与该第i个被检测的候选区域对应的第二向量,为所述嵌入列表中任意一个不同于该第二向量的其他第二向量,α表示最小间隔。5.根据权利要求1或2所述的方法,其特征在于,所述MaskRCNN网络还包括分割分支,所述方法还包括:获取所述分割分支输出的所述当前图像帧的前一图像帧的分割掩码;将所述CNN模型输出的所述前一帧图像的第一特征图和所述分割掩码进行融合,得到第二特征图;所述检测分支以所述第二特征图为时序信息对所述当前图像帧的第一特...
【专利技术属性】
技术研发人员:姜浩,曲晓超,杨思远,张伟,万鹏飞,
申请(专利权)人:深圳美图创新科技有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。