一种视频处理方法和装置制造方法及图纸

技术编号:26223290 阅读:34 留言:0更新日期:2020-11-04 10:55
本发明专利技术公开了视频处理方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括获取实时视频采集数据,提取行人检测视频图像,进而构造行人检测数据集;根据所述行人检测数据集,通过Detnet特征提取网络构建的YOLO模型计算得到预测的行人检测框,以基于所述预测的行人检测框构造重识别数据集;基于Detnet特征提取网络的余弦距离度量模型,计算所述重识别数据集中任一行人检测框与其它行人检测框之间的余弦距离,得到余弦距离最近的TopN个行人检测框并返回。从而,本发明专利技术的实施方式能够解决现有在行人检测精准性差的问题。

【技术实现步骤摘要】
一种视频处理方法和装置
本专利技术涉及计算机
,尤其涉及一种视频处理方法和装置。
技术介绍
目标检测技术的发展使得交通、楼宇监控等场景中的行人检测成为可能,在安防科技、智慧城市等领域具有非常重要的作用。在监控视频中,若能有效地突出特定的行人目标并进行检测、追踪,从而获得此行人在实时场景中的轨迹,就可以大幅度减少人工核查的成本,提高复杂场景中视频监控的效率。在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:目前的行人检测算法通常都直接采用预先训练好的用于图像分类的模型权重进行训练并微调,而专门用于目标检测的特征提取器没有,且行人定位精准性差。
技术实现思路
有鉴于此,本专利技术实施例提供一种视频处理方法和装置,能够解决现有在行人检测精准性差的问题。为实现上述目的,根据本专利技术实施例的一个方面,提供了一种视频处理方法,包括获取实时视频采集数据,提取行人检测视频图像,进而构造行人检测数据集;根据所述行人检测数据集,通过Detnet特征提取网络构建的YOLO模型计算得到预测的行人检测框,以基于所述预测的行人检测框构造重识别数据集;基于Detnet特征提取网络的余弦距离度量模型,计算所述重识别数据集中任一行人检测框与其它行人检测框之间的余弦距离,得到余弦距离最近的TopN个行人检测框并返回。可选地,提取行人检测视频图像,进而构造行人检测数据集,包括:将实时视频采集数据进行视频分段,提取高峰期或中高峰期的行人检测视频流,以获得行人检测视频流中的关键帧图像;将所述关键帧图像转换成预设尺寸的图像,构造行人检测数据集。可选地,还包括:所述Detnet特征提取网络构建的YOLO模型采用YOLO-V3模型结构,并将YOLO-V3模型结构中的主干特征提取网络设置为Detnet-59。可选地,通过Detnet特征提取网络构建的YOLO模型计算得到预测的行人检测框,包括:步骤一:经过64维卷积核为7x7、步长为2的空洞卷积后,输出208x208大小的图像;步骤二:经过3组核为3x3的最大池化、64维核为1x1的卷积、64维核为3x3、步长为1的空洞卷积、256维核为1x2的卷积后,输出104x104大小的图像;步骤三:经过4组128维核为1x1的卷积、128维核为3x3、步长为2的空洞卷积、512维核为1x2的卷积后,输出52x52大小的图像;步骤四:经过6组256维核为1x1的卷积、256维核为3x3、步长为2的空洞卷积、1024维核为1x2的卷积后,输出52x52大小的图像;步骤五:经过3组256维核为1x1的卷积、256维核为3x3、步长为1的2个空洞卷积、256维核为1x2的卷积后,输出52x52大小的图像;步骤六:经过3组256维核为1x1的卷积、256维核为3x3、步长为1的2个空洞卷积、256维核为1x2的卷积后,输出52x52大小的图像;步骤七:经过1组卷积集(核为1x1的卷积、核为3x3的卷积、核为1x1的卷积、核为3x3的卷积、核为1x1的卷积)、核为3x3的卷积、核为1x1的卷积后输出第一级预测的行人检测框;步骤八:将步骤七输出第一级预测的行人检测框经过核为1x1的卷积、上采样操作,与步骤五的输出相连,再经过1组卷积集、核为3x3的卷积、核为1x1的卷积后输出第二级预测的行人检测框;步骤九:将步骤八输出第二级预测的行人检测框经过核为1x1的卷积、上采样操作,与步骤四的输出相连,再经过1组卷积集、核为3x3的卷积、核为1x1的卷积后输出第三级预测的行人检测框。可选地,基于所述预测的行人检测框构造重识别数据集,包括:根据预测的行人检测框对相应的原视频图像裁剪得到目标行人图像,并在线将所述目标行人图像按照类别进行划分;将划分后的目标行人图像基于Market1501数据集的格式进行处理,以生成重识别数据集并存储至文件夹中。可选地,通过Detnet特征提取网络构建的YOLO模型计算得到预测的行人检测框之前,包括:训练Detnet特征提取网络构建的YOLO模型和基于Detnet特征提取网络的余弦距离度量模型;其中,在训练过程中先固定ReID参数,训练Detnet和YOLO参数;然后固定YOLO参数,训练Detnet和ReID参数,直到通过预设目标损失函数得到的Detnet特征提取网络构建的YOLO模型和基于Detnet特征提取网络的余弦距离度量模型的损失值不再下降为止。可选地,所述目标损失函数,包括:Loss=Lossobj+μ·Losscos其中,μ为平衡系数;负责Detnet特征提取网络构建的YOLO模型的损失函数为:其中,(xi,yi)表示真实行人框的中心点坐标,表示预测行人框的中心点坐标,(wi,hi)表示真实行人框的宽高,表示预测行人框的宽高,S表示先验的锚框个数,B表示一个锚框处的预测数,Ci,分别表示真实为目标的置信度和检测为目标的置信度,pi(c),分别表示真实为人的概率和检测为人的概率,λ为不同变量的相乘系数;负责基于Detnet特征提取网络的余弦距离度量模型的损失函数为:其中,yi表示人的真实ID,pi表示模型预测的人的ID。另外,本专利技术还提供了一种视频处理装置,包括获取模块,用于获取实时视频采集数据,提取行人检测视频图像,进而构造行人检测数据集;处理模块,用于根据所述行人检测数据集,通过Detnet特征提取网络构建的YOLO模型计算得到预测的行人检测框,以基于所述预测的行人检测框构造重识别数据集;基于Detnet特征提取网络的余弦距离度量模型,计算所述重识别数据集中任一行人检测框与其它行人检测框之间的余弦距离,得到余弦距离最近的TopN个行人检测框并返回。上述专利技术中的一个实施例具有如下优点或有益效果:为了实现对室内楼宇监控和室外行人行为分析场景下的行人检测和重识别任务,本专利技术从视频某一帧的静态图像出发,采用基于Detnet特征提取网络的YOLO模型作为检测框架、基于Detnet特征提取网络的余弦相似度度量方法作为ReID框架,设计了基于Detnet网络特征学习的行人检测和重识别级联,可对多摄像头场景下视频中某一帧的图像进行行人检测并完成跨摄像头视频图像的行人重识别。上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。附图说明附图用于更好地理解本专利技术,不构成对本专利技术的不当限定。其中:图1是根据本专利技术第一实施例的视频处理方法的主要流程的示意图;图2是根据本专利技术实施例的Detnet特征提取网络构建的YOLO模型的示意图;图3是根据本专利技术一具体实施例的视频处理方法的监控视频输入数据示例;图4是根据本专利技术一具体实施例的视频处理方法的生成重识别数据集的示例;图5是根据本专利技术一具体实施例的视频处理方法的行人重识别结果的示例;图6是根据本专利技术实施例的视频处理装置的主要本文档来自技高网...

【技术保护点】
1.一种视频处理方法,其特征在于,包括:/n获取实时视频采集数据,提取行人检测视频图像,进而构造行人检测数据集;/n根据所述行人检测数据集,通过Detnet特征提取网络构建的YOLO模型计算得到预测的行人检测框,以基于所述预测的行人检测框构造重识别数据集;/n基于Detnet特征提取网络的余弦距离度量模型,计算所述重识别数据集中任一行人检测框与其它行人检测框之间的余弦距离,得到余弦距离最近的TopN个行人检测框并返回。/n

【技术特征摘要】
1.一种视频处理方法,其特征在于,包括:
获取实时视频采集数据,提取行人检测视频图像,进而构造行人检测数据集;
根据所述行人检测数据集,通过Detnet特征提取网络构建的YOLO模型计算得到预测的行人检测框,以基于所述预测的行人检测框构造重识别数据集;
基于Detnet特征提取网络的余弦距离度量模型,计算所述重识别数据集中任一行人检测框与其它行人检测框之间的余弦距离,得到余弦距离最近的TopN个行人检测框并返回。


2.根据权利要求1所述的方法,其特征在于,提取行人检测视频图像,进而构造行人检测数据集,包括:
将实时视频采集数据进行视频分段,提取高峰期或中高峰期的行人检测视频流,以获得行人检测视频流中的关键帧图像;
将所述关键帧图像转换成预设尺寸的图像,构造行人检测数据集。


3.根据权利要求1所述的方法,其特征在于,还包括:
所述Detnet特征提取网络构建的YOLO模型采用YOLO-V3模型结构,并将YOLO-V3模型结构中的主干特征提取网络设置为Detnet-59。


4.根据权利要求3所述的方法,其特征在于,通过Detnet特征提取网络构建的YOLO模型计算得到预测的行人检测框,包括:
步骤一:经过64维卷积核为7x7、步长为2的空洞卷积后,输出208x208大小的图像;
步骤二:经过3组核为3x3的最大池化、64维核为1x1的卷积、64维核为3x3、步长为1的空洞卷积、256维核为1x2的卷积后,输出104x104大小的图像;
步骤三:经过4组128维核为1x1的卷积、128维核为3x3、步长为2的空洞卷积、512维核为1x2的卷积后,输出52x52大小的图像;
步骤四:经过6组256维核为1x1的卷积、256维核为3x3、步长为2的空洞卷积、1024维核为1x2的卷积后,输出52x52大小的图像;
步骤五:经过3组256维核为1x1的卷积、256维核为3x3、步长为1的2个空洞卷积、256维核为1x2的卷积后,输出52x52大小的图像;
步骤六:经过3组256维核为1x1的卷积、256维核为3x3、步长为1的2个空洞卷积、256维核为1x2的卷积后,输出52x52大小的图像;
步骤七:经过1组卷积集(核为1x1的卷积、核为3x3的卷积、核为1x1的卷积、核为3x3的卷积、核为1x1的卷积)、核为3x3的卷积、核为1x1的卷积后输出第一级预测的行人检测框;
步骤八:将步骤七输出第一级预测的行人检测框经过核为1x1的卷积、上采样操作,与步骤五的输出相连,再经过1组卷积集、核为3x3的卷积、核为1x1的卷积后输出第二级预测的行人检测框;
步骤九:将步骤八输出第二级预测的行人检测框经过核为1x1的卷积、上采样操作,与步骤四的输出相连,再经过1组卷积集、核为3x3的卷积、核为1x1的卷积后输出...

【专利技术属性】
技术研发人员:贾晨刘岩李驰杨颜如
申请(专利权)人:泰康保险集团股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1