一种视频处理方法和装置制造方法及图纸

技术编号：26223290 阅读：34 留言：0更新日期：2020-11-04 10:55

本发明专利技术公开了视频处理方法和装置，涉及计算机技术领域。该方法的一具体实施方式包括获取实时视频采集数据，提取行人检测视频图像，进而构造行人检测数据集；根据所述行人检测数据集，通过Detnet特征提取网络构建的YOLO模型计算得到预测的行人检测框，以基于所述预测的行人检测框构造重识别数据集；基于Detnet特征提取网络的余弦距离度量模型，计算所述重识别数据集中任一行人检测框与其它行人检测框之间的余弦距离，得到余弦距离最近的TopN个行人检测框并返回。从而，本发明专利技术的实施方式能够解决现有在行人检测精准性差的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种视频处理方法和装置
本专利技术涉及计算机
，尤其涉及一种视频处理方法和装置。
技术介绍
目标检测技术的发展使得交通、楼宇监控等场景中的行人检测成为可能，在安防科技、智慧城市等领域具有非常重要的作用。在监控视频中，若能有效地突出特定的行人目标并进行检测、追踪，从而获得此行人在实时场景中的轨迹，就可以大幅度减少人工核查的成本，提高复杂场景中视频监控的效率。在实现本专利技术过程中，专利技术人发现现有技术中至少存在如下问题：目前的行人检测算法通常都直接采用预先训练好的用于图像分类的模型权重进行训练并微调，而专门用于目标检测的特征提取器没有，且行人定位精准性差。
技术实现思路
有鉴于此，本专利技术实施例提供一种视频处理方法和装置，能够解决现有在行人检测精准性差的问题。为实现上述目的，根据本专利技术实施例的一个方面，提供了一种视频处理方法，包括获取实时视频采集数据，提取行人检测视频图像，进而构造行人检测数据集；根据所述行人检测数据集，通过Detnet特征提取网络构建的YOLO模型计算得到预测的行人检测框，以基于所述预测的行人检测框构造重识别数据集；基于Detnet特征提取网络的余弦距离度量模型，计算所述重识别数据集中任一行人检测框与其它行人检测框之间的余弦距离，得到余弦距离最近的TopN个行人检测框并返回。可选地，提取行人检测视频图像，进而构造行人检测数据集，包括：将实时视频采集数据进行视频分段，提取高峰期或中高峰期的行人检测视频流，以获得行人检测视频流中的关...

【技术保护点】
1.一种视频处理方法，其特征在于，包括：/n获取实时视频采集数据，提取行人检测视频图像，进而构造行人检测数据集；/n根据所述行人检测数据集，通过Detnet特征提取网络构建的YOLO模型计算得到预测的行人检测框，以基于所述预测的行人检测框构造重识别数据集；/n基于Detnet特征提取网络的余弦距离度量模型，计算所述重识别数据集中任一行人检测框与其它行人检测框之间的余弦距离，得到余弦距离最近的TopN个行人检测框并返回。/n

【技术特征摘要】
1.一种视频处理方法，其特征在于，包括：
获取实时视频采集数据，提取行人检测视频图像，进而构造行人检测数据集；
根据所述行人检测数据集，通过Detnet特征提取网络构建的YOLO模型计算得到预测的行人检测框，以基于所述预测的行人检测框构造重识别数据集；
基于Detnet特征提取网络的余弦距离度量模型，计算所述重识别数据集中任一行人检测框与其它行人检测框之间的余弦距离，得到余弦距离最近的TopN个行人检测框并返回。

2.根据权利要求1所述的方法，其特征在于，提取行人检测视频图像，进而构造行人检测数据集，包括：
将实时视频采集数据进行视频分段，提取高峰期或中高峰期的行人检测视频流，以获得行人检测视频流中的关键帧图像；
将所述关键帧图像转换成预设尺寸的图像，构造行人检测数据集。

3.根据权利要求1所述的方法，其特征在于，还包括：
所述Detnet特征提取网络构建的YOLO模型采用YOLO-V3模型结构，并将YOLO-V3模型结构中的主干特征提取网络设置为Detnet-59。

4.根据权利要求3所述的方法，其特征在于，通过Detnet特征提取网络构建的YOLO模型计算得到预测的行人检测框，包括：
步骤一：经过64维卷积核为7x7、步长为2的空洞卷积后，输出208x208大小的图像；
步骤二：经过3组核为3x3的最大池化、64维核为1x1的卷积、64维核为3x3、步长为1的空洞卷积、256维核为1x2的卷积后，输出104x104大小的图像；
步骤三：经过4组128维核为1x1的卷积、128维核为3x3、步长为2的空洞卷积、512维核为1x2的卷积后，输出52x52大小的图像；
步骤四：经过6组256维核为1x1的卷积、256维核为3x3、步长为2的空洞卷积、1024维核为1x2的卷积后，输出52x52大小的图像；
步骤五：经过3组256维核为1x1的卷积、256维核为3x3、步长为1的2个空洞卷积、256维核为1x2的卷积后，输出52x52大小的图像；
步骤六：经过3组256维核为1x1的卷积、256维核为3x3、步长为1的2个空洞卷积、256维核为1x2的卷积后，输出52x52大小的图像；
步骤七：经过1组卷积集(核为1x1的卷积、核为3x3的卷积、核为1x1的卷积、核为3x3的卷积、核为1x1的卷积)、核为3x3的卷积、核为1x1的卷积后输出第一级预测的行人检测框；
步骤八：将步骤七输出第一级预测的行人检测框经过核为1x1的卷积、上采样操作，与步骤五的输出相连，再经过1组卷积集、核为3x3的卷积、核为1x1的卷积后输出第二级预测的行人检测框；
步骤九：将步骤八输出第二级预测的行人检测框经过核为1x1的卷积、上采样操作，与步骤四的输出相连，再经过1组卷积集、核为3x3的卷积、核为1x1的卷积后输出...

【专利技术属性】
技术研发人员：贾晨，刘岩，李驰，杨颜如，
申请(专利权)人：泰康保险集团股份有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人