视频边框识别方法、装置、可读介质及电子设备制造方法及图纸

技术编号：33736634 阅读：55 留言：0更新日期：2022-06-08 21:33

本公开涉及一种视频边框识别方法、装置、可读介质及电子设备，该视频边框识别方法通过将该目标视频划分为多个子视频；从每个该子视频中抽取预设数量帧待识别图像，以得到多帧待识别图像；然后通过预设边框识别模型获取该多帧待识别图像对应的多尺度的特征图集合，根据该特征图集合中的空间分辨率最小的特征图确定该目标视频是否存在边框；并在确定该目标视频存在边框的情况下，通过对该特征图集合中不同尺度的特征图进行融合，以得到待定特征图，根据该待定特征图预测该目标位置；能够同时考虑视频的时序信息以及空间信息，也能够对视频的深层语义特征和浅层空间特征进行有效融合，从而能够有效提升边框位置识别结果的准确性。从而能够有效提升边框位置识别结果的准确性。从而能够有效提升边框位置识别结果的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
视频边框识别方法、装置、可读介质及电子设备

[0001]本公开涉及计算机
，具体地，涉及一种视频边框识别方法、装置、可读介质及电子设备。

技术介绍

[0002]现实场景中，经常需要对带边框的视频进行边框识别操作，例如，视频发布平台中，经常遇到用户上传的视频带有边框的情况，若要使该视频既能在适用于竖版视频的设备上发布，也能在适用于横版视频的设备上发布，通常需要先对该带有边框的视频中的视频边框进行有效识别，确定该带有边框的视频的主体区域(即去除边框后的视频图像区域)，然后根据该主体区域进行尺寸调整，以满足适用于竖版视频的设备的播放需求，或者满足适用于横版视频的设备的播放需求。然而，目前的视频边框识别方法通常存在边框位置识别结果准确性较差，不利于视频主体位置确定的问题。

技术实现思路

[0003]提供该
技术实现思路
部分以便以简要的形式介绍构思，这些构思将在后面的具体实施方式部分被详细描述。该
技术实现思路
部分并不旨在标识要求保护的技术方案的关键特征或必要特征，也不旨在用于限制所要求的保护的技术方案的范围。
[0004]本公开提供一种视频边框识别方法、装置、可读介质及电子设备。
[0005]第一方面，本公开提供一种视频边框识别方法，所述方法包括：
[0006]获取待识别的目标视频，并将所述目标视频划分为多个子视频；
[0007]从每个所述子视频中抽取预设数量帧待识别图像，以得到多帧待识别图像；
[0008]将所述多帧待识别图像输入预设边框识别模型，以使所述预设边框识...

【技术保护点】

【技术特征摘要】
1.一种视频边框识别方法，其特征在于，所述方法包括：获取待识别的目标视频，并将所述目标视频划分为多个子视频；从每个所述子视频中抽取预设数量帧待识别图像，以得到多帧待识别图像；将所述多帧待识别图像输入预设边框识别模型，以使所述预设边框识别模型输出边框识别结果，所述边框识别结果用于表征所述目标视频是否存在边框，以及在所述目标视频存在边框的情况下，所述边框的目标位置；其中，所述预设边框识别模型用于，获取所述多帧待识别图像对应的多尺度的特征图集合，根据所述特征图集合中的空间分辨率最小的特征图确定所述目标视频是否存在边框；并在确定所述目标视频存在边框的情况下，通过对所述特征图集合中不同尺度的特征图进行融合，以得到待定特征图，根据所述待定特征图预测所述目标位置。2.根据权利要求1所述的方法，其特征在于，所述预设边框识别模型包括主干网络模块，特征融合模块，第一分类模块和第二分类模块，所述主干网络模块包括多级特征提取子网络，不同级的所述特征提取子网络用于提取不同尺度的特征图；所述主干网络模块与所述特征融合模块和所述第一分类模块耦合，所述特征融合模块还与所述第二分类模块耦合；所述预设边框识别模型用于：获取每帧待识别图像对应的多通道特征图；将多个所述子视频对应的多通道特征图进行拼接后输入所述主干网络模块，以使多级所述特征提取子网络输出多个指定尺度的特征图，以得到所述特征图集合；通过所述第一分类模块根据所述特征图集合中所述空间分辨率最小的特征图确定所述目标视频是否存在边框；在确定所述目标视频存在边框的情况下，通过所述特征融合模块对所述多个指定尺度的特征图进行融合，以得到所述待定特征图；通过所述第二分类模块对所述待定特征图进行行池化处理以得到第一目标特征图，对所述待定特征图进行列池化处理，以得到第二目标特征图；根据所述第一目标特征图预测所述边框中角点的纵坐标，根据所述第二目标特征图预测所述述边框中角点的横坐标。3.根据权利要求2所述的方法，其特征在于，所述多个指定尺度的特征图包括第一尺度的第一特征图，第二尺度的第二特征图和第三尺度的第三特征图，所述第一尺度小于所述第二尺度，所述第二尺度小于所述第三尺度，所述通过所述特征融合模块对所述多个指定尺度的特征图进行融合，以得到所述待定特征图，包括：将多个所述子视频对应的所述第一特征图拼接后进行卷积操作和上采样处理，以得到与所述第二特征图尺度相同的第一指定特征图；将多个所述子视频对应的所述第二特征图拼接后进行卷积操作，以得到第二指定特征图；根据所述第一指定特征图和所述第二指定特征图确定与所述第三特征图尺度相同的第三指定特征图；对所述第三指定特征图和所述第三特征图进行卷积操作和上采样处理，以得到目标尺度的所述待定特征图。4.根据权利要求2所述的方法，其特征在于，所述通过所述第二分类模块对所述待定特
征图进行行池化处理以得到第一目标特征图，对所述待定特征图进行列池化处理，以得到第二目标特征图，包括：获取所述待定特征图中每行元素的均值，以得到所述第一目标特征图；获取所述待定特征图中每列元素的均值，以得到所述第二目标特征图。5.根据权利要求2所述的方法，其特征在于，所述第二分类模块包括第一分类器，第二分类器，第三分类器和第四分类器，所述根据所述第一目标特征图预测所述边框中角点的纵坐标，根据所述第二目标特征图预测所述述边框中角点的横坐标...

【专利技术属性】
技术研发人员：张帆，周文，卢靓妮，
申请(专利权)人：北京有竹居网络技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人