一种短视频分类方法技术

技术编号：23025341 阅读：20 留言：0更新日期：2020-01-03 17:01

本发明专利技术公开了一种短视频分类方法，包括以下步骤：网络训练；网络测试，包括对待分类的短视频进行等间隔截帧，每个视频截取一定帧数；对截取的帧，通过图像处理，取出一定大小的图片输入模型进行预测，在Softmax之前融合截取的帧和不同流的预测分数，最终得出结果，所述模型通过如下方式得到：一个输入视频被分为K段，一个片段从它对应的段中随机采样得到，不同片段的类别得分采用段共识函数进行融合来产生段共识，得到一个视频级的预测，然后对所有模式的预测融合产生最终的预测结果。

A short video classification method

全部详细技术资料下载

【技术实现步骤摘要】
一种短视频分类方法
本专利技术属于计算机视觉
，具体涉及一种短视频分类方法。
技术介绍
现有技术中视频分类训练有基于Two-Stream及其衍生系列的，基本原理是训练两个卷积网络，分别对视频帧图像(spatial)和密集光流(temporal)进行建模，两个网络的结构是一样的，都是二维卷积(2DConvNets)，如图1所示。两个stream的网络分别对视频的类别进行判断，得到类别分数(classscore)，然后进行分数的融合，得到最终的分类结果。使用以上方法进行视频分类训练存在以下问题：(1)提前计算光流需要额外占用GPU计算时间和存储空间，已经成为two-stream算法的瓶颈；(2)传统的光流计算方法完全独立于two-stream框架，不是端到端训练，提前的运动信息不是最优的；(3)无法解决长时序问题。另一种是基于3D卷积及其衍生系列，现有技术中2D的卷积操作是将卷积核在输入图像或特征图上进行滑窗，得到下一层的特征图。例如，在一个单通道的图像上做卷积在一个多通道的图像上做卷积(这里的多通道图像可以指同一张图片的3个颜色通道，也指多张堆叠在一起的帧，即一小段视频)，最终的输出都是一张二维的特征图，也就是说，多通道的信息被完全压缩了。而在3D卷积中，为了保留时序的信息，对卷积核进行了调整，增加了一维时域深度。3D卷积的输出仍是一个三维的特征图。因此通过3D卷积，C3D(深度3维卷积网络，3DConvNets)可以直接处理视频，同时利用表观特征和时序特征。使用以上方法进行视频分类训练存在以下问...

【技术保护点】
1.一种短视频分类方法，其特征在于，包括以下步骤：/n网络训练，包括选择BN-Inception构建模块；在学习过程中，Batch Normalization将估计每个bach内的激活均值和方差，并使用它们将这些激活值转换为标准高斯分布；在用预训练模型初始化后，冻结所有Batch Normalization层的均值和方差参数，但第一个标准化层除外；在BN-Inception的全局pooling层后添加一个额外的dropout层；使用小批量随机梯度下降算法来学习网络参数；用在ImageNet上预训练的模型对网络权重进行初始化；/n网络测试，包括对待分类的短视频进行等间隔截帧，每个视频截取一定帧数；对截取的帧，通过图像处理，取出一定大小的图片输入模型进行预测，在Softmax之前融合截取的帧和不同流的预测分数，最终得出结果，所述模型通过如下方式得到：一个输入视频被分为K段，一个片段从它对应的段中随机采样得到，不同片段的类别得分采用段共识函数进行融合来产生段共识，得到一个视频级的预测，然后对所有模式的预测融合产生最终的预测结果。/n

【技术特征摘要】
1.一种短视频分类方法，其特征在于，包括以下步骤：
网络训练，包括选择BN-Inception构建模块；在学习过程中，BatchNormalization将估计每个bach内的激活均值和方差，并使用它们将这些激活值转换为标准高斯分布；在用预训练模型初始化后，冻结所有BatchNormalization层的均值和方差参数，但第一个标准化层除外；在BN-Inception的全局pooling层后添加一个额外的dropout层；使用小批量随机梯度下降算法来学习网络参数；用在ImageNet上预训练的模型对网络权重进行初始化；
网络测试，包括对待分类的短视频进行等间隔截帧，每个视频截取一定帧数；对截取的帧，通过图像处理，取出一定大小的图片输入模型进行预测，在Softmax之前融合截取的帧和不同流的预测分数，最终得出结果，所述模型通过如下方式得到：一个输入视频被分为K段，一个片段从它对应的段中随机采样得到，不同片段的类别得分采用段共识函数进行融合来产生段共识，得到一个视频级的预测，然后对所有模式的预测融合产生最终的预测结果。

2.如权利要求1所述的短视频分类方法，其特征在于，dropout层的dropout比例设置：空间流卷积网络设置为0.8，时间流卷积网络设置为0.7。

3.如权利要求1所述的短视频分类方法，其特征在于，所述一个输入视频被分为K段，一个片段从它对应的段中随机采样得到，不同片段的类别得分采用段共识函数进行融合来产...

【专利技术属性】
技术研发人员：魏陈超，范俊，
申请(专利权)人：杭州趣维科技有限公司，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人